Está en la página 1de 223

lOMoARcPSD|1944486

Ejercicios Y Problemas Resueltos

Diseños de Investigación y Análisis de Datos (UNED)

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Ejercicios y Problemas Resueltos y Comentados

Diseños de Investigación
y Análisis de Datos

Ángel Villarino Vivas


Pedro Rodríguez-Miñón Cifuentes
José Manuel Reales Avilés
María Araceli Maciá Antón

11 sanz y torres

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

índice

Presentación........................................................................................................ IX

BLOQUE 1
Estimación de parámetros y contraste de hipótesis
en los diseños de una muestra

l. Soluciones a los ejercicios de los capítulos 1 y 2............................................ 3

BLOQUE 11
Análisis de datos en los diseños de
dos muestras independientes o relacionadas

2. Soluciones a los ejercicios de los capítulos 3 y 4............................................ 61

BLOQUE 111
Análisis de datos en los diseños de
tres o más muestras: el análisis de varianza

3. Soluciones a los ejercicios de los capítulos 5, 6 y 7 ....................................... 113

BLOQUE IV
Análisis de regresión

4. Soluciones a los ejercicios del capítulo 8 ...................................................... 165

VII

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Presentación

Como todo estudiante debe conocer, la Psicología es una disciplina académica,


una profesión y una ciencia que estudia la conducta y los procesos mentales de los
individuos. Como ciencia utiliza el Método Científico en la investigación para cons­
truir modelos explicativos y teorías de la conducta susceptibles de comprobación
experimental. Como disciplina académica debe enseñar a los estudiantes y futuros
profesionales a utilizar las herramientas de la investigación científica (conceptuales,
de reflexión crítica, etc.) que les permitan avanzar en el conocimiento de su objeto
de estudio y comprender la investigación que se realiza actualmente. Y como pro­
fesión sirve traer aquí las ideas expuestas en la introducción del texto de FUNDA­
MENTOS DE INVESTIGACIÓN EN PSICOLOGÍA por sus autoras:«(...) los profesionales
de la Psicología, aunque no se propongan ser investigadores, deben adquirir ciertas
destrezas para enfrentarse a diferentes tareas como analizar problemas, leer docu­
mentos de carácter científico de forma comprensiva, aprendiendo a diferenciarlos
de los no científicos, afrontar problemas que pueden ser resueltos con algunos pro­
cedimientos y técnicas científicas, etc».
Esta es la razón por la que en los programas de las disciplinas encuadradas en
el área de Ciencias Sociales y de la Salud, en la que se encuentra la Psicología, la
Estadística Descriptiva e Inferencia! es materia esencial de estudio ya que su uso es
general en cualquier estudio científico en Psicología. El estudio de la Estadística en
Psicología no debe contemplarse como un objetivo en sí misma sino como herra­
mienta que se debe conocer, comprender y utilizar en las tareas de investigación
científica o para interpretar correctamente sus conclusiones. Por esta razón se cur­
só en el primer curso del Grado, la asignatura de INTRODUCCIÓN AL ANÁLISIS DE
DATOS, que se dedica a la Estadística Descriptiva como una herramienta básica en la
primera etapa de observación. Esta disciplina nos permite organizar los datos mues­
trales en tablas y gráficos y analizarlos, con los índices descriptivos, para obtener
IX

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

información que nos permita, en un segundo paso, formular hipótesis sustentadas


en aquellos resultados.
En segundo curso se cursa la asignatura de DISEÑOS DE INVESTIGACIÓN Y ANÁ­
LISIS DE DATOS que dedica sus contenidos a la Estadística Inferencia! como herra­
mienta aplicada en la que, dependiendo de la naturaleza de los datos muestrales
recogidos en la investigación y, por supuesto, del diseño utilizado, tendrá que se­
leccionar la técnica estadística más apropiada que se aplicará para la contrastación
empírica de la hipótesis formulada sobre la población.
Con este motivo, en este texto se presenta una colección de situaciones, muchas
de ellas inspiradas o extraídas de artículos publicados en revistas profesionales y
científicas, para que el estudiante lea la situación, la comprenda y vea los pasos que
se siguen para contrastar la hipótesis que se formula. Para ello, se propone seguir
los siguientes pasos.

l. CONDICIONES Y SUPUESTOS
En todo análisis inferencia! el estudiante debe identificar la hipótesis de la in­
vestigación (resultado de la derivación de una teoría) así como, las variables (in­
dependientes y dependientes) implicadas en estas hipótesis y su naturaleza. Un
aspecto esencial de este apartado son los supuestos que deben verificarse para
que podamos confiar en los resultados obtenidos. Estos supuestos son condiciones
que deben cumplirse para que el análisis tenga sentido. Además, cada análisis tiene
sus propios supuestos. En la medida de lo posible estos también debe ponerse a
prueba. Si no es posible hacerlo, deben hacerse explícitos. De alguna forma, son
como los cimientos de un edificio. El edificio puede estar bien construido pero si los
cimientos son de arena, el edificio no podrá sostenerse.
Las condiciones hacen referencia a diversos aspectos del diseño. Por ejemplo, si
los datos objeto de análisis provienen de una, dos o más de dos muestras, las cuales
a su vez pueden ser independientes o relacionadas, de la escala de las variables, etc.
Los contrastes a utilizar dependerán de estos factores.

2. FORMULACIS)'N DE LAS HIPÓTESIS NULA Y ALTERNATIVA


Una hipótesis es una conjetura que se formula sobre uno o más parámetros de la
población (dependiendo del diseño) y que puede someterse a contrastación empíri­
ca a partir de los datos proporcionados por la o las muestras utilizadas en la investi­
gación. Como se indica en el manual de la asignatura (Pág. 33): «En general, siempre
se parte de algún interrogante que se plantea en el ámbito de una investigación, a la
luz de un determinado marco teórico, y debería formularse de una manera sencilla
X

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Presentación •

y clara: Notan las mujeres en mayor proporción a partidos de centro izquierda que
a los de centro derecha?; En el proceso de trabajo manual ¿es más eficaz verba/izar
las acciones durante la tarea que hacerlas en silencio?; ¿Es más eficaz una terapia
A que otra B para el tratamiento de la fobia de los niños a montar en ascensores?;
¿Los salarios de hombres y mujeres son iguales por un mismo trabajo?».
Una vez planteada la pregunta se formulan las hipótesis nula, Ha , y su comple�
mentaría, la hipótesis alternativa o H 1 que son exhaustivas y mutuamente excluyen-
tes lo que significa que el rechazo de una implica la aceptación de la otra.
La hipótesis nula es la hipótesis que provisionalmente se acepta como verdadera
y, por tanto, la que se somete a contrastación empírica con los datos obtenidos en
la investigación (similar a la presunción de inocencia en un estado de derecho). To­
dos los cálculos estadísticos se realizan asumiendo que Ha es correcta de tal forma
que si la rechazamos, lo estaremos haciendo con un alto nivel de confianza. «En
general, la hipótesis nula afirma que no existe diferencia entre el valor del estadís­
tico obtenido en la muestra y el que formulamos como parámetro pob/acional o, en
otras palabras, que la diferencia observada entre estos dos valores es nula. Como la
realidad es que estos valores casi nunca van a coincidir, lo que estamos afirmando
es que la diferencia observada puede explicarse como resultado del azar» (Pág. 34).
Dependiendo de cómo se formulen la hipótesis nula y alternativa tendremos un
contraste unilateral o bilateral pero, en todo caso, la hipótesis nula añadirá a la dife­
rencia nula el sentido de la diferencia y la hipótesis alternativa el sentido contrario,
excluyendo la diferencia nula. Por ejemplo, ante la pregunta ¿Votan las mujeres en
mayor proporción a partidos de centro izquierda que a los de centro derecha?, las
hipótesis serían:
Ha : Las mujeres votan en la misma o menor proporción a partidos de centro
izquierda que de centro derecha.
H 1 : Las mujeres votan en mayor proporción a partidos de centro izquierda que
de centro derecha.
«Por lo general la hipótesis científica, dirigida a encontrar resultados significati­
vos, es la hipótesis alternativa que se aceptará como verdadera si la investigación
aporta evidencias contra la hipótesis nula que es la que se somete a contrastación
empírica» (Pag. 37). Por lo general, pero no siempre, porque como se puede com­
probar en varios de los ejemplos desarrollados en el libro de la asignatura y en los
que aquí se presentan es perfectamente legítimo, dependiendo del contexto y de
la situación, defender que hombres y mujeres tienen el mismo salario, que niños
payos y gitanos tienen el mismo rendimiento en tareas de compresión lectora, que
no existen diferencias en la reacción de celos de hombres y mujeres ante la infide-

x1

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

lidad sexual, que no hay diferencias entre la nota media obtenida en las pruebas
de selectividad de los estudiantes de la enseñanza pública y privada, etc. Pero la
que se acepta inicialmente como verdadera y sobre cuya asunción se realizan los
cálculos es la Ha. Y la evidencia de los datos obtenidos en la investigación dirá si se
mantiene o se rechaza esta afirmación de igualdad (la hipótesis nula) que puede ser
el objetivo para el que se ha desarrollado la investigación.

3. ESTADÍSTICO DE CONTRASTE
«Representa una medida de la discrepancia entre la información proporcionada
por los datos empíricos recogidos en la muestra y la proposición teórica planteada
en la hipótesis nula. Esta medida es una variable aleatoria con una determinada
distribución de probabilidad (normal, t, chi-cuadrado, etc.) que va a aportar infor­
mación empírica sobre la afirmación formulada en la Ha» (Pág. 37 y que se puede
ampliar en el epígrafe 1.4.3}. Un estadístico no es más que una función numérica
dependiente de los valores muestrales, de la hipótesis nula supuesta verdadera y de
los supuestos. Es por ello que el cálculo que se realiza para computar el estadístico
de contraste se ha elegido para que nos proporcione una distribución estadística
conocida que nos permite calcular las probabilidades de sus valores.
El estadístico de contraste se reduce, pues, a una fórmula que se recoge en el
formulario y que el estudiante no debe memorizar pero sí aplicarla correctamente
para, una vez obtenido su valor, interpretarlo de cara a tomar una decisión respecto
a la_ Ha: su rechazo o no con una determinada probabilidad. En definitiva, el con­
traste de hipótesis no es más que la combinación de la teoría de la probabilidad y
la teoría de la decisión.

4. REGLA DE DECISIÓN
Para tomar una decisión hay que calcular el nivel crítico p o los valores críticos
de la distribución de probabilidad del estadístico de contraste aplicado (distribución
normal, t, F, chi-cuadrado, etc). «Según Fisher, el nivel de significación a, repre­
senta el máximo riesgo que el investigador está dispuesto a cometer al tomar la
decisión errónea de rechazar una hipótesis nula verdadera. Por tanto, a la luz de sus
resultados y del estadístico de contraste, el investigador calcula la probabilidad de
obtener unos resultados como los observados en la muestra o más extremos. Esta
probabilidad recibe el nombre de nivel crítico p. Si el nivel crítico p es muy pequeño
en comparación con el nivel de significación //alfa'� rechazamos la Ha y en caso con­
trario la mantenemos» (Pág. 38}.
«Otra alternativa a la hora de tomar la decisión de rechazar o no la hipótesis

XII

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Presentación •

nula consiste en fijar el nivel de significación a, por lo que automáticamente se fija


el valor o valores críticos de la distribución muestra/ que marcarán la máxima dife­
rencia que podemos admitir, por simple azar, entre el valor teórico planteado en Ha
y el valor obtenido en la muestra. Este valor, o valores críticos, definen -en la distri­
bución muestra/ del estadístico de contraste- /os límites entre la zona de rechazo o
no de la H a » (Pág. 38).
Se rechaza la H a cuando el nivel crítico p (la probabilidad de obtener un valor del
estadístico igual o más extremo al obtenido con la muestra asumiendo que H a es
cierta) es menor que el nivel de significación (los más utilizados en la investigación
en Psicología son 0,05 o 0,01) o cuando el estadístico de contraste supera el o los
valores críticos de la distribución muestra! del estadístico para el nivel de significa­
ción utilizado.

S. CONCLUSIÓN
La aplicación de la regla de decisión nos permite tomar una decisión probabilísti­
ca sobre Ha: aceptarla o rechazarla. Esta es la conclusión para la que se ha diseñado
y realizado el experimento. El objetivo es que esta decisión tendrá consecuencias
teóricas o prácticas importantes.

6. INTERPRETACIÓN
La conclusión de rechazar o no la H a, se debe interpretar en el contexto teórico
de la investigación que se está realizando de tal forma que permita confirmar o
rechazar la hipótesis científica que dio lugar a la hipótesis estadística. Esta interpre­
tación debe servir para formular nuevos avances o desarrollos tanto teóricos como
prácticos en el área concreta que se esté investigando.

Madrid, septiembre de 2015

XIII

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

BLOQUE 1

Estimación de parámetros
y contraste de hipótesis
en los diseños de una muestra

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios


de los capítulos 1 y 2

SITUACIÓN l. Un sociólogo conoce, por investigaciones anteriores, que el suel­


do medio de la población de hombres para un determinado trabajo T, se distribuye
normalmente con media igual a 1500 euros mensuales y una desviación típica de
180 euros. Extrae una muestra aleatoria de 81 mujeres que desempeñan el mismo
trabajo T, observando que el sueldo medio en dicha muestra es igual a 1400 euros
mensuales con una desviación tipica de 210 euros. Establece un nivel de confianza
del 99% y quiere comprobar:
1.1. Si la variabilidad del sueldo de las mujeres es mayor que el que presentan
los hombres para el mismo trabajo.
1.2. Si el sueldo medio de las mujeres es inferior al de los hombres y la potencia
estadística de este contraste.

SOLUCIÓN:
1.1. Para el primer contraste de hipótesis, seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: El diseño de este trabajo utiliza una muestra alea­


toria de 81 mujeres en el que la variable de análisis, el sueldo, es de naturaleza
cuantitativa que se distribuye normalmente.
HIPÓTESIS: El investigador quiere comprobar si la variabilidad del sueldo de las
mujeres es mayor que el que presentan los hombres para el mismo trabajo para lo
que plantea un contraste unilateral derecho con las siguientes hipótesis:

H0: cr2 :s; 180 H1.. cr 2 > 180

ESTADÍSTICO DE CONTRASTE: El estadístico chi-cuadrado toma el siguiente valor:


3

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

2 2
n·;n = 81·210 =
x2 = 110,25
ªº 180 2

REGLA DE DECISIÓN: En una distribución chi-cuadrado hay que buscar el valor


crítico correspondiente a un contraste unilateral derecho con nivel de confianza del
99% y con 80 grados de libertad. El valor que deja por debajo una probabilidad de
0,99 es 112,328.

Probabilidad
g.l.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603

50 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 00,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,3421 129,5612 135,8067 140,1695

Tabla 1: Representación parcial de la tabla de la distribución chi-cuadrado.

CONCLUSIÓN: Como el valor del estadístico de contraste obtenido no supera el


valor crítico {110,25 < 112,3288), con un nivel de confianza del 99% no podemos
rechazar la hipótesis nula.
A la misma conclusión llegaríamos calculando el nivel crítico p correspondiente
al estadístico de contraste obtenido de 110,25, que en una distribución chi-cuadra­
do con 80 gl es un valor comprendido entre 106,63 y 112,33. Estos valores dejan
por encima una probabilidad de 0,025 y 0,01, respectivamente, por lo que el nivel
crítico es mayor de 0,01 (p > 0,01).

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

106,6 2 11 2,3 2
1
!x 2 = 110, 2sl

Figura 1: Representación gráfica del nivel crítico del esta­


dístico chi-cuadrado =110,5.

INTERPRETACIÓN: La variabilidad del sueldo de las mujeres no es significativa­


mente mayor que el de los hombres (x 2 = 110,25; p > 0,01) con un nivel de confian­
za del 99%.

1.2. Para el segundo contraste de hipótesis, sobre el sueldo medio, seguiremos los
mismos pasos:

CONDICIONES Y SUPUESTOS. El diseño de este trabajo utiliza una muestra alea­


toria de 81 mujeres en el que la variable de análisis, el sueldo en la muestra de mu­
jeres, es de naturaleza cuantitativa que se distribuye normalmente en la población
con varianza conocida e igual a la de los hombres, como hemos contrastado en el
paso anterior.
HIPÓTESIS: El investigador quiere comprobar si el sueldo medio que perciben las
mujeres es inferior a 1.500 euros mensuales que, por investigaciones anteriores,
corresponde al que reciben los hombres. Formula, por tanto, un contraste unilateral
izquierdo.

H0 : µ21.500 H1 :µ<1.500

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la media de muestras


extraídas de una población normal con varianza conocida es normal, por lo que el
estadístico de contraste es la Z:

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

z----
- Y-µo -
1400-1500
=-5
CT 180
Fn Fsi
REGLA DE DECISIÓN: En la tabla de la distribución normal tipificada de puntua-
dones Z buscamos el valor crítico para un nivel de confianza del 99% para un con-
traste unilateral izquierdo, es decir, el valor de Z que deja por debajo una probabili-
dad de 0,01, y es -2,33.

z o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,80 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,60 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,50 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048


-2,40 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
(i§) 0,0107 0,0104 0,0102 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,20 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,10 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,00 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,90 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,60 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823

Tabla 2: Reproducción parcial de la tabla de la distribución normal tipificada.

CONCLUSIÓN: Como el estadístico de contraste (Z = -5) supera la máxima di­


ferencia que cabe esperar por simple azar (el valor crítico -2,33 para un nivel de
confianza del 99%), rechazamos la hipótesis nula. A la misma conclusión llegamos
comparando el nivel crítico p con el nivel de significación «alfa». Obsérvese que en
la distribución normal tipificada el valor más extremo que podemos ver es -3,59
que deja por debajo una probabilidad de 0,0002. Como el estadístico de contraste
Z = -5 es aún más extremo, el nivel crítico p es menor de 0,0002 que a su vez es
menor que el nivel de significación «alfa» de 0,01.

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

/
Soluciones a los ejercicios de los capítulos 1 y 2 •

0,0002

Z=-5
p < 0,0002

Figura 2: Nivel crítico p del estadístico Z = -5

INTERPRETACIÓN: Con un nivel de confianza del 99% se puede afirmar que el


sueldo medio de las mujeres es menor de 1.500 euros mensuales que es el que
tienen los hombres (Z = -5; p < 0,01).
POTENCIA DEL CONTRASTE: Se calcula para la Ha: µ = 1.500 frente a la hipótesis
alternativa H 1: µ = 1.400.
Fijamos un nivel de confianza del Distribución muestra! de la media
para H0
99% por lo que, suponiendo que la Ha cr-=�=20
X Fn
es verdadera, cualquier muestra con
una media cuya puntuación típica sea
menor o igual que Z = -2,33 nos lle­
varía a rechazar la Ha . El valor de esta
media es:

= Y-µa � = Y-1500 Distribución muestra! de la media


Z -2, 33 para H 1
CT 20
.¡¡,
Y� -2, 33 · 20 + 1500 = 1453, 4 euros
En la distribución correspondiente
Figura 3: Representación gráfica de la potencia
a la H 1 , a la puntuación 1453 le corres­ del contraste.
ponde una puntuación típica de:

= Y-µ1 = 1453, 4 -1400 = 53, 4 =


Z 2 67
CT 180
1
20
.¡¡, JBi

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

La potencia del contraste es la probabilidad de rechazar una Ha que es falsa. Y


esto ocurrirá cuando el estadístico de contraste se sitúe en la zona representada por
1-«beta» que corresponde a la probabilidad de obtener puntuaciones menores o
iguales a Z = 2,67. Buscamos esta probabilidad en la tabla de la distribución normal
y es 0,9962. Su complementario «beta» es la probabilidad de cometer un error
de tipo 11 o probabilidad de rechazar una Ha que es verdadera y vale 1 - 0,9962 =
0,0038.

SITUACIÓN 2. Un investigador social tiene la hipótesis de que la edad media


de inicio en el consumo de alcohol de los jóvenes de una determinada Comunidad
es más tardía que la media de la población general, establecida en 13 años. Para
contrastar su hipótesis selecciona una muestra de 25 jóvenes de su Comunidad, en­
contrando que la edad media es de 14 años con una desviación típica insesgada de
2,8. Sabemos que la variable, edad de inicio en el consumo de alcohol, se distribuye
normalmente en la población.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra extraída de una población
con distribución normal y varianza desconocida. Se analiza la variable «edad de ini­
cio del consumo de alcohol» en los jóvenes que es una variable medida con escala
de razón. Aunque la muestra es pequeña como la variable tiene distribución normal
en la población podremos utilizar un contraste paramétrico.
HIPÓTESIS: El investigador quiere comprobar que la edad media de inicio en su
Comunidad es más tardía (por tanto, mayor) que la media de la población gene­
ral establecida en 13 años. Para ello, formulará un contraste unilateral derecho en
el que la hipótesis nula que establece que no hay diferencia significativas entre la
edad media en su Comunidad y la media de la población general

Ha : µ edad :s; 13 años H1 : µ edad > 13 años

ESTADÍSTICO DE CONTRASTE: Siendo los datos provenientes de una población


con distribución normal y varianza desconocida, la distribución muestra! de la me­
dia es la distribución t de Student con n-1 = 24 grados de libertad.
Conocemos la desviación típica insesgada que utilizaremos como estimador de
la desviación típica poblacional en la siguiente expresión:

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

14 1
T = y - µo = - 3 = 1' 786
sn-1/ 2,8/
/Fn !E
Y-µ o
T=
sn/
/)n-1

REGLA DE DECISIÓN: En la distribución t de Student con 24 gl y para un contraste


unilateral derecho, buscamos el nivel crítico p asociado al estadístico T = 1,786. Los
valores más próximos a este valor del estadístico de contraste son 1,711 y 2,064 a los
que corresponden unos niveles críticos p de 0,05 y 0,025 respectivamente. Al ser el
estadístico de contraste 1,786 un valor comprendido entre 1,711 y 2,065 su nivel crí­
tico p es un valor comprendido entre 0,025 y 0,05 (p < 0,05 y p > 0,025). Por otra par­
te, los valores críticos de la distribución muestra! que delimitan la zona de rechazo y
de mantenimiento de la H0 son 1,711 y 2,492 para niveles de confianza de 0,95 y 0,99
respectivamente, que son los utilizados habitualmente en el campo de la psicología.

p = 0,025

1,711 2,064

T= 1,786

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900
e@]) 0,975 <@E) 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

22 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064
@ 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763

Tabla 3: Representación gráfica del nivel crítico del estadístico t = 1, 786y su localización en la tabla
de la distribución t.

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

CONCLUSIÓN: Se rechazaría la Ho con un nivel de confianza del 95% pero no se


podría rechazar con un nivel de confianza del 99%. Con otras palabras, el resultado
obtenido es significativo con a= 0,05 pero no con a= 0,01
INTERPRETACIÓN: A partir de los resultados de esta investigación, la edad media
de inicio de alcohol de los jóvenes de esta Comunidad es más tardía que la media
general con un nivel de confianza del 95%.

SITUACIÓN 3. La empresa SND's de sondeos electorales ha pronosticado que el


nivel de apoyo que recibirá el partido X en las próximas elecciones será del 40%. Des­
de el propio partido X se promueve un nuevo sondeo con el fin de contrastar la veraci­
dad de esta afirmación. Para ello, selecciona una muestra aleatoria de 400 personas,
con derecho a voto, de los cuales 128 manifiestan su intención de votar al partido X.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra de 400 personas y la varia­
ble dependiente es el «apoyo que recibirá el partido X en las próximas elecciones».
Es una variable dicotómica con distribución binomial. La muestra es grande por lo
que esta distribución se aproximará a la normal.
HIPÓTESIS: En la muestra utilizada en el sondeo encargado por el partido X, la
proporción de personas que les votarían es del 32% (128/400 = 0,32). A partir de
esta evidencia mostrada en los datos, se quiere contrastar si «el nivel de apoyos
será del 40%». Como no se marca si la diferencia será mayor o menor que ese valor
se plantea un contraste bilateral, con las siguientes hipótesis:

H0: n = 0,40

ESTADÍSTICO DE CONTRASTE: Por aproximación de la distribución binomial a la


normal, utilizaremos el estadístico Z

Siendo el error típico de la proporción:

(j

P
-) "o ( 1 - ,c0 ) _ O, 40 ( 1- O, 40)
_ -----=0,0245
n 400

10

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

Y el estadístico:

P-n 0 = 0, 32 - 0 , 40 =
Z= -3,266
CT P 0,0245

REGLA DE DECISIÓN: En la distribución normal y para un contraste bilateral, bus­


camos el nivel crítico p asociado al estadístico Z = - 3, 2 66. En la tabla el valor más
próximo es Z = -3, 2 7, que deja por debajo una probabilidad de 0, 0005 en uno de
los extremos de la distribución. Como se trata de un contraste de bilateral (de dos
lados) tendremos que sumar también la probabilidad de P(Z > 3,279) = 0,0005 y el
nivel crítico p es la suma de las probabilidades de los dos extremos de la distribu­
ción: p = 0, 00 1 0 .

Z=-3,27 Z = 3,27

z o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005
-3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0007 0,0007
-3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,80 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026

Tabla 4: Reproducción parcial de la tabla de la distribución normal N{0;1} para encontrar el nivel
crítico p, P(Z < = -3,27) representado en la figura superior.

CONCLUSIÓN: Aunque el enunciado de este ejercicio no establece el nivel de


confianza, recurriremos a los utilizados habitualmente, que son el 95% o el 99%. Al
ser el nivel crítico p = 0,00 1 0 ( 0, 0005 + 0,0005) menor que el nivel de significación
0, 0 1 y menor que 0, 05, rechazamos la H con un nivel de confianza tanto del 95%
0
como del 99%. A la misma conclusión llegamos comparando el valor del estadístico
11

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

de contraste con los valores críticos que son ±1,96 y ±2,58 correspondientes a los
niveles de confianza del 95% o del 99%, respectivamente, para un contraste bilate-
ral.
INTERPRETACIÓN: El nivel de apoyo que recibirá el partido X en las próximas
elecciones será significativamente distinto del 40% (Z = -3,266; p < 0,001).
INTERVALO DE CONFIANZA: A esta misma conclusión se llega utilizando el inter­
valo de confianza para estimar, a partir de la proporción observada en la muestra,
la proporción poblacional de votantes que tendrá el partido.
Con un nivel de confianza del 95%, el error máximo de estimación es:

Emax =Z1 _cy;_��


� =1, 96 ·
0,32·(1-0,32)
400
= 0 , 0457

Y el intervalo de confianza es:

Línf =
p-Emax = 0,32-0, 0457 = 0,274
Lsup = P + Emax = 0,32 + O, 0457 = 0,366

De acuerdo con esta estimación, la proporción poblacional de votos para el par­


tido es un valor comprendido entre el 27,4% y el 36,6%. Como este intervalo no
contiene el valor planteado en la Ha de 0,40 no podemos asumir este valor y se
rechaza Ha . Compruebe ahora que con un nivel de confianza del 99% también se
rechazaría Ha, ya que el intervalo de confianza estima como proporción apoyos al
partido X un valor comprendida entre 0,26 y 0,38 que no incluye el valor 0,40 plan­
teado en Ha .
TAMAÑO DE LA MUESTRA: En el punto anterior se ha visto que el error máximo
de estimación, con un nivel de confianza del 95%, era de 0,0457. Si quisiéramos fijar
este error máximo de estimación en dos puntos porcentuales {0,02) ¿cuál debería
ser el tamaño de la muestra?
Para determinar el tamaño de la muestra con esas condiciones, debemos despe­
jar el valor den de la expresión:

� 0,32·(1-0,32)
Emax =Z _ � 0, 02=l , 96·
1 cy;_�� n

Y la expresión que resulta es:

12

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

2
zl-'Ji2 1 962
n=p(l-p)-2 - =0,32·(1-0,32)--- =2089,83�2090 personas
Emax 0,022

SITUACIÓN 4. «La formación alcanzada por la población adulta española ha


mejorado, de forma continua, en los últimos 10 años. Desde 1998 el porcentaje
de españoles de 25 a 64 años que poseen estudios superiores a los obligatorios ha
pasado de 33% al 51% en 2008 En la misma proporción ha disminuido, por tanto,
.
el porcentaje de españoles que sólo poseen estudios obligatorios, que ha pasado
del 67% en 1998 al 49% en 2008» (Panorama de la Educación. Informe OCDE 2010).
Ante esta situación, imagine que usted quiere confirmar que la proporción de adul­
tos de su Comunidad que solo tienen los estudios obligatorios es significativamente
inferior que el indicador de España en 2008. Establece un nivel de confianza del 95%
y utiliza una muestra aleatoria de 900 adultos con edades comprendidas entre 25 y
64 años, encontrando que 378 de ellos tienen solo los estudios obligatorios.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Utilizamos una muestra de sujetos en los que la
variable de estudio «estar en posesión de estudios superiores» es de naturaleza
dicotómica (se tienen o no se tienen estos estudios) sobre la que se determina la
proporción de personas que poseen dicha cualidad.
Los datos de los que partimos son:

Estudios superiores Muestra


Estudios obligatorios
a los obligato!ios

111 33% 67%


n = 900

111 51% 49% 378 con estudios obligatorios

378
Proporc10n
. , de personas en Ia muestra con estud.tos o bl.1gatonos:
. p=- =O,42
900
HIPÓTESIS: El investigador quiere comprobar que la proporción de adultos de su
Comunidad que solo tienen los estudios obligatorios es significativamente inferior
que el indicador de España en 2008 establecido en el 49%. Las hipótesis nula y al­
ternativa son:

H0: re 2 0,49; H1: re< 0,49;

13

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

ESTADÍSTICO DE CONTRASTE: La variable de estudio «estar en posesión de es­


tudios obligatorias» es de naturaleza dicotómica (se tienen o no se tienen estos
estudios} con distribución binomial. Al tratarse de una muestra grande (n = 900} la
distribución binomial se aproxima a la normal, de forma que el estadístico de con­
traste es una puntuación típica, Z:

Z= p - n0 =
O, 42 -O, 49
= _4 20
/re 0 ·( -re 0 ) 0,49 ·0,51

� 900

REGLA DE DECISIÓN: En la distribución normal el valor crítico, que representa la


máxima discrepancia que puede observarse por simple azar entre el valor obtenido
en la muestra (p = 0,42} y el formulado en H0 como parámetro poblacional (H0 =
0,49} correspondiente a un nivel de confianza del 95% para un contraste unilateral
izquierdo es Z = -1,64. Como el estadístico de contraste obtenido Z = -4,20 repre­
senta una discrepancia mayor, rechazamos H0.

«alfa»= 0,05
nivel de confianza= 0,95

Z=-4,20

Figura 4: Representación del valor crítico para un NC del 95% en un


contraste unilateral izquierdo.

De otra forma: buscamos el nivel crítico p asociado al estadístico Z = -4,20. En


la tabla el valor más próximo es Z = -3,59, que deja por debajo una probabilidad de
0,0002. Como el estadístico de contraste Z = -4,20 es menor que este valor crítico
deducimos que la probabilidad de encontrar valores menores de Z = -4,20 es menor
de 0,0002.

14

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

/
p < 0,0002

0,42 0,49
Z= -4,20

Figura 5: Nivel crítico p del estadístico z = -41 20

CONCLUSIÓN: Con un nivel de confianza, previamente establecido en el 95%,


rechazamos Ha ya que el estadístico de contraste (Z = -4,20} representa una dis­
crepancia «mayor» que el valor crítico correspondiente a ese nivel de confianza del
95%. Por otra parte, el nivel crítico p (p < 0,0002} correspondiente al estadístico de
contraste (Z = 4,20} nos permite concluir que la diferencia es significativa tanto con
un nivel de significación de 0,05 como del 0,01.
INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la proporción
de adultos de su Comunidad que solo tienen los estudios obligatorios es significa­
tivamente inferior que el indicador de España en 2008 con un nivel de significación
menor de 0,01.
INTERVALO DE CONFIANZA: Con un nivel de confianza del 95% el intervalo de
confianza nos permite inferir, a partir de los datos obtenidos en la muestra, la pro­
porción de adultos con estudios superiores. Este intervalo es:

0,388
p(l-p) 0,42·0,58
p±Z1_al � --+0,42±1,96 --+ ¡
72�� 900
0,452

Por tanto, la proporción de adultos de esa Comunidad con estudios superiores


es un valor comprendido entre 0,388 (38,8%} y 0,452 (45,2%} que no cubre el valor
formulado en Ha de 0,49.

15

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

p < 0,0002

0,42 0,49
Z= -4,20

0,388 p = 0,42 0,452

Figura 6: Representación gráfica del intervalo de confianza de una proporción.

SITUACIÓN S. «En Educación Primaria, la media de alumnos por clase en los


centros públicos de España (19J) es más baja que en la OCDE (21,6) y que en la
Unión Europea (20,3). En los centros privados ocurre lo contrario, pues la media en
España es de 24,4 frente a 20,8 de media de la OCDE y 19,1 de la UE». {Panorama
de la Educación. Informe OCDE 2010). Imagine que:
5.1. Usted sospecha que la media de los centros públicos de su Comunidad es
significativamente mayor que la media de España.
5.2. Y también que la media de los centros públicos de su Comunidad es signifi­
cativamente menor que la media de la OCDE.
Para contrastar estas hipótesis, selecciona una muestra aleatoria de 100 aulas
de educación primaria en centros públicos, encontrando que la media de alumnos
por clase es de 20,9 con una desviación típica poblacional de 5,8. Se asume que la
variable número de alumnos por clase se distribuye normalmente y se fija el nivel
de confianza del 95%.

SOLUCIÓN:
De forma resumida, los datos facilitados en el enunciado son:

16

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

Media de alumnos por clase


España OCDE UE

Públicos 19,7 21,6 20,3

, Privados 24,4 20,8 19,1

Y para la muestra: n = 100/ Y= 20,9/ cr = 5,8. Para contrastar ambas hipótesis


seguimos los siguientes pasos.
CONDICIONES Y SU PUESTOS: Se utiliza una muestra en la que la variable de es­
tudio «número de estudiantes por clase» es de naturaleza continua que se mide
con escala de razón, cuya distribución poblacional asumimos que es normal con
varianza conocida, según nos indica el enunciado.
HIPÓTESIS: Se plantean dos contrastes de hipótesis sobre dos medias poblacio­
nales. Los dos son unilaterales ya que el investigador está marcando el sentido (ma­
yor o menor) de la diferencia:

5.1. El primero es un contraste unilateral derecho ya que el investigador quiere


comprobar si la media de los centros públicos de su Comunidad es significati­
vamente mayor que la media de España establecida en 19,7 alumnos por aula.

H1: µ> 19, 7

5.2. El segundo contraste es unilateral izquierdo, ya que el investigador está mar­


cando el sentido de la diferencia al querer comprobar si la media de los centros
públicos de su Comunidad es significativamente menor que de la media de la
OCDE, establecida en 21,6 alumnos por aula.

H0: µ�21,6 H1 :µ<21,6

ESTADÍSTICO DE CONTRASTE: Tratándose de una variable que se distribuye nor­


malmente en la población con varianza poblacional conocida, la distribución mues­
tra! de la media es normal y el estadístico de contraste que utilizaremos es la Z.

5.1. Para la primera hipótesis el estadístico de contraste es:

17

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y coméntados. Diseños de investigación y análisis de datos

y -µo 20' 9 - l9' 7 =


Z= = 2' 069 ;:::; 2' 07
cr/
/ Fn
5,8/
j.Jwo
5.2. Y para la segunda hipótesis el estadístico de contraste es:

Y-µ0 20, 9 -21, 6 = l l


Z= =
1Fn
- 2
5
'Yio
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferencia
que puede encontrarse por simple azar (el valor crítico) es +1, 64 para un contraste
unilateral derecho y-1, 6 4 para un contraste unilateral izquierdo:

Valor crítico: -1,64 µ = 21,6


Y= 20,9 Z=-1,21
Z = 2,07

Figura 7: Representación gráfica de los valores críticos para la regla de decisión dos contrastes
unilaterales.

CONCLUSIÓN: Para el primer contraste, se rechazaría la H0 ya que el estadístico


de contraste obtenido (Z = 2,07} supera la máxima diferencia que cabe esperar por
simple azar (el valor crítico: 1, 6 4). Por el contrario, para el segundo contrastes no
hay evidencia suficiente para contrastar la H0 ya que el estadístico de contraste ob­
tenido (Z = -1,21} no supera la máxima diferencia que cabe esperar por simple azar
(-1, 6 4} con un nivel de confianza del 95% en ambas situaciones.
De otra forma, los niveles críticos p de ambos estadísticos son: p = 0,0192 ·y
0,1131 respectivamente, tal y como se representan en las siguientes figuras.

18

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de Íos capítulos 1 y Z •

p = 0,1131

µ = 19,7 Valor crítico: -1,64 µ = 21,6


Y= 20,9 Z=-1,21
Z= 2,07

Figura 8: Representación gráfica de los niveles críticos p para la toma de decisión en dos contrastes
unilaterales.

Por tanto, para el primer contraste y partiendo de que la hipótesis nula (que es­
tablece que la media de alumnos por clase de los alumnos de los colegios públicos
de esa comunidad es igual o menor de 19,7) es verdadera, la probabilidad de obte­
ner una muestra de 100 aulas de colegios públicos con una media de alumnos por
clase de 20,9 es de 0,0192 (el nivel crítico p). Esta es una probabilidad pequeña en
comparación al nivel de significación de 0,05 pero grande en comparación al nivel
de significación de 0,01 por lo que rechazaríamos la H0 con un nivel de confianza del
95% pero no podríamos tomar la misma decisión con un nivel de confianza del 99%.

Para el segundo contraste, la probabilidad de que siendo cierta la Ho se obtenga


una muestra de 100 aulas con una media de estudiantes de 20,9 es de 0,1131. Esta
probabilidad es grande en comparación con los niveles de significación del 0,01 y
0,05 por lo que no hay evidencia suficiente para rechazar la H0 con un nivel de con­
fianza del 95% ni tampoco al 99%.
INTERPRETACIÓN: La media de alumnos por aula en los colegios públicos de la
Comunidad del investigador es significativamente mayor que la media general de
España con un nivel de confianza del 95% pero no del 99%, (Z = -2,07; p = 0,0192),
pero no difiere significativamente de la media de los países de la OCDE con un nivel
de confianza del 95% y del 99% (Z = -1,21; p = 0,1131).
Por otra parte y de forma adicional el investigador podría calcular, a partir de los
datos de su estudio, el intervalo de confianza de la media de alumnos por clase en
los colegios públicos de su Comunidad. Para ello, establece un nivel de confianza del
9 5%. En estas circunstancias el error máximo de estimación es:

cr 5, 8
Emax =Z1 _a,/ r =1, 96 � =1,1368
12 '\,/n '\,/100

19

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Y el intervalo de confianza se obtiene sumando y restando a la media de la mues­


tra, este error máximo de estimación:

IC=Y±Emax =20,9±1,1368---*(19,76;22,04)

El intervalo de confianza de alumnos por clase de los colegios públicos de su


Comunidad es un valor comprendido entre 19,76 y 22,04 alumnos, que incluye la
media de la OCDE {21,6) y la media de la UE {20,3) de los que NO difiere significa­
tivamente, con un nivel de confianza del 95%, pero no incluye la media global de
España {19,7) de la que SÍ difiere significativamente.
Si, por otra parte, y una vez realizado este análisis el investigador decide estable­
cer el error máximo de estimación en 1 punto y un nivel de confianza del 95%, ¿Qué
tamaño de muestra debería haber utilizado?
El error máximo es igual a:

Si hacemos E= l, entonces:

1=1 96�
I
Fn
Despejando «n»:

(z
J
2
1- ª 1 96 2
n= cr 2 7i_ = 5 82 -'-
1
= 129 / 23 � 129
I
E2 2

Debería utilizar una muestra de 129 aulas de colegios públicos de su Comunidad.

SITUACIÓN 6. Según el último estudio del Observatorio Español sobre Drogas


{2009}, realizado en estudiantes de Secundaria de 14 a 18 años, el 5,1% ha consumi­
do cocaína alguna vez en la vida y el 2, 7% éxtasis. Además, el inicio en el consumo
de cocaína y éxtasis tiene lugar cada vez a edades más tempranas. Asl mientras
que en el año 2004 la edad media de inicio para la cocaína era de 15,9 años en los
hombres y 15, 7 en las mujeres, en el año 2008 disminuyó a 15,3 años y 15,2, respec-
20

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

Hvamente (Encuesta estatal sobre uso de drogas en enseñanzas secundaria, 2009}.


Imagine que usted forma parte de un equipo de atención primaria que cubre a un
determinado sector de su municipio y desea estimar, con un nivel de confianza del
95%:
6.1. La proporción de jóvenes de enseñanzas secundarias de su municipio que
han consumido cocaína al menos una vez
6.2. La edad media del consumo de cocaína de las mujeres de su municipio.
6.3. Además sospecha que la edad media del inicio en el consumo de cocaína
en los hombres de su municipio ha disminuido respecto a los datos genera­
les del 2004.
6.4. Finalmente desea contrastar la hipótesis de que la varianza poblacional en
la edad de inicio del consumo de cocaína en los hombres de su municipio
es significativamente mayor que 1,1 establecido para las mujeres.
Para ello, dispone de los datos de una muestra de 37 jóvenes varones y 41 muje­
res atendidos el pasado año en los que el 8% habían consumido cocaína, al menos
un vez, siendo la edad media de inicio en el consumo de cocaína de 15,4 años en
los hombres y de 15,2 años en las mujeres con una desviación típica de 1,3 para los
hombres y 1,1 en las mujeres.

SOLUCIÓN:
De forma resumida, los datos proporcionados en esta situación vienen recogidos
en las siguientes tablas:

Datos de encuestas estatales: Datos de la muestra de su municipio:

2009 5,1% Cocaína 2,7% Éxtasis


•••t+i,ti'i::H
Edad media consumo cocaína Hombres 37 15,4 1,3
8%
Hombres Mujeres Mujeres 41 15,2 1,1 Cocaína

2004 15,9 15,7

2008 15,3 15,2

6.1. A partir del 8% de jóvenes (hombres y mujeres) que han consumido cocaína, el
intervalo de confianza de la proporción poblacional de jóvenes consumidores
con un nivel de confianza del 95%, es:

IC=p±Emax

21

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Siendo el error máximo de estimación de la proporción poblacional:

-
Emax =Z1-� �p-(l-p) =1'96· ·(l-O , OS ) =196·0 0307=0 06
O , OS

n 37 + 41 ' ' '

Y, finalmente, el intervalo de confianza para la media poblacional de la propor­


ción de jóvenes que han consumido cocaína, es:

IC=p±Emax =0,08±0,06=(0,02;0,14)

Es decir, entre un 14% y un 2% de los jóvenes de su municipio han consumido


cocaína al menos una vez.

6.2. A partir de la información obtenida en la muestra respecto a la edad media de


consumo de cocaína en las mujeres que ha sido de 1 5 , 2 años, obtenemos el
intervalo de confianza para la media poblacional. Para ello, consideramos que
la edad es una variable continua medida con escala de razón pero de la que
desconocemos la forma de su distribución en la población y su varianza. Bajo
estas condiciones y al tratarse de una muestra grande, la distribución muestra!
de la edad media es la t de Student con n-1 grados de libertad.

sn-1 sn 1, 1
Emax =t n -u-al C =tn -1·1-a/
' � = 2, 021 � = 0, 35
, /2 -vn 12 -vn-l -v41 -1

El valor de t = 2, 021 se busca en las tablas con n - l = 4 1 - 1 = 4 0 grados de


libertad:

22

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

975 t = 2, 021
0,

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660

Tabla 5: Reproducción parcial de la tabla de la distribución t y su representación gráfica con los va/o-
res críticos para el cálculo del intervalo de confianza.

Y el intervalo de confianza, es:

14,84
Y±Emax --+15,2±0,35--+¡
15,55

6.3. Para comprobar si la edad media del inicio en el consumo de cocaína en los
hombres de su municipio ha disminuido respecto a los datos generales del
2004, formularemos un contraste de hipótesis, siguiendo los siguientes pa­
sos:

CONDICIONES Y SUPUESTOS: Partimos de la información proporcionada por una


muestra de 37 hombres con una edad media de 15,4 años. Desconocemos la forma
de la distribución poblacional de la edad de inicio en el consumo y su varianza. Por
23

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

tanto, la distribución muestra! de la media es una distribución t de Student con n -1


= 36 grados de libertad.
HIPÓTESIS: El investigador sospecha que la edad media del inicio en el consumo
de cocaína en los hombres de su municipio ha disminuido respecto a los datos ge­
nerales del 2004 que era de 15,9 para los hombres, por lo que plantea un contraste
unilateral izquierdo

H1 :µ<15, 9

ESTADÍSTICO DE CONTRASTE: Al tratarse de un diseño de una muestra extraída


de una población con varianza desconocida, el estadístico de contraste es la t de
Student con n - 1 gl.

15, 4 -15, 9 =-
T= Y-µ 0 = 2,31
sn 1,3
.Jn-1 ../37-1

REGLA DE DECISIÓN: Como en la tabla de la distribución t no figura la distribu­


ción t con 36 gl el valor crítico correspondiente a esta distribución deberemos bus­
carlo por aproximación con el valor de una distribución con 40gl. Para ello, el valor
crítico t que deja por debajo una probabilidad de 0,05 es el mismo, pero de signo
contrario, al que deja por encima una probabilidad de 0,05 (y por debajo 0, 9 5) que
corresponde a un nivel de confianza del 9 5% para un contraste unilateral derecho.
Este valor es -1,68 4 que es el que encontramos en las tablas con 40 gl como valor
más aproximado a los 36 gl de este ejemplo.

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660

Tabla 6: Reproducción parcial de la tabla de la distribución t.

24

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

CONCLUSIÓN: El valor crítico representa la máxima diferencia que puede darse por
simple azar. Como el estadístico de contraste (T=-2,31; p < 0,025} supera esta máxima
diferencia (-1,684), rechazamos la hipótesis nula con un nivel de confianza del 95%.

p < 0,025

T = -2,31

Figura 9: Nivel crítico del estadístico T = -2,31 en la distribución t


con 30 gl.

INTERPRETACIÓN: La edad media de inicio en el consumo de cocaína en los hom­


bres es significativamente menor de 15,9 años (T = -2,31; p < 0,025).

6.4. Para analizar si la varianza poblacional en la edad de inicio del consumo de


cocaína en los hombres de su municipio es significativamente mayor que 1,1
establecido para las mujeres seguiremos los mismos pasos:

CONDICIONES Y SUPUESTOS: Partimos de la información proporcionada por una


muestra de 37 hombres con una desviación típica de 1,3 (Varianza de 1,3 2 = 1,69}.
La distribución muestra! de la varianza es una distribución chi-cuadrado con n - l gl.
HIPÓTESIS: El investigador quiere comprobar que la varianza poblacional de la
edad de inicio en el consumo de cocaína de los hombres es mayor de 1,12 = 1,21
para lo que formula las siguientes hipótesis:

H1 : a2 > 1, 21

ESTADÍSTICO DE CONTRASTE: Utilizamos el estadístico chi-cuadrado, que vale:


25

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

2 2
= n-5 = 37·1,3 =51 67
2
X 2
'
ªº 1,12

REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferencia


que cabe esperar por simple azar entre el valor de la varianza obtenido en la mues­
tra respecto al valor establecido en la hipótesis nula, viene determinada por el valor
crítico de la distribución chi-cuadrado con 36 gl. El valor más aproximado lo busca­
mos en las tablas con 40 gl y es 55,7585. Como el estadístico de contraste (51,67)
no supera el valor crítico 55,7585, no podemos rechazar la hipótesis nula con ese
nivel de confianza.

Probabilidad
g.1.
0,005 0,010 0,025 0,050 0,100 0,900 0,975 0,990 0,995

1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603

29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 13,7867 14,9535 16,7908 18,4927 20,5992 40,2560 46,9792 50,8922 53,6720
40 20,7065 22,1643 24,4330 26,5093 29,0505 51,8051 59,3417 63,6907 66,7660
so 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517

Tabla 7: Tabla de la distribución chi-cuadrado.

INTERPRETACIÓN: La varianza poblacional de la edad de inicio del consumo de


cocaína en los hombres es igual que el de las mujeres (x 2 = 51,67; p > 0,05).

51,67 55,758

Figura 10: Representación gráfica de la distribución chi-cuadrado, el


estadístico de contraste y el nivel crítico.

26

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

SITUACIÓN 7. El Centro de Investigaciones Sociológicas {CIS} realiza constantes


estudios sobre la ideología e intención de voto de los españoles. Uno de los ítems
que incluye en sus cuestionarios es el de la «identificación ideológica»/ para lo que
se le pide al entrevistado que se ubique ideológicamente en una escala de 1 a 10
(donde 1 significa extrema izquierda y 10 extrema derecha). En su última encuesta
a la población española la media aritmética obtenida para la variable identificación
ideológica fue de un 4/86. Un psicólogo social interesado en estudiar esta temática,
sospecha que en su localidad la intención de voto es significativamente «más con­
servadora», para lo que diseña una encuesta dirigida a confirmar su hipótesis. Para
ello, selecciona una muestra de 31 personas a las que aplica el ítem de identifica­
ción ideológica, obteniendo una media de 5,40 y una cuasi-desviación típica de 1,2.
Quiere además saber cuál sería el tamaño de la muestra que debería utilizar para
estimar la media poblacional fijando un error máximo de estimación de 0,2 puntos.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio corresponde a un diseño de una mues­
tra en la que la variable de estudio «Identificación ideológica» es una variable cuan­
titativa medida con escala de intervalo en la que se obtiene la media y la varianza
de la muestra de 31 personas que han respondido a la encuesta. Se desconoce la
distribución poblacional de esta variable y su varianza por lo que la distribución
muestra! de la media es la t de Student.
HIPÓTESIS: El investigador sospecha que en su localidad la intención de voto es
significativamente «más conservadora», por lo que plantea un contraste unilateral
en el que la media en su locaclidad debe ser mayor de 4, 86 que es la media de la
población española:

H0 :µ::; 4, 86 ; H1 :µ> 4, 86

ESTADÍSTICO DE CONTRASTE: Al desconocer la forma de la distribución poblacio­


nal y su varianza el estadístico de contraste es:

µ 5, 40 - 4, 86 =
T= Y- 0 = 2/ 51
sn -1 1,2
J;, F3i
REGLA DE DECISIÓN: Para los niveles de confianza utilizados habitualmente (95%
y 99%), localizamos en la tabla de la distribución t de Student con 30 grados de
libertad estos valores críticos y son 2,4 57 para un nivel de confianza del 99% en
27

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

un contraste unilateral derecho y 1,697 para un nivel de confianza del 95% de un


contraste unilateral derecho.

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660

Tabla 8: Reproducción parcial de la tabla de la distribución t.

CONCLUSIÓN: El estadístico T = 2,51 supera ambos valores los que nos conduce
a rechazar la H0 con un nivel de confianza del 99%.

p < 0,01

Figura 11: Distribución t de Student.

INTERPRETACIÓN: Se confirma la sospecha del investigador de que la identifi­


cación ideológica en su localidad la es «más conservadora» que en la población
general (T = 2,51; 0,005 < p < 0,01).

28

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

Si el investigador ha fijado un error máximo de 0,2 puntos para estimar la media


poblacional, con un NC del 95%, el tamaño de la muestra utilizada sería:

sn-1
2
Emax = tn-1;1-'Ji Fn = 0, 2

Y despejando el valor den:

2
2
tn-1;1-'Ji 2 2,042
2
n=Sn -l 2 =1, 2 · =150,11�150
Emax 0, 2 2

SITUACIÓN 8. El «Síndrome Jubilación» es la situación que experimentan cier­


tas personas ante esta nueva etapa vital con manifestaciones somáticas, psíquicas
y sociales negativas que afectan la calidad de vida del jubilado. Un estudio publica­
do por el GIE (Grupo de Investigación del Envejecimiento) mediante una encuesta
realizada en el 2006 utilizando una muestra de jubilados con edad media de 77, 6
años y desviación típica de 8, 79 años encuentra que las manifestaciones psíquicas
más frecuentes eran la ansiedad (82%}, el pesimismo {13,3%} y la depresión (4, 7%}
y que para el 32% de los expertos consultados el apoyo psicológico constituye la
estrategia de intervención más adecuada para superar estos estados. Imagine que
usted quiere estudiar la situación de los jubilados de su localidad respecto a este
«síndrome», para lo que utiliza una muestra aleatoria de 362 jubilados, con una
edad media de 71,2 años y una desviación típica de 12,5 y de los cuales, el 59,8%
presenta signos de ansiedad, el 35% pesimismo y el 5,2% depresión. Adicionalmen­
te le indican que, con los datos del estudio anterior, el intervalo de confianza de la
proporción de jubilados con manifestaciones de depresión, es un valor comprendi­
do entre 0,0387 (3,87%) y 0,0553 (5,53%) con un nivel de confianza del 95%. Con
esta información se propone realizar los siguientes análisis:
8.1. Conocer el tamaño aproximado de la muestra que se ha utilizado en el es­
tudio anterior.
8.2. Con los datos de su estudio, calcular el intervalo de confianza de la edad
media de los jubilados de su localidad con un nivel de confianza del 95%.
8.3. Calcular el intervalo de confianza para la proporción de jubilados con mani­
festaciones psíquicas de ansiedad, con un nivel de confianza del 99%.

29

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

8.4. Contrastar la hipótesis de que la proporción de jubilados de su localidad


con manifestaciones psíquicas de pesimismo es significativamente mayor
que el valor 0,133 facilitado por el GIE en el 200 6.

SOLUCIÓN:
8.1. Para responder a la primera pregunta conocemos los límites superior e inferior
del intervalo de confianza. La diferencia entre ambos límites corresponde a la am­
plitud del intervalo y el error máximo de estimación es la mitad de esta diferencia:

f¡ =p-Emax �0 ,0 387 =0 ,047 -fmax


}
/5 =p+Emax �0,0553=0,047+fmax �
/ -I; 0,0 553-0 ,0 387 =
E= 5 = 0 ,00 83
2 2

El error máximo de estimación para obtener el intervalo de confianza de una


proporción, es:

Y despejando el valor de n, obtenemos el tamaño de la muestra con un nivel de


confianza del 95% (Z = 1,96) siendo p = 0,047 la proporción de jubilados con síndro­
me de depresión en el estudio anterior que se ha utilizado para obtener el intervalo:

2
z� 1 962
n=p(l-p) T =0,047(1-0,047) ' 2 =24 97 ,7 3�2500 jubilados
Emax 0 ,00 83

8.2. La edad media de los jubilados es una variable cuantitativa medida con escala
de razón y de la que desconocemos su distribución poblacional y su varianza.
En estas condiciones la distribución muestra! de la media es la distribución t
de Student con n - l grados de libertad. Con un nivel de confianza del 95%, el
intervalo de confianza de la edad media de los jubilados de su localidad se ob­
tiene sumando y restando a la media de la muestra el error máximo de estima­
ción. Al tratarse de una muestra grande (n = 362) la distribución t se aproxima a
la normal por lo que el valor de t se busca en la tabla de la distribución normal
tipificada de puntuaciones Z:
30

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

sn 12,5
fmax=t1_a/· r--;;=1,96· =1,289
/2 -vn-1 -J362-1

69,91
IC =Y±Emax=71,2± 1,289 � ¡
72,49

8.3. La proporción de jubilados con manifestaciones psíquicas de ansiedad es una


variable con distribución binomial. Al tratarse de una muestra grande la distri­
bución binomial se aproxima a la normal, por lo que utilizaremos esta distri­
bución para determinar el intervalo de confianza que se obtendrá sumando y
restando a la proporción obtenida en la muestra {0,598} el error máximo de
estimación. Con un nivel de confianza del 99% el valor de Z es 2,58:

_ �p(1-p) 0,598(1-0,598) _
fmax _zl a/ -2,58 -0,0665
-12 n 362
0,5315
IC=p±Emax = 0,598±0,0665 � {
0,6645

8.4. Para contrastar la hipótesis de que la proporción de jubilados de su localidad


con manifestaciones psíquicas de pesimismo es significativamente mayor que
el valor 0,133 facilitado por el GIE en el 2006 seguimos los siguientes pasos:

CONDICIONES Y SUPUESTOS: El estudio corresponde a un diseño de una mues­


tra de 362 jubilados en la que la variable de estudio «manifestaciones psíquicas de
pesimismo» de los jubilados de su localidad es una variable dicotómica con distri­
bución binomial. Como la muestra es grande la distribución binomial se aproxima
a la normal.
HIPÓTESIS: El investigador quiere contrastar que la proporción de jubilados con
manifestaciones psíquicas de pesimismo es mayor de 0,133 que es el valor encon­
trado por el GIE para la población general. Plantea, por tanto un contraste unilateral.

H 0 :rc�0,133; H1:n:>0,133

ESTADÍSTICO DE CONTRASTE: Aunque la distribución muestra! de la proporción


es una distribución binomial, al tratarse de una muestra grande, la distribución bi-
31

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

nomial se aproxima a la normal, por lo que utilizaremos el estadístico Z, siendo la


proporción de jubilados con manifestaciones psíquicas de pesimismo encontrado
en la muestra de estudio ha sido p = 0,35.

z- p-no - 0, 35-0, 133


= 12 158
- �"o (ln rro) 0,133 (1-0, 133 )
-
362

REGLA DE DECISIÓN: El estadístico de contraste es un valor muy extremo (Z =


12,158). El valor máximo que podemos consultar en las tablas de curva normal es z
= 3,59, que deja por encima de sí una proporción: p = 0,0002.

3,59
Z = 12,158

Figura 12: Representación gráfica del nivel crítico p en la dis­


tribución t de Student.

Por tanto, el valor crítico asociado a este estadístico de contraste es un valor


menor de 0,0002
CONCLUSION: Se rechaza la hipótesis nula y se acepta la hipótesis alternativa.
INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la proporción
de jubilados de su localidad con manifestaciones psíquicas de pesimismo es signi­
ficativamente mayor de 0, 133 formulada para la población general en el estudio
anterior (Z = 12, 158; p < 0,0002).

SITUACIÓN 9. El barómetro del CIS de marzo de 2012 realizado en 240 munici­


pios de 48 provincias señalaba que el 23,4% estaba en situación de paro y de éstos,
a la pregunta ¿y cree Ud. que es muy probable, bastante, poco o nada probable que
durante los próximos doce meses encuentre Ud. trabajo?, el 22,6% manifestaba que
«bastante probable», frente al 43, 1% que creía que «poco probable» y el 19,2%
32

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

que «nada probable» y el resto «NS/NC». Imagine que usted quiere estudiar si es­
tos resultados se reproducen actualmente en su localidad, para lo que realiza una
encuesta sobre una muestra de 100 personas en situación de paro con una edad
media de 39 años y desviación típica de 8,6 años de los cuales 25 le responden
que «bastante probable», 35 responden que «poco probable» y 20 que «nada pro­
bable» mientras que el resto «no saben o no contestan». Con esa información se
propone realizar los siguientes análisis:
9.1. Calcular el intervalo de confianza de la varianza de la edad de las personas
en situación de paro de su localidad con un nivel de confianza del 95%.
9.2. Con los datos obtenidos en su muestra y fijando un nivel de confianza del
95%, calcular el intervalo de confianza para la proporción de personas en
situación de paro que considera «poco o nada probable» encontrar trabajo
en los próximos doce meses.
9.3. Contrastar si la proporción de personas en paro que consideran «poco pro­
bable» encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) proporcionados en el
estudio del CIS.
9.4. Contrastar si la desviación típica de la edad media de las personas en situa­
ción de paro es significativamente mayor de 7,6 años.

SOLUCIÓN:
Los datos de la encuesta del CIS, aparecen resumidos en la siguiente tabla:

Bastante Poco Nada NS/NC


0,226 0,431 0,192 1- (0,226 + 0,431 + 0,192) = 0,151

En la muestra con n = 100, media 39 y desviación típica 8,6, los resultados que
obtiene son:

Bastante Poco Nada NS/NC


0,25 0,35 0,20 0,20

9.1. La distribución muestra! de la varianza es una distribución chi-cuadrado con


n - 1 grados de libertad. Los límites del intervalo de confianza de la varianza
poblacional son:
33

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

n5 2n__
___ n5 2
< e/ < --------'-'n-
X�_ a/ n-l X�¡ n-l
/2, /2,

Con un nivel de confianza del 95% buscamos en la tabla de chi-cuadrado con


100 - 1 = 99 grados de libertad los valores que delimitan una probabilidad central
de 0,95. Al no figurar en la tabla los valores correspondientes a una distribución con
99 gl, utilizamos, por aproximación los que figuran en la fila de 100 gl.

74,22 129,56

Probabilidad
g.l.
0,005 0,010 0,025 1 0,050 0,100 · 0,900 0,950 0,975 1 0,990 0,995

1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7496
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8119 18,5476

70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
¡ 100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,3421 129,5612 135,8067 140,1695

Figura 13: Representación de la distribución chi-cuadrado con 100 g/ y los valores críticos para un ni-
ve/ de confianza del 95% y reproducción parcial de la tabla con la localización de estos valores críticos.

Y los límites que se obtienen son:

. 100·8, 62 100·8, 62
/inf = =57 085 /sup = =99,65
129 5 612I 74,2219

Y la varianza poblacional es un valor comprendido entre: 57,085 <a< 99, 6 5


34

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

9.2. La distribución muestra! de la proporción es una distribución binomial que se


aproxima a la normal cuando la muestra es grande. Para calcular el intervalo
de confianza de la proporción de personas en situación de paro que considera
«poco o nada probable» encontrar trabajo en los próximos doce meses a partir
de la información obtenida en una muestra de 100 personas, utilizaremos la
aproximación a la normal.
En la muestra de 100 personas utilizada por el investigador, la proporción de per­
sonas que consideran «poco o nada probable» encontrar trabajo es: p = 0,35 + 0,20
= 0,55. El intervalo de confianza, con un nivel de confianza del 95%, es:

IC=p±Emax

0,4525
IC=p±Emax =0,55±0, 0975= ¡
0,6475

9.3. Para contrastar si la proporción de personas en paro que consideran «poco


probable» encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) proporcionados en el es­
tudio del CIS, seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS. El diseño de investigación de este trabajo utiliza


una muestra en el que la variable de análisis es de naturaleza dicotómica con dis­
tribución binomial. Como la muestra es grande (n = 100 personas) la distribución
muestra! de la proporción de persona que consideran «poco probable» encontrar
trabajo se aproxima a la normal.
HIPÓTESIS: El objetivo del investigador es demostrar que la proporción de per­
sonas en paro que consideran «poco probable» encontrar trabajo en los próximos
doce meses en su localidad es significativamente menor que el valor 43,1%. Por lo
que plantea un contraste unilateral con las siguientes hipótesis.

H0 :n?:0,431; H1 :n<0,431

ESTADÍSTICO DE CONTRASTE: Por aproximación de la distribución binomial a la


normal, aplicamos el estadístico Z:

35

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

p-no - 0,35-0,431
=-1,636;::::-l,64
- "o ( 1 "o ) - 0,431(1- 0,431)
z-

n- 100

REGLA DE DECISIÓN: Como a priori no se establece un nivel de confianza, re­


currimos a determinar el nivel crítico p asociado al estadístico de contraste. En la
distribución normal, el nivel crítico p asociado al estadístico de contraste Z = -1,64
es 0,0505.

Z=-1,64

z o 0,01 0,02 0,03 0,05 0,06 0,07 0,08 0,09

-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005

-1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
0,0495 0,0485 0,0475 0,0465 0,0455
0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823

Figura 14: Representación del nivel crítico p para el estadístico Z =-1,64 y reproducción parcial de la
taba/ de la distribución N(O;l} con la localización del nivel crítico para un nivel de significación de 0,05

CONCLUSIÓN. Para este contraste no se ha establecido a priori un nivel de con­


fianza, pero como el valor crítico p = 0,0505 es mayor que los niveles de significa­
ción de 0,05 y del 0,01 utilizado habitualmente en este tipo de investigaciones, no
tenemos evidencia suficiente para rechazar la hipótesis nula. Por otra parte, en un
contraste unilateral izquierdo el valor crítico que deja por debajo una probabilidad
de 0,05 es -1,64 que representa la máxima diferencia que cabe esperar por simple
36

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

azar entre el valor encontrado en la muestra y el valor formulado en la Ha . Como el


estadístico de contraste, Z = -1,636 no supera este valor, no podemos rechazar la
Ha .
INTERPRETACIÓN: No hay evidencia para demostrar la hipótesis del investigador
(la hipótesis alternativa) de que la proporción de personas en paro que consideran
«poco probable» encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) (Z = -1,64; p > 0,05).

9.4. Para contrastar si la desviación típica de la edad media de las personas en si­
tuación de paro es significativamente mayor de 7,6 años, seguimos los mismos
pasos que en los anteriores contrastes.

CONDICIONES Y SUPUESTOS: El diseño de investigación de este trabajo utiliza


una muestra de 100 personas en el que la variable objeto de estudio es la edad de
las personas en situación paro que es una variable cuantitativa que se mide con
escala de razón.
HIPÓTESIS: El investigador quiere contrastar si la desviación típica de la edad me­
dia de las personas en situación de paro es significativamente mayor de 7,6 años, o
lo que es lo mismo, si la varianza es significativamente mayor de 57,76 = 7,62, para
lo que formula las siguientes hipótesis:
HIPÓTESIS: Se formula un contraste unilateral ya que el investigador está mar­
cando el sentido de la diferencia.

Ha : CT 2 � 57, 76; H1 : a 2 > 57, 76

ESTADÍSTICO DE CONTRASTE:

100 · 8, 62 7396
---=--=128 05
57, 76 57, 76

REGLA DE DECISIÓN: Consultamos en la distribución chi-cuadrado con n - l gra­


dos de libertad (100 - 1 = 99 gl) el valor más próximo al estadístico de contraste
obtenido. En la tabla y para 100 gl, los valores más próximos son 124, 34 y 129,56
que dejan por encima probabilidades de 0,05 y 0,025 respectivamente y entre los
cuales se encuentra el estadístico de contraste obtenido 128,05. Por tanto el nivel
crítico pes un valor menor de 0,05 y mayor de 0,025.

37

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Probabilidad
g.l.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 1 0,975 1 0,990 0,995

1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7496
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8119 18,5476

70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 I
124,3421 129,5612 I 135,8067 140,1695

Figura 15: Representación gráfica del niveJ crítico p en una distribución t con 100 gl reproducción
parcial de la tabla con la localización de los valores más próximos al estadístico de contraste.

CONCLUSIÓN: Para este contraste no se ha establecido un nivel de confianza


previo, pero al ser el nivel crítico p menor de 0,05 podremos rechazar la hipótesis
nula con un nivel de confianza del 95%, pero al ser mayor de 0,025 no podríamos
tomar la misma decisión con un nivel de confianza del 99% ni tampoco del 98%.
INTERPRETACIÓN: Se comprueba la hipótesis del investigador de que la desvia­
ción típica de la edad de las personas en situación de paro es mayor de 7,6 años
(o su varianza mayor de 57,76) con un nivel de confianza del 95% (X2 = 128,05; p <
0,05).

SITUACIÓN 10. Un psicólogo que investiga la percepción del tiempo, considera


que dicha habilidad se encuentra deteriorada en los fumadores durante la retirada
38

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

, Soluciones a los ejercicios de los capítulos 1 y 2 •

de nicotina. Para comprobarlo selecci/na una muestra aleatoria de 41 fumadores a


los que somete a una abstinencia de tabaco con una duración de 24 horas, pidién­
doles que estimen el tiempo en segundos que había transcurrido en un periodo
que, objetivamente, fue de 45 segundos. La media aritmética de la muestra fue
igual a 51 segundos con una cuasivarianza igual a 164. El psicólogo desea deter­
minar si la abstinencia tiene un impacto negativo sobre la percepción temporal,
provocando que el tiempo se sobre-estime y establece un nivel de significación de
0,05 como regla de decisión para su hipótesis.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS. El estudio corresponde a un diseño de una muestra
en el que la variable de estudio «la estimación del tiempo» es una variable conti­
nua, medida con escala de razón, de la que se desconoce la forma de su distribución
poblacional y la varianza.
HIPÓTESIS:Dado que el psicólogo desea comprobar si el tiempo se sobre-esti­
ma, hemos de plantear un contraste unilateral derecho, cuyas hipótesis son:

H 0 :µ�A5
H1:µ>45

ESTADÍSTICO DE CONTRASTE:Dado que se desconoce la varianza poblacional, el


estadístico de contraste es:

-
T=Y µ 0 =51-45=3
sn-1 2
Fn

m-
sn-l � -2
a------
- Fn -
REGLA DE DECISIÓN:Buscando en las tablas Tde Student con 40 grados de liber­
tad y un nivel de confianza del 95%, el valor critico es 1,684 que deja por debajo una
probabilidad de 0,95 correspondiente a un contraste unilateral derecho.

39

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678

Tabla 9: Reproducción parcial de la tabla de la distribución t de Student.

Por otra parte, en la distribución t de Studente con 40 gl, el valor más alto que
podemos ver en la tabla es 2,704 que deja por encima una probabilidad de 0,005.
CONCLUSIÓN: El estadístico de contraste (T = 3) supera el valor crítico con un
nivel de confianza del 95% (3 > 1,684), pero también el nivel crítico p < 0,005 es
menor que el nivel de significación a= 0,05. Por tanto, rechazamos H0.

Figura 16: Representación gráfica del nivel crítico p para el


estadístico T = 3.

INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la percepción


del tiempo se encuentra deteriorada en los fumadores durante la retirada de nico­
tina (T= 3; p < 0,005).

SITUACIÓN 11. Un sociólogo sabe, por investigaciones anteriores, que el suel­


do medio de la población de hombres en el trabajo Tes igual a 1500 euros men­
suales. Extrae una muestra aleatoria de 160 mujeres que desempeñan el trabajo T,
40

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

observando que el sueldo medio en dicha muestra es igual a 1400 euros mensuales
con una cuasivarianza igual a 64000. Quiere comprobar si el sueldo medio de las
mujeres es inferior al de los hombres. Nivel de confianza 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo el investigador utiliza una muestra
de 160 mujeres en el que la variable de estudio, el salario mensual, es una variable
cuantitativa que se mide con escala de razón de la que se desconoce la forma de
su distribución poblacional y su varianza. (Observe el estudiante que siendo esta
situación muy similar a la presentada en la situación 1, las condiciones y supuestos
son diferentes, lo que afecta a la elección del estadístico de contraste que hay que
aplicar)
HIPÓTESIS: Como el investigador quiere comprobar si el sueldo medio de las
mujeres es inferior a 1500 euros, plantea un contraste unilateral izquierdo

Ha: µ2:: 1.500 H 1 : µ< 1.500

ESTADÍSTICO DE CONTRASTE: Bajo las condiciones y supuestos expuestos, la dis­


tribución muestra! de la media es una distribución t de Student con n - l grados de
libertad y el estadístico de contraste es:

Y- µa 1400-1500 --5
T----
- )s;_ 1 -
)64000
160
n

La distribución t de Student se aproxima a la normal a medida que el tamaño de


la muestra aumenta. En la tabla de la distribución t disponemos de información has­
ta 100 gl. Para valores mayores, las puntuaciones t y Z son prácticamente idénticas
por lo que buscaríamos tanto el valor crítico como el nivel crítico p en la distribución
normal tipificada de puntuaciones Z. (Ver el ejemplo de la situación 1).
CONCLUSIÓN: Al estadístico, Z = -5, le corresponde un nivel crítico p < 0,0002
por lo que se rechazaría la H a . Por otra parte, el estadístico Z = -5, supera los valores
críticos correspondientes tanto a un nivel de confianza del 95% como del 99% que
nos lleva a la misma conclusión.

41

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Figura 17:: Representación del nivel crítico p en una distribución t con


159 gl para el estadístico t = -5.

INTERPRETACIÓN: Con un nivel de confianza mayor del 99,98% se confirma que


el sueldo medio de las mujeres en el trabajo Tes significativamente menor de 1.500
euros, (T = -5; p < 0,0002) que es el que corresponde a la población de hombres
para el mismo trabajo.

SITUACIÓN 12. Una preocupación creciente de los empresarios es el tiempo


que los empleados dedican a actividades como navegar por Internet o enviar e-mai­
ls a los amigos durante las horas de trabajo. Para disponer de esta información,
selecciona una muestra aleatoria de 26 empleados, observando que el promedio
de tiempo dedicado a estas actividades durante una jornada laboral semanal fue de
126 minutos y una desviación típica de 15 minutos. Asumiendo que esta variable
se distribuye normalmente en la población y con un nivel de confianza 95% desea
conocer el intervalo de confianza del tiempo medio que dedican los empleados
a estas actividades. Además desea comprobar si la cantidad promedio de tiempo
perdido por sus empleados durante una jornada semanal de 40 horas es mayor de
120 minutos que es el valor obtenido el año anterior.

SOLUCIÓN:
El intervalo se obtiene sumando y restando a la media de la muestra el error
máximo de estimación:

IC=Y±Emax

42

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

El error máximo de estimación se obtiene bien a partir de la cuasi-desviación


típica de la muestra, Sn - l, o de la desviación típica, Sn:

-s n - 1 =t sn
Emax =t a- =t n-1·1-ª e n-1,. 0 , 975 --ü r--;-
n-l·l_ a/ y
, /2 ,� 2 .....;n .....;n-11

Como conocemos la desviación típica de la muestra, utilizamos la segunda ex­


presión para obtener el error máximo de estimación:

15
sn =2,060 r.:::;:::--:;
Emax =t 1·1 a/CT-y =tn-1·0 975 e---;; =6,18
n-, - 12 ' ' .....;n-l .....;26-1

El intervalo de confianza con un nivel de confianza del 95% es:

- 1 32,18
IC=Y±Emax =126±6,18 � {
119, 8 2

Que indica que el tiempo medio que los empleados dedican a otras actividades
es un valor comprendido entre 119,82 y 132,18 minutos de su jornada laboral se­
manal con un nivel de confianza del 95%.

2,060
Linf = 119,82 --------- Lsup = 132,18

Figura 18: Representación gráfica del intervalo de confianza de la media.

Para el contraste de hipótesis seguiremos los siguientes pasos:


CONDICIONES Y SUPUESTOS: El investigador diseña una investigación en la que
utiliza una muestra pequeña (n < 30). La variable de estudio «tiempo» dedicado a
otras actividades es de naturaleza cuantitativa y medida con escala de razón. Aun­
que la muestra es pequeña se aplicará un contraste paramétrico ya que variable se
distribuye normalmente en la población lo que asegura que la distribución muestra!
de la media sea una distribución t de Student.
43

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

HIPÓTESIS: Se formula un contraste unilateral en la que el investigador quiere


comprobar que el tiempo medio de dedicado a otras actividades es mayor de 120
minutos.

H1 : µ > 120

ESTADÍSTICO DE CONTRASTE: Aunque la muestra es pequeña, la distribución


muestra! de la media es la distribución t de Student porque proviene de una pobla­
ción con distribución normal.

Y - µ 0 126-120 =-=
T=--= 6 2
sn 15 3
�n-1 �26-1

CONCLUSIÓN: Con un nivel de confianza del 95% en un contraste unilateral dere­


cho, el valor crítico (l, 708} hay que buscarlo en la distribución t de Student con gra­
dos de libertad. Como el estadístico de contraste supera esta máxima diferencia que
cabe esperar por simple azar, rechazamos la H0 con un nivel de confianza del 95%.

0,05
0,025

0,025 < p < 0,05

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1,708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771

Tabla 10: Reproducción parcial de la tabla de la distribución t y representación del valor crítico y el
nivel crítico p para el estadístico de contraste T = 2.

44

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

Por otra parte, el estadístico de contraste T = 2 se encuentra entre los valores


1,708 y 2,060 que dejan por encima probabilidades de 0,05 y 0,025, respectivamen­
te. Por tanto, el valor crítico asociado al estadístico de contraste T = 2 es p < 0,05
pero p > 0,025. De forma que no podríamos rechazar la Ho con un nivel de confianza
del 99%
INTERPRETACIÓN. El investigador ha podido comprobar que, con un nivel de
confianza del 95% el tiempo que dedican los empleados a actividades como nave­
gar por internet o enviar e-mail privados es superior a los 120 minutos durante una
jornada laboral semanal. Además el tiempo medio que dedican los empleados a
esta actividad es un valor comprendido entre 119,82 y 132,18 minutos a la semana.

SITUACIÓN 13. Chaves y Noguera (2008) estudiaron la inserción laboral de


los titulados en Psicología de cinco promociones consecutivas (desde 2002 hasta
2006). Entre aquellos sujetos que estaban trabajando 6 meses después de finalizar
sus estudios, el 81% son mujeres, el 31% accedieron al trabajo mediante contactos
personales y el 54% trabajaban a jornada completa. Si el número de titulados que
trabajaban 6 meses después de finalizar sus estudios es igual a 400, determine:
13.1. El intervalo de confianza para la proporción de mujeres tituladas en psico­
logía que estaban trabajando 6 meses después de finalizar sus estudios,
con un nivel de confianza del 99%.
13.2. Con un nivel de confianza del 99%, ¿cuál debería ser el tamaño de la mues­
tra para estimar con un error máximo de estimación del 2% la proporción
de titulados que accedieron al trabajo mediante contactos personales?
13.3. Si sospecha que la proporción de titulados que trabajan a jornada comple­
ta es distinta de los que trabajan a media jornada, ¿cuál sería su conclu­
sión?

SOLUCIÓN:
13.1. A partir de una muestra de 400 titulados en psicología, el intervalo de confian­
za de la proporción de mujeres tituladas en Psicología que estaban trabajando
6 meses después de finalizar sus estudios, es:

L¡ nf =p-Emax =0,81-0,05061=0,759
Ls up =p+Emax =0,81-0,05061=0,861

45

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

13.2. Si el error máxima de estimación es del 2% (fmax = 0,02)

1 0, 31 ·(1 -0, 31)


Emax =Z1- a/ �p-( -p) -tO ' 02=2 ' 58
/2 n n

Entonces, despejando el valor den, el tamaño de la muestra debería ser:

2
z� 2 ' 58 2
n=p(l-p)--+= 0,31(1- 0 ,31)-- =3560 titulados
0, 02
2
E

13.3. Para el contraste de hipótesis de que la proporción de titulados que trabajan


a jornada completa es distinta de los que trabajan a media jornada, seguimos
los siguientes pasos:

CONDICIONES Y SUPUESTOS: Se utiliza la información proporcionada por una


muestra. La variable de estudio es la «proporción de titulados que trabajan a jorna­
da completa» que es de naturaleza dicotómica y con distribución binomial que se
aproxima a la normal cuando la muestra es grande (n > 25).
HIPÓTESIS: La hipótesis nula establece que no existen diferencias significativas
entre la proporción de titulados que trabajan a jornada completa respecto a los que
trabajan a media jornada. Si no existen diferencias, entonces estas proporciones
son iguales a 0,50 (50 %).

H0:n= 0 , 50 ;

ESTADÍSTICO DE CONTRASTE: Se utiliza el estadístico Z por aproximación de la


distribución binomial a la normal.

0 , 54- 0 , 50
Z-
- P-n 0 _
=1 ' 6
0 , 50 (1- 0 , 50 )
-

400

REGLA DE DECISIÓN: Los valores críticos para un contraste bilateral con un nivel
de confianza del 95% son -1,96 y +1,96 y con un nivel de confianza del 99% son
-2,58 y +2,5 8. Por otra parte, en la distribución normal la puntuación típica Z = 1,6
deja por debajo una probabilidad de 0,9452 y por encima 1- 0,95 42 = 0,0548, con
lo que el nivel crítico p para un contraste bilateral es 0,05 48 + 0,0548 = 0,1096.
46

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

95%
-1,96 1,96
-2,58 99% 2,58

z 0,01 0,02 0,03 0,04 0,05 0,09

0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,80 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,90 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,20 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,50 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964

Tabla 11: Tabla de la distribución normal para localizar los valores críticos y nivel crítico p para un
estadístico Z = 1,6 en un contraste bilateral y representación gráfica de estos valores.

CONCLUSIÓN: Como el nivel critíco pes mayor que los niveles de significación
del 0,05 y del 0,01, no tenemos evidencia suficiente para rechazar la hipótesis nula.
A la misma conclusión se llegaría comparando el estadístico de contraste con los va­
lores críticos ya que el estadístico de contraste no supera ninguno de esos valores.
INTERPRETACIÓN: No hay evidencia suficiente para afirmar que la proporción de
titulados que trabajan a jornada completa es distinta de los que trabajan a media
jornada.

SITUACIÓN 14. «PIAAC {Programme far lnternational Assessment of Adult


Ski/Is) es un estudio internacional que mide las destrezas cognitivas básicas que per-
47

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

mite a las personas adultas participar en la vida social y económica del siglo XXI
y también las habilidades laborales básicas que exige su puesto de trabajo. En su
último estudio realizado en el año 2013 comparando los resultados de 23 países de
la OCDE muestra que los adultos españoles de entre 16 y 65 obtuvieron en matemá­
ticas el último puesto, con una media de 246 puntos, 23 por debajo de la media de
la OCOE y 22 por debajo de la media de la UE. Entre sus conclusiones destaca que
los jóvenes españoles puntúan mucho más alto que los mayores y están más cerca
de la media de la OCDE y que la tasa de paro de los españoles con competencias
matemáticas en los niveles inferiores es tres veces superior de la que están en los
niveles superiores». Imagine que usted aplica la misma prueba a una muestra re­
presentativa de 121 jóvenes de su localidad con edades comprendidas entre 16 y
34 años obteniendo una media de 252 puntos con una desviación típica insesgada
de 77 puntos, siendo la proporción de jóvenes desempleados del 28,5%. Y estable­
ciendo un nivel de confianza del 95%, desea conocer:
14.1. El intervalo de confianza de la media de la población de los jóvenes espa­
ñoles en competencias matemáticas.
14.2. A partir de los datos de su estudio, y con un nivel de confianza del 95%,
¿entre que valores estimaría la proporción jóvenes desempleados en su
localidad?
14.3. El intervalo de confianza de la varianza de las puntuaciones en competen­
cias matemáticas de la población de jóvenes españoles de su localidad es
14.4. Si hubiéramos querido estimar la varianza poblacional con un error máxi­
mo de estimación que no supere los 200 puntos, ¿cuál debería haber sido,
aproximadamente, el tamaño de la muestra seleccionada?
14.5. Si su interés es comprobar que la media en la prueba de competencias ma­
temáticas de los jóvenes españoles de su localidad es significativamente
inferior que la media general de los adultos de la UE, ¿cuál sería su conclu­
sión?

SOLUCIÓN:
De los datos del enunciado extraemos la siguiente tabla resumen de los datos:

48

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

España OCDE Sus datos


Media 246 269 268 252

Cuasi-desvTipica 77

Tamaño muestra 121

14.1. Nos encontramos ante un diseño de una muestra en la que la variable de es­
tudio: «las competencias matemáticas» es de tipo cuantitativo y medida con
escala de intervalo. Se desconoce la forma de su distribución en la población y
su varianza por lo que la distribución muestra! de la media es la t de Student.
Para obtener el intervalo de confianza de la media de la prueba en la población
de los jóvenes españoles en competencias matemáticas con un nivel de confianza
del 95%, calculamos primero el error máximo de estimación.

sn -l 1,96 �77
=
= = 1,96·7 = 13,72
Emax ti-al 1
12 -vn -v121

Y los límites del intervalo son:

L¡ nf =Y-Emax =252-13,72=238,28
Lsup =Y+ Emax =252+ 13,72=26 5,72

14.2. La proporción es una variable dicotómica con distribución binomial. Como la


muestra es grande esta distribución se aproxima a la normal. Para obtener el
intervalo de confianza de la proporción, calculamos primero el error máximo
de estimación:

O 285(1-0 285)
Emaz =Z1 _5'i�� =1, 96 '
� ' = 1, 96 ·0,041=0,08
121

Y los límites del intervalo son:

L¡ nf =p-Em ax =0,285-0,08=0,205
Ls u p = P + Emax = 0,285 + 0,08=0,36 5

49

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

14.3. La varianza de una variable cuantitativa se distribuye según chi-cuadrado con


n - 1 grados de libertad. Cuando la muestra es grande, como en este caso, la
distribución chi-cuadrado se aproxima a la normal. Para obtener el intervalo de
confianza de la varianza calculamos primero el error máximo de estimación:

2�
fmax =zl_a/5 - = 1, 96 · 772�
- =1494,03
12 n 121

Y el intervalo es:
4434,97
IC=S 2 ±Emax =772 ±1494,03= {
7423,03

14.4. Si queremos estimar la varianza poblacional con un error máximo de estima­


ción que no supere los 200 puntos, el tamaño de la muestra, con un nivel de
confianza del 95%, debería ser:

2
21-�
1 962
n=25 4 --2 =2·774 ·-'--�6752
2
fmax 2002

14.5. Para contrastar su hipótesis de que la media de los jóvenes españoles es signi­
ficativamente inferior que la media general de los adultos de la UE, partimos
de las mismas condiciones ya expuestos en el punto 14.1.

CONDICIONES Y SUPUESTOS: Nos encontramos ante un diseño de una muestra en


la que la variable de estudio: «las competencias matemáticas» es de tipo cuantitativo
y medida con escala de intervalo. Se desconoce la forma de su distribución en la po­
blación y su varianza por lo que la distribución muestra! de la media es la t de Student.
HIPÓTESIS: Se plantea un contraste unilateral con su hipótesis dirigida a encon­
trar diferencias significativas entre el valor teórico formulado como parámetro po­
blacional (268} y el valor obtenido en su investigación:

H1 : µ<268

ESTADÍSTICO DE CONTRASTE: Se aplica el estadístico Tporque se trabaja con una


muestra grande que proviene de una población de la que se desconoce la forma de
la distribución y su varianza.
50

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

REGLA DE DECISIÓN: En una distribución t con 121- 1 = 120 gl, el valor de tes
prácticamente igual al de Z de la distribución N(O;l). Y para un contraste unilateral
izquierdo esta probabilidad el nivel crítico p asociado al estadístico de contraste
obter,ido es p = 0,0113.

1 p = 0,01131
"'-
Z = -2,28

Figura 19: Representación gráfica de la distribución t, el esta­


dístico de contraste y su nivel crítico p.

CONCLUSION: Como esta probabilidad es menor que el nivel de significación


establecido en el 0,05 (nivel de confianza del 95%) rechazamos la H0 .
INTERPRETACIÓN: Con un nivel de confianza del 95%, las competencias mate­
máticas de los jóvenes españoles de su localidad significativamente inferior que la
media general de los adultos de la UE.

SITUACIÓN 15. Uno de los mejores indicadores de la salud psicológica es el au­


to-concepto (Esnaola, Goñi y Madariaga 2008) que hace referencia a la idea u opi­
nión que cada persona tiene de sí misma. En una investigación realizada por Esnaola
y Revuelta (2009) con una muestra jóvenes de entre 12 y 24 años de la Comunidad
Autónoma Cántabra y País Vasco se analiza la relación entre la actividad física y el
auto-concepto. Por sus respuestas a un cuestionario sobre prácticas físico-deporti­
vas el 31% fueron clasificados como inactivos y el resto como activos. En la escala
de auto-concepto físico, la media y desviación típica insesgada de los inactivos fue
de 22,41 y 4,1 respectivamente y en el grupo de activos, de 23,7 y 4,83.
51

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

15.1. Si con un nivel de confianza del 95% el error máximo para estimar la pro­
porción poblacional de jóvenes activos vale 0,0523 ¿Cuál era el tamaño de
la muestra utilizada en el trabajo de Esnaola y Revuelta?:
Suponiendo que el tamaño de la muestra fuera de 132 jóvenes, determine:
15.2. El intervalo de confianza de la varianza poblacional en la escala de au­
to-concepto físico para los jóvenes activos con edades comprendidas entre
12 y 24 años, con un nivel de confianza del 95%.
15.3. Si el investigador quisiera comprobar que la varianza poblacional de la es­
cala de auto-concepto físico para los sujetos inactivos es significativamen­
te distinta de 25 puntos, ¿Cuál sería su conclusión?

SOLUCIÓN:
Partimos de los siguientes datos resumidos proporcionados en el enunciado:

Escala autoconcepto
Media = 23,7
ACTIVOS (69%)
Desv. Tip. lnses = 4,83
Media= 22,41
INACTIVOS (31%)
Desv. Tip. lnses = 4,1

15.1. El tamaño de la muestra necesario con un error máximo de estimación fijado


en 0,0523 es:

0,69·0,31
0,0523 = 1,96

Y despejando el valor den:

2 0,69·0,31
n=l,96 =300,41�300 jovenes
0,05232

15.2. Los jóvenes activos son el 69% de la muestra compuesta por 132 jóvenes. Por
tanto, el grupo de jóvenes activos está formado por n = 0,69 x 132 = 91,08 =
91 jóvenes que obtienen en la escala una desviación típica insesgada de 4,83.
Los límites del intervalo de confianza son:
52

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

(n-1)5;_ 1 (n-1)5;_ 1 (91-1)·4,8i (91-1)·4,832


2 -----� 0 2 � -----
2 �0 � 2
118,1359 65,6466
Xl--;n-l
a. Xa.-;n-l
2 2

La varianza poblacional es un valor comprendido entre: 11,77 � 0 2 � 31,98 con


un nivel de confianza del 95%.

15.3. Para el contraste de esta hipótesis seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: La escala de autoconcepto es una variable medida


con escala de intervalo aplicada a UNA muestra de jóvenes inactivos que provienen
de una población con distribución desconocida. Como la muestra es grande (n > 30)
podemos aplicar un contraste parámetrico.
HIPÓTESIS: En la muestra se obtiene una varianza de 4,12 = 16,81. El investigador
quiere comprobar que la varianza poblacional de la escala de auto-concepto físico
para los sujetos inactivos es significativamente distinta de 25 puntos. Como no se
marca la dirección (mayor o menor) de la diferencia se formula un contraste bilate­
ral con las siguientes hipótesis:

H0: 0 2 =25;

ESTADÍSTICO DE CONTRASTE: Los sujetos activos son 41 que corresponden al


31% de la muestra de 132 jóvenes. Para estos 41 jóvenes inactivos la desviación
típica insesgada en la escala es de 4,1 y el estadístico de contraste es:

2 (n-1)5;_ 1 (41-1)4,12
X = = =26,9
CT� 25

REGLA DE DECISIÓN: La tabla de la distribución chi-cuadrado proporciona pro­


babilidades por debajo de un valor concreto de la distribución chi-cuadrado. En la
tabla de la distribución chi-cuadrado con 40 gl figuran los siguientes valores: 24,433
que deja por debajo una probabilidad de 0,025 y 59,3417 que deja por debajo una
probabilidad de 0,975. Estos dos valores corresponden a los valores críticos de una
distribución chi-cuadrado con 40 gl para un contraste bilateral con un nivel de con­
fianza del 95%.
Con un nivel de confianza del 99% los valores críticos son 20,7 que deja por
debajo una probabilidad de 0,005 y 66,766 que deja por debajo una probabilidad
53

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

de 0,995. Por tanto, ambos valores representan los valores críticos con un nivel de
confianza del 99%.

Probabilidad
g.l.
0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,990

1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382

29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 14,9535 16,7908 18,4927 20,5992 40,2560 43,7730 46,9792 50,8922
40 22,1643 24,4330 26,5093 29,0505 51,8051 55,7585 59,3417 63,6907
50 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517

Tabla 12: Reproducción parcial de la tabla de la distribución chi-cuadrado.

Por otra parte, para una distribución con 40 gl el valor que aparece en la tabla
más próximo al estadístico de contraste obtenido es 26,5093 que deja por debajo
una probabilidad de 0,05. Por tanto, el nivel crítico p para un contraste bilateral es
p > 0,05.
CONCLUSIÓN: Como el estadístico de contraste no supera los valores críticos (ni
por la derecha ni por la izquierda), no hay evidencia suficiente para rechazar la H0
con un nivel de confianza del 95% ni del 99%. A la misma conclusión llegamos al
comparar el nivel crítico p con el nivel de significación.

Figura 20: Representación gráfica de la distribución chi-cuadrado con el


estadístico de contraste y los valores críticos para los niveles de confianza
del 95% y 99%.

54

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

INTERPRETACIÓN: La varianza poblacional de la escala de auto-concepto físico


para los sujetos inactivos no difiere de forma significativa de los 25 puntos, con un
nivel de confianza del 95%.

SITUACIÓN 16 (amor de grillo). El artículo « We/1-Fed crickets bow/ maidens


oven> (Nature Science Update, 1999} informó que los grillos de campo hembras
son atraídos por machos que tienen una frecuencia de canto (chirridos) elevada e
hipotetizaron que la tasa a la que los grillos macho cantan está relacionada con su
estado nutricional. La tasa usual del canto del grillo de campo macho es de 60 chi­
rridos por segundo. Para investigar si la tasa de canto está relacionada con el estado
nutricional, los investigadores alimentaron a grillos machos con una dieta alta en
proteínas durante 8 días, después de lo cual se midió la tasa del canto. Esta tasa de
canto en grillos macho con dieta alta en proteínas fue de 109. El tamaño muestra! y
la desviación típica fueron den = 32 y Sn = 40. Utilice un a= 0,01.

SOLUCIÓN:
Se trata de un estudio con un único grupo de 32 grillos cuya tasa o frecuencia de
canto se mide Antes y Después de implementar una dieta alta en proteínas, aunque
solo nos proporcionan los datos del post-test {109 Hz} indicándonos indirectamente
que la tasa base de grillos no tratados (pre-test) es de 60 Hz. Cada grillo se mide
dos veces: antes de alimentarlo con una dieta alta en proteínas y otra después de
alimentarlo con esta dieta. Luego la tasa de canto de todos y cada uno de los grillos
se ha medido dos veces. Esto significa que las puntuaciones de antes y de después
están relacionadas. Es un diseño de dos grupos con medidas dependientes (diseño
pre-post). No obstante, no podemos utilizar el contraste de dos muestras relaciona­
das para la media porque no se proporcionan los datos suficientes (no tenemos la
media de las diferencias y su varianza). Pero podemos observar que tenemos datos
suficientes para realizar un contraste de una media con varianza poblacional desco­
nocida asumiendo como hipótesis nula que la media es 60 Hz.
Los datos de que disponemos en el enunciado son:
• Tratamiento: dieta alta en proteínas durante 8 días.
• Número de grillos= 32; Desviación típica muestra! pos-tratamiento= Sn = 40.
Tasa de canto después del tratamiento 109 chirridos por segundo (es decir,
109 Hz}.
• Tasa usual de canto = 60. Podemos considerar que esta es la tasa de canto
previa al tratamiento. Es decir, observamos que el estudio nos indica que se
55

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

ha pasado de 60 Hz (línea base supuesta a priori) a 109 Hz por efecto del


tratamiento. ¿Será significativo este cambio debido al tratamiento o puede
considerarse un efecto del azar?
• Variable dependiente: chirridos por segundo (Hz). Debido a que esta variable
admite un valor de O como ausencia absoluta de canto (silencio}, es una va­
riable de razón.
CONDICIONES Y SUPUESTOS:
• La variable dependiente se encuentra medida en una escala de razón.
• No nos indican en el enunciado que la distribución de la variable dependiente
sea normal en la población pero se cumple el supuesto de que n > 30.
• No conocemos la varianza poblacional.
HIPÓTESIS: Debemos plantear una hipótesis unilateral derecha ya que no resulta
lógico en el marco del estudio plantear que incrementar el suplementos de proteí­
nas pueda disminuir la tasa de canto.

H0 :µ�60
H1 :µ>60

ESTADÍSTICO DE CONTRASTE: Aplicaremos la prueba t de Student.

µ 109-60 =�=
T = Y- 0 = 6 82
sn 40 7,18 '
-Jn-1 -)32-1

REGLA DE DECISIÓN: Al ser un-contraste unilateral derecho, solo existe un valor


crítico. Debemos buscar en la Tabla de la T con 32 -1 = 31 grados de libertad al 99%
de confianza. Utilizamos 30 grados de libertad porque es el más cercano a 31. El
valor obtenido es t = 2,457.

56

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 1 y 2 •

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31, 21 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6, 65 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2, 67 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2, 62 2,756
30 9,liD 9,256 9,389 9,539 9,683 9,851 1,955 1,319 1,697 2,912�� 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
70 0,126 0,254 0,387 0,527 0,678 0,847 1,044 1,294 1,667 1,994 2,381 2,648
80 0,126 0,254 0,387 0,526 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639

CONCLUSIÓN: Como el estadístico de contraste obtenido (T= 6,82) es mayor que


el valor crítico (t = 2,457), es decir, 6,82 se encuentra en la región de rechazo de Ha .
Por consiguiente, rechazamos Ha .
1 NTERPRETACIÓN: Debemos concluir que el tratamiento alimentario ha sido
efectivo en el incremento de la frecuencia del chirrido de los grillos macho (T =
6,82; p < 0,005).

57

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios


de los capítulos 3 y 4

SITUACIÓN l. Un investigador pretende comprobar si los trabajadores que lle­


van menos de cinco años en una empresa concreta (Grupo 1) poseen mayores as­
piraciones profesionales que las personas que llevan cinco o más años (Grupo 2).
Para ello se entrevista a 32 personas que llevan menos de cinco años y a otras 32
personas que llevan cinco o más años, todas ellas elegidas al azar. Los resultados
mostraron que dentro del primer grupo se identificó a 18 personas con altas aspira­
ciones, mientras que en el segundo grupo se identificaron a 14 personas con altas
aspiraciones. Nivel de confianza 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos
muestras independientes seleccionadas al azar. La variable independiente es el
tiempo que unos profesionales llevan trabajando y que toma dos valores: menos de
cinco años trabajando-en la empresa y cinco o más años trabajando en la empresa.
La variable dependiente es el nivel de aspiraciones profesionales que toma también
dos valores: alto o bajo, por lo que se hará un análisis de diferencias de proporcio­
nes para dos muestras independientes.
HIPÓTESIS: El investigador quiere comprobar si los profesionales que llevan me­
nos de cinco años en una empresa (Grupo 1) poseen mayores aspiraciones que las
personas que llevan cinco o más años (Grupo 2). Como el investigador está mar­
cando la dirección de la diferencia (el grupo 1 tiene mayores aspiraciones que el
grupo 2) formula un contraste unilateral derecho con las siguientes hipótesis nula
y alternativa:

61

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Ho : n1 :s; n2
H1 : TC1 > TC2

O bien:

H o : TC1 -TC2 :S 0
H1 : TC1 - TC2 > 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro­


porciones de dos muestras independientes es una distribución binomial. Como las
muestras son grandes, la distribución binomial se aproxima a la normal y el estadís­
tico de contraste es una puntuación Z.

siendo p = _n1_P_1 _+_n_2_P_2


n1 +n2

Primero calculamos P

18 14
32-+32-
p = 32 32 = 18 + 14 =o 5
32+32 32+32 '

Finalmente:

18 14
===3=2=3=2==== 0,5625-0,4375 =
--,= 1
1 1 0,125
o,50(1-0,50) ( -+- J
32 32

REGLA DE DECISIÓN: En la tabla de la distribución normal tipificada de puntua­


ciones Z buscamos el valor crítico para un nivel de confianza del 95% para un con­
traste unilateral derecho y es 1,64.
CONCLUSIÓN: Como el estadístico de contraste (Z = 1) no alcanza la máxima
diferencia que cabe esperar por simple azar (el valor crítico 1,64 para un nivel de
confianza del 95%), concluimos que no hay evidencia suficiente para rechazar la
hipótesis nula.
62

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

Por otra parte, la puntuación Z = 1 deja por encima de sí una probabilidad de


0,1587 (el nivel crítico p) que es mayor que el nivel de significación «alfa» de 0,05
correspondiente al nivel de confianza del 95% establecido por el investigador (o lo
que es lo mismo( el área correspondiente al valor crítico 1,64). Por tanto, no hay
evidencias suficientes para rechazar la hipótesis nula.

0,8413 1 p = 0, 1587 1

Z=l
1,64

INTERPRETACIÓN: Con un nivel de confianza del 95% no se puede afirmar que


existan diferencias significativas entre los dos grupos de trabajadores. En otras pa­
labras, no existen diferencias significativas en las aspiraciones profesionales de los
que llevan trabajando menos de cinco años y aquellos que lo llevan haciendo cinco
o más años (Z = 1; p = 0,1587).

SITUACIÓN 2. En un estudio cuyo objeto es evaluar el efecto de la música clási­


ca sobre la capacidad de concentración, disponemos de 62 sujetos con los que for­
mamos de manera aleatoria dos grupos de 31 sujetos cada uno. Al primero de ellos
(Grupo 1) se le sometió a una prueba de concentración escuchando música clásica
y al segundo (Grupo 2) se le sometió a la misma prueba en condiciones normales
de silencio. La puntuación media en una prueba de atención sostenida para el Gru­
po 1 fue de 86 puntos, con una cuasivarianza igual a 150. El Grupo 2 obtuvo una
media aritmética igual a 80 puntos en esa misma prueba y una cuasivarianza igual a
129. Sabiendo que la variable dependiente está medida en una escala de intervalo
y asumiendo varianzas poblacionales iguales y con un nivel de confianza del 95%,
responda a las siguientes preguntas:

2.1. ¿Podemos afirmar que la media en concentración es superior para el grupo


que escuchó música clásica en relación al grupo que no escuchó nada?
63

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

2.2. ¿Cuánto vale el tamaño del efecto?

2.1. Para la primera pregunta seguiremos los siguientes pasos:


SOLUCIÓN:

CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos


muestras independientes de igual tamaño (n 1 = n2 = 31 sujetos) seleccionadas al azar.
La variable independiente es la condición bajo las que se realiza la prueba de concen­
tración: condición de silencio o escuchando música clásica. La variable dependiente
es la capacidad de concentración, que es una variable de tipo cuantitativo medida
con escala de intervalo. Se asume que las varianzas poblacionales son iguales.
HIPÓTESIS: El investigador quiere comprobar si la media en concentración es
superior para el grupo que escuchó música clásica respecto a la condición de silen­
cio. Como el investigador está marcando la dirección de la diferencia formula un
contraste unilateral derecho con las siguientes hipótesis nula y alternativa:

Ha: µ 1 :::; µ2
H 1 : µ 1 > µ2

O bien:

H a : µ 1 -µ2 :::; O
H 1 : µ 1 -µ2 > O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


para dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero supuestas iguales es la distribución t de Student con n 1 + n 2 - 2
gl y el estadístico de contraste es:

(Yi -y2) -(µ 1 -µ2) (86-80)-0


�J
- -

"2 "2 30 · 150 +30 · 129 �


(n1 -1)51 +(n2 -1)52
T=--;==================
( +
-;:::===============2

+ 31+31-2 31 31
n 1 + n2 -2 n1 �J
(� n2

REGLA DE DECISIÓN: En la tabla de la distribución t con n 1 + n2 - 2 = 31 + 31 =


60 gl buscamos el valor crítico para un nivel de confianza del 95% en un contraste
unilateral derecho y es 1,671. Por otra parte, al valor del estadístico t = 2 con 60 gl
le corresponde un nivel crítico de p = 0,025.
64

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

1,671 2,39
Ir= 21

CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste (T


= 2) supera el valor crítico 1,671 por lo que la diferencia entre las medias de los dos
grupos es significativa con un nivel de confianza del 95%. Con un nivel de confianza
del 99%, la diferencia entre las dos medias no es significativa ya que el estadístico
de contraste (T = 2) no supera el valor crítico, que en este caso sería de 2,39. A la
misma conclusión se llegaría interpretando el nivel crítico p = 0,025 que es mayor
que el nivel de significación «alfa» de 0,01 pero menor que 0,05.
INTERPRETACIÓN: Con un nivel de confianza del 95%, la capacidad de concen­
tración cuando se está escuchando música clásica es significativamente mayor que
bajo la condición de silencio (t = 2; p = 0,025).

2.2. EL TAMAÑO DEL EFECTO se cuantifica con el índice d de Cohen y su valor es:

IY1 -Y2I 186- 801


d = --;:::======== ----;::::====== = O, 508
"2 "2 30 · 150 + 30 · 129
(n1 -1)51 +(n2 -1)52
31+31-2
n1 +n2 -2

El valor de la d de Cohen señala que la distancia de la media 86 del grupo 1


que hace la prueba escuchando música a la media 80 del grupo 2, en condición de
silencio, expresada en unidades de puntuación típica Z, es, en valor absoluto, de
0,508. Si buscamos en la Tabla la Z = 0,51 (obsérvese que es una aproximación de
dos decimales al valor 0,508) obtendremos que deja por debajo una proporción de
0,6950, lo que indica por encima deja una proporción de un 1 - 0,6950 = 0,305, es
decir, que la media del nivel de concentración del grupo que escucha música supera
en un 69,5% a la media del grupo que se concentra en condición de silencio.
65

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Media bajo la 80 86 Media bajo la


condición de condición de
silencio Z = 0,51 música

SITUACIÓN 3. En una tarea sobre decisión léxica (indicar lo más rápidamente


posible si la palabra presentada es realmente una palabra o una pseudo-palabra)
con estímulos presentados en la modalidad visual y en la que se miden tiempos de
reacción, un investigador dispone de una muestra aleatoria de 26 sujetos. Utiliza
dos grupos de palabras y parte de la hipótesis de que los tiempos de reacción serán
más cortos ante palabras de alta frecuencia léxica (aquellas que utilizamos más fre­
cuentemente en el lenguaje, Grupo 1) que ante palabras de baja frecuencia léxica
(Grupo 2). Tras realizar el experimento observa que el tiempo de reacción medio
para el Grupo 1 fue igual a 612,04 ms, mientras que para el Grupo 2 fue igual a 645
ms, siendo la cuasivarianza de las diferencias igual a 6656 ms 2 .

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para ana­
lizar si el tiempo de reacción (la variable dependiente) es mayor cuando las pala­
bras son de alta frecuencia léxica que cuando son de baja frecuencia (la variable
independiente). Utiliza un diseño de medidas repetidas (o muestra relacionadas)
en la que la misma muestra de sujetos pasa por las dos condiciones experimentales
definidas por las dos condiciones que toma la variable independiente: palabras con
alta y baja frecuencia léxica. La variable dependiente, el tiempo de reacción, es una
variable medida con escala de razón de la que se desconoce su distribución pobla­
cional y su varianza. Para poder aplicar un contraste paramétrico debemos asumir
que la forma de la distribución poblacional, aunque desconocida, no se separa en
exceso de la normalidad por lo que la distribución muestra! de la diferencia de me­
dias es una distribución t de Student.
HIPÓTESIS: El investigador quiere comprobar que el tiempo de reacción es más
corto ante palabras de alta frecuencia léxica que ante palabras de baja frecuencia
66

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

léxica. Como el investigador está marcando la dirección de la diferencia de medias,


formula un contraste unilateral izquierdo con las siguientes hipótesis nula y alter­
nativa:

Ha : µ 1 �µ 2
H1 : µ 1 < µ 2

O bien:

Ha :µ 1 -µ 2 �o
H 1 :µ 1 -µ 2 < O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


para dos muestras relacionadas con varianza poblacional desconocida es la distri­
bución t de Student y el estadístico de contraste es:

y
( 1 - y 2 )- (µ 1 -µ 2 ) ( 612,04- 645)-o
T= � =-2,06
6
d
6
n

REGLA DE DECISIÓN: El investigador no ha establecido el nivel de confianza, por


lo que en la tabla de la distribución t con n - 1 gl = 26 - 1 = 25 gl buscamos el valor
crítico para un nivel de confianza del 95% o del 99% para un contraste unilateral
izquierdo y son:-1,708 y-2,485 respectivamente. Por otra parte, al valor del esta­
dístico T =- 2,06 con 25 gl le corresponde un valor crítico comprendido entre 0,01
y 0,05 y muy próximo a 0,025.
CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste (t
= -2,06} supera el valor crítico -1,708 pero no supera el valor crítico -2,485 por lo
que la diferencia entre las medias de los dos grupos es significativa con un nivel de
confianza del 95% pero no con un nivel de confianza del 99%. A la misma conclusión
se llegaría interpretando el nivel crítico p = 0,025 que es mayor que el nivel de sig­
nificación «alfa» de 0,01 pero menor que 0,05.
INTERPRETACIÓN: El tiempo de reacción ante palabras léxicas de alta frecuencia
es significativamente menor que ante palabras de baja frecuencia (T = -2,06; p =
0,025} con un nivel de confianza del 95%.

67

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SITUACIÓN 4. Para comparar la eficacia de dos terapias («A» y «B») utilizadas


para tratar el trastorno de personalidad «X», se toma una muestra aleatoria de 400
personas que sufren el trastorno «X», formándose dos grupos al azar de 200 perso­
nas cada uno. Al primer grupo se le aplica la terapia «A», siendo 172 personas las
que se recuperan, mientras que al aplicar la terapia «B» se recuperan 148 personas.
Con un nivel de confianza del 95%, ¿son las dos terapias igualmente eficaces?.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com­
parar la eficacia de dos terapias. Utiliza un diseño de dos grupos independientes
seleccionados al azar. La variable independiente es el tipo de terapia, A o B y la
variable dependiente es la recuperación que es una variable dicotómica {Si/No) con
distribución binomial. Realizará un contraste de diferencias de proporciones con
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si las dos terapias tienen la misma
eficacia, es decir, la misma proporción de recuperaciones. Como el investigador no
está marcando la dirección de la diferencia, formula un contraste bilateral con las
siguientes hipótesis nula y alternativa:

Ho:nA =
na
H1: nA * na
O bien:

Ha : nA - na = O
H1 : nA -na =1:- O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro­


porciones para dos muestras independientes utilizando muestras grandes es la dis­
tribución normal y el estadístico de contraste es:

68

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

Calculamos en primer las proporciones pA' P a y P.

PA =-=0, 8 6, =0, 80
172 148 172+148
200 200 400
Pa = - = 0,74, P=

El estadístico de contraste es:

Z= ' =6 =-=º'7
(PA - Pa)-(nA -na)=--;:=(= 0=8 = =4)=-= º==3
1 1
P(l-P)(�+ 2_ J 0, 8 ·0, 2 ·(- -+- -)
200 2 00
nA n a

REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos los valores


críticos para un contraste bilateral con un nivel de confianza del 95 y son: -1,96 y
+ 1,96. Como el estadístico de contraste obtenido, Z = 3, se encuentra fuera de estos
valores críticos, rechazamos la H 0 con un nivel de confianza del 95%

Z = -1,96 Z = +l,96

Por otra parte, al valor del estadístico Z = 3 le corresponde un nivel crítico p =


0,0013. Como el contraste es bilateral, el nivel crítico pes 0,0013 + 0,0013 = 0,00 2 6,
menor que 0,01, por lo que la diferencia encontrada es significativa.

69

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

BLOQUE 11

Análisis de datos en los diseños


de dos muestras independientes
o relacionadas

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Z=-3 Z=3

INTERPRETACIÓN: El investigador tiene evidencia suficiente para concluir que las


dos terapias proporcionan resultados distintos en cuanto a su proporción de recu­
peraciones {Z = 3; p = 0,0026).

SITUACIÓN S. En una tarea de reconocimiento de palabras, un investigador


mantiene la hipótesis de que los estudiantes de carreras de «letras» tardarán me­
nos que los estudiantes de «ciencias» en reconocer los estímulos presentados. Tras
seleccionar dos muestras aleatorias de 31 observaciones cada una, y registrar el
tiempo de reacción, obtiene una media aritmética igual a 653,2 ms para el grupo
de estudiantes de ciencias {Grupo 1) y de 600 ms para el grupo de estudiantes de
letras {Grupo 2), siendo la cuasivarianza igual en ambas muestras, con un valor de
6200 ms2. Contraste la hipótesis del investigador con un nivel de confianza del 95%
y calcule el tamaño del efecto.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos
muestras independientes de igual tamaño {sujetos) seleccionadas al azar. La varia­
ble independiente es el tipo de estudios, con dos valores «ciencias» o «letras» y la
variable dependiente es el tiempo de reacción en el reconocimiento de palabras,
que es una variable medida en una escala de razón. El análisis de datos que aplicará
es un contraste de hipótesis sobre diferencia de medias entre dos muestras inde­
pendientes, con varianzas poblacionales desconocidas pero iguales.
HIPÓTESIS: El investigador quiere comprobar que los estudiantes de carreras de
«letras» tardarán menos que los estudiantes de «ciencias» en reconocer los estí­
mulos presentados, es decir, su hipótesis es que el tiempo de reacción es menor
para los estudiantes de letras que para los de ciencias. Como el investigador está
70

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

marcando la dirección de la diferencia, formula un contraste unilateral derecho con


las siguientes hipótesis nula y alternativa:

Ha:µce�µLL
H1:µce> µLL

O bien:

Ha:µcc-µLL�o
H1:µce -µLL> O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


para dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero supuestas iguales es la distribución t de Student con n 1 + n2 - 2
gl y el estadístico de contraste es:

(Ycc -YLL)-(µce -µu)


T=-;===============
"' 2 "' 2
(ncc -1)51+(nu-1)5 2 -1-+_!_
( J
ncc+nu -2 ncc nu
(653,2-600)-0
30 · 6200 +30 · 6200 . +
31+31-2 31 31
=2 66
(_!_ _!_J
REGLA DE DECISIÓN: En la tabla de la distribución t con n 1 + n2- 2 gl = 31 + 31- 2
= 60 gl buscamos el valor crítico para un nivel de confianza del 95% de un contraste
unilateral derecho y es 1,671. Por otra parte, al estadístico de contraste t = 2,66 le
corresponde un nivel crítico p = 0,005.
CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste
(T = 2,66) supera el valor crítico por lo que la diferencia entre las medias de los dos
grupos es significativa con un nivel de confianza del 95%. A la misma conclusión se
llegaría interpretando el nivel crítico p = 0,005 que es menor que el nivel de signifi­
cación «alfa» de 0,05 establecido a priori por el investigador.
INTERPRETACIÓN: Los estudiantes de carreras de «letras» tardan menos tiempo
que los estudiantes de «ciencias» en tareas de reconocimiento de palabras (T =
2,66; p = 0,005).

71

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

TAMAÑO DEL EFECTO: se cuantifica con el índice d de Cohen y su valor es:

1653, 2-600¡
d=----;:::====== = 0,6756
30 · 6200 + 30 · 6200
31+31-2

El valor de la «d» de Cohen señala que la distancia de la media 653,2 del gru­
po de Ciencias a la media 600 del grupo de Letras es, expresada en unidades de
puntuación típica Z y en valor absoluto, de 0,6756. Si buscamos en la Tabla la Z =
0,67 obtendremos que deja por debajo una proporción de O,7486, lo que indica por
encima deja una proporción de un 1 - 0,748 = 0,2514, es decir, que hay un 74,86%
de estudiantes de Ciencias con un tiempo de reacción superior a la media de lo que
tardan los estudiantes de letras. O de otra forma, un 25,14% de estudiantes de Cien­
cias tienen un tiempo de reacción inferior a la media de los estudiantes de Ciencias.

Tiempo medio de 600 653,2 Tiempo medio de


reacción de los reacción de los
estudiantes de Letras d = 0,67 estudiantes de Ciencias

SITUACIÓN 6. En un estudio piloto para un nuevo tratamiento contra el SIDA


(Thompson, 1991}, se midieron diversas variables en 27 pacientes con SIDA. Entre
las variables medidas se incluyó el número de células T-4 -
sanguíneas -al inicio del tra-
tamiento y 90 días más tarde. Los resultados fueron: Yo días = 324; Ygo días = 334,4.
Por estudios anteriores se sabe que la varianza poblacional de las diferencias en el
contaje de células T-4 vale 150. El investigador fija un nivel de confianza del 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para eva­
luar el efecto del tratamiento (la variable independiente) sobre el número de célu­
las T-4 sanguíneas (la variable dependiente) medida en la misma muestra de sujetos
72

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

pero en dos momentos distintos: al inicio del tratamiento y 90 días después. La


variable dependiente es de tipo cuantitativo medida mediante una escala de razón.
Se trata, por tanto, de un diseño de dos muestras relacionadas para comparar sus
medias y se conoce, por investigaciones previas, la varianza poblacional de las dife­
rencias. En estas condiciones la distribución muestra! de la diferencia de medias es
una distribución normal.
HIPÓTESIS: El investigador quiere comprobar cómo afecta el tratamiento al nú­
mero de células T-4 sanguíneas pero sin marcar el sentido de su influencia por lo
que formula un contraste bilateral con las siguientes hipótesis nula y alternativa:

Ho: µo= µgo


H1: µo* µgo

O bien:

Ho: µo - µgo= O
H1: µo - µgo * O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


para dos muestras relacionadas con varianza poblacional conocida es la distribución
normal y el estadístico de contraste es:

REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos los valores


críticos para un nivel de confianza del 95% que son -1,96 y +1,96. Por otra parte,
el valor más extremo que podemos encontrar en la tabla de la distribución normal
tipificada es 3,59 que deja por encima una probabilidad de 0,0002. Esto significa que
no podemos conocer la probabilidad para una Z de -4,41. No obstante, a efectos del
contraste, no se resentirá si utilizamos el nivel crítico de la Z = 3,59 como sustituto del
nivel crítico de la Z = -4,41. Como se trata de un contraste bilateral, el nivel crítico, p,
correspondiente al estadístico de contraste T = 4,41 (utilizando la aproximación indi­
cada) será menor de 0,0002 + 0,0002 = 0,0004. Por tanto, el nivel crítico es p < 0,0004.
CONCLUSIÓN: Con un nivel de confianza del 95%, estadístico de contraste (Z =
-4,41) es más extremo que los valores críticos, que representan la máxima diferen­
cia que cabe esperar por simple azar. Por tanto, hay evidencia suficiente para recha-
73

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

zar la H0. A la misma conclusión se llegaría interpretando el nivel crítico p < 0,0004
que es menor que el nivel de significación «alfa» de 0,01 establecido previamente
por el investigador.

INTERPRETACIÓN: La nueva terapia del tratamiento del SIDA produce una varia­
ción significativa (Z = -4,41: p < 0,0004) en el aumento de células T-4 sanguíneas.

SITUACIÓN 7. Un psicólogo sospecha que los alumnos de cuarto de grado (Gru­


po 1) presentan una media superior y más variabilidad en la variable «Autoestima»
que los alumnos de primer curso de grado (Grupo 2). Para comprobar estas hipóte­
sis selecciona dos muestras aleatorias de igual tamaño (n 1 = n 2 = 31} a las que aplica
- "2
un test de autoestima. Los resultados fueron: Y1 = 22,16, 51 = 76,42 para el Grupo
- "2
1 y h = 20, 07, 52 = 47, 58 para el Grupo 2. Asumiendo un nivel de confianza del
95% ponga a prueba las hipótesis del investigador.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com­
parar los niveles de autoestima y su variabilidad en dos grupos distintos de alum­
nos. La variable dependiente, la autoestima, es de tipo cuantitativo medida en una
escala de intervalo de la que se desconoce la forma de su distribución poblacional
y su varianzas. Se trata, por tanto, de un diseño de dos muestras independientes
y hay que realizar dos contrastes de hipótesis: uno para las varianzas y el segundo
para las medias.
74

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

HIPÓTESIS: El investigador quiere comprobar si el nivel de autoestima de los es­


tudiantes del Grupo 1 es mayor que la del Grupo 2, para lo que plantea un contraste
de hipótesis unilateral de diferencias de medias para dos muestras independien­
tes. Previamente debe comprobar si las muestras provienen de poblaciones con
la misma varianza. Se plantea la hipótesis sobre la variabilidad de manera previa a
la hipótesis de la media porque esto nos permitirá tener información sobre un su­
puesto (igualdad de las varianzas poblacionales) necesario para realizar el contraste
de la media. La hipótesis del investigador es que la varianza de los estudiantes del
Grupo 1 es superior a la del Grupo dos, para lo que formula un contraste unilateral
derecho con las siguientes hipótesis

O bien:

ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos


varianzas es una distribución F de Snedecor y el estadístico de contraste es:

,,...2
6,42
F= 5G1 =7 =l 606
"2 47' 58 '
SG2

REGLA DE DECISIÓN: En la tabla de la distribución F con los grados de libertad del


numerador (n - 1 = 31- 1 = 30) y los del denominador O buscamos el valor crítico
con un nivel de confianza del 95% en un contraste unilateral derecho y es 1,841. De
la misma forma, y consultado las tablas de la F, observamos que con 30 grados de
libertad en el numerador y 30 grados de libertad en el denominador, el valor de F
= 1,606 deja por debajo de sí un área de 0,90. Luego el nivel crítico asociado a este
estadístico de contraste es 1- 0,90 = 0,10.

75

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

F = 1,606 1,841

CONCLUSIÓN: Como el estadístico de contraste no supera el valor crítico (1,841)


no hay evidencias suficientes para rechazar la hipótesis nula de igualdad de varian­
zas.
INTERPRETACIÓN: No hay diferencias en la variabilidad del nivel de autoestima
entre estos dos grupos de estudiantes (F30; 30 = 1,606; p = 0,10).
En estas condiciones el contraste sobre la diferencia de medias se realiza asu­
miendo que las dos muestras provienen de poblaciones con las mismas varianzas:
HIPÓTESIS: El investigador quiere comprobar si el nivel de autoestima del Grupo
1 es mayor que la del Grupo 2 por lo que formula un contraste unilateral con las
siguientes hipótesis nula y alternativa:

Ha : µG l � µG 2
H1 : µ G l > µ G 2

O bien:

Ha : µ G l - µG2 � O
H1 : µ G l - µ G 2 > 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


entre dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero iguales (contrastado en el punto anterior) es la distribución t de
Student con n 1 + n 2 - 2 gl:

76

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

( 22,16-20, 0 1)-0
---;:::============ = 1, 045
30 · 76, 42+30 · 4 7, 58 � �
( + )
3 1+ 31- 2 31 31

REGLA DE DECISIÓN: En la tabla de la distribución t de Student y con n 1 + n 2 - 2


gl = 31 + 31 - 2 = 60 gl buscamos el valor crítico con un nivel de confianza del 95 %
en un contraste unilateral derecho y es 1,671. Por otra parte, en la distribución t con
60 gl, el estadístico de contraste T= 1,045 deja por debajo una probabilidad de 0,85
por lo que su nivel crítico es p = 0,15 .
CONCLUSIÓN: Como el estadístico de contraste (1,045} no supera el valor crítico
(1,671} no hay evidencias suficientes para rechazar la hipótesis nula de igualdad de
igualdad de medias. A la misma conclusión se llega comparando el nivel crítico p =
0,15 con el nivel de significación a= 0,05.

INTERPRETACIÓN: No existen diferencias significativas (T= 1,405 ; p = 0,15} entre


las medias del nivel de autoestima de los estudiantes de primer curso y cuarto curso
de grado.
TAMAÑO DEL EFECTO: El índice d de Cohen es un índice del tamaño del efecto
y su valor es:

IY1 -Y2I ¡22, 16-20 , 0 71


d = ----;:::======== ---;:::=========0, 2654
A2 A2 30 · 76, 42 + 30 · 4 7, 58
(n 1 -1)51 +(n2 -1)52
3 1+ 3 1-2
n1 +n2 -2

El valor de la «d» de Cohen señala que la diferencia entre las medias 22,16
y 20,0 7 expresada en unidades de puntuación típica Z, es, en valor absoluto, de
0 ,2 654 . Si buscamos en la Tabla la Z = 0 ,26 obtendremos que deja por debajo una
proporción de 0,6026, lo que indica un 1 - 0,6026 = 0,3974, es decir, que el nivel
60,26% de los sujetos del grupo 1 tienen un nivel de autoestima superior a la media
del grupo 2. O también que el 3 9, 74 % de los sujetos del grupo 1 tienen un nivel de
autoestima por debajo de la media del grupo 2 .

77

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Media del G2 20,07 22,16 Media del Gl

d = 0,26 Diferencia en unidades Z

SITUACIÓN B. El equipo docente de una determinada asignatura quiere com­


probar la eficacia de un material docente nuevo respecto al utilizado en convocato­
rias anteriores. Selecciona una muestra aleatoria de 64 alumnos, con los que forma
dos grupos de igual tamaño también al azar. A los sujetos del Grupo 1 les proporcio­
na el nuevo material, mientras que los del Grupo 2 trabajan con el material antiguo.
El equipo docente tiene la hipótesis de que con el nuevo material las notas serán
más elevadas. Tras el examen de fin de curso los alumnos del Grupo 1 obtienen una
nota media igual a 7, con una cuasivarianza igual a 15, mientras que para el Grupo
2 la media es igual a 5,2 y la cuasivarianza igual a 17. Con un nivel de confianza del
95%, responda a las siguientes preguntas:
8.1. Contraste la hipótesis del investigador y determine el tamaño del efecto.
8.2. Calcule el intervalo de confianza de la diferencia de medias, interpretando
el resultado.

SOLUCIÓN:
Partimos de dos muestras independientes con los siguientes datos:

- A2
Grupo l. Material Nuevo: Y Nuevo = 7 S Nuevo = 15 nNuevo = 32
- A2
Grupo 2. Material Antiguo: Y Antiguo = 5,2 5 Antiguo = 17 nAntiguo = 32

8.1. Para someter a contrastación la hipótesis del investigador, seguimos los si­
guientes pasos:

CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com­


probar la eficacia de un material docente nuevo respecto al utilizado en convoca-
78

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

torias anteriores. La variable independiente es el material docente con dos valores:


el nuevo y el antiguo y la variable dependiente es el rendimiento de los estudiantes
manifestado por la calificación obtenida en el examen final, que es una variable
cuantitativa medida en una escala de intervalo. Se trata, por tanto, de un diseño de
dos muestras independientes que provienen de dos poblaciones con varianzas des­
conocidas en las que habrá que contrastar previamente si son iguales o distintas.
HIPÓTESIS: El investigador quiere comprobar si el nuevo material docente es
más eficaz que el anterior para lo que plantea un contraste unilateral. Previamente
debe comprobar si las muestras provienen de poblaciones con la misma varianza,
para lo que formula las siguientes hipótesis.

2 2
Ha : CTNuevo = CTAntiguo
2
H1 : CTNuevo * CT2Antiguo
ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos
varianzas es una distribución F de Snedecor y el estadístico de contraste es:

"2
SNuevo 15 =
F = "2 = O 88
1

5Antiguo
17

REGLA DE DECISIÓN: Para un contraste bilateral y con un nivel de confianza del


95%, debemos buscar los valores de F que dejan por debajo una probabilidad de
0, 025 y de 0,97 5. El valor que nos ofrece la tabla F para 30 grados de libertad en el
numerador y 30 grados de libertad en el denominador (los más próximos a 31) es
igual a 1,841, luego los valores críticos son:

1
Fo 02s·3ü·3o = -- =O, 482 Fo,975;30;30 = 2, 074
I I I
2,074

CONCLUSIÓN: Como el estadístico F = 0,88 se encuentra comprendido entre los


valores críticos, no podemos rechazar la hipótesis nula, por lo que podemos supo­
ner que las varianzas son iguales.
En estas condiciones realizamos el contraste de hipótesis sobre las medias con
las siguientes:
CONDICIONES Y SUPUESTOS: Es un diseño de dos muestras independientes y
grandes (n > 30) que provienen de poblaciones con distribución desconocida, va-
79

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

rianzas desconocidas pero iguales. En estas condiciones, la distribución muestra! de


la media es la distribución t de Student.
HIPÓTESIS: El investigador quiere demostrar que el nuevo material es más eficaz
que el antiguo por lo que formula un contrate unilateral derecho con las siguientes
hipótesis:

Ha: µNuevo � µAnt


Hl : µNuevo > µAnt

O bien:

Ha: µNuevo - µAnt � O


H1 : µNuevo - µAnt > O

ESTADÍSTICO DE CONTRASTE:

(7-5' 2)-0
=18
31·15+31·17 _!_ _!._
( + J
62 32 32

p < 0,025

o 1 , 671 ( 7-5,2)

T= 1,8

REGLA DE DECISIÓN: En la tabla de la distribución t de Student buscamos el valor


crítico t para un contraste unilateral derecho con n1 + n 2 - 2 = 32 + 32 - 2 = 62 g.l. y
con 60 gl (que es el valor más aproximado que aparece en las tablas) el valor de t que
deja por debajo una probabilidad de 0,95 es 1,671 para un nivel de confianza del 95%.
80

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

CONCLUSIÓN: Como el estadístico de contraste (1,8) supera el valor crítico 1,671


rechazamos la H0 con un nivel de confianza del 95%. El nivel crítico del estadístico
de contraste es, en todo caso, p < 0,025 lo que nos permite concluir que la diferen­
cia observada es significativa con un nivel de confianza del 95%.
INTERPRETACIÓN: Con el nuevo material docente los estudiantes obtienen re­
sultados significativamente mejores que con el antiguo (T = 1,8; p < 0,025).
TAMAÑO DEL EFECTO: Calculamos el índice d de Cohen:

Y I N- A
Y I 7= = 5,= 21= = =o 4
d=--;:::================= --;===1 - ' 5
�2 �2 31·15+31·17
(nN -l)SN+(nA-l)SA
62
nN+nA-2

Este índice representa la distancia entre las medias de los dos grupos en unida­
des de puntuación típica Z.

Material 2 7 Material
Antiguo Nuevo
d = 0,45

El valor del estadístico de Cohen nos indica que el 67,36% de los estudiantes que
han utilizado el nuevo material docente han obtenido un rendimiento que supera a
la media del grupo que ha utilizado el material antiguo.

8.2. INTERVALO DE CONFIANZA DE LA DIFERENCIA DE MEDIAS: Tomando de las ta­


blas el valor más próximo para los grados de libertad, el intervalo de confianza
para la diferencia de medias con un nivel de confianza del 95% viene definido
por los límites:

81

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

(nN -1)5N +(nA -1)5A


A2 A2
(-+-
1 1
J=
(-YN-YA
- ) ±tl-ª�; N 2
n +nA-2 n N +n A -2 nN nA
-O 2
=(7-s,2)±2·1-H
+3,8

El intervalo de confianza puede utilizarse también para el contraste de hipótesis


bilaterales. Obsérvese que el intervalo de confianza obtenido nos indica que la dife­
rencia entre las dos medias poblacionales es un valor comprendido entre -0,2 y 3,8.
Como en este intervalo está comprendida la diferencia nula que formularía la Ha de
un contraste bilateral, no podríamos rechazar la Ha que establece una diferencia de
cero entre las dos medias poblacionales de este mismo contraste, si fuera bilateral.

1,8 + 2 = 3,8
-2 o +2
1,8-2 =-0,2

(7 - 5,2) = 1,8

SITUACIÓN 9. Un psicólogo imparte una conferencia a una muestra de 200 fu­


madores en la que les expone un tratamiento para abandonar este hábito. También
pregunta a los sujetos, antes y después de la conferencia, que cuantifiquen en una
escala de O a 10 si se sienten capaces de dejar de fumar tras recibir el tratamiento,
donde el cero indicaría que no se sienten capaces de ninguna forma y 10 que lo
lograrán con absoluta certeza. Antes de la conferencia, la mitad de los sujetos de
la muestra están dispuestos a seguir el tratamiento. Tras la conferencia, encuentra
que 80 personas que estaban dispuestas a seguir la terapia mantienen la idea de
hacerlo, y que otras 80 personas que no estaban dispuestas a seguir la terapia han
cambiado de opinión. El psicólogo pretende lograr que el número de sujetos que
deciden someterse a la terapia sea mayor tras la conferencia. Respecto a la pre­
gunta que plantea el psicólogo a los sujetos, se encuentra que aquellos que no se
82

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Solucione� a los ejercicios de los capítulos 3 y 4 •

sentían capaces de dejar de fumar antes de la conferencia obtienen una media su­
perior después de la conferencia, siendo dicha media un punto superior a la media
antes de la conferencia y la cuasidesviación típica de las diferencias es igual a 5. Se
establece un nivel de confianza del 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador utiliza una muestra de sujetos de
los que obtiene información en dos momentos distintos. La información obtenida
es la variable independiente: ANTES de asistir una conferencia y DESPUÉS de salir
de la misma. Utiliza, por tanto, un diseño de muestras relacionadas. Como variable
dependiente obtiene, por un lado, las medias obtenidas en una escala que cuan­
tifica su capacidad estimada para abandonar el hábito de fumar, antes y después
de asistir a la conferencia. Se trata de una variable cuantitativa medida con escala
de intervalo. Y por otra parte, también obtiene la proporción de sujetos dispues­
tos a someterse a la terapia antes y después de asistir a la conferencia. En estas
circunstancias tendrá que realizar dos contrastes de hipótesis dentro de un diseño
de muestras relacionadas: uno para la diferencia de proporciones y otro para la
diferencia de medias.
HIPÓTESIS: Para el contraste de la diferencia entre las proporciones el psicólogo
pretende lograr que el número de sujetos que deciden someterse a la terapia sea
mayor tras la conferencia por lo que plantea un contraste unilateral izquierdo con
las siguientes hipótesis nula y alternativa:

Ha: nAntes � noespués

H1 : nAntes < noespués

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro­


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes. El estadístico de contraste es, por tanto, una puntuación Z con la si­
guiente expresión:

b-c
Z=--
�b+c

Para su cálculo construimos la siguiente tabla con los datos aportados en el


enunciado y marcados en negrita:

83

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Después de la conferencia
SI NO

Antes de la SI a= 80 b= 20 100
conferencia NO e= 80 d= 20 100

160 40 200

Para calcular el estadístico de contraste «Z» nos fijamos en los sujetos que apor­
tan información, es decir, aquellos que han cambiado de opinión ANTES y DESPUÉS
de asistir a la conferencia (casillas by e de la tabla):

z----
-
b-c
-
20- 80
--6
)b+c )20+80

REGLA DE DECISIÓN: En la tabla de la distribución normal y con un nivel de con­


fianza del 95% para un contraste unilateral izquierdo buscamos el valor crítico con
un nivel de confianza del 95% y es Zc = -1,64. Por otra parte, el estadístico de con­
traste es muy extremo, superior al valor mayor que podemos consultar en las tablas
(Z = -3,59), que deja por debajo de sí una proporción igual a 0,0002 que correspon­
de al nivel crítico p < 0,0002.
CONCLUSIÓN: Como el estadístico de contraste (Z = -6) supera el valor crítico
{-1,64) a un nivel de confianza del 95%, se rechaza la H0 . A la misma conclusión se
llega interpretando el nivel crítico que es menor que el nivel de significación «alfa»
de 0,05.
INTERPRETACIÓN: La proporción de sujetos dispuestos a someterse a terapia
aumenta significativamente después de asistir a la conferencia (Z = -6; p <.0,0002).
Para el contraste de la diferencia de medias el psicólogo pretende demostrar
que el número de sujetos que deciden someterse a la terapia será mayor tras la
conferencia evaluada a través del cuestionario. En base a esta información previa
proporcionada en el enunciado formula las siguientes hipótesis.
HIPÓTESIS: El investigador quiere comprobar que la media de los sujetos que ini­
cialmente no están dispuestos a seguir el tratamiento (n = 100) es superior después
de la conferencia por lo que formula las siguientes hipótesis

84

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

Ha : µAntes ::; µDespués


H1 : µAntes > µDespués

O bien:

H a : µAntes - µDespués ::; O


H1 : µAntes -µDespués > O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


para muestras relacionadas es la distribución t de Student con n - l gl. Al pasar la
escala, el investigador encuentra que dicha media es un punto superior a la media
antes de la conferencia por lo que el estadístico de contraste es:

T= fil = 1/52
0 -µd -0
=2

�� �100
REGLA DE DECISIÓN: En la distribución t de Student con n - l = 100 - 1 = 99 gl y
para un contraste unilateral derecho buscamos el valor crítico que deja por debajo
de sí una probabilidad de 0,95. Según las tablas este valor es 1,66. Por otra parte,
para una distribución t con 100 gl (el valor más próximo a nuestra situación que tie­
ne 99 gl) el valor del estadístico de contraste t = 2 se encuentra comprendido entre
1,984 y 2,364 que dejan por debajo las probabilidades de 0,975 y 0,99, respectiva­
mente, y por encima de 0,025 y 0,01 respectivamente (los valores 0,025 y 0,01 son
los complementarios de 0,975 y 0,99 respectivamente). Por tanto el nivel crítico
asociado al estadístico de contraste t = 2 es un valor comprendido entre 0,025 < p <
0,01 como se representa en la siguiente gráfica,

85

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

CONCLUSIÓN: Como el estadístico de contraste {Z = 2) supera el valor crítico de


1,66 podemos rechazar la hipótesis nula con un nivel de confianza del 95%. Por otra
parte, el nivel crítico p < 0,025 {correspondiente a una t = 1,984) nos indica que el
resultado es significativo con un nivel de confianza del 97,5% ya que 2 > 1,984 pero
no lo es con un nivel de confianza del 99%.
INTERPRETACIÓN: La media de los sujetos que inicialmente no están dispuestos
a seguir el tratamiento es superior después de asistir a la conferencia {t99 = 2; p <
0,025).

SITUACIÓN 10. El partido político X elabora un vídeo pre-electoral con la inten­


ción de incrementar el número de votos en las siguientes elecciones. Extrae una
muestra aleatoria de 200 personas a las que muestra el vídeo. Antes de verlo 120
personas declararon que no votarían al partido X, 60 de las cuales cambiaron de
opinión tras ver el vídeo, siendo 136 sujetos en total los que manifestaron su in­
tención de votar al partido X después de ver el vídeo. Con un nivel de confianza del
95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo la variable independiente. es el vi­
deo y se quiere analizar su influencia sobre la variable dependiente que es la inten­
ción de voto. Esta variable tomará dos valores, SÍ o NO, que constituye una variable
dicotómica. En el diseño de este estudio la fuente de información es la opinión
manifestada por una muestra de 200 personas en dos momentos distintos: ANTES y
DESPUÉS de ver el video. Se trata, por tanto, de un diseño de muestras relacionadas
en el que se analizará la influencia del video sobre la intención de voto.

86

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

HIPÓTESIS: El trabajo se diseña con la intención de comprobar que el video in­


crementará la intención del voto por lo que se formula un contraste unilateral con
las siguientes hipótesis nula y alternativa:

Ha : n:Antes 2:: n:Después


H1 : n:Antes < n:Después

O bien:

Ha : n:Antes - n:oespués 2:: O


H 1 : n:Antes - n:Después < O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro­


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes. El estadístico de contraste es, por tanto, una puntuación Z que pode­
mos calcular mediante la siguiente expresión:

b-c
Z =--
.Jb+c

Para su cálculo, completamos la siguiente tabla que recoge en negrita los datos
proporcionados en el enunciado mientras que el resto de datos han sido calculados
por simple álgebra:

Después
SI NO
a= 76 b=4 80
Antes
e= 60 d= 60 120
136 64 200

La construcción de esta matriz nos permite calcular el valor del estadístico de


contraste:

z----
b-c
-- 4-60
- 7
.Jb+ e .J4 + 60 - -

87

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y p roblemas resueltos y comentados. Diseños de investigación y análisis de datos

También se podría aplicar el estadístico chi-cuadrado de McNemar cuyo valor es:

2 2
2 ( b-c ) ( 60- 4 )
X = ---=49
b+c 60+4

REGLA DE DECISIÓN: En la tabla de la distribución normal y con un nivel de con­


fianza del 95% para un contraste unilateral izquierdo buscamos el valor crítico con
un nivel de confianza del 95% y resulta ser Zc = -1,64. Por otra parte, consultando
la tabla de la distribución normal observamos que la puntuación más extrema que
podemos encontrar es igual a -3,59, que deja por debajo de sí una proporción igual
a 0,0002. Como el estadístico de contraste Z = -7 es un valor aún más extremo su
nivel crítico es p < 0,0002.
Para el estadístico de McNemar utilizamos la distribución chi-cuadrado con 1 gl
y un nivel de confianza del 95% y observamos que el estadístico de contraste (49)
supera el valor crítico de 5,0239. Por otra parte, el valor más alto que figura en la
tabla de la distribución chi-cuadrado con 1 gl es 7,8794 que deja por encima de sí
una probabilidad de 0,005. Como el valor del estadístico de contraste (49) es aún
más extremo su nivel crítico es p < 0,005.
CONCLUSIÓN: Tanto el estadístico Z como el chi-cuadrado de McNemar superan
sus respectivos valores críticos con un nivel de confianza del 95%. Se rechaza la H0
porque la probabilidad de encontrar un valor como el estadístico de contraste o
más extremo es muy pequeña (p < 0,0002).
INTERPRETACIÓN: Podemos inferir que el vídeo resulta efectivo porque incre­
menta el número de votantes del partido (Z = 7; p < 0,0002; x 2 = 49; p < 0,005).

SITUACIÓN 11. El Barómetro del CIS de septiembre de 2011 señala que a la


pregunta: ¿Cuál es el principal problema que existe actualmente en España?, res­
pondieron 468 jóvenes con edades comprendidas entre 25 y 34 años, de los cuales
el 57,3% señalaban «el paro», el 19,2% indicaban «los problemas de índole eco­
nómica» y para el 9,4% el principal problema era «la clase política y los partidos
políticos». En el mismo mes del 2012 se volvió a pasar la misma encuesta a otros
480 jóvenes del mismo rango de edad. De estos jóvenes, y ante la misma pregunta,
216 señalaban «el paro», 114 se pronunciaban por «los problemas de índole econó­
mico» y 63 señalaban a «la clase política y los partidos políticos» como el principal
problema. Con estos datos, el investigador desea analizar si la consideración de «la
clase política y los partidos políticos» como principal problema ha aumentado signi­
ficativamente en el 2012 respecto al año anterior.
88

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

SOLUCIÓN:
De los datos del enunciado extraemos la siguiente información:

Problemas
Paro Clase política
económicos

2011 0,573 0,192 0,094


216 114 63
2012 =0 45 =0 2375 =0 13125
480 ' 480 ' 480

CONDICIONES Y SUPUESTOS: En este trabajo se quiere analizar si la opinión de


los jóvenes respecto al «principal problema que existe actualmente en España» (la
variable dependiente de naturaleza cualitativa) ha variado con el transcurso del
tiempo (la variable independiente es el momento de aplicación de la encuesta con
dos valores: septiembre de 2011 y septiembre de 2012}. El investigador utiliza dos
muestras independientes, una en septiembre de 2011 formada por 468 jóvenes y
otra un año después formada por 480 jóvenes. Aplicará, por tanto, un contraste de
diferencia de proporciones para dos muestras independientes.
HIPÓTESIS: El investigador quiere analizar si la consideración de «la clase política
y los partidos políticos» como principal problema ha aumentado significativamente
en el 2012 respecto al año anterior. Como está marcando el sentido de la diferencia
formula un contraste unilateral con las siguientes hipótesis nula y alternativa:

Ha: n2011 � n2a12

H1: n2a11 < n2a12

O bien:

H a: n2a11 - n2a12 � O

H1: n2a11 - n2a12 < O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro­


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes como sucede en este caso. El estadístico de contraste es, por tanto, una
puntuación Z con la siguiente expresión:

89

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

n +n 2 01 2 P2 01 2
siendo: P = 2 01 1 P2 01 1
n 2 011 + n 2 01 2

Y su valor, es:

63
468 · O , 094 +480-
p= 480 = 0,113
468+480

Z=
( o,094 -0,13125)-o
1
O , 113 ( 1 -0,113)(- - + -
468 480
1 -J =-1,81

REGLA DE DECISIÓN: En la tabla de la distribución normal el estadístico de con­


traste Z = -1,81 deja por debajo una probabilidad de 0,0351 que corresponde a su
nivel crítico p.

Z = -1,81

CONCLUSIÓN: Como el nivel crítico p = 0,0351 es menor que el nivel de signifi­


cación «alfa» de 0,05 pero mayor que el nivel de significación de 0,01 rechazamos
la hipótesis nula con un nivel de significación de 0,05 (o con un nivel de confianza
del 95%).
INTERPRETACIÓN: La consideración de «la clase política y los partidos políticos»
como principal problema ha aumentado significativamente en el 2012 respecto al
año anterior (Z = -1,81; p = 0,0351).

90

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

SITUACIÓN 12. Con los mismos datos del ejemplo anterior desea comprobar
si la consideración del paro como principal problema de los jóvenes no ha variado
significativamente en el 2 012 respecto al 2 011.
CONDICIONES Y SUPUESTOS: las mismas de la situación anterior siendo ahora la
variable dependiente la consideración del paro como principal problema.
HIPÓTESIS: El investigador quiere analizar si la consideración del paro no ha
variado de un año a otro. Formula un contraste bilateral ya que no marca el sentido
de la diferencia, siendo las hipótesis nula y alternativa las siguientes:

H a : n2 011 = n2 a1 2
H1 : TC2 a11 -=;t:. TC2 a1 2

O bien:

H a : n2 a1 1 - n2 01 2 = O
H1 : TC2 a 1 1 - TC2 a1 2 -=;t:. 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro­


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes. El estadístico de contraste es, por tanto, una puntuación Z con la si­
guiente expresión:

siendo: p = n 2 011 P2 a11 + n 2 01 2 P2 a1 2


n 2 a11 + n 2 a1 2

46 8·0, 573+216
P= =O 5107
46 8+4 80

( o, 573 -0, 45 )-o


z= =3 79
1 1
0, 5 107 ( 1 -0, 5107 )( - - + - -)
46 8 4 80

REGLA DE DECISIÓN: Consultando las tablas de curva normal, observamos que


la mayor puntuación que podemos consultar es z = 3,59, que deja por encima de
sí una proporción igual a 0,0002. Como el contraste es bilateral, multiplicamos por
dos esta probabilidad, por lo que el nivel crítico es p < 0,0004 y rechazamos la hi­
pótesis nula.
91

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

INTERPRETACIÓN: La consideración del paro como principal problema de los


jóvenes ha variado significativamente en el 2012 respecto al 2011 (Z = 3,79; p <
0,0004), en concreto, ha disminuido del 57,3% al 45% siendo esta diferencia signi­
ficativa.

SITUACIÓN 13. Siguiendo con los mismos datos del CIS, imagine por un mo­
mento que tuviera usted acceso a la muestra de los 480 jóvenes encuestados en
septiembre del 2012 para volverles a realizar la misma pregunta y analizar los cam­
bios de opinión sobre la consideración del paro como principal problema. Encuen­
tra que ahora son 233 los que siguen considerando el paro como el problema prin­
cipal y que de los 216 que en septiembre lo señalaban como el problema principal
ahora son 193 los que siguen manteniendo la misma opinión.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Ahora está utilizando la misma muestra de 480
jóvenes a los que hace la misma pregunta en dos momentos temporales distintos:
ANTES (en el 2012) y DESPÚÉS (en este momento). Utilizará un diseño de muestras
relacionadas para comparar dos proporciones.
HIPÓTESIS: El investigador quiere analizar los cambios de opinión sobre la con­
sideración del paro como principal problema pero sin marcar el sentido de este
cambio, por lo que formula un contraste bilateral con las siguientes hipótesis nula
y alternativa:

Ha : n2012 = nAHORA
H1 : n2012 i:- nAHORA

O bien:

Ha: 'TC2012 = nAHORA = 0


H1 : n2012 i:- nAHORA i:- 0

ESTADÍSTICO DE CONTRASTE: Para realizar el contraste sobre dos proporciones


con muestras relacionadas, construimos, en primer lugar, la siguiente tabla con los
datos del enunciado (en negrita) deduciendo fácilmente el resto.

92

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

2012
Paro Otros problemas
Paro 193 b=40 233
Otros problemas e = 23 224 247
216 264 480

Y el estadístico de contraste es:

40 -23
Z = �= =2 14
.Jb+c .,/40+23

REGLA DE DECISIÓN: Consultando las tablas de curva normal, observamos que la


probabi l idad de obtener puntuaciones más extremas que Z = 2,14 es igual a 0,0162.
Dado que el contraste es bilateral, el nivel crítico es igual a p = 0,0162 · 2 =0,0324.
CONCLUSIÓN: Dado que el nivel crítico 0,0324 es menor que el nivel de significa­
ción «alfa» de 0,05, rechazamos la H0 con un nivel de confianza del 95%.
INTREPRETACIÓN: A partir del resultado obtenido, podemos afirmar que «La va­
loración de paro como principal problema que existe actualmente en España ha
variado en estos meses con una seguridad del 96,8% (Z = 2,14; p = 0,0324)».

SITUACIÓN 14. Retomando los mismos datos del Barómetro del CIS de sep­
tiembre de 2011 (véase siguiente tabla), el investigador desea ahora comprobar si
la percepción del paro como principal problema ha disminuido en 2012 respecto de
2011 en un porcentaje superior al 5%.

Problemas
Paro Clase política
económicos
2011 0,573 0, 192 0,094 n 1 = 468
216 = 1 14
2012 0 45 =0,2375 � =0, 13125 n 2 = 480
480 480 480

93

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SOLUCIÓN:
CONDICIONES Y SUPUESTOS. Son los mismos, pero considerando ahora que la
variable dependiente son los datos del paro.
HIPÓTESIS. El investigador quiere comprobar si la percepción del paro como
principal problema ha disminuido en 2012 respecto de 2011 en un porcentaje su­
perior al 5%. Como está marcando el sentido de la diferencia, formula las siguientes
hipótesis nula y alternativa:

Ha : n2 a 1 1 - n2 a1 2 :s; O , 05
H1 : n2 01 1 - n2 a 1 2 > O , 05

ESTADÍSTICO DE CONTRASTE: Bajo la condición en la que la hipótesis nula marca


un valor O para la diferencia de proporciones, la distribución muestra! de la diferen­
cia de proporciones es la distribución normal, con media igual a O y el estadístico
de contraste es:

( P1 - P2 )- D ( O , 573 -0,45 )- 0,05


Z = ------;::::======== -----;:::============ = 2,265
P1 ( 1 - P1-)+--P2 ( 1--P2-) 0,573(1-0,573) 0,45 (1- 0,45 )
--- - -------'------ -
- - + ------
nl n2 468 480

REGLA DE DECISIÓN: Consultando la tabla de la distribución normal, la probabi­


lidad de obtener un resultado como el observado (Z = 2,265), o más extremos (el
nivel crítico p) es 0,0119.
CONCLUSIÓN: Comparando el nivel crítico p obtenido con los niveles de signifi­
cación habituales de 0,05 y 0,01 observamos que p = 0,0119 es menor de 0,05 pero
mayor de 0,01, por lo que rechazamos la Ha con un nivel de significación de 0,05.
INTERPRETACIÓN: La percepción del paro como principal problema ha disminui­
do significativamente en 2012 en un porcentaje superior al 5% respecto de 2011
(Z = 2,265; p = 0,0119).

SITUACIÓN 15. Uno de los factores comunes en diferentes estudios sobre la


predicción del riesgo de violencia grave en la pareja, es el consumo de drogas por
parte de alguno o ambos miembros de la pareja {Campbell, 2007). En una investi­
gación publicada bajo el título: «Variables psicosociales y riesgo de violencia grave
en parejas con abuso de sustancias tóxicas y maltrato previo» (Amor y cols., 2012),
94

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

se aplicaba la Escala de Predicción del Riesgo de Violencia Grave contra la Pare­


ja-Revisada {EPV-R) para evaluar el grado de riesgo de violencia grave en función
del consumo de sustancias tóxicas dentro de la pareja. Para ello, se seleccionaron
dos grupos: a) parejas en los que ambos miembros consumían sustancias tóxicas,
y b) parejas en los que solo consumía sustancias tóxicas la persona agresora. Los
resultados mostraron que hay una probabilidad diferente de violencia grave (t =
2,30; p = 0,024) en aquellas parejas en las que ambos consumen sustancias tóxicas
(N = 44; Y = 20,86; Sn-l = 9,41) en comparación con aquellos casos en los que qu�n
consume sustancias tóxicas es exclusivamente la persona que agrede (N = 36; Y =
16,19; sn-l = 8,51).
Con los datos de este estudio:
15.1. Indique cuáles son la variable dependiente e independiente de este estu­
dio.
15.2. El tipo de contraste que se ha aplicado.
15.3. Calcule el estadístico de contraste para comprobar si las muestras provie­
nen de poblaciones con varianzas iguales.
15.4. Indique el tipo de contraste que se aplicaría para analizar «el grado de ries­
g o de violencia g rave en función del consumo de sustancias tóxicas dentro
de la pareja».
15.5. Interprete la significación de los resultados mostrados por Amor y colabo­
radores.
15.6. A partir de los resultados de Amor y cols. (2012) calcule e interprete los
límites del intervalo de confianza para la diferencia de medias, con un nivel
de confianza del 95%.
15.7. Con los datos de la investigación. de Amor y cols., calcule e interprete el
índice «d» de Cohen para cuantificar el tamaño del efecto.

SOLUCIÓN:
15.1. Lo que se ha medido en ambos grupos de parejas (aquellas en las que ambos
miembros consumen sustancias tóxicas y aquellas en donde sólo las consume
el agresor) ha sido el EPV-R, que es la escala aplicada y constituye la variable
dependiente. Consideramos esta escala como cuantitativa y medida en una
escala de intervalo. Esta variable «depende» del consumo de sustancias tó­
xicas (la variable independiente, en este caso de tipo cualitativo) que nos ha
permitido clasificar las parejas en dos grupos.

95

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

15.2. Para comparar los resultados obtenidos por los dos grupos de parejas en los
resultados obtenidos en la Escala de Predicción del Riesgo de Violencia Gra­
ve contra la Pareja-Revisada (EPV-R} se aplica un contraste paramétrico para
muestras independientes (si en una pareja consumen ambos miembros sus­
tancias tóxicas se clasifica en un grupo y si consume solamente el agresor se
clasifican en el otro grupo, es decir, nunca pueden coincidir) y el contraste es
paramétrico ya que se trata de una «t».

15.3. Para contrastar la hipótesis de si las muestras provienen de dos poblaciones


con la misma varianza aplicamos el estadístico F de Snedecor que se distribu­
ye con n 1 - 1 y n 2 - l gl, siendo n 1 y n 2 los tamaños muestrales de los que se
obtienen las varianzas del numerador y denominador:

"2
9 412
F = �2 = ' 2 = 1 223
"
52 8 ' 51 '

Como clasificar a un grupo como «primero» (subíndice 1) o como «segundo»


(subíndice 2} es arbitrario, se recomienda colocar el de menor varianza en el deno­
minador de la razón F para que este valor sea superior a la unidad. En las tablas de la
distribución F con 43 y 35 gl, el nivel crítico p asociado a este estadístico de contras­
te es superior a 0,10 (obsérvese que la F para 0,90 con 40 y 30 grados de libertad,
los más cercanos a 43 y 35, vale 1,573 que resulta superior a 1,223}.

15.4. Para analizar «e/ grado de riesgo de violencia g rave en fun ció n del con sumo
de sustan cias tóxicas den tro de la pareja» se aplica un contraste bilateral de
diferencia de medias, ya que el investigador no marca «a priori» el sentido de
la diferencia que espera encontrar.

15.5. Los resultados encontrados por Amor y cols. (2012} son t = 2,30 con una p =
0,024 luego 1 - 0,024 = 0,976 que en términos porcentuales es 97,6%, lo que
significa que hay una seguridad del 97,6% de que las diferencias encontradas
sean significativas.

15.6. A partir de los resultados de Amor y cols. (2012}, los límites del intervalo de
confianza para la diferencia de medias, con un nivel de confianza del 95% son:

96

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

2 2 O , 637
( 44-1 )9, 41 +( 36 -1)8, 51 1 1
= ( 20,86 -16,19 ) ± 1,99 · (- +-J -H
44+36-2 44 36 8,703

Por tanto, a partir de la información obtenida inferimos que la diferencia de


medias poblacional es un valor comprendido entre 0,6373 y 8,703. Este resultado
indica que si quisiéramos contrastar la hipótesis de si existen diferencias significati­
vas entre las medias formulando las hipótesis:

Ha : µ1 -µ1 = O
H1 : µ1 -µ2 ::;t O

La conclusión sería rechazar la Ha ya que el intervalo de confianza no incluye el


valor O de «diferencia nula» entre las medias poblacionales.

15.7. El índice «d» de Cohen es un índice de tamaño del efecto y su cálculo es:

I Y N -Y A l ¡20,86 -16,191
d = ----;:::========= ----;:::========== = 0,52
A2 A2 2 2
( nN -1)5 N +( nA -1)5 A ( 44-1 )9, 41 · ( 36-1)8, 51
n +n -2
A
44 +36 -2
N

El valor de la «d» de Cohen es un índice estandarizado que señala que l_ a diferen­


cia entre 16,19 y 20,86 en la variable dependiente es 0,52 expresada en unidades
de puntuaciones típicas. Si buscamos en la Tabla la probabilidad asociada a una Z =
0,52 obtendremos que deja por debajo una proporción de 0,6985, lo que indica una
probabilidad superior de 1 - 0,6985 = 0,3015, es decir, que el nivel de riesgo de vio­
lencia grave es aproximadamente un 30,15% superior en parejas en los que ambos
miembros consumen sustancias tóxicas respecto a la media del grupo de parejas en
los que solo consume el agresor.

97

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

16,19 20,86
Media d e l grupo e n el
/ "" Media del grupo en el
que solo consume u n z = 0,5 178 "" q u e consu m e n los dos
m i e m b ro d e la pareja . m i e m b ros de la p a reja .

SITUACIÓN 16. «Uno de los mejores indicadores de la salud psicoló gica es el


auto-concepto (Esnao/a, Gañí y Madariaga, 2008} que hace referencia a la idea u
opinión que cada persona tiene de sí misma». En una investigación realizada por
Esnaola y Revuelta (2009) con una muestra de 300 jóvenes de la Comunidad Autó­
noma Cántabra y País Vasco se analizan las relaciones entre la actividad ñsica y el
auto-concepto. La edad media fue de 18,64 años y la desviación típica igual a 3,51
años. Por sus respuestas a un cuestionario sobre prácticas físico-deportivas el 69%
fueron clasificados como activos frente al resto que fueron clasificados como inac­
tivos. En la escala de auto-concepto físico, la media y desviación típica insesgada de
los inactivos fue de 22,41 y 4,1 respectivamente y en el grupo de activos, de 23,7
y 4,83. El investigador quiere comprobar si existen diferencias significativas en la
escala de auto-concepto físico entre los sujetos activos e inactivos y el tamaño del
efecto de la actividad física sobre el auto concepto.

SOLUCIÓN:
Del enunciado extraemos la siguiente información:
-
Muestra total: n =300, Y edad =18,64; sedad =3,51; PActivos =0,69 � P¡nactivos = 0,31

Escalas de auto concepto:

98

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

69% 0,69 X 300 = 207 23,7 4,83

31% 0,3 1 X 300 = 93 22,41 4,1

CONDICIONES Y SUPUESTOS: En este estudio, la variable independiente es la


actividad física que se evalúa mediante un cuestionario y que se utiliza para dividir
a los sujetos en dos grupos: activos e inactivos. La variable dependiente es el auto
concepto que se mide con un cuestionario y es una variable medida en una escala
de intervalo. Se trata de un diseño de dos muestras independientes que provie­
nen de poblaciones con varianzas desconocidas y habrá que comprobar si estas
muestras provienen de dos poblaciones con varianzas iguales o distintas, por lo que
formulamos las siguientes hipótesis previas al contraste principal sobre las medias.
HIPÓTESIS: Como paso previo al contraste de medias, hay que comprobar si las
muestras provienen de poblaciones con la misma varianza, para lo que formulamos
las siguientes hipótesis (A significa «Activo» e I significa «Inactivo»):

H0 : cr A = cr,
H1 : ª A * ª1

O bien:

ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos


varianzas es una distribución F de Snedecor y el estadístico de contraste es:

99

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN: Como el investigador no fija un nivel de confianza, buscare­


mos el nivel crítico p que corresponde al estadístico de contraste obtenido, F = 1,38.
En la tabla de la distribución F no figuran de forma expresa, los grados de libertad
del numerador (n - 1 = 207 - 1 = 206) y los del denominador (n - 1 = 93 - 1 = 92), por
lo que lo buscaremos por aproximación a los grados de libertad más aproximados
que son 120, para el numerador y 120 para el denominador. En un contraste bilate­
ral, para un nivel de confianza del 99%, el valor que aparece en la tabla es 1,606 y
para un nivel de confianza del 95% es 1,433. Como el estadístico de contraste (F =
1,38) no alcanza estos valores críticos, el nivel crítico p del estadístico de contraste
obtenido es p > 0,05.

1,433 1,606

F = l,38; p > 0,05

CONCLUSIÓN: No se puede rechazar la Ha ya que el nivel crítico p del estadístico


de contraste F = 1,38 es p > 0,05.
INTERPRETACIÓN: Las dos muestras provienen de poblaciones con la misma
varianza (F = 1,38; p > 0,05).
Para realizar el contraste de hipótesis sobre las medias se añade, a las CONDI­
CIONES Y SUPUESTOS anteriores, el hecho de que las dos muestras provienen de
poblaciones con la misma varianza.
HIPÓTESIS: El investigador quiere comprobar si existen diferencias significativas
en la escala de auto-concepto físico entre los sujetos activos e inactivos. Como no
indica el sentido positivo o negativo de la diferencia, se formula un contraste bilate­
ral con las siguientes hipótesis nula y alternativa:

Ha : µ A = µ¡
H1 : µA :;t: µ,

100

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

O bien:

Ha : µA -µ/ = 0
H 1 : µA -µ , :;t: 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


entre dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero iguales (contrastado en el punto anterior) es la distribución t de
Student con gl n 1 + n 2 - 2 gl:

(Y A -Y , ) -(µA -µ, ) ( 23,7-22,41 )- 0


T = -;:::=======================
"2 "2
( nA -l)SA +( n, -1 )5 , 206 · 4,832 +92 ·4,1 2 -1 -
( +_!_ J
+ _!_ 207 +93- 2 207 93
nA +n1 -2 n1 n2 J
(_!_
=2,238 � 2,24

REGLA DE DECISIÓN: En la tabla de la distribución t de Student y con n 1 + n 2 - 2 gl


buscamos el nivel crítico para el estadístico de contraste T = 2,24. A partir de 100 gl
la distribución t se aproxima a la normal, por lo que deberemos recurrir a la tabla de
la distribución normal tipificada de puntuaciones Z para determinar la probabilidad
de encontrar valores más extremos de 2,24 de un contraste bilateral. Esta probabi­
lidad es de 0,0125 a cada lado.

-2,24 +2, 24

CONCLUSIÓN: Como el nivel crítico p es mayor de 0,01 rechazamos la Ha con un


nivel de confianza del 95%.
TAMAÑO DEL EFECTO: El índice d de Cohen estima la magnitud del efecto o rela­
ción entre la actividad física y el auto concepto y vale:

101

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

IYA - Y1 I 123, 7 -22,411


d = -----;::::==:::::::::======= ----======== = 0,279 � 0,28
--- 2 --- 2
( nA -1)5 A +( n1 -1)5, 206·4,832 + 92 · 4,1 2
n +n -2 207+93 -2
A 1

Esto indica que el 61,03% de los sujetos activos tienen un auto concepto que su­
pera la media de los sujetos inactivos. Un 38,97% de los sujetos activos no alcanzan
la media del nivel de auto concepto de los sujetos inactivos.

M edia de los 2 2,41 23, 7 Media de los


sujetos i n a ctivos --- sujetos activos
d = 0,28

INTERPRETACIÓN: La actividad física influye sobre al auto concepto que los suje­
tos tienen sobre sí mismos, de forma que los sujetos activos tienen un auto concep­
to superior que las personas inactivas (T = 2,24; p < 0,025; d = 0,2794).

SITUACIÓN 17. « El Prog rama Internacional para la Evaluación de la Competen­


cia de los Adultos del 2013 {PIAA C, por su sigla en Inglés) sitúa a España en los últi­
mos puestos entre los países de la OCD E, solo por encima de Italia en comprensión
lectora. Los españoles examinados de entre 15 y 65 años obtuvieron en compren­
sión lectora una media igual a 252 puntos, 21 por debajo de la media de la OCD E
y 19 por debajo de la media de la UE. Entre sus conclusiones destaca la estrecha
relación entre los niveles de comprensión lectora de los adultos y sus posibilidades
de encontrar trabajo». Imagine que, ante estos resultados, usted diseña un trabajo
con una muestra de jóvenes de su localidad con el fin de comprobar:
17.1. Si el nivel de comprensión lectora de los jóvenes con empleo es significati­
vamente mayor que la de los jóvenes desempleados.
17.2. Si la proporción de empleados entre los jóvenes de su localidad supera en
más de quince puntos porcentuales a la proporción de desempleados.
102

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

Para ello, selecciona una muestra de 182 jóvenes de su localidad con edades
comprendidas entre 25 y 34 años, de los que el 33,5% están en situación de des­
empleo, y les aplica la misma prueba. La media y desviación típica insesgada de
los desempleados es de 251 y 115, respectivamente, frente a 289 y 92 de los que
tienen empleo.
A partir de los datos del enunciado, tenemos la siguiente información: Número
de sujetos 182 jóvenes, de los cuales:

Desempleados 33,5% 61 251 115

Empleados 66,5% 121 289 92

17.1. Para el primer contraste seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: La variable independiente es la situación laboral,


de naturaleza dicotómica, con los que forma dos grupos, empleados y desemplea­
dos, a los que pasa una prueba de comprensión lectora (la variable dependiente)
que es de naturaleza cuantitativa y medida en una escala de intervalo. Se desco­
noce la forma de la distribución de esta variable en la población y sus varianzas. Se
trata, por tanto, de un diseño de dos muestras independientes y antes de realizar
un contraste sobre las medias, debemos comprobar si las muestras provienen de
poblaciones con la misma varianza para lo que formulamos las siguientes hipótesis
previas:
HIPÓTESIS:

=
Ha : cr f cro
H1 : cr f *- ªo

O bien:

103

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos


varianzas es una distribución F de Snedecor y el estadístico de contraste es:
"2
S o 1152
F=- = -- = 1 562
s!
922

REGLA DE DECISIÓN: En la distribución F con 61 - 1 = 60 y 121 - 1 = 120 grados


de libertad figuran los valores 1,53 que deja por debajo una probabilidad de 0,975
(y por encima de 0,025) y el valor 1,656 que deja por debajo una probabilidad de
0,99 y por encima de 0,01. Puesto que el estadístico de contraste se encuentra en­
tre estos dos, el nivel crítico p es menor que 0,025 x 2 = 0,050 y mayor de 0,01 x 2
= 0,02 por ser un contraste bilateral:

------- p = 0,025
------ p = 0,01

F = 1, 5 6 2
0 , 0 1 < p < 0,025

CONCLUSIÓN: Se rechaza la H0 con un nivel de confianza del 95%.


INTERPRETACIÓN: Podemos admitir que las dos muestras provienen de pobla­
ciones con distintas varianzas (F = 1,562; p < 0,025)
Para realizar el contraste de hipótesis sobre las medias se añade, a las CONDI­
CIONES Y SUPUESTOS anteriores, la condición de que las dos muestras provienen de
poblaciones con distinta varianza.
HIPÓTESIS: El investigador quiere comprobar si el nivel de comprensión lectora
de los jóvenes con empleo es significativamente mayor que la de los jóvenes des­
empleados para lo que formula un contraste unilateral derecho con las siguientes
hipótesis nula y alternativa:

Ho : µ E � µo
H1 : µ E > µ o
104

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

O bien:

Ha : µ E - µo � o
H1 : µ E - µo > 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


entre dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero distintas (contrastado en el punto anterior) es la distribución t
de Student y el estadístico de contraste es:

Siendo el error típico de la distribución muestra! de la diferencia de medias:

"2 "2
5 1 52 115 2 922
- +- = - - +- =16 94
n1 n2 61 121

Con lo que el valor del estadístico de contraste es:

( 2_
__;_ s__2_
9- 1)_
s_______:c o
-_
= 2 24
16,94

Que se distribuye según la distribución t de Student con los grados de libertad


ajustados mediante la corrección de Welch:

g. /.
l! �r+
=
(� + *r =99, 77 = 10º
92fi
( mXS ( 21 J
r
_;___ r + ( sx
( sK-'---- +
n1 - 1 n2 - 1
61 - 1 121 - 1

105

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN: En la distribución t con 100 gl, el estadístico t = 2,24 se


encuentra entre los valores 1,984 y 2,364 que dejan por encima una probabilidad
de 0,025 y 0,01 respectivamente. Por tanto, al valor t = 2,24 le corresponde un nivel
crítico mayor que 0,01 y menor que 0,025.

t = 2,24

CONCLUSIÓN: Se rechaza la Ha con un nivel de confianza del 95%, pero no se


puede rechazar con un nivel de confianza del 99%.
INTERPRETACIÓN: El nivel de comprensión lectora de los jóvenes con empleo es
significativamente mayor que la de los jóvenes desempleados (T = 2,24; p < 0,025).

17.2. Para el segundo contraste seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: Se trata de un diseño de dos muestras indepen­


dientes en las que la variable la variable dependiente es de naturaleza dicotómica
con distribución binomial. Como se utiliza muestras grandes, la distribución bino­
mial se aproxima a la normal.
HIPÓTESIS: Si quiere contrastar la hipótesis de que la proporción de empleados
entre los jóvenes de su localidad supera en más de quince puntos porcentuales a la
proporción de desempleados para lo que se formulan las siguientes hipótesis nula
y alternativa:

H a : nE - n0 :S 0,15
H1 : nE - n0 > O , 15

ESTADÍSTICO DE CONTRASTE: Al tratarse de muestras grandes, la distribución


muestra! de la diferencia de proporciones se aproxima a la distribución normal,
siendo el estadístico de contraste:

106

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

P1 ( 1 - P1 )+ P2 ( 1 - P2 ) 0,335 ( 1 -0,335) 0,665 ( 1 -0,665)


---- = ------ + =0,074
n1 n2 61 121

REGLA DE DECISIÓN: Como el investigador no ha establecido un nivel de con­


fianza previo, buscamos el nivel crítico p correspondiente al estadístico de contraste
obtenido. En la tabla de la distribución normal, el valor de Z = 2,43 deja por debajo
una probabilidad de 0,9925 y por encima de 1 - 0,9925 = 0,0075.
CONCLUSIÓN: El nivel crítico obtenido es menor que los niveles de significación
habitualmente utilizados en psicología (p = 0,0075 < 0,01}, por lo que rechazamos
la hipótesis nula.
INTERPRETACIÓN: la proporción de empleados entre los jóvenes de la localidad
supera en más de un 15% a la proporción de desempleados (Z = 2,43; p = 0,0075}.

SITUACIÓN 18. Chaves y Noguera (2008} estudiaron la inserción laboral de los


titulados en Psicología de cinco promociones consecutivas (desde 2002 hasta 2006}
en una muestra de 531 titulados. Para las tres primeras promociones (Grupo l}, el
74% de los sujetos estaban trabajando 6 meses después de haber finalizado sus
estudios (n 1 = 319}, mientras que para las dos últimas promociones (Grupo 2}, el
índice de inserción laboral fue igual al 80% (n 2 = 212}. Se pretende contrastar si la
inserción laboral difiere entre las tres primeras y las dos últimas promociones.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com­
parar si la inserción laboral difiere entre dos grupos diferentes de promociones de
estudiantes de Psicología. La variable independiente es el año de promoción y la
variable dependiente es la inserción laboral que es una variable dicotómica con
distribución binomial. Realizará un contraste de diferencias de proporciones con
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si la inserción laboral difiere entre
las tres primeras y las dos últimas promociones. Como el investigador no está mar-
107

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

cando la dirección de la diferencia formula un contraste bilateral con las siguientes


hipótesis nula y alternativa:

Ha : n: G1 = n: G 2
H1 : n: G l 1:- n: G 2

O bien:

Ha : n: G1 - n: G 2 =0
H1 : n: G l - n: G 2 *- 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro­


porciones para dos muestras independientes utilizando muestras grandes es la dis­
tribución normal y el estadístico de contraste es:

n n
siendo: p= G1 PG1 + G1 PG 2
n1 +n2

Y su valor, es:

-J
319 · 0,74+212·0,80 ( O , 74- O , 80 )- O
P= =0 764 Z= = -1 59
319+212 1 1
0, 764 ( 1- 0, 764 )( - - + -
319 212

REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos la proba­


bilidad de encontrar valores tan extremos o más que el valor Z = -1,59, es decir, la
probabilidad de P (Z < -1,59) = 0,0559. Como se trata de un contraste bilateral el
nivel crítico es p = 0,0559 x 2 = 0,1118.

108

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 3 y 4 •

Z = -1,59 Z = +1,59

CONCLUSIÓN: Como el nivel crítico p = 0,1 1 18 es mayor que el nivel de significa­


ción a de 0,05 no hay evidencia suficiente para rechazar la hipótesis nula.
INTERPRETACIÓN: La inserción laboral no difiere significativamente entre los dos
grupos de promociones de estudiantes de Psicología (Z = -1,59; p = 0,1 118).

109

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

BLOQU E 1 1 1

Aná l isis de datos en los d iseños


de tres o más m uestras:
el anál isis de varia nza

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Sol uciones a l os ejercicios


de los ca pítu l os 5, 6 y 7

-
SITUACIÓN l. Las puntuaciones obtenidas por dos grupos de diez alumnos cada

-
grupo, en el test de inteligencia Y, son las siguientes:

40 46 35 17 11 22 20 31 18 22
20 10 20 15 18 6 12 12 6 11

l. Calcule el estadístico F del análisis de varianza entre los grupos


2. Calcule el estadístico de contraste t para dos medias independientes y com­
pare el resultado con el obtenido en el apartado anterior.

SOLUCIÓN:
1.1. Tal como se pide en el enunciado del problema, vamos a calcular el estadístico
F. Para ello, previamente, elevamos al cuadrado cada una de las puntuaciones
de los grupos A y B y sumamos, por columnas, todas las puntuaciones.

113

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

----
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

40 1600 20 400
46 2116 10 100
35 1225 20 400
17 289 15 225
11 121 18 324
22 484 6 36
20 400 12 144
31 961 12 144
18 324 6 36
22 484 11 121
262 8004 130 1930

Con los resultados de esta tabla, tenemos que:

¿¿\ =262+130 = 392


¿¿Y;J = 8004 +1930 =9934
Y calculamos las sumas de cuadrado total, intergrupos e intragrupos:

2
Y
- ( í: L )
1 3922
SCTotal= LLYí 1 = 9934- -- =9934 -7683,2=2250,8
] N 20
2 2
SC/nter = L ( IYíj ) J - (I í:Yíj ) = [ -
262 --
-+
130 392
J - -- =871,2
2 2 2

[ n N 10 10 20
¡

SC/ntra = SC Total -SC/nter =2250,8 -871,2 = 1379,6

Con estos datos, construimos la tabla resumen del ANOVA unifactorial para ob­
tener el estadístico F.

114

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

F.V. s.c. g.l. M.C.


lnterG rupos 871,2 1 871,2 11,36
lnt ra G ru pos 1379,6 18 76,64
Tota l 2250,8 19

Y el valor del estadístico es F = 11,36


a) Calculamos, ahora, el estadístico t para dos muestras independientes:

e A - Ya ) - (µ A - µa )
T = --;=================----

Para lo que obtenemos las medias, varianzas y cuasi-varianzas de cada grupo:


-
YA =262 / 10 = 26,2
"y.? - 2 8004
Si = -
�-'l -YA = -- -26, 22 =113,96
nA 10
A2 n 10
Cuasi-varianza: S A = -- SA2 = -- 113,96=126,62
n -1 10 - 1

-
Ya =130 / 10 = 13

5� = ¿ J - Y� = 1930 _ 132 =24
na 10
A2 n 10
Cuasi-varianza: Sa = -- 582 = -- 24=26,67
n -1 10 - 1

Y el valor del estadístico T, es:

( 26,2 -13)-o
T= =3 37
( 9 )( 126 , 6 2) + ( 9 )( 26 , 67 ) 1 1
� +
18 10 10

115

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Comparando ambos resultados, tal como nos pedía el enunciado del problema,
comprobamos que t2 = F. :

(3,37) 2 = 11,36

Y recordamos que, siempre que tengamos dos grupos independientes, se cum­


ple la igualdad de t2 = F entre el resultado del análisis de varianza y del estadístico t.

SITUACIÓN 2. Aplicando tres métodos de educación compensatoria a tres


muestras aleatorias de una determinada población se obtuvieron los siguientes re­
sultados:

l�RIII 2 4 3 8 6 7 3 5 7 5

l�1Rl:I 5 6 5 9 7 10 5 7 9 7

l�rarn;,. 2 3 4 1 4 6 2 3 5 o

Sabemos que las observaciones son independientes, las varianzas homogéneas


y la variable se distribuye normalmente. El investigador quiere probar que los tres
métodos producen resultados distintos pero, sobre todo, considera que le interesa
ver la diferencia entre el método B y los demás, dado que está especialmente inte­
resado en ese método.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Dado que tenemos tres muestras independientes,
vamos a aplicar un análisis de varianza de un solo factor. El enunciado dice que se
cumplen los supuestos de independencia de las observaciones, normalidad de las
distribuciones y homogeneidad de las varianzas que son los que exige el ANOVA
unifactorial.
HIPÓTESIS ESTADÍSTICAS: Como solo hay un factor, solo podemos formular una
hipótesis para comprobar si la variable independiente, el método de educación, con
sus tres niveles (A, B y C), influye sobre los resultados. Si los métodos son igual de
eficaces, entonces las medias serán iguales, por lo que las hipótesis nula y alterna­
tiva son:

116

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Ha : µA = µa = µe
H1 : µA * µ8 * µe al menos para una µ¡

ESTADÍSTICO DE CONTRASTE:

F =_
M_C_
in_
te_
r
MCintra

------
Para el cálculo de las sumas de cuadrados, sumamos todas las puntuaciones y
sus cuadrados, que figuran en la siguiente tabla:

2 4 5 25 2 4
4 16 6 36 3 9
3 9 5 25 4 16
8 64 9 81 1 1
6 36 7 49 4 16
7 49 10 100 6 36
3 9 5 25 2 4
5 25 7 49 3 9
7 49 9 81 5 25
5 25 7 49 o o
50 286 70 520 30 120

¿¿Y;] (¿¿\ )- 2 2
1 ( s o+70 + 3 o)
SC Tota/ = ---
' = ( 286+520+120)- = 926 -750 = 176
N 30
( ¿Y;j )2 - ( ¿¿Y;j )2 ( so + 70 +3 0 -
SC!nter = ¿ [ =¿
2 2 2

J J 750 = 80
n ¡ N 10

SC!ntra = SC Total -SC!nter =176- 80=96

Con estos datos, completamos la tabla y obtenemos el estadístico F

117

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

F.V. s.c. g.l. M.C.


lnter 80 2 40 11,26
lntra 96 27 3,55
Tota l 176 29

REGLA DE DECISIÓN: El valor crítico que obtenemos en


2
las tablas de la distribución F para 2 y 27 grados de libertad
1 161,448
con un nivel de confianza del 95%, no figura expresamente
2 18,513 en la tabla. Sólo podemos conocer dos valores entre los
3 10,128
que se encuentra el valor buscado:
4 7,709
6,608 5, 86
6 5,987 5, 43
F 2 , 2 0 = 3,493
7 5,591 4, 37
8 5,318 4, 59 F 2 , 3 0 = 3,316
17 4,451
18 4,414 Si tuviéramos que optar por un valor elegiríamos el más
19 4,381
20 4,351 cercano a los grados de libertad nominales. En este caso,
30 4,171 27 grados de libertad están más cerca de 30 que de 20 por
60 4,001 3,150
120 3,920 3,072
lo que aceptaremos 3,316. El estadístico de contraste ob­
tenido, 11,26 supera ampliamente ambos valores.
CONCLUSIÓN: Rechazamos la hipótesis nula porque el valor del estadístico de
contraste (11,26) supera el valor crítico que representa la máxima diferencia que
cabe esperar por simple azar entre los dos grupos.
INTERPRETACIÓN: Con un nivel de confianza del 95% debemos considerar que
al menos dos de los tres métodos de educación compensatoria influyen de forma
distinta en los resultados obtenidos.
COMPARACIONES MÚLTIPLES: Dado que hemos rechazado la hipótesis nula,
realizaremos las comparaciones múltiples, primero entre las tres medias, para ver
entre qué métodos se encuentra la diferencia y para poder contestar a la pregunta
del investigador a quien le interesa ver la diferencia entre el método B y los demás,
dado que está especialmente interesado en ese método realizaremos la compara­
ción del método B contra los métodos A y C juntos.

CRsch effé �( k - 1) Í( k-l)glerror MCerror [ z:[� JJ

118

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Donde, n = 10 (modelo equilibrado) k = 3 YA = 5 Y 8 = 7 Y e = 3 MCe rror = 3,55


y el F crítico obtenido en las tablas ha sido !2 , 3 0 = 3,316 (aunque el valor exacto que
se puede obtener con un programa informático es: f2 , 2 7 = 3,35)
Coeficientes para las comparaciones:

Comparaciones Coeficientes
Ay B 1 -1 o
AyC 1 o -1
ByC o 1 -1
B y ( A+ C ) -1 2 -1

1
CRs,h etté �( 3 -1){ 3, 316 ) ( 3, 55)( (� + J J = ( 2, 575)( 0, 843) = 2, 17
1 10

Este valor, 2,171, es la mínima diferencia que puede producirse entre dos me­
dias para que no sea significativa. Cualquier diferencia mayor, sería significativa al
nivel de significación establecido.

IA -BI=1 5 -71 =2 < 2,17


IA -C I =1 5 -31 = 2 < 2,17
la - el=17 -31=4 > 2,17
Vemos, pues, que sólo la diferencia entre el método B y el C es significativa pero
no entre A y B o A y C que no superan la máxima diferencia de Scheffé.
Si comparamos, como quiere el investigador, el método B con los otros dos jun­
tos, el contraste tendrá que combinar los grupos A y C y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo B, de tal forma que la hipó­
tesis nula tendrá la siguiente expresión:

Que también se podría reescribir de la siguiente forma:

119

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y p roblemas resueltos y comentados. Diseños de investigación y análisis de datos

O de esta otra, si utilizamos números enteros:

De la formulación de la hipótesis y respetando este orden, los coeficientes a utili­


zar pueden ser : (1; -0,5:-0,5) o bien (2, -1; -1), o bien (-1; 0,5; 0;5) o cualquier otra
combinación que respete las condiciones de que los grupos A y C tengan coeficien­
tes con el mismo signo, el grupo B tendrá el signo contrario e igual a la suma de los
coeficientes de los otros grupos, de forma que la suma de todos ellos sea «nula», es

JJ
decir, valga O , para finalmente aplicar la expresión de la prueba de Scheffé:

2 2
2 2 ( -1 ) ( -1 )
CRscheffé �( 3 -1)(3 , 3 16 ) ( 3 ,55)[[ - +-- +-- = ( 2, 575)( 1,46 ) = 3 ,76
10 10 10

/ ( 2 )Y a +(-l)Y A + (-l)Yc / = l ( 2 )( 7 )+(-1)( 5)+(-1)(3)j =6 > 3 , 76

Por lo tanto vemos que el Método B produce resultados significativamente dis­


tintos que los métodos A y C tomados conjuntamente.

SITUACIÓN 3. Se realizó un estudio para evaluar el efecto de la falta de sincro­


nía entre las claves visuales y auditivas en la retención de palabras habladas. Para
ello se asignaron aleatoriamente 3 0 sujetos a tres grupos distintos (10 sujetos en
cada grupo). A cada grupo se le mostró una película de una persona recitando una
lista de 50 palabras. Las condiciones que se manipularon fueron:

Grupo 1 (rápido): el sonido precedía a los movimientos de los labios.


Grupo 2 (normal): el sonido y el movimiento de los labios estaban en sincronía.
Grupo 3 (lento): Los movimientos de los labios precedían al sonido.

Asumiendo que se cumplen los supuestos del Anova, el investigador se planteó


si existían diferencias en la tasa de recuerdo promedio de palabras entre estos tres
grupos. Los resultados obtenidos fueron:

120

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

SSA = SSEntre_niveles = 233, 867 ; 555/ A = SSoentro_ nive/es = 535, 6 0

3.1. Contraste la hipótesis del investigador con un nivel de confianza del 95%.
3.2. Analice nuevamente los datos con un nivel de confianza del 99%.

SOLUCIÓN:
3.1. CONDICIONES Y SUPUESTOS: Se trata de un diseño experimental en el que
se ha manipulado una variable independiente (un único factor) que, en este
caso, es la sincronía entre el movimiento de los labios y el sonido cuando se
pronuncian palabras. En la vida real vemos a las personas hablando al mismo
tiempo que las oímos. No hay asincronía entre la voz y la imagen excepto en
condiciones anómalas de mal funcionamiento de los equipos informáticos. Sin
embargo también podemos introducir estas anomalías mediante técnicas in­
formáticas para estudios como este. lnformáticamente es posible adelantar o
atrasar el sonido en relación al vídeo. La pregunta que se planteaban los inves­
tigadores es en qué medida esta asincronía afecta a la memoria de las palabras
pronunciadas. Por consiguiente, la variable dependiente es una medida de la
memoria.
Finalmente, y según el enunciado, se asume el cumplimiento de los tres supues­
tos: independencia, normalidad y homocedasticidad.
HIPÓTESIS: Las medias de recuerdo en las tres condiciones son idénticas.

Ha : µGrupal = µGrupa2 = µ Grupa 3


H1 : µ Grupal * µGrupa2 * µ Grupa 3 , para algún µ¡ * µj
En la hipótesis alternativa hemos introducido los subíndices i y j para indicar un
valor cualquiera de los que pueden adoptar las medias {Grupa l, Grupo2 y Grupo3).
Esta hipótesis puede leerse indicando que para algún valor de i y j distintos entre
sí (obviamente no tiene sentido comparar un grupo consigo mismo), sus medias
difieren. Como tenemos tres grupos, las comparaciones uno-a-uno sólo pueden ser
tres: Grupa l vs. Grupo2, Grupal vs. Grupo3 y Grupo2 vs. Grupo3.
ESTADÍSTICO DE CONTRASTE: El estadístico de contraste es la razón F entre la
variabilidad debida al factor manipulado y la variabilidad debida al error.
En el enunciado nos proporcionan dos sumas de cuadrados (SC), las cuales, jun­
to con los grados de libertad que podemos deducir del diseño experimental y del
número de sujetos, nos permitirán construir la Tabla del Anova, que es la base de
121

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de i nvestigación y análisis de datos

este análisis. Pero las SC nos las presentan como SS, lo cual no es problemático ya
que son los términos que se utilizan en inglés (SC = Sumas de Cuadrados, SS = Sum
of Squares). Es muy habitual la utilización de la terminología SS en los módulos
informáticos al uso. De la misma forma, a veces podremos ver el resto de términos
con sus iniciales inglesas. Así, MC = Medias Cuadráticas es idéntico a MS = Mean
Squares, mientras que gl = grados de libertad es idéntico a dof = degrees of free­
dom.

- --
El diseño nos indica que tenemos un análisis factorial de un factor con tres nive­
les. La tabla del anova será:

Fuentes de variación
lnter (factor manipulado) 233,867 1-1=3-1=2 116,934 5,895
lntra (error) 535,60 N - 1 = 30 - 3 = 27 19,837
__....:====:::=====::=::::
Total 769,467 N - 1 = 30 - 1 = 29

Hemos puesto en negrita y subrayado los datos proporcionados por el enuncia­


do y el resto han sido extraídos según los siguientes cálculos:

SC 233, 867 =
.
MCmter = ;n te r = 116 , 934
g /in te r 2

SC 535,6 0
.
MCmtr a
= ;n tra = = 19 , 837
g /intra 27
MCin ter = 116 , 934
F= =5 89 5
MCintra 19 , 837

Por tanto, el estadístico de contraste F, vale aproximadamente 5,8 9.


REGLA DE DECISIÓN: Para determinar si esta variabilidad es superior a la que se
esperaría por azar debemos buscar en las tablas de la razón F con los mismos grados
de libertad del Anova (2 y 27 ) y con un nivel de confianza del 9 5%. Podemos obser­
var que no se encuentra exactamente el valor con 2 y 27 grados de libertad. Sólo
podemos conocer dos valores entre los que se encuentra el valor buscado:

F2 , 2 0 = 3, 493
F2 , 30 = 3,316

122

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Y ambos se encuentran por debajo del valor del estadístico de contraste calcula­
do (5,895) por lo que no hay incertidumbre en la decisión a tomar.
CONCLUSIÓN: Debido a que la F empírica obtenida en la tabla del Anova (5,895)
es superior a las F críticas que hemos obtenido de las tablas, podemos rechazar H0
con un nivel de confianza del 95%.
INTERPRETACIÓN: Existen, al menos, dos grupos en el experimento cuyas medias
son diferentes (F = 5,895; p < 0,05). La razón F obtenida se dice que es un estadístico
global u ómnibus ya que sólo nos indica que existen diferencias significativas pero
no nos permite determinar entre qué par de grupos se producen estas diferencias.
Sería interesante realizar comparaciones a posteriori pero en este caso descono­
cemos las medias de las muestras a comparar. No obstante, sí es interesante referir
los valores de los pesos, o coeficientes, para poner a prueba la hipótesis a poste­
riori más interesante: que el recuerdo se muestra afectado por la asincronía de los
índices auditivos y visuales, sin importar su dirección. Es por ello que en este caso,
deberíamos comparar las condiciones «asincrónicas» versus las «no sincrónicas».
Vemos que los grupos 1 y 3 son condiciones asincrónicas y el grupo 2 es sincrónica.
Por ello, el contraste tendrá que combinar los grupos 1 y 3 y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo 2. Para ello, y respetando
el orden (CoeficienteG rupo l ' CoeficienteG rupo 2 , CoeficienteG rupo 3 ), se pueden utilizar

-� ,1,- �) o cualquier otro


los coeficientes (-1, 2, -1 ) o bien ( f -1, �) o bien (
que respete las condiciones de que los grupos 1 y 3 tengan pesos con el mismo sig­
no, el grupo 2 tenga el signo contrario y la suma de los coeficientes valga O.

3.2. Con un nivel de confianza del 99%, tanto los supuestos como la Tabla del Anova
son idénticas ya que el nivel de confianza sólo afecta al criterio de decisión.

CRITERIO DE DECISIÓN: Debemos consultar el valor de la F crítica en la Tabla de


la F con un Nivel de Confianza del 0,99.

123

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

P ( Fn n 5c fn n ) = 0, 9 9
Tenemos el mismo problema que hemos
discutido previamente cuando intentamos
l' 2 1' 2

2 3 4
encontrar el valor de la F crítica con 2 y 30
1 4052,181 5624,583
2 98,503 99,166 99,249 grados de libertad para un nivel de confian-
3 34, 1 16 29,457 28,710 za del 95%. Por consiguiente, tomaremos la
2 1, 198 16,694 15,977
5 16,258 12,060 11,392 misma decisión: aproximar al valor más cer-
cano según los grados de libertad. En este
11 9,646 6,217 5,668
n2 12 9,330 5,953 5,412 caso elegiremos F (2, 30} = 5,390. Sabemos
13 9,074 5,739 5,205 que el verdadero valor es un poco superior
14 8,862 5,564 5,035
15 8,683 5,417 4,893
a 5,390 pero sin llegar a 5,849 (se encuentra
16 8,53 1 5,292 4,773 en un punto entre ambos).
17 8,400 5,185 4,669
18 8,285 5,092 4,579 Observamos que incluso en esta situa-
19 8,185 5,010 4,500
ción, con un nivel de confianza tan elevado,
20 8,096 4,938 4,43 1
30 7,562 4,510 4,018 seguimos rechazando H0 ya que el estadísti-
60 7,077 4,977 4,126 3,649 co de contraste, 5,895 supera el valor crítico
120 6,851 4,787 3,949 3,480
5,390 que representa la máxima diferencia
que cabe esperar por simple azar.

SITUACIÓN 4. En la Tabla se presentan los datos referidos a las tasas de crimi­


nalidad de distintas ciudades americanas. Las ciudades están clasificadas según su
especialización funcional: ciudades industriales, de servicio o administrativas. Nivel
de confianza: 95%.

Tipo de ciudad
Industrial Servicios Administrativa
4,3 5,1 12,5
2,8 6,2 3,1
12,3 1,8 1,6
16,3 9,5 6,2
5,9 4,1 3,8
7,8 3,6 7,1
9,1 11,2 11,4
10,2 3,3 1,9

¿Y 68,7 44,8 47,6


2
¿Y 725,81 324,04 405,28

124

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Analice y extraiga las conclusiones de estos datos según el diseño apropiado.


¿Existen diferencias en la tasa de criminalidad entre las ciudades industriales y
las de servicios?

SOLUCIÓN:
Observamos que nos han proporcionado los datos directos de la variable depen­
diente: Tasa de criminalidad. La unidad de observación es la ciudad (cada ciudad
tiene su propia tasa de criminalidad) y cada ciudad solo puede tener una única tasa
de criminalidad en un momento determinado. Además, considerando que las ciu­
dades se han clasificado en tres categorías exhaustivas (industriales, de servicios o
administrativas) en función de su actividad comercial principal, cada valor numérico
proporcionado en la tabla solo puede pertenecer a una ciudad. Esto significa que te­
nemos un factor de medidas o muestras independientes con tres niveles. Debemos
aplicar un Anova de medidas independientes con tres niveles.
CONDICIONES Y SUPUESTOS: Asumimos que el modelo es de efectos fijos ya
que sólo nos interesan los niveles concretos de ciudades expuestos en la Tabla. Los
supuestos son los propios del Anova (independencia de las observaciones, norma­
lidad y homocedasticidad). La variable dependiente es de razón ya que es una tasa
cuyo valor O es significativo e indica ausencia de criminalidad.
HIPÓTESIS: La hipótesis nula afirma que no existen diferencias en las tasas de
criminalidad entre los tres tipos de ciudades, es decir:

Ho : µindus trial = µs ervicios = µadminis tra tiva

Frente a la alternativa que formula que existen diferencias significativas entre, al


menos, dos de ellas:

H 1 : µindus trial * µse rvicio s * µadm inistra tiva ; para al menos dos de ellas

ESTADÍSTICO DE CONTRASTE: Además, nos han facilitado los cálculos dándolos


los sumatorios de Y y de Y2 . A partir de los mismos debemos calcular las Sumas de
Cuadrados de la Tabla del ANOVA. En este ejercicio utilizaremos las razones básicas.

2
( 68, 7 +44, 8 +47, 6 ) 2 5.953,2
= 1081 38
8+8 +8 24

125

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

2
3
68,72 44 1 82 471 62
[A ] = ¿ ( l J = + + =589,961 + 250,88+283,22=1124,06
i= l n; 8 8 8

[ Y ] = ¿ ¿Y;J = 725,81+324,04 +405,28 = 1455,13

A partir de estos valores podemos calcular las sumas de cuadrados:

SCrota t = [ Y ] -[ T]=1455, 13-1081, 38 = 373, 75

SC1nter = [ A ] -[T] = 1 124, 06 - 1081, 38 = 42, 68

SCtntra = [ Y ] -[ A ] = 1455, 13- 1124, 06 = 331, 07

Verificamos que la SCtotat es la suma de las SCinte r y la SCintra · Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili­
brado con 3 x 8 = 24 unidades de observación en total y 3 niveles del factor).
Hemos obtenido en la Solución una razón F empírica de 1,35. El valor crítico de
la F al 95% de confianza con 2 y 21 grados de libertad no aparece exactamente en
la tabla del formulario, pero tenemos un valor muy aproximado (F2 , 20) cuyo valor
es 3,493.
REGLA DE DECISIÓN: Rechazaremos H0 si el valor de la F empírica obtenida con
nuestros datos y que aparece en la Tabla del Anova es superior a la F crítica obteni­
da en las tablas de la F de Snedecor-Fisher para un nivel de confianza del 95%.
CONCLUSIÓN: Como el valor de la F empírica (el estadístico de contraste) es in­
ferior al valor de la F crítica (1,35 < 3,493) no hay evidencia suficiente para rechazar
la H0.
Una consecuencia derivada de este resultado es que no es posible contestar
positivamente a la pregunta acerca de si existen diferencias entre las ciudades in­
dustriales y las de servicios. Solamente en el caso en que hubiésemos rechazado H0
tendría sentido plantearse esta pregunta realizando la prueba de Scheffé.
INTERPRETACIÓN: No existe evidencia empírica para afirmar que la tasa de cri­
minalidad depende del tipo de ciudad en que viven las personas.

SITUACIÓN S. Diversos estudios ponen de manifiesto que las enfermedades de


tipo alérgico se ven agravadas por la presencia de fuerte estrés. Además, la época
126

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

del año parece afectar de forma decisiva a la gravedad de los trastornos alérgicos.
En un estudio se ha utilizado una muestra aleatoria de 5 pacientes alérgicos (todos
con el mismo tipo de alergia) sometidos todos ellos a condiciones de alto estrés. Un
grupo de especialistas ha evaluado la gravedad de la alergia de cada paciente (en
una escala de O a 10) en los cuatro periodos estacionales: primavera, verano, otoño
e invierno. Para analizar estos datos, el investigador utilizó un ANOVA cuyas razones
básicas aparecen a continuación (utilice un a= 0,05):

[A X S]
910 852,5 940 845

Analice y extraiga las conclusiones de estos datos según el diseño apropiado.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio ha utilizado solo 5 participantes proce­
dentes de una misma población caracterizada porque padecen alergia y alto estrés,
y ha medido la gravedad de la alergia (variable dependiente) en cuatro periodos
estacionales. Esto significa que para cada participante disponemos de 4 puntuacio­
nes, una en cada periodo. Por consiguiente, se trata de muestras relacionadas o de­
pendientes ya que las observaciones de cada estación pertenecen al mismo sujeto.
La variable manipulada ha sido el periodo estacional. Es un diseño de un factor de
medidas dependientes con 4 niveles: primavera, verano, otoño y verano.
Las condiciones que deben cumplir los datos son los propios correspondientes
a un diseño intra-sujetos:
1. La variable dependiente se encuentra medida a un nivel mínimo de intervalo.
Debido a que los especialistas han medido la alergia en una escala (asumimos
que continua) del O al 10, podemos afirmar se cumple el supuesto. Aunque
no podemos afirmar que si un especialista ha puntuado la alergia de un suje­
to en una estación como cero significa ausencia absoluta de alergia ya que la
medición es subjetiva, al menos podemos confirmar el nivel de intervalo en
la medida de la variable dependiente.
2. Las puntuaciones de alergia en cada estación son independientes entre sí.
3. Las puntuaciones de alergia en cada estación deben distribuirse según la cur­
va normal.
4. Las varianzas de las puntuaciones en alergia deben ser iguales entre sí.
S. Las covarianzas entre cada par de niveles del factor deben ser iguales entre sí.
127

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

HIPÓTESIS: La hipótesis nula que se pone a prueba es que no existen diferencias


en la alergia en función de los periodos estacionales.

Ha : µprim avera = µverano = µotoño = µinvierno

Mientras que la hipótesis alternativa afirma que, al menos para un par de esta­
ciones, sí existen diferencias. Como existen 4 estaciones, se plantea que alguna de
las 6 comparaciones posibles es significativa, es decir, que en alguna de ellas (o en
varias) existen diferencias en la magnitud de la alergia.

H1 : µprim avera *µverano *µotoño * µinvierno al menos para un par de medias

ESTADÍSTICO DE CONTRASTE: Para el cálculo del estadístico de contraste, F, parti­


mos de los datos que nos proporcionan en el enunciado. Estos son las razones básicas
del factor (A), de los sujetos (5), de la interacción entre ambos (AS) y del total (T). Con
ellas se pueden construir las Sumas de Cuadrados necesarias para construir la tabla
del Anova de grupos relacionados o dependientes. En la primera tabla hemos amplia­
do las razones básicas con el cálculo de las Sumas de Cuadrados correspondientes.

Razón básica Fórmula de las se Cálculo de las se


[A]=910 SeA= [A] - [T] SeA = 910- 845 = 65
[S] = 852,5 ses = [S] - [T] ses = 852,5-845 = 7,5
[AxS] =940 SeAxS = [AxS] - [A] - [S] + [T] SeA xS = 940- 910- 852,5+845 = 22,5
[T] = 845 SeT = [AS] - [T] SeT = 940-845 = 95

Estos resultados nos permiten construir la tabla del Anova considerando que


tenemos 4 niveles del factor (a = 4) y tenemos 5 sujetos (s = 5).

g.d.l.

Factor (A) 65 a-1=4-1=3 21,667 21,67 / 1,875=11,56
Sujetos {S) 7,5 s-1 = 5-1 = 4 1,875

7,5 1,875
(a.s) -a -s+l=
(4x5)-4-5+1=12
Error (AxS)

95 N-1 = 20-1= 19 5

128

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

El estadístico de contraste es la razón F con 3 y 12 grados de libertad a un nivel


de confianza del 95%. Según las tablas este valor es F3 ,12,95% = 3,490.
REGLA DE DECISIÓN: El valor crítico de la distribución muestra! es F = 3,490 y
observamos que el estadístico de contraste supera el valor crítico {11,56 > 3,490).
CONCLUSIÓN: Rechazamos H0 con un nivel de confianza del 95%
INTERPRETACIÓN: Existen, al menos, dos estaciones en las que los síntomas de
alergia de las personas difieren entre si (F = 11,56; p < 0,05).

SITUACIÓN 6. El director de la Escuela de Ajedrez estaba interesado en identifi­


car la mejor estrategia de control de la atención (durante las partidas) para entrenar
a los alumnos en la utilización de la más adecuada. Se han estudiado tres estra­
tegias: centrarse en estímulos internos (A), centrarse en estímulos externos (B) y
hacer una parada de pensamiento (C). El control de la atención se ha operativizado
mediante una variable fisiológica (variaciones en la actividad eléctrica de la piel). Se
seleccionó una muestra aleatoria compuesta por 45 jugadores de ajedrez, que se
asignaron al azar, y por igual, a cada una de las tres condiciones experimentales. Se
obtuvieron los siguientes resultados:

Media suma Y:LY

A 15 37 555 22350
B 15 34 510 18300
e 15 47 705 35295

Tras realizar todas las comprobaciones necesarias se concluyó que las observa­
ciones eran independientes, las distribuciones normales y las varianzas homogé­
neas y el investigador quiere comprobar si las estrategias de control de la atención
influyen sobre el rendimiento de los jugadores.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Disponemos de una variable independiente (la
estrategia de control ) con tres niveles o valores y se quiere estudiar su influen­
cia sobre la atención en los jugadores de ajedrez. Se forman al azar tres muestras
indpendientes de 15 sujetos cada una. Se trata, por tanto, de un diseño factorial
equilibrado en la que se cumplen los supuestos del ANOVA.
129

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

·
HIPÓTESIS ESTADÍSTICAS: Se trata de un contraste bilateral ya que el investigador
no ha establecido previamente que alguna estrategia produzca mejores resultados
que otra. La hipótesis nula establece que no existen diferencias entre los tres tipos
de estrategia, frente a la hipótesis alternativa de que, al menos, para un para de
estrategia sí existen diferencias significativas.

Ha : µA = µB = µe
H1 : µA *-µ8 *-µe¡, para algún par

ESTADÍSTICO DE CONTRASTE: Además, nos han facilitado los cálculos dándolos


los sumatorios de Y y de Y2 . A partir de los mismos debemos calcular las Sumas de
Cuadrados de la Tabla del ANOVA. En este ejercicio utilizaremos las razones básicas.

3. 1A¡ )2
(555+ 510+ 705)
[rJ= :2 = ( I,; ------= 25953,2 =69620
2

. 15+15+15 45
�i=ln1
'"'

3
[ At 5552 5102 7052
[A]=¿ - J =-+-+-=71010
i=l n¡ 15 15 15

[Y]=¿¿Y;J = 22350+18300+ 35295=75945

A partir de estos valores podemos calcular las sumas de cuadrados:

SCrotal = [Y]-[T] = 75945-69620= 6325


SC 1nter =[A]-[T] =71010-6962 0 = 1390
SC 1ntra =[Y]-[A]=75945-71010=4935

Verificamos que la SCtotal es la suma de las SC inter y la SC intra · Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili­
brado con 3 x 15 = 45 jugadores de ajedrez en total repartidos a 3 niveles del factor).

Fuentes de Sumas de Grados de Medias


variación Cuadrados libertad Cuadráticas
lnter 1390 3- 1=2 695 5,91
lntra 4935 45- 3= 42 117,5
Total 6325 45-1 = 44

130

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

REGLA DE DECISIÓN: Hemos obtenido en la solución una razón F empírica de


0,28. El valor crítico de la F al 95% de confianza con 2 y 42 grados de libertad no
aparece exactamente en la tabla del formulario por lo que buscamos los más apro­
ximados que son (F2, 30) cuyo valor es 3,316 y (F2, 60) = 3,15.
CONCLUSIÓN: Como el valor obtenido del estadístico de contraste, F, supera el
valor crítico, y se rechaza la H0 .
1 NTERPRETACIÓN: No existen diferencias significativas entre las distintas estra­
tegia para la mejora de la atención de los jugadores de ajedrez (F = 5,91; p < 0,05).

SITUACIÓN 7. Para estudiar el efecto del paso del tiempo sobre la calidad del
recuerdo, se realiza un estudio en el que a un grupo de 9 personas seleccionadas de
forma aleatoria se les presenta una historia escrita que deben memorizar durante
20 minutos. Terminado el tiempo de memorización, se dejó transcurrir una hora y
se pidió a los 8 sujetos que escribieran la historia que habían intentado memorizar.
Un grupo de expertos evaluó la calidad del recuerdo de cada sujeto. Transcurrido
un día se volvió a pedir a los sujetos que realizasen la misma tarea, y lo mismo se
hizo al cabo de una semana y al cabo de un mes, obteniendo los resultados de la
siguiente tabla:

7 7 4
6 7 5
8 6 5
9 5 3
7 7 4
8 7 4
7 6 2
8 7 3

Con estos datos, compruebe el efecto del paso del tiempo sobre la calidad del
recuerdo.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El experimento se realiza sobre una muestra de
ocho sujetos a los que se les evalúa la calidad del recuerdo (la variable dependiente)
en tres momentos distintos (pasado 1 día, 1 semana y 1 mes) que es la variable in-
131

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

dependiente seleccionada por el experimentador. Se trata de un diseño intrasujetos


o de muestras relacionadas y la técnica a aplicar sería un ANOVA unifactorial intra­
sujetos de efectos fijos. Para ello, la variable dependiente (la calidad del recuerdo)
debe ser una variable cuantitativa, con distribución normal y varianza constante en
cada una de las condiciones. Las observaciones son independientes entre sí.
HIPÓTESIS ESTADÍSTICA: La hipótesis nula dirá que el paso del tiempo no influye
sobre la calidad del recuerdo, es decir:

Y la hipótesis alternativa, niega la anterior, para indicar que el paso del tiempo sí
influye sobre la calidad del recuerdo:

H1 : µ10 * µ15 * µ1 M, para al menos dos de ellas

ESTADISTICO DE CONTRASTE: A partir de los datos de la tabla, obtenemos los


cuadrados de cada puntuación, sus sumas y sumas de los cuadrados, por columnas
para cada nivel de tratamiento y por filas para cada sujeto:

DATOS O RIGINALES CUADRADOS


ld ls lm ld ls lm 5 52
Suj1 7 7 4 49 49 16 18 324
Suj2 6 7 5 36 49 25 18 324
Suj3 8 6 5 64 36 25 19 361
Suj4 9 5 3 81 25 9 17 289
Suj5 7 7 4 49 49 16 18 324
Suj6 8 7 4 64 49 16 19 361
Suj7 7 6 2 49 36 4 15 225
Suj8 8 7 3 64 49 9 18 324
A¡ 60 52 30 456 342 120 142 2532
A�I 3600 2704 900

A partir de estas puntuaciones y sus cuadrados, obtenemos las razones básicas:

132

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

L.J_l = 60 +52 +30 = 900 5


[A] = -
2 2 2 2
"'A
1
s 8

[AS] =¿Al = 49+49+16 + 36+49+25+64 . . . = 456 + 342+120 = 918

[s] =
¿s¡ = 324+324+361+289+... = 2s32 = 844
a 3 3

AS;¡ J (60+52+30)2
2
(L
[r]= = = 840,17
as 3·8

Y las sumas de cuadrados son:

ser= [ AS]-[r] = 918-840, 17 = 77,83


SeA = [A]-[T] = 900, 5-840,17= 60, 33
ses = [s] - [r]=844-840, 17 = 3, 83
se( AxS) = [AS]-[ A]-[SA]+[r]=918-900, 5-844+840,17=13, 67

-- --
Para finalmente construir la tabla del ANOVA intrasujetos:

g.l.
[A]-[T] = Factor A 60,33 a-l = 2 30,167 30,9
[S]-[T] = Sujetos 3,83 s-1 = 7 0,547 0,561
[AS]-[A]-[S]+[T] = AxS 13,67 (a-l) (s-1} = 14 0,976
[AS]-[T] = Total 77,83 N-l= 23

REGLA DE DECISIÓN: Con 2 y 14 gl y un nivel de confianza del 95%, el valor crí­


tico para tomar una decisión respecto a la hipótesis nula es 3, 74 y con un nivel de
confianza del 99% es 5,564.
CONCLUSIÓN: Como el estadístico de contraste supera el valor crítico tanto al
95% como al 99%, rechazamos la hipótesis nula.
INTERPRETACIÓN: El paso del tiempo afecta a la memoria (F = 30,9; p < 0,01)

133

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SITUACIÓN B. En un trabajo publicado por García Leiva, P; Gómez Jacinto, L y


Canto Ortiz, JM (2001} se analiza las diferencias de género ante situaciones desen­
cadenantes de celos, encontrando que las mujeres presentan mayor malestar que
los hombres ante la infidelidad emocional (pérdida de atención cuidado y protec­
ción que la pareja dirige hacia otra persona}, no existiendo diferencias significativas
ante la infidelidad sexual, que es la que más celos e ira genera tanto en hombres
como en mujeres.
Imagine que está usted interesado en comprobar si las diferencias entre hom­
bres y mujeres ante la infidelidad emocional es la misma para diferentes grupos
de edad. Para ello, selecciona una muestra de 30 personas con relación de pareja
estable y con la misma proporción de hombres que de mujeres con los que forma
tres grupos de edad: jóvenes (entre 18 y 35 años}, medianos (entre 36 y 55 años)
y mayores (más de 56 años). Todos ellos contemplan un escenario de infidelidad
y posteriormente responden al cuestionario de reacciones emocionales de Shac­
kelford, T y Col {2000). Se asume que los datos cumplen los supuestos necesarios
para realizar el análisis estadístico correspondiente con un diseño equilibrado. El
investigador quiere contrastar si ante la infidelidad emocional, existen diferencias
tanto por razón de sexo como por la edad y si la reacción de la mujer como la del
hombre varía con la edad.
Representando por A la variable sexo y por B la variable grupo de edad se obtie­
nen los resultados de la siguiente tabla, que representa la suma de las puntuaciones
de cada grupo, y las razones básicas que se indican:

A
B if1"ifoJ!iUM&f:j¡)H

-
[Y]=717 [T]=662,7
- 18 18

29 21
ÍAl=674,73 ÍBl=682,1 ÍAB1=700,6

33 22

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Contamos con dos factores, el sexo y la edad. El
primero con dos niveles, hombre y mujer y el segundo, siendo una variable cuanti­
tativa, se ha categorizado en tres grupos: jóvenes, medianos y mayores. Por tanto,
se trata de un diseño de dos factores (2x3}. El número de sujetos de cada una de
134

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

estas seis condiciones experimentales es de S. La variable dependiente es la medida


obtenida a través del cuestionario de reacciones emocionales de Shackelford, T y
Col {2000). Aplicaremos un ANOVA bifactorial intersujetos de efectos fijos ya que en
el enunciado nos indican que se cumplen los supuestos necesarios, a saber, norma­
lidad, independencia de las observaciones y homocedasticidad.
HIPÓTESIS: Para el factor sexo, establecemos que no existen diferencias en la re­
acción emocional de hombres y mujeres ante una situación de infidelidad emocio­
nal, es decir, que las puntuaciones medias de hombres y mujeres en el cuestionario
son iguales:

Ho: µHombres = µM ujeres


H1 : µHombres * µM ujeres

Para el factor edad, la hipótesis nula establece que la edad no afecta a la reac­
ción emocional, o dicho con otras palabras, que las medias en el cuestionario de los
tres grupos de edad son iguales. Por su parte, la hipótesis alternativa indicará que sí
afecta, al menos para un par de niveles del factor iluminación.

Ho: µJOV = µMEO = µMAY


H1 : µJov *µM EO *µMAY al menos para un par de grupos de edad

Para la interacción la hipótesis nula afirma que los efectos de la edad y del sexo
son aditivos, de tal forma que la reacción emocional entre hombres y mujeres es la
misma con independencia de la edad, o viceversa, que la reacción para los distintos
grupos de edad es la misma con independencia del sexo. En términos gráficos se
vería reflejado en que las medias de la reacción emocional entre hombres y mujeres
se situarían sobre líneas paralelas en los tres grupos de edad, por un lado, y que la
media para los distintos grupos de edad para hombres y mujeres se situarían sobre
líneas paralelas. Y veremos estas gráficas en la resolución de esta situación.

H0 : No existe interacción
H1 : Existe interacción

ESTADÍSTICO DE CONTRASTE: Para las hipótesis sobre los efectos principales de


los factores sexo, edad e interacción, obtenemos las sumas de cuadrados a partir de
las razones básicas proporcionadas en el enunciado.

135

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SCT =[Y] - [T] = 717 - 662, 7= 54 , 3

SCA = [A]-[T]=6 74 , 7 3-66 2, 7=12, 03

sea = [ a] - [ r] = 6 82,1 - 662, 7=19 , 4


SCAB=[AB] - [ A]-[a] + [ r]=700, 6-674 , 73-682,1 + 662, 7=6, 47

SCError = [Y] - [ AB]=717-700, 6 =16, 4

------
Con lo que la tabla resumen del ANOVA es:

A 12,03 1 12,03 17,61 < 0,01


B 19,40 2 9,70 14,20 < 0,01
AxS 6,47 2 3,23 4,73 < 0,05
INTRA 16,40 24 0,68
TOTAL 54,30 29

REGLA DE DECISIÓN: Con 1 y 24 gl, para el factor A, o con 2 y 24 gl, para el factor
B y la interacción, y para los niveles de confianza del 9 5% o del 9 9 %, los valores crí­
ticos que podemos encontrar en la tabla, son:

Í2;20 ; 0 ,95 =3, 49 F =1;20 ; 0 ,9s=4, 35

Í2;20 ; 0 ,99 = 5, 849 F =1;20 ;O ,99 = 8 ' 096

CONCLUSIÓN: Se rechaza la hipótesis nula si el valor del estadístico F de cada


contraste supera el valor crítico.
1 NTERPRETACIÓN: Existen diferencias significativas en la reacción emocional de
hombres y mujeres ante la infidelidad emocional de su pareja (F = 17,61; p < 0,01).
También se observan diferencias significativas en la reacción emocional para los
distintos grupos de edad (F = 14,20; p < 0,01). Existe interacción entre la reacción
emocional de hombres y mujeres con la edad, es decir, las diferencias en la reacción
emocional entre hombres y mujeres no es la misma para los diferentes grupos de
edad (F = 4,73; p < 0,05). Las siguientes gráficas muestran esta situación:
136

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

35 35
30 30
25 25
20 20 -+- J OV
-+- M UJ ERES
MED
15 H O M B R ES 15
.........._ MAY
10 10
5 5
o o
JOV MED MAY M UJ ER ES H O M B RES

Observando la figura de la izquierda se o bserva que no hay diferencias entre


hombres y mujeres del grupo de los jóvenes (entre 18 y 35 años) pero sí pueden
producirse diferencias para los medianos (de 36 a 55 años) y mayores (con más de
56 años). Observando ahora la figura de la derecha, puede que no existan diferen­
cias entre los distintos grupos de edad de los hombres pero sí entre los distintos
grupos de edad de las m ujeres, siendo éstas más acusadas entra las mujeres de más
de 56 años y medianas (de 36 a 55 años) respecto a las más jóvenes.
El análisis de los efectos simples nos permite analizar el factor A (sexo) en cada
una de los niveles del fator B (grupos de edad). Comenzando con el factor A en la
condición b 1 de B -que en el contexto de esta situación, se refiere a la diferencia
entre hombres y mujeres jóvenes (de 18 a 35 años)-. Para ello, se calculan las razo­
nes básicas:

A en b1 = -- - -
2
[ ] ¿(AB; 1 )

Siendo la suma de cuadrados:

[ SC A e n b J = [ A en bi ) - [ Bi ) con a-1 grados de libertad

Utilizando los datos de la siguiente tabla en la que figuran las sumas de los suje­
tos de cada uno de los grupos y las sumas marginales de los niveles de cada factor:

137

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

B al: MUJ ERES a2: HOMBRES

INIMM 18 18 36

l&IM+M 29 21 50

l#&Mll 33 22 55
80 61 141

¿ ( A8; 1 )2 =-
182 182
+-=129, 6
[A en bi ) =
n 5 5
Bf 36 2
[ 81 ] = -=- = 129, 9
an 2·5

Resultado bastante obvio, considerando que la suma de las puntuaciones para


los hombres y mujeres del grupo de los jóvenes son iguales.
Continuamos calculando la suma de cuadrados para los otros niveles del factor
8, grupos de edad medianos, b 2 , y mayores, b 3 .

502
[ 82 ] = _1__ = - = 250
2
8
an 2·5

[ 5C A en b J = [A en b2 ]-[82 ]=2 5 6, 4 - 250 = 6, 4


2

Y para el grupo de mayores, b3 :

8� 552
[ 83 ]=-=-=302, 50
an 2·5

138

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

También se analizara el factor B en cada una de las condiciones a¡ de A, es decir,


las diferencias en la reacción emocional entre los distintos grupos de edad de las
mujeres y las diferencias entre los distintos grupos de edad de los hombres.

[seB en ª1 ] =[B en a ]-[A ] =


¿ ( AB1j ) --=
A i 18 2
2
33 8
-+-+--- =2 ,13
2
9
2 2
0
2

n b. n 5 5 5 3. 5
1 1 4

A22 182 212 22 2 612


- =-+-+--- = 1' 73
b·n 5 5 5 3·5

Con estas sumas de cuadrados completamos la siguiente tabla, las medias cua­

------
dráticas (SC/gl} y los estadísticos F, como cociente entre la media cuadrática de cada
nivel y la media cuadrática del error o intra del ANOVA realizado anteriormente:

[A en b 1 ]= 0,00 1 0,00 0,00 > 0,5


[A en b 2 ]= 6,40 1 6,40 9,37 < 0,05
[A en b 3]= 12,10 1 12,10 17,71 < 0,01
[B en a 1]= 24,13 2 12,07 17,66 < 0,01
[B en a 2 ]= 1,73 2 0,87 1,27 > 0,05
INTRA 16,40 24 0,68

REGLA DE DECISIÓN: Buscamos en las tablas los valores críticos de F con 1 y 2 4


gl y con 2 y 2 4 gl para los niveles de confianza del 9 5 y 9 9 %. El valor más próximo en
las tablas es con 1 y 2 0gl o con 2 y 2 0gl.

Í2;20;0,95 = 3, 49 F = 1; 20;0,95 = 4 , 35

Í2 ;20;0,99 = 5, 849 F =1; 2 0;0,99 =8, 096

CONCLUSIÓN: Las diferencias significativas se producen en los niveles b2 y b 3 de


A y en el nivel a 1 de B.
139

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

INTERPRETACIÓN: Existen diferencias significativas en la reacción de los hom­


bres y mujeres ante la infidelidad emocional dentro del grupo de los de edad me­
diana (F = 9,37; p < 0,05) y también dentro del grupo de mayores (F = 17,71; p <
0,01). Pero no existen diferencias entre la reacción de hombres y mujeres dentro
del grupo de los jóvenes.
Existen diferencias entre la reacción ante la infidelidad emocional de las mujeres
mayores, medianas y jóvenes, siendo más alta para las mujeres de mayor edad y
más baja para las de menor edad. No existen diferencias entre los hombres debidas
a la edad.

-+- a l : MUJ ERES a 2 : HOM B RES -+- b l : JOV b 2 : M E O -.1,- b3: MAY
35 ,----------� 35 � -- � ------- -
30 +------f-:_�"'----f--t-� 30 +----+--l-��------
25 +---- ---/--1---+----l--f-� 25 +----1---1---� �---c,----�
20 +-----7'--� -'+-+-----f>-.L--� 20 +--- --+--+-----�---
15 i;::=======::,c'.:::::=====:::;----¡---� 15 +-----+-=----------
10 t-============;::::::��======::::;- 10 i-;===.t.============,------�
F = 17,66; p < 0,01
5 4--------================= 5 -i--'======='--------
o -+----�--�--� 0 -+------�-----�
b l : J OV b2: MEO b 3 : MAY a l : M UJ ERES a2 : H O M B RES

SITUACIÓN 9. El laboratorio de aprendizaje animal dispone de doce ratas de


la raza Wistar, con las que realiza un experimento. Posteriormente adquieren otro
grupo de doce ratas Long Evans y, tras la realización del mismo experimento en las
mismas condiciones, sospechan que los resultados son diferentes según con qué
grupo de ratas se realice la experiencia. La prueba consistía en tomar los tiempos
que tardaban en recorrer un corredor con recompensa final, después de 1, 2 ó 3
días de privación de comida. La variable dependiente (tiempos) se distribuye nor­
malmente, además las observaciones son independientes y las varianzas homogé­
neas. Los tiempos, en segundos, fueron los siguientes:

A: Wistar B: Long Evans


1 día 2 días 3 días 1 día 2 días 3 días
6 5 9 7 6 13
5 4 10 8 7 15
4 3 11 9 8 16
3 2 12 4 5 18

140

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

a) Averigüe si es cierto que existen diferencias entre las dos razas de ratas en los
tiempos que tardan en atravesar el corredor.
b) ¿Cómo influyen esos días de privación de comida en los tiempos que tardan
las ratas en atravesar el corredor?
e) ¿5e obtiene algún efecto cuando se combinan los dos factores?

SOLUCION:
CONDICIONES Y SUPUESTOS: En este experimento se trabaja con dos variables
independientes o factores. La raza, con dos niveles, y el tiempo de privación de
alimento, con tres niveles. La variable dependiente es el tiempo que, según el enun­
ciado del problema, cumple los supuestos de independencia de las observaciones,
normalidad de las distribuciones y homogeneidad de las varianzas. Se trata, por
tanto, de un diseño (2x3) que se resolverá analizando los datos con un ANOVA bi­
factorial con interacción de efectos fijos.
HIPÓTESIS ESTADÍSTICAS: Hipótesis para el factor A, raza: La hipótesis nula esta­
blece que no hay diferencias significativas en el tiempo que tardan en recorrer el
laberinto las dos razas de ratas, frente a la hipótesis alternativa que afirmaría que sí
existen esas diferencias. Se trata, por tanto, de un contraste bilateral.

Ha : µw = µLE
H1 : µw * µLE
Hipótesis para el factor B: La hipótesis nula establece que no hay diferencias
significativas en el tiempo que �ardan las ratas en recorrer el laberinto por causa
del tiempo de privación de comida. La hipótesis alternativa indicaría que el tiempo
de privación produce diferencias significativas en el tiempo que tardan las ratas en
recorrer el laberinto.

Ho: µ1 =µ2 =µ3


H1 : µ1 =J:. µ2 =J:. µ3 al menos para una µ¡

Hipótesis para la interacción: La hipótesis nula establece que el tiempo que tar­
dan las ratas en recorrer el laberinto es el mismo con independencia de la raza y
del tiempo de privación. Es decir, no existe interacción entre la raza y el tiempo de
privación sobre la ejecución de la rata para recorrer el laberinto. La hipótesis alter­
nativa indicaría que sí existe interacción.

141

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

H0 : No existe interación
H1 : Existe interacción

ESTADÍSTICOS DE CONTRASTE: Al tener tres hipótesis a contrastar, debemos cal­


cular tres estadísticos de contraste:
El estadístico de contraste para el factor A « raza» es:

= M Cfactor raza rata


F
M Cerror

El estadístico de contraste para el factor B «tiempo de privación»:

F
= M Cfactor tiempo privación
M Cerror

El estadístico de contraste para la interacción (AxB):

MCinte racción
F=
M Cerror

Y utilizando los siguientes datos:

Factor A: raza rata A1 : Wistar


Fact or B: ti e m p o B2 B1 B2 B3
: : : :
2 días 1 día 2 días 3 días
6 5 9 7 6 13
5 4 10 8 7 15
4 3 11 9 8 16
3 2 12 4 5 18

Sumas: ¿)u 18 14 42 28 26 62 190

Sumas cuadrados: Í: Y;J 86 54 446 210 174 974 1994

En la siguiente tabla aparecen las sumas de las puntuaciones para cada una de
las 3x2 condiciones que nos facilitan las operaciones para obtener las sumas de
cuadrados.
142

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

B 1 : 1 día B 2 : 2 día B3 : 3 día


18 14 42 Z:I Y¡ = 74

A2 : Long Evans 28 26 62 Z:I Y¡ = 1 1 6

¿ ¿ y = 46 ¿¿ y = 40 ¿¿ y = 104 ¿¿¿ytí = 190


j j j j

Calcularemos las razones básicas para obtener las sumas de cuadrados corres­
pondientes:

[Y] = ¿Y;J =1944

T2 1902
[ r]=-=--=1504, 17
abn 2 · 3 · 4
A +116 2
"' ,� = 74
2
L.J_
[A] = - =1577, 67
bn 3·4

¿a? 46 2 +402 +1042


[B]=- ' =1816, 5
an 2·4

182 +14 2 +42 2 +282 +26 2 + 62 2


1897
4

Y con estos valores, las sumas de cuadrados, son:

SCT = [Y]-[r]=1944-1504, 17=439, 83

SCA =[ A]-[T] = 1577, 67-1504,17 = 73, 5

SCB = [B]-[ r]=1816, 5 -1504,17=312, 33

SCAB =[ AB]-[A]-[B]+ [ r]=1897 -1577, 67-1816, 5+1504,17=7

SCError =[Y] - [ AB]=1944-1897 =47

Con estos resultados, completamos la tabla del ANOVA para calcular los estadís­
ticos de contraste:

143

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Factor A raza rata 73,50 a-1 = 1 73,50 28, 15

Factor B tiempo 3 12,33 b-1 = 2 156,17 59,81

Interacción (AxB) 7,00 (a-l)(b-1) = 2 3,50 1,34

Residual 47,00 a b(n-1) = 18 2,61

Total 439,83 N-1 = 23

REGLA DE DECISIÓN: Lo primero que probamos es la H 0 de la interacción


porque de no ser significativa habría que recalcular los estadísticos F de cada
factor.
Con un nivel de confianza del 95% el valor crítico de la tabla de la distribución de
F para 2 grados de libertad en el numerador y 18 grados de libertad en el denomi­
nador es de 6,013. Dado que el estadístico de contraste de la interacción: 1, 79 no
supera el valor crítico, no podemos rechazar la H0, por lo tanto la interacción no es
significativa e indica que el modelo se considera aditivo.
Bajo estas circunstancias, procedemos a acumular la suma de cuadrados y los
grados de libertad de la interacción al error, recalculándolo los estadísticos F para
cada uno de los factores, que ahora son:

Factor A raza rata 73,5 1 73,5 27,22

Factor B tiempo 3 12,33 2 156, 165 57,83

h1te1acción (AxB)
Residual 54 20 2,70

Total 439,83 23

Para el factor «raza de rata», el valor crítico de F con 1 y 20 grados de libertad,


con un nivel de confianza del 95%, vale 4,351.; y para el factor tiempo de privación,
con 2 y 30 grados de libertad el valor crítico es 3,493.
Comparándolos con nuestros resultados, tenemos que 27,22 > 4,351 por lo que
rechazamos la H0 del factor raza de rata; y para el factor tiempo de privación, el
144

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

estadístico de contraste 57,83 es mayor que el valor crítico 3,493 por lo tanto, tam­
bién rechazamos la H0 del factor tiempo de privación.
1 NTERPRETACIÓN:
a) Dado que hemos rechazado la hipótesis nula del factor tipo de rata, podemos
contestar a la primera de las preguntas diciendo que, con un nivel de confian­
za del 95%, afirmamos que existen diferencias entre las dos razas de ratas en
su tarea de recorrer el laberinto (F = 27,22; p<0,05).
b) Dado que hemos rechazado la hipótesis nula del factor tiempo de privación,
podemos afirmar, con un nivel de confianza del 95%, que estar privadas de
comida 1,2 ó 3 días influye de forma distinta en el tiempo que tardan en re­
correr el laberinto (F = 57,83; p < 0,05). Debemos realizar las comparaciones
múltiples para comprobar exactamente entre quienes está la diferencia.
c) Respecto a la tercera de las preguntas, vimos que el modelo era aditivo al
no poder rechazar la hipótesis nula de la interacción, por lo tanto, no se da
ningún efecto significativo cuando se combinan los dos factores (F = 1,34; p >
0,05).
La siguientes gráficas representan la situación donde se aprecia que no existe in­
teracción al no producirse un cruce o « no paralelismo» significativo entre las líneas.

70 70
60 60
50 50
40 40 -+- Bl
-+- Al
30 30 B2
A2
........._ B3
20 20
10 10

o o
Bl B2 B3 Al A2

SITUACIÓN 10. Un estudio publicado por García, M.C. , Navas, M.S., Cuadra­
do, l., Y Molero, F. {2003} con el título: «Inmigración y prejuicio: A ctitudes de una
muestra de adolescentes almerienses» tiene como objetivo conocer la imagen que
los adolescentes de una zona, con alta recepción de trabajadores extranjeros, tie­
nen acerca de los inmigrantes. Entre sus resultados se indica que existen diferencias
significativas en la imagen de los inmigrantes en función del sexo y de la edad de los
adolescentes, siendo más bajas para las chicas y para los de mayor edad. Imagine
que desea comprobar si estas diferencias existen también en otras zonas donde la
145

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

recepción de inmigrantes es menor. Para ello, selecciona una muestra de 20 adoles­


centes con edades comprendidas entre 14 y 16 años de los que el 50% son chicas.
La mitad son de 2º de la ESO y el resto de 4º de la ESO. Todos ellos responden a la
Escala de Racismo Moderno de McConahay y cols. (1981). Se asume que los datos
cumplen los supuestos necesarios para realizar el análisis estadístico correspon­
diente. Representando por A la variable sexo y por 8 la variable edad se obtienen
los siguientes resultados parciales: SCT = 70,55; MC/ntra = 1,525; [ Y] = 1303; [A] =
1240; [B] = 1243,7.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En esta situación el investigador quiere comprobar
si en la población de adolescentes de su localidad existen diferencias significativas
en la imagen de los inmigrantes en función del sexo y de la edad. Las variables inde­
pendientes son el sexo y la edad y la variable dependiente la imagen que los adoles­
centes tienen de los inmigrantes medida a través de la Escala de Racismo Moderno
de McConahay y colaboradores. Cada variable independiente tiene dos valores o
categorías y la variable dependiente es de naturaleza cuantitativa medida con esca­
la de intervalo. Se trata, por tanto, de un diseño 2x2 para muestras independientes
que se analiza con un ANOVA de dos factores con interacción. En el enunciado se
indica que se asume que se cumplen los supuestos necesarios para realizar este
análisis: independencia de las observaciones, normalidad y homocedasticidad. El
modelo del ANOVA de dos factores indica que cada puntuación es la suma de varios
componentes:

Donde «alfa» representa la influencia del factor A: sexo; «Beta» la influencia del
factor 8: edad y «alfa x beta» el efecto de la interacción entre estas dos variables
sobre la imagen de los inmigrantes.
HIPÓTESIS: Trabajando con dos factores, se plantean tres hipótesis nulas. La pri­
mera para analizar la influencia del sexo sobre la variable dependiente. La segunda
para analizar la infl uencia de la edad y la tercera para la interacción. Todas ellas se
pueden escribir de diferentes formas:
Para analizar si existen diferencias entre chicos y chicas, formulamos las hipótesis:
H0: No existen diferencias significativas entre las medias obtenidas en la Escala
de Racismo Moderno obtenidas por los chicos y las chicas. O lo que es lo mismo:
todos los a; = O que conlleva a la igualdad de las medias poblacionales.
146

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Ha : µchi co s
= µchicas

H 1 : Existe diferencias significativas entre las medias obtenidas en la Escala de


Racismo Moderno por los chicos y las chicas. Es decir, no todos los a i = O por lo que:

Para analizar si existen diferencias entre los dos grupos de edad de 2º y 4º de la


ESO, formulamos las hipótesis:
Ha: No existen diferencias significativas entre las medias obtenidas en la Escala
de Racismo Moderno por los adolescentes de 2º y 4º de la ESO. Es decir, no todos
los 0j = O lo que implica la igualdad de las medias para cada nivel del factor edad:

H 1 : Existe diferencias significativas entre las medias obtenidas en la Escala de


Racismo Moderno por los adolescentes de 2º y 4º de la ESO. No todos los 0j = O.

Para analizar si existe interacción del sexo con la edad, formulamos las hipótesis:

Ha : No existe interacción. Todos los a0 u = O


H 1 : Existe interacción. No todos los a0 u = O

ESTADÍSTICO D E CONTRAST E: Para completar la tabla del ANOVA a partir de los


resultados parciales proporcionados en el enunciado, procedemos de la siguiente
forma.
Se trata de una ANOVA de dos factores (sexo y edad) con dos niveles en cada
factor. Hay 10 chicas, 5 de 2º y otras 5 de 4º de la ESO. Y los mismo para los chicos,
por lo que se trata de un diseño equilibrado con 5 sujetos en cada nivel del factor.
Con los datos del enunciado vamos completando la siguiente tabla del ANOVA, co­
menzando por los grados de libertad:

147

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• ••••
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

A (SEXO) a-l= 1
B (EDAD) b-l= 1
AB (a-l}(b-1) = 1
ERROR 16 x 1,525 = 24,40 ab(n-l) = 16 1,525
TOTAL 70,55 n-1= 19

Serotal = [Y]-[ T] � 70, 55 = 1303-[T] � [r] =1303-70, 55=1232, 45

seintra seintra
Me,ntra = � 1, 525 =-- � se,ntra =1, 52 5 · 16 =24, 40
ab ( n-l ) 16

SeA = [A]-[T]=1240-1232, 45 = 7, 55

sea = [B]-[r]=1243, 7-1232, 45=11,25

Teniendo en cuenta la descomposición de la variabilidad total de las puntuacio­


nes:

Serotal =Se (A )+ se (B)+ se (AB)+SeError

y despejando la SC(AB), tenemos que:

SeAB = SeT -(SeA + SCB+ SeError ) =70, 55-8, 45-11,25-24, 49 = 26, 45

Y situamos todos estos resultados sobre la tabla, para obtener las Me dividiendo
su respectiva se entre sus grados de libertad. Finalmente, calculamos los valores del
estadístico F, dividiendo la Me de cada fuente de variación entre la MeError.

148

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

---- --
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

A (SEXO) 7,55 1 7,55 4,95 4,494 8,531


B (EDAD) 11,25 1 11,25 7,377 4,494 8,531
AB 26,45 1 26,45 17,3442 4,494 8,531
ERROR 24,40 16 1,525
TOTAL 70,55 19

REGLA DE DECISIÓN: En este ejemplo concreto, los valores críticos para los nive­
les de confianza del 95% y del 99% se localizan en la tabla con 1 gl en el numerador
y 16 gl en el denominador y son 4,494 y 8,531, respectivamente.
CONCLUSIÓN: Con un nivel de confianza del 95%, todos los estadísticos de con­
traste obtenidos superan sus respectivos valores críticos, rechazaríamos las tres
hipótesis nulas formuladas. La hipótesis de no existencia de interacción se puede
rechazar, incluso con un nivel de confianza del 99%.
1 NTERPRETACIÓN:

• Existen diferencias significativas en la imagen que los chicos y chicas adoles­


centes tienen de los inmigrantes (F = 5,5409; p < 0,05).

• Existen diferencias significativas en la imagen que los adolescentes de 2Q y 4Q


de la ESO tienen de los inmigrantes (F = 7,377; p < 0,05).

• Existe interacción del sexo con la edad de los adolescentes respecto a la ima­
gen que tienen de los inmigrantes (F = 17,34; p < 0,01).

SITUACIÓN 11. Para estudiar el efecto de ciertas variables motivacionales so­


bre el rendimiento en tareas de logro, se diseñaron dos programas de entrenamien­
to motivacion a l (A 1 =instrumenta l y A 2 = atribuciona l ) y se les apl ico a dos grupos de
15 sujetos cada uno seleccionados al azar. Un tercer grupo, también de 15 sujetos,
no recibió entrenamiento pero realizó la misma tarea que los sujetos entrenados
(A 3 = grupo control). Un tercio de los sujetos de cada grupo recibió el entrena­
miento bajo un clima de clase 8 1 = cooperativo, 8 2 = competitivo y 8 3 = individual.
La evaluación del rendimiento de los sujetos, tras el entrenamiento, arrojó los re-
149

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

sultados cuyo resumen aparece en la tabla (en las celdillas está el sumatorio de las
puntuaciones de los sujetos de cada una de las condiciones del experimento; en las
marginales los sumatorios correspondientes a cada factor A o B, respectivamente y
también conocemos que I I 2Y;}k =1456; además SCA = 70 y SC8 = 40

Factor B: Clima de la clase


Factor A: entrenamiento
35 45 105
30 20 25 75
25 15 20 60
90 60 90 240

Utilizando a = 0,05 comprobar si el tipo de entrenamiento y el clima afecta al


rendimiento en tareas de logro.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un modelo bifactorial (entrenamiento y
clima) con tres muestras independientes. Se asume que se cumplen los supuestos
de independencia de las observaciones, normalidad y homocedasticidad que re­
quiere este tipo de análisis.
HIPÓTESIS ESTADÍSTICAS: Para el factor A, tipo de entrenamiento, la hipótesis
nula y alternativa, son:

Ha : µAl = µA 2 = µA3
H1 : µAl *µA 2 * µA3 , para algún µ¡ * µj

Para el factor B:

Ha : µBl =µa2 =µ8 3


H1 : µ8 1 * µ8 2 * µ8 3 , para algún µ¡ * µj

Para la interacción entre el tipo de entrenamiento con el clima:

Ha : No existe interacción entre los dos factores


H1 : Existe interacción entre los factores

150

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

ESTADÍSTICO DE CONTRASTE: Un estadístico para cada una de las tres hipótesis


formuladas:
Los tipos de entrenamiento son A 1 , A 2 y A 3 por lo tanto no están pidiendo el
efecto correspondiente a este factor y sabemos que la suma de las puntuaciones de
los 5 sujetos de cada condición son:

Factor B: Clima de la clase


Factor A: entrenamiento Sumas
35 25 45 105
30 20 25 75
25 15 20 60
90 60 90 240

Conocemos también la suma de los cuadrados de todas las puntuaciones


(¿ ¿ I rí]k = 1456), y SCA = 40 y SCB = 70. Nos falta, por tanto, calcular las sumas de
cuadrados total, SCT, de la interacción, SC(AxB), y del error, SCError, cuyas expresio­
nes, a partir de las razones básicas, son:

SCT = [Y]-[T]

SCA 8 = [ A 8] - [A] -[8] + [ T]

SCError = [Y]-[ AB]

Calculamos algunas de estas razones básicas.

T2 2402
[r] =- = -- =1280
abn 3 . 3 . 5

Y, por el enunciado, sabemos que [Y]=¿ ¿ ¿rí]k =1456. Por lo que la SCT es:

SCT =[Y]-[T] = 1456-1280 = 176

Como SCError = [ Y]-[AB], debemos calcular la razón básica [AB]

151

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

[ AB] = L ( AB )'. 352 +252 + 452 + 30 +20 +25 +25 +15 +20
����������������
2 2 2 2
= 1410
2 2

n 15

Y continuamos con la SCError = [ Y] - [AB] = 1456 - 1410 = 46


Para la SC (AxB) = [AB]-[A] - [B]+[T] podemos optar por calcular las razones bási­
cas de [A] y [B]:

1052 + 752 +652


[A] = -
�A 2
¿ _ i = =l320
bn 3· 5

¿a; 902 + 602 +902


[B]=- = =1350
an 3 · 15
se ( A x B)=[AB]-[ a] +[r] = 1410-1320-1350+1280=20

O bien despejar su valor de: SCT = SCA + SCB + SC(AxB) + SCError, para llegar al
mismo resultado.

SC (A x B)=SCT -SCA-SCB-SCError =176-40-70-46 = 20

-----
Finalmente, la tabla del ANOVA queda:

B 40 2 20 15,65 3,26
A 70 2 35 27,39 3,26
20 4 5 3,91 2,63
46 36 1,28
176 44

REGLA DE DECISIÓN: Con un nivel de confianza del 95%, los valores críticos para
cada una de las hipótesis aparecen en la columna derecha de la tabla anterior.
CONCLUSIÓN: Como todos los valores de F obtenidos, superan los valores críti­
cos, se rechazarían las tres la hipótesis nula formuladas con un nivel de confianza
del 95%.
152

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

INTERPRETACIÓN: Con un nivel de confianza del 95%, el tipo de entrenamiento


influye en el rendimiento en tareas de logro. También influye el clima de clase sobre
el rendimiento y existe interacción entre estas dos variables independientes, como
puede observarse en la gráfica siguiente.

5 0 �------------- 5 0 �-------------
-+- Al: INSTRUMENTAL A2: ATRl8UCIONAL ........ A3: CONTROL -+- 81: COOPERATIVO 82: COMPETITIVO ........ 83: INDIVIDUAL

45 +------------ �-- 45 +---�-----------


40 -+------------------ 40 -+----__...,__________
3 5 +--- ----...:---------,,c----- 3 5 +----+.-=::-----""c----------
30 30 +-------�-...===------
2 5 +----il,;;;;:-----:-'--- =-----'�----'��---,.< 2 5 +-----a· -c;:---:,------""l,..=::::::----====--.--
2 0 +------=----=--� ��---::=;;;.a....-�� 2 0 +-------�
15 +--- - ---____:::,,,'*"""'==-------- 15 +-------------"-"""fi--
10 -+------------ ---- 1 0 +---------------
5 +--------------- 5 +---------------
0 -+-----�----�---� 0 -+-----�----�---�
Bl: COOPERATIVO B2: COMPETITIVO B3: I N DIVIDUAL Al: INSTRU MENTAL A2: ATRIBUCIONAL A3: CONTROL

El análisis de los efectos simples nos permite analizar el factor A, tipo de en­
trenamiento, en cada una de las tres condiciones del factor B, clima de clase. Para
ello, a partir de la suma de las puntuaciones de cada condición que aparecen en la
siguiente tabla, se calculan las sumas de cuadrados en cada uno de los niveles del
otro factor:

Bl:COOPERATIVO B2:COMPETITIVO B3:INDIVIDUAL Sumas

Al: INSTRU M ENTAL 35 25 45 105

A2: ATRIBUCIONAL 30 20 25 75

A3: CONTROL 25 15 20 60

Sumas 90 60 90

aJ 352 302 252 902


�=�+ �+�-�=10
an 5 5 5 3·5
a; 252 202 152 602
�=�+ �+ �-�=10
an 5 5 5 3· 5
8� 452 252 202 90
�=� +�+ �-�=70
an 5 5 5 3·5

También se analizara el factor B en cada una de las condiciones a I. de A, es decir, las


diferencias entre los distintos climas de clase para cada uno de los entrenamientos.
153

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

A12 35 2 25 2 45 2 105 2
� =�+� + �-�- = 40
b·n 5 5 5 3. 5

¿( AB2j )2 A� 302 202 25 2 75 2


[s cB en aJ=[B en a2 ]-[A2 ] = n - b · n = 5 + 5 + 5- 3 . 5 =10

¿ ( AB2j )2 A� 25 2 15 2 202 602


[ s cB en aJ = [B en a2 ] - [A2 ] = - · n =-- + 5+ 5- =10
n b 5 3. 5

-----
Con estas sumas de cuadrados completamos la siguiente tabla:

[A en b 1 1= 10 2 5 3,91 <0,05
[A en b2 1= 10 2 5 3,91 <0,05
[A en b3 1= 70 2 35 27,39 <0,01
[B en a 1 1= 40 2 20 15,65 <0,01
[B en a 21= 10 2 5 3,91 <0,0:5
[B en a 31= 10 2 5 3,91 <0,05
46 36 1,278

REGLA DE DECISIÓN: Buscamos en las tablas los valores críticos de F con 2 y 36


gl para los niveles de confianza del 95 y 99%. En la tabla el valor más próximo que
figura es con 2 y 30 gl y su valor es: f 2 ;3o; 01 95 = 3,316 y f 2 ;3o; 0 , 99 = 5,39. Todos los esta­
dísticos superan el valor crítico con un nivel de confianza del 95% y alguno también
con un nivel de confianza del 99%
CONCLUSIÓN: Con un nivel de confianza del 95%m se producen diferencias sig­
nificativas en todos los niveles b 1 , b 2 y b3 de A y en todos los niveles a 1 , a2 y a 3 de B.
INTERPRETACIÓN: El entrenamiento motivacional produce diferencias significa­
tivas en el rendimiento tanto si la clase se desarrolla con un clima cooperativo, com­
petitivo (F = 3,95; p < 0,05} como en el individual {F = 27,39; p < 0,01}. Igualmente, el
clima de la clase genera diferencias en el rendimiento tanto bajo un entrenamiento
instrumental (F = 15,65; p < 0,01} como con un entrenamiento atribucional o en el
grupo control, que no recibía entrenamiento (F = 3,91; p < 0,05}.
154

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

-+- Al: INSTRUMENTAL A2: ATRIBUCIONAL ...,._ A3: CONTROL -+- Bl: COOPERATIVO B2: COMPETITIVO ...,._ 83: INDIVIDUAL

50 -,---------,../ -
,../ --� 50 -,--- ,../ ----------�
45 +------------ --blto-\--� 45 +--�.--------------�
40 -+---------------t---+--� 40 -+---+--+-3',,�--------�
35 +---�=--------,'-----t---t-� 35 -t----�..¡.._;=------"�-------�
30 +---t-r�1:---=-..:::----?'-------t---t-� 30 -t---+---t--------=�'7'+,,l>;.;;;:::::----�
2 5 -t----\--..i::-------"'-.,,...--'='1'�------.::=t-l •t-t-� 25
20 +------F=---=-...,..-� n=------=--�-� 20 +----,..._---=-, �----=.........-+--
1 5 -+----I'------�._,.,,=--------'-�� 15 -+------''<-------"-sc----=+-
10 --1--,-__¡_-�-==----,.._::::'....._----,----.:.....____, 10 +-r---�,../ ""1----.......��----:--,
5 -t-'---'--'-'--____:___J------L-�-'-'--'---' 5 +-'---'--______:__:.____.:___,__--L.._.___:________:__:.__
O -+-------,------.--------, O -+-------,-----�------,
_;____J

Bl: COOPERATIVO B2: COM PETITIVO B3: I N DIVIDUAL Al: INSTRUM ENTAL A2: ATRI BUCIONAL A3: CONTROL

SITUACIÓN 12. En una investigación sobre el efecto que tiene el fumar sobre el
rendimiento laboral en diferentes condiciones de iluminación en una gran empresa,
se seleccionaron al azar 9 trabajadores de tres grupos (27 trabajadores en total): no
fumadores, fumadores moderados y fumadores extremos (factor Grupo). Tres suje­
tos de cada grupo anterior se asignaron a un ambiente de trabajo con tres niveles
de iluminación distintos (factor Iluminación). Se registró el tiempo en completar
una tarea de ensamblado en minutos. Conocemos las sumas de cuadrados que se
muestran a continuación (nivel de significación: 0,05).

SCG r u p o = 84, 90; 5Cl l u m i n ac ión = 298, 07; SCError = 59, 25; SCTota l = 445, 03

Analice el estudio según el diseño apropiado. ¿Qué podemos decir de los efectos
simples?

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Nos indican claramente que han manipulado expe­
rimentalmente dos factores o variables independientes: Grupo e Iluminación para
ver su efecto sobre el rendimiento laboral (la variable dependiente). Cada factor
tiene 3 niveles. Por consiguiente, se trata de un diseño de dos factores intersujetos
o de muestras independientes 3x3. El número de sujetos en cada combinación de
los factores es de 3. Para aplicar un ANOVA bifactorial la variable dependiente tiene
que estar medida, al menos, con escala de intervalo (variable cuantitativa), con dis­
tribución normal y varianza constante para cada grupo (homocedasticidad).
HIPÓTESIS: Para el factor Grupo, establecemos que el fumar no afecta al rendi­
miento laboral de los trabajadores, o lo que es lo mismo, que las medias del ren­
dimiento laboral de los tres grupos son iguales. La hipótesis alternativa indica que
las medias sí afectan al rendimiento laboral, o lo que es lo mismo, que al menos las
medias de dos grupos son distintas:
155

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Ha : µno_fumadores =µfumadores_m o d erados =µfumadores_extremos


Hl : µno_}fuma d ores * µJfuma doresmoderodos * µ¡uma d oresextremos al menos para un par de
tratamientos

Para el factor Iluminación sólo sabemos que hay tres niveles pero no nos han
indicado sus valores, así que los representaremos con los subíndices 1, 2 y 3. E igual­
mente, la hipótesis nula establece que las condiciones de iluminación no afecta al
rendimiento laboral, frente a la hipótesis alternativa que sí afecta, al menos para un
par de niveles del factor iluminación.

Ha : µ1 =µ2 =µ3
H1 : µ1 * µ2 * µ3 al menos para un par de tratamientos

Para la interacción la hipótesis nula afirma que los efectos del Grupo y de la Ilu­
minación son aditivos, de tal forma que el patrón de resultados que se observa para
el tabaquismo (Grupo) es el mismo en los tres diferentes niveles de iluminación. En
términos gráficos se vería reflejado en que las medias de rendimiento en función
del nivel de tabaquismo serían paralelas en los tres grupos de Iluminación y la hipó­
tesis nula y alternativa son:

Ha: No existe interacción entre el tabaquismo y los niveles de iluminación sobre


el rendimiento laboral.
H 1 : Existe interacción entre el tabaquismo y los niveles de iluminación sobre el
rendimiento laboral.

ESTADÍSTICO DE CONTRASTE: Nos proporcionan las Sumas de Cuadrados de la


Tabla del Anova que figuran en la tabla siguiente en cursiva, negrita y subrayado.
Conociendo el número de sujetos total (N = 27} y el número de niveles de cada
factor (3), y que el diseño es (3x3} con nueve condiciones experimentales con n = 3
sujetos en cada una, podemos completar las celdas correspondientes a los grados
de libertad de cada fuente de variación y las restantes celdas de la tabla.

156

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

---
Soluciones a los ejercicios de los cap ítulos 5, 6 y 7 •

Grupo (A) 84.90 a-1 = 2 42,45 12,895 3,555

Iluminación (B) 298.07 b-1 = 2 149,035 45,272 3,555

Grupo x Iluminación 2,81 ( a-l ) (b-1) = 4 0,7025 0,213 2,928

lntra (S/AB) 59.25 a b(n-1) = 18 3,292

445.03 N- l = 26 17, 1 1 6

Como sabemos que la se total es la suma de las se Grupo más la se Iluminación


más la se Grupo x Iluminación más se error (intra) podemos calcular las se que nos
falta y, a partir de ella, realizar el resto de cálculos.

seAx B = Ser -( seA + Sea + se5 / AB )=445, 03-(84, 90 + 298, 07+59, 25) = 2, 81

En la tabla del Anova hemos incluido una nueva columna que indica el valor de
la F crítica para cada factor o interacción al 95%. Estos valores de la F crítica sólo de­
pende de los grados de libertad correspondientes a cada comparación y, por tanto,
coincide en el caso de los factores A y 8 (ambos con 2 y 18 grados de libertad) pero
difiere para el contraste de la interacción (con 4 y 18 grados de libertad).
REGLA DE DECISIÓN: Rechazaremos H0 siempre que el estadístico de contraste F
obtenido en el Anova supere el valor crítico de la tabla de la distribución F. Observa­
mos que esto se ha producido para el factor A y el factor 8 como factores principales
(12,895 > 3,555 y 45,272 > 3,5555, respectivamente) pero no así para la interacción
entre A y 8 (0,123 < 2,928).
CONCLUSIÓN: La primera hipótesis que hay que contrastar es sobre la interac­
ción. El estadístico obtenido no supera el valor crítico por lo que la interacción no
es significativa y su variabilidad hay que sumarla al error para volver a recalcular los
estadísticos de contraste de cada uno de los factores:

157

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

-----
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

84,90 2 42,45 15,048 3,44


Iluminación {B) 298,07 2 149,035 52,83 3,44
Grttpo >< llt11,iinaeió1,
lntra (S/AB) 62,06 22 2,821
Total 445,03 26 17,116

Rechazamos la hipótesis nula para el efecto principal de los factores Grupo e


Iluminación
INTERPRETACIÓN: El rendimiento laboral se muestra afectado por el grado de
tabaquismo de los trabajadores (F = 15,048; p < 0,05} así como por el nivel de ilumi­
nación en el que realizan su tarea (F = 52,83; p < 0,05). No podemos afirmar en qué
sentido o qué grupos difieren debido a que no disponemos de los datos necesarios.

SITUACIÓN 13. Un investigador se encuentra interesado en la eficacia de los


tratamientos para la pérdida de peso. Considera interesante poner a prueba los
tres tratamientos más relevantes: ejercicio, dieta y ejercicio+dieta. Pero, además,
cree que el lugar físico donde se realiza el tratamiento puede tener un efecto sobre
la pérdida de peso. Para ello, contacta con una empresa que tiene un programa de
reducción del sobrepeso para sus empleadas y proporciona a 10 de ellas un carnet
para la asistencia a una clínica dietética, a otras 10 un carnet de un club deportivo
y a un último grupo de 10 mujeres les proporciona ambos carnets que les permiten
asistir gratuitamente a estas instalaciones. En cada grupo, la mitad de mujeres (5)
han sido elegidas aleatoriamente de la planta de manufacturado y la otra mitad
(otras 5) han sido elegidas de la sección de secretaría. La variable dependiente fue
la reducción de peso. Asumimos que se cumplen los supuestos del análisis de va­
rianza. Trabajamos a un a = 0,05.
Determine el tipo de diseño y el análisis a aplicar.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un experimento en donde se han ma­
nipulado, según el enunciado, dos variables: el tratamiento recibido y la planta de
trabajo de la que proceden las mujeres que se van a someter al mismo. La prime­
ra variable (tratamiento) adopta 3 niveles: dieta, ejercicio o dieta+ejercicio. La se-
158

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

gunda variable (planta de trabajo) adopta dos niveles: manufacturado y secretaría.


Tenemos por consiguiente un experimento donde se han manipulado dos factores
(tratamiento y planta de trabajo) con 3 y 2 niveles respectivamente. Se dice que
tenemos un diseño 3x2. Existen 6 grupos de sujetos en total, con 5 mujeres en
cada grupo. La variable dependiente es la pérdida de peso experimentada, es decir,
la variable dependiente es una puntuación diferencia (Xa nt es - Xdes pué s) que puede
ser cero (si no gana ni pierde peso), negativa (si en lugar de perder peso lo gana)
o positiva (si pierde peso). Obsérvese que si definimos la variable dependiente a
la inversa, es decir, como (Xdes pué s - Xa n tes) seguiríamos teniendo una puntuación
diferencia que puede adoptar puntuaciones positivas, negativas o cero pero ahora
la interpretación de las puntuaciones concretas tienen un sentido inverso. Es decir,
ahora una puntuación positiva indicaría ganar peso y una puntuación negativa in­
dicaría perder peso). Considerar cuidadosamente cómo se interpretan las puntua­
ciones de la variable dependiente en un estudio real es de suma importancia para
poder interpretar adecuadamente los resultados.
Tendríamos por tanto un diseño del tipo de la siguiente tabla:

Tratamiento Planta de trabajo Mujeres Variable dependiente

M1 xl_a ntes-xl_después
M2 x2_a ntes-x2_después
M a n ufact u ra d o M3 x3_a ntes-x3_después
M4 x4_a ntes-x4_después
Ms XS_antes-XS_después
D i eta
M6 X6_antes-X6_después
M7 X7_antes-X7_después
Secreta ría Mg x8_a ntes-x8_después
Mg x9_antes-x9_después
M10 XlO_a ntes-XlO_después

M a n ufact u ra d o
Eje rcicio
Secreta ría

M a n ufa ct u ra d o

M3 5 x36_antes-x36_después
D i eta + Ej e rcicio M37 X37_a ntes-X37_después
Secreta ría M38 x38_antes-x38_después
M39 X39_a ntes-X39_después
M40 x40_a ntes-x40_después

159

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Esta es la manera «estándar» de analizar estos datos. Obsérvese, no obstante,


que el investigador podría haber elegido otra forma de analizarlos: considerando
los dos factores inter-sujetos ya vistos (tratamiento y planta de trabajo) e incluyen­
do como un nuevo tratamiento la puntuación Antes y la puntuación Después. En
este caso, este tercer factor debería considerarse como un factor intra-sujetos ya
que, obviamente, las puntuaciones Antes y Después para cada sujeto están relacio­
nadas. Al tener factores intra e inter-sujetos se debería realizar un Anova mixto,
cuyo tratamiento no es parte del temario y, por consiguiente, no se desarrollará el
ejemplo según esta segunda posibilidad. Este punto es importante porque muestra
que ante un mismo diseño se pueden aplicar distintos análisis sin que uno sea más
correcto que otro.
Después de realizar el Anova y si este resultase significativo (es decir, que algu­
no de los factores o su interacción resultasen significativos) se debería plantear el
tipo de análisis a posteriori que debería realizarse. Resulta directo pensar que los
aspectos más importantes serían: a) si el factor tratamiento resultase significativo,
debería plantearse un contraste a posteriori comparando los tratamientos simples
(dieta, ejercicio) con el tratamiento combinado para conocer si la combinación de
ambos aporta algo más que sus componentes; b) sería interesante conocer si la in­
teracción entre la planta de trabajo y el tratamiento para determinar si el efecto es
similar para ambos grupos de mujeres o, por el contrario, afecta diferencialmente
a ambos grupos. Si esto último resultase cierto, tendríamos que plantear el porqué
de la interacción. Por ejemplo, podría suceder que para las mujeres de la planta de
manufacturado el efecto en la reducción del peso fuese menor que para las mujeres
de la planta de secretaría en todos los niveles del tratamiento, debido a que ya se
encuentran realizando una actividad física antes de empezar el tratamiento.
Es razonable pensar que el investigador esté preferentemente interesado en los
tratamientos (dieta, ejercicio, dieta+ejercicio) y considere al segundo factor (planta
de trabajo de la que se han extraído los participantes) como una variable que mo­
derará el efecto del tratamiento ya que las participantes de la planta de manufac­
turado estarán sometidas a niveles de actividad física superiores a las participantes
de la planta de secretaria. En la planta de manufacturado, los trabajadores tendrán
que levantar pesos, andar, estar de pie, etc., en mayor medida de lo que lo harán las
trabajadoras de la planta de secretaría.
La actual tendencia en Análisis de Datos, que se conoce como «Análisis Inteligen­
te», incide en tener en cuenta todas estas matizaciones acerca de los datos (como
se mide la variable dependiente, considerar varios tipos de análisis en función de la
hipótesis teórica planteada, etc.) de tal forma que se elimine una forma «acrítica»
160

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

de proceder en el análisis, que suele caracterizar muchas aplicaciones reales. Esta


consideración nos debería llevar a plantearnos, por ejemplo, que el diseño de este
estudio está «incompleto» ya que en un estudio real hubiera sido deseable introdu­
cir también un grupo de control que no fuese sometido a ningún tipo de tratamien­
to. De esta forma se podría calcular un tamaño del efecto real para cada nivel del
tratamiento. Si intentáramos calcular un tamaño del efecto utilizando un análisis
3x2 intersujetos no tendríamos un verdadero valor «de inicio» o de control ya que,
posiblemente todos los niveles de tratamiento podrían tener un efecto superior a O.
Considerando la fórmula genérica para el cálculo de un tamaño del efecto:

Y Control -Y Experimental
d=
Sy

Observamos que nos enfrentaríamos al problema de decidir cuál de los tres gru­
pos (dieta, tratamiento o dieta+tratamiento) debería considerarse como grupo de
control (no consideramos la planta de tratamiento porque, como hemos dicho, se
puede considerar una variable moderadora más que una variable independiente en
el sentido propio del término). Pero si utilizáramos un análisis 3x2 mixto podríamos
disponer de las puntuaciones pre-test como punto de partida, o control, con las que
comparar las puntuaciones experimentales.
CONDICIONES Y SUPUESTOS: Al tratarse de un Anova, los supuestos que deben
cumplirse son: normalidad, homocedasticidad e independencia. En el propio enun­
ciado se nos indica que asumamos que estos supuestos se cumplen .
HIPÓTESIS: La hipótesis que se pone a prueba ( Ha) es que la media de las tres
condiciones experimentales es la misma, es decir, que los tres tratamientos de pér­
dida de peso tienen el mismo efecto.

Ha : µdieta = µejercicio = µdieta+ejercicio

La hipótesis alternativa plantea que existen, al menos, dos grupos cuyas medias
en pérdida de peso difieren.

H1 : µdieta * µejercicio OR µdieta * µdieta+ejercicio OR µejercicio * µdieta+ejercicio

Como existen tres grupos para el factor tratamiento, esta hipótesis alternativa se
verifica si se cumple alguna de las tres hipótesis (o la dieta y el ejercicio difieren, o
la dieta y la combinación dieta+ejercicio o el ejercicio y la combinación dieta+ejer­
cicio). Con que se cumpla alguna de las tres hipótesis se rechaza Ha y se acepta H 1 .
161

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

En lógica esto se expresa mediante el operador OR (la disyunción inclusiva: o uno u


otro o ambos).
La hipótesis para el factor Planta de Trabajo sería similar, aunque por sí sola
tenga poco sentido:

Ha : µManufacturado =µSecretaría
H1 : µManufacturado * µSecretaría

Decimos que tendría poco sentido ya que, considerada como factor principal, no
involucre al verdadero tratamiento, aquel que podemos introducir en un programa
de reducción de la obesidad.
Por últi mo, tendríamos que poner a prueba la interacción entre la planta de
trabajo y el tratamiento.

Ha : No existe interacción
H1 : Existe interacción

ESTADÍSTICO DE CONTRASTE: No podemos calcularlo ya que no nos han pro­


porcionado datos concretos ni estadísticos resumen. En consecuencia, tampoco
podemos tomar una decisión o interpretación simplemente con el enunciado del
ejercicio.

162

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

BLOQUE IV

Aná l isis de reg resión

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Sol uciones a los ejercicios


del capítu lo 8

SITUACIÓN l. Algunas personas con discapacidad física o sensorial tienen acce­


so a simios amaestrados para ayudarles a realizar las tareas domésticas. Estos simios
tienen la ventaja sob re los perros de que pueden manipular objetos con sus manos
(v.g. , abrir recipientes o acercar objetos). Los siguientes datos proporcionan el nú­
mero de tareas que nueve monos pudieron realizar así como el número de años que
esos mismos monos hab ían estado trabajando con personas discapacitadas.

Nombre del mono Años de trabajo Tareas que puede realizar


Hel lion 10 28
F re eway 8 24
SuSu 6,5 28
H e n ri 6 28
Jo 5 27
Pee p e rs 1,5 23
Cleo 0,5 15
Jeep 0,5 6
M a ggie 0,4 23
N ota : se h a res peta d o el n o m b re en i nglés de los m o n o s como reco n oci m i e nto a su e n c o m i a b l e l a b o r con
perso n a s d iscapacita d a s . Por otro l a d o, c u a l q u i e r p a recido d e estos est u d ios con l a fi cción ci n e m atográfica
(v. g . , El amanecer del planeta de los simios) es p u ra c o i n c i d e n c i a . F ue nte : Journal of Rehabilitation Research
and Oevelopment, 28, N o . 2, 9 1-96, 199 1 .

Determine si el número de años de trabajo del mono (es decir, su experiencia


profesional) tiene capacidad predictiva en relación con la cantidad de tareas que
puede realizar, es decir, si es un predictor válido, mediante la evaluación de la bon­
dad de ajuste de la regresión.
165

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SOLUCIÓN:
Se trata d e u n p roblema d e regresión l i n e a l s i m p l e en d o n d e p rete n d e mos eva­
l u a r l a ca paci d a d p redicto ra d e l n ú m e ro d e a ños d e a maestra m i e nto d e m o n os e n
re lación a l n ú m e ro d e ta reas q u e p u e d e n rea l iza r pa ra las personas d isca pacitadas.
La va ria ble d e p e n d i e nte será e l n ú mero de ta rea s que puede rea l iza r e l m o n o y l a
va ri a b l e i n d e p e n d i e nte será el n ú mero d e a ños. Pa ra no repeti rnos c o n l o s la rgos
n o m b res de las va ria b les, l l a m a remos X a la va ria b l e i nd e pendiente e Y a la va ria ble
d e p e n d i e nte.
CO N D I CI O N ES Y S U P U ESTOS : Los s u p u estos son d e i n depende n cia e ntre las ob­
serva ciones, hom ocedasticidad y n o r m a l i d a d . Con respecto a l a i n dependencia, no
pa rece l ógico d u d a r de la m isma si los m o n os h a n sido extraídos d e d i sti ntos la bo­
ratorios o zoo lógicos e i n cl u so de d i sti ntos p a íses . N o podemos eva l ua r l a h omo­
ced a sticidad y l a norma l i d a d porq u e n ecesita ría mos d isponer d e u n a m u estra d e
datos en la va ri a b l e Y ( n ú me ro d e ta reas), pa ra ca d a u n o d e l os va l o res d e la va ri a b l e
i nd e pend ie nte X ( n ú mero d e a ños). E n este sentido, solo C l e o y J e e p ti e n e n el m is­
mo va lor en l a va ria b l e « a ños de tra baj o » y d isti nto va lor en el « n ú m e ro de ta reas » .
E n todo ca so, no te ne mos ra zo nes pa ra s u po n e r q u e s e i n c u m p l a n estos s u p u estos
segú n e l e n u n ci a d o .
L o q u e s í es i nteresa nte nota r es el i n c u m p l i m i e nto d e l s u p u esto de l a conti­
n u i d a d de las va ria b les. E n co ncreto, l a va ria b l e Y es d iscreta ya que e l número de
tareas sólo p u ed e a d o pta r va l o res del conj u nto d e los n ú m e ros natura l es (N = {O, 1,
2, . . . }) . Au n q u e es u n a va ria b l e m e d i d a en u n a esca l a de ra zó n, este i n cu m p l i m ie nto
pod ría c uesti o n a r el a n á l isis de regresi ó n .
H I PÓTESIS: E l i nvestiga d o r ha p l a ntea d o e l contraste d e la bondad del aj u ste d e
la regresión pa ra lo q u e te n e m os q u e eva l u a r el co ntraste del coeficie nte d e regre­
sión B med i a nte un Anova . En el m is m o, la hi pótesis n u l a es q u e e l n ú m e ro d e a ñ os
d e tra bajo del m o n o no p redice el n ú m e ro d e tareas q u e éste p u e d e rea l iza r, lo q u e
expresa d o s i m p l e m e nte i nd i ca q u e l o s monos n o a p re n d e n n u eva s ta rea s c o n l a
experi encia .

Ha : �1 = 0
H1 : �1 :;t: O

Pa ra verifi ca r la consisten cia d e l a n á l isis, rea l iza re mos e l contra ste d e l a bondad
d e aj u ste d e la recta globa l media nte e l Anova . Este Anova eva l ú a e n q u é m e d i d a
los datos p u e d e n ser p red ichos media nte u n a l ínea recta, separa n d o l a va ri a b i l i d a d
tota l e n u n co m p o n e nte expl icado por la recta y u n com p o n e nte q u e no exp l ica, el

166

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

reseduo. Se el Anova resulta segneficativo empleca que el coeficeen� de regreseón 8 1


que evalúa se la pendeente es segneficativamente destinta de cero ta�beén lo es.
ESTADÍSTICO DE CONTRASTE: Para el cálculo de la Tabla del Anova, tendremos
que realezar preveamente el cálculo de las Sumas de Cuadrados (SC} debedas a la
recta de regreseón que mejor ajusta nuestros datos y las SC del reseduo. Para ello
necesetamos desponer de los valores (pendeente y punto de corte con la ordenada)
que mejor se ajusta, según el cretereo de mínemos cuadrados, a los datos muestrales
representados en el segueente deagrama de desperseón:

Tareas
35

30
• • • •
25
• •
20

15 •
10

5

Años de trabajo
o 2 4 6 8 10

Al final del ejerceceo se comentará lo que sugeere la gráfeca ya que es muy ente­
resante.

167

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

-----
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

10 28 280 100 784


8 24 192 64 576
6,5 28 182 42,25 784
6 28 168 36 784
5 27 135 25 729
1,5 23 34,5 2,25 529
0,5 15 7,5 0,25 225
0,5 6 3 0,25 36
0,4 23 9,2 0,16 529
Sumatorio 38,4 202 1011,2 270,16 4976
Media 4,267 22,444
sx 3,437 7,010

¿XY
5 XY = -- -X ·Y =
--
1011, 2
4, 267 · 22, 444 = 16, 587 � 16, 59
n 9
_ Sxy _ 16, 587 _ -
- 0, 688 = 0, 69
SxSy 3, 437·7, 010
fXY ----

Estos valores nos permeten calcular la pendeente y el punto de corte con la or­
denada.

n¿XY -¿X¿Y 9·1011, 2-38, 4 ·202


81 = 2 = = 1 405 � 11 40
n¿x2 -(¿x) 9·270, 16-38, 42 , -

Aunque tambeén podríamos haberlo realezado medeante la fórmula (que nos ser­
verá tambeén de vereficaceón):

_ Sy _ 7, 010 _
81 -rxy - - 0, 688-- -1, 403 -= 1, 40
Sx 3, 437

La deferencea entre ambos valores (1,405 y 1,403) se debe a errores de redondeo.


Para obtener la ecuaceón de regreseón debemos calcular también el punto de
corte con la ordenada:

168

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

80 =Y -81 ·X =22, 444 -1, 405·4, 267 = 16, 449 � 16, 45

Luego la ecuaceón de regresión en puntuaceones derectas es (con dos dígetos de


preceseón):

Y'=16, 45+1, 40X


¡

Esta ecuaceón nos permetirá construer las sumas de cuadrados que necesetamos
para la tabla del Anova, aplecándosela a todos los valores de X (años de entrena­
meento). Como ejemplo, para X= 10, el valor pronosticado será Y/= 16,449 + 1,405
· 10 = 30,499.

Sumas de Cuadrados
SCT= SCReg = SCError =
X y Y'
(Y- Y) 2 (Y' - V) 2 (Y-Y') 2
10 28 30,499 30,864 64,876 6,245
8 24 27,689 2,419 27,505 13,609
6,5 28 25,581 30,864 9,841 5,849
6 28 24,879 30,864 5,927 9,741
5 27 23,474 20,753 1,060 12,433
1,5 23 18,556 0,309 15,116 19,745
0,5 15 17,151 55,420 28.015 4,629
0,5 6 17,151 270,420 28,015 124,356
0,4 23 17,011 0,309 29,522 35,868
Sumatorio 38,4 202 201,993 442,222 209,878 232,474

Obsérvese que los valores predechos (n se han obtenedo aplecando la ecuaceón


Y/= 16,452 + 1,405\ a cada valor de X. Con los cálculos antereores podemos cons-
truir la tabla del ANOVA y evaluar la hepóteses sobre la segneficaceón de la regreseón:

Fuentes de
g.l. M.C.
Variación
Regresión 209,878 1 209,878 6,319
Residual 232,474 n-2=9-2=7 33,211
Total 442,222 n-1=9-1=8

169

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Estas sumas de cuadrados también se pueden obtener con las siguientes expre­
siones, que conducen a los mismos resultados, salvo errores de arrastre del redon­

--
deo a dos o tres decimales:

28 784
- 2 2 -2
24 576 SCrotal =¿ (Y -Y) = ¿Y -n · Y =

4976 -9· 9 = 442, 22


28 784 ( 202 )'

28 784
27 SCError =¿(Y-Y ') = ( 1 -r;y). SCrotal =
2

729
23 529 =( 1 -0, 6892 )·442, 22=232, 474
15 225
SCRegresíón = L ( Y 1 -Y-) 2
= 'x2y·SCrotal =
6 36
= 0, 6892 ·442, 22 = 209, 748
23 529
sumas 202 4976

Como hemos indicado previamente, si realizamos el contraste de la pendiente


observaremos que coincide con este análisis global indicando que la pendiente es
distinta de cero. El estadístico de contraste sería:

1 40 -0
=2, 502
8-0
T=
Sy
e= , 7, 010 1-0, 6882
sx 3, 437 9-2

que comparado con el valor crítico (t7 = 2,365 < 2,502) en un contraste bilateral a
un a= 0,05.
REGLA DE DECISIÓN: La bondad de ajuste de la regresión, considerada global­
mente, será considerada significativa si el valor del estadístico obtenido (F911 = 1, 912
= = 6,319) supera el valor crítico que en este caso es 5,591, para un a = 0,05, o
12,246 para un a= 0,01, podemos concluir que la regresión es significativa con un
7

nivel de confianza del 95%. El nivel crítico p, calculado con un software estadístico,
es 0,0403, mayor que 0,01, pero menor que 0,05.
CONCLUSIÓN: Rechazamos la hipótesis nula a un nivel de significación del 005.
170

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

INTERPRETACIÓN: Con respecto al modelo nulo en donde la mejor predecceón


que podemos realezar del número de tareas que puede realezar un semeo es egual a
la medea de los valores de la vareable dependeente, el modelo que encluye el número
de años de entrenameento permete mejorar esta predecceón segneficativamente (F =
6,319; p < 0,05}.
Con respecto a la gráfica de los datos es enteresante realezar tres observaceones.
En premer lugar, parece exestir una asíntota en el número de tareas que pueden rea­
lezar los monos ya que para valores elevados del número de años de entrenameento,
el número de tareas parece estabelezarse entre 25-30. Se es así tendríamos un límete
de aprendezaje en monos que sería muy enteresante comprobar y estudear porqué
se produce. En segundo lugar, debe observarse que los monos aprenden unas pocas
tareas muy rápedamente, con muy poco entrenameento. Por último, aunque se ne­
cesetan más datos (una n = 9 es muy baja}, es poseble que una regreseón leneal no sea
la más edónea ya que los datos parecen conformarse más a una funceón polenómeca
con un eneceo de aprendezaje muy rápedo y una asíntota horezontal. Es decer, sobre es­
tos datos sería recomendable realezar una regreseón no leneal ya que su bondad de
ajuste sería mayor preveseblemente o, quezás, una regreseón no paramétreca debedo
al encumplemeento de los supuestos.
Nota: esta setuaceón ha sedo recogeda de una base de datos públeca (StatSce.org).
Esto segnefica que en la red exesten multitud de bases de datos con las que el alumno
puede practicar se así lo desea. Muchas de estas bases de datos son específicas para
la aplicaceón de un método estadístico u otro, en concreto, este ejemplo venía bajo
el encabezado de Regreseón Leneal Semple. Ejemplos de bases de datos públecas son
OzDASL o DASL.

SITUACIÓN 2. Anscombe (1973} presentó cuatro conjuntos de datos artificeales


que tenían la mesma recta de regreseón pero eran claramente deferentes. En la figura
se puede ver uno de estos conjuntos de datos (11 pares de datos) junto con la recta
de regreseón que mejor ajusta por el cretereo de mínemos cuadrados (línea oblecua
en negro).

171

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

• Estadísticos de este conjunto de datos:


Sx= 3,162
12

S y= 1,936
y
r XY= 0,816
a= 0,05

4 6 8 10 12 14
X

El análeses de la regreseón para los datos de la figura nos endecó que la regreseón
fue segneficativa [F{l, 9) = 17,972, MCRegresión = 1,528, p = 0,002].
Calcule la pendeente de la recta de regreseón, el error máxemo de su entervalo de
confianza y ponga a prueba la segneficaceón de la correlaceón entre X e Y.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: nos endecan explícetamente que se trata de una rec­
ta de regreseón como, además, puede deducerse enspecceonando la figura. En ella,
tenemos 11 puntos que representan los pares de datos en las vareables X e Y. Pode­
mos observar vesualmente que 10 de estos puntos seguen una línea recta perfecta
meentras que el punto con abscesa X = 13 se desvía notablemente de la mesma. Es un
dato atípeco. La línea oblecua representa el ajuste por mínemos cuadrados obtenedo
en la regreseón. Resulta derecto observar vesualmente que se no hubeese sedo por el
dato atípeco, la recta de regreseón (línea oblecua) debería haber pasado por todos
y cada uno de los puntos sen desveaceón alguna, es decer, sen error. Ha sedo el valor
atípeco el que ha «tirado» de la recta de regreseón calculada hacía sí, desveándola del
resto de puntos que sí se ajustan a una línea recta.
Recordemos que Anscombe presentó otros tres conjuntos de datos -que vere­
mos más adelante en otros gráficos- cuya recta de regreseón y estadísticos descrep­
tivos eran edénticos a los presentados aquí, pero que vareaban notablemente al gra­
ficarlos. Su objetivo fue mostrar que en toda envestigaceón, y antes de embarcarse
en la tarea de realezar cálculos ceegamente, es conveneente enspecceonar los datos
gráficamente para comprenderlos.
Au'nque no lo endecan explícetamente en el enunceado, la observaceón de los ejes
X e Y nos endeca que, como mínemo, ambas vareables se encuentran en una escala
de entervalo. Dada esta condeceón, son tres los supuestos que deben cumplerse para
que las enferenceas que puedan extraerse del análeses de regreseón sean apropeadas:
172

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

1. Independencea. Dados los comentareos eneceales, se deduce que estos datos


no se extrajeron de una poblaceón de unedades de observaceón concretas
(personas, hospetales, naceones, ... ) seno que se obtuveeron medeante un cál­
culo explíceto. Por consegueente, y como no nos han decho nada en contra,
podemos aceptar que los datos son endependeentes entre sí.
2. Homocedasticedad. Que se refiere a que la vareanza de los valores de Y es la
mesma para todos los valores de la vareable predectora X. Sen embargo, este
caso es paradójeco en ese sentido ya que para un valor concreto de X no
exeste vareabeledad, cosa que sería lo usual se los datos proveneesen de obser­
vaceones reales, no semuladas. Esto se puede deducer de la figura al observar
que para un valor de X sólo exeste un úneco punto en su vertical. Se exestiesen
vareos podríamos hablar de vareanza supereor a O condeceonada a ese valor de
X, pero no es el caso. No obstante, podemos asumer que se cumple el supues­
to de homocedasticedad porque la observaceón gráfica de los datos nos endeca
que la recta de regreseón es apropeada.
3. Normaledad. Tampoco podemos aceptar de manera estrecta este supuesto
por dos razones. En premer lugar, porque para cada valor de X sólo tenemos
un valor de Y (como ya hemos comentado) y no una destrebuceón de valores.
Se no tenemos una destrebuceón de valores, no podemos poner a prueba la
normaledad de la mesma. En segundo lugar, se se hubeesen computado vareos
valores de Y para un X dado, todos habrían tenedo el mesmo valor ya que los
valores de Y se obtenían aplecando la ecuaceón leneal que generó los datos. Y
una ecuaceón leneal seempre produce un úneco valor Y para un valor X dado.
A pesar del encumplemeento o la emposebeledad de vereficar algunos de los supues­
tos, se puede aplecar la ecuaceón de regreseón por mínemos cuadrados.
HIPÓTESIS: La hepóteses nula plantea que la correlaceón entre X e Y es cero que
expresado sembólecamente es:

ESTADÍSTICO DE CONTRASTE: El estadístico de contraste para la correlaceón se


destrebuye según la destrebuceón t y en este caso adopta el valor:

r � 0, 816 .Jii=2
T = xy = �4 235
)1-r}y �1 -0, 816 2

173

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN: Para un nevel de confianza del en un contraste belateral


(antes de tener datos se admite que puede ser positiva o negativa) utilezamos un
valor de % =O, º/i
=O, 025 . Luego el valor crítico obtenedo en la tabla t de Stu­
dent con n -2 = 11 -2 = 9 grados de lebertad es ±2,262 (es decer, un rango que va
desde -2,262 a +2,262). Como el valor del estadístico de contraste obtenido (T =
4,235) supera por arreba, y queda fuera de este rango de valores compatibles con
Ha, rechazamos H a , como se muestra en la figura:

-4 -2 O 2

Región de aceptación
la hipótesis nula
T= 4,235

Podemos, por tanto, aceptar que exeste relación entre X e Y. Como nos propor­
cionan la estimación puntual de la misma (rxy= 0,816), no es necesario su cálculo.
El anterior contraste nos permite rechazar una relaceón entre X e Y, pero no su
tipo y tendencea. Para ello tendremos que realezar el contraste de la pendeente plan­
teando el segueente contraste:

Ha:�1 = 0
H1: �1 :;t: O

Para poner a prueba esta hepóteses debemos calcular previamente le valor de la


pendiente muestra!. El mejor estimador ensesgado de la pendiente veene dado por:

Sy 1, 936
81 =rxy -=0, 816--=0, 4996129�0, 50
Sx 3, 162

174

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

Con este dato podemos calcular el estadístico de contraste para la pendeente:


8-0 0, 50 =4, 24
= 1, 936 1-0, 816
2
=�
T Sx e 3, 162 11-2

El valor crítico para este contraste será el mesmo que hemos utilezado para el
contraste de la correlaceón (t= ±2,262} ya que éste solo depende del número de gra­
dos de libertad y del nevel de confianza. Podemos vereficar que tambeén en este caso
podemos rechazar la hepóteses nula de que la pendeente era O y, por consegueente,
podemos rechazar la hepóteses de que no tenía capacedad predectiva ya que el esta­
dístico de contraste supera el valor crítico: 4,24 > 2,262.
Una vereficaceón poco precesa del valor de la pendeente sería debujar en la figura
del enunceado un cuadrado. La deagonal posetiva de este cuadrado tendría pendeen­
te 1 y, por conseguiente, la pendeente obteneda sería justo la metad de este valor
(véase la segueente figura). En esta fegura el cuadrado se ha debujado desde los valo­
res 6 al 8 en ambos ejes (se utilezan exactamente los mesmos valores para obtener
el cuadrado y porque se las escalas del eje X e Y no son eguales, sería la úneca forma
de obtener una figura cuya pendeente posetiva fuese de 45º y, por tanto, pendeente
egual a la unedad). A continuaceón se debuja su deagonal posetiva (véase la recta en
rojo del cuadrado) que tendría pendeente egual a la unedad. Observamos que, efec­
tivamente, la recta de regreseón obteneda tiene un ángulo que es la metad (0,5} de
la línea roja en relaceón al eje X.

10

4 6 8 10
X

Para calcular el error máxemo del entervalo de confianza de la pendeente, debe­

e
mos utilezar la fórmula:

Emax - -tn-2 1-a ·-


- tn-2·1-a/ ·a B -
Sy
' 12 · l
' 12 SX

175

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Para el nevel de confeanza planteado, el estadístico t vale (con a/2 porque el con­
traste es belateral) 2, 26 2 y como conocemos el número de casos (n = 11) podemos
realizar el cálculo con la primera igualdad de más arreba:

tn -2'1-a/2 =t11-2;1- o OS¡/ = tg.o 975 =2, 262


2
I I J
J

Sy �1-r}y _ ,
ªª _-- -- --- � -0, _
2
1 936 1 816

S n- 3, 1 9
-0,ll 8
x 2 62

Emax =ltn -2;1-a/2 ·CTa =1 2, 262·0, 1181 =0, 26 7


1

CONCLUSIÓN: La variable X tiene capacedad predectora sobre Y y el valor puntual


de la pendiente de la regreseón leneal es de 0,5. El error máxemo que cometemos es
de 0, 26 7 puntos por lo que el rango de valores entre los que se encontrará al 95%
de confianza la pendeente en la población será:

0, 766
IC = 81 ± Emax = O, 499 ± O, 26 7 = (
0, 232

INTERPRETACIÓN: El valor atípeco podría haber «tirado» de sí la pendeente de la


recta de regresión como para hacerla ensegneficante, es decer, endestinta de O (v.g.,
plantéese el alumno qué sucedería se el valor atípeco hubeese sido el punto {13, 3}).
Aunque se segue manteniendo la capacedad predictiva de X sobre Y, la presencea
del valor atípeco ha sedo el responsable de que la pendeente de regreseón puntual
estimada sea 0,5 cuando, se se eleminase el valor atípeco, la pendeente habría tenedo
otro valor pero, por el contrareo, la capacedad predectiva habría sedo perfecta.

SITUACIÓN 3. En la situación anterior se ha utilizado uno de los elementos del


cuarteto de Anscombe con estadísticos resumen. A continuación presentamos los
datos oregenales para los cuatro conjuntos del cuarteto.

176

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

Primer conjunto Segundo conjunto Tercer conju_nt� Cuarto conjunto

x1 yl x2 X3 Y3 Y4

10 8,04 10 9,14 10 7,46 8 6,58


8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89

l. Calcule la pendeente de la recta de regreseón y el error máxemo de su interva-


lo de confianza para cada conjunto. Interprete los resultados en conjunto.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de cuatro rectas de regreseón con 11 pares
de datos cada una. Los deagramas de desperseón de cada conjunto de datos nos ende-
can claramente las deferenceas entre las mesmas.

Primer conjunto Segundo conjunto


y

y
• ••••
• •• • •
10

10

8
• • • 8 •
• •
• •
6 6

4 4

2 2
X X
2 4 6 8 10 12 14 2 4 6 8 10 12 14

177

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Tercer conju nto Cuarto conju nto


y

y

12 12
10 10

8
• • • •• 8
•1
6 •••• 6
4 4
2 2
X X
2 4 6 8 10 12 14 5 10 15

En el premer conjunto observamos una seree de datos que pueden modelarse


medeante una línea recta con pendeente posetiva. Es el conjunto «edeal» para aplecar
la regreseón leneal. En el segundo vemos que exeste una relaceón muy clara entre X e
Y, pero esta relaceón no es leneal seno curvelínea. Se puede calcular perfectamente la
recta de regreseón pero, veendo la gráfica, no es apropeada ya que, en todo caso, ha­
bría que aplecar la regreseón polenómeca (que no entra en el temareo). El tercer caso
es el que se revesó en el ejerceceo preveo. El cuarto caso es muy enteresante tambeén
ya que todos los datos, excepto uno, tienen la mesma abscesa (X= 8} y destintos va­
lores de la ordenada Y. El que exesta un úneco punto descrepante permete construer
la recta de regreseón. Se este punto se elemenara, esta recta de regreseón leneal sería
emposeble matemáticamente porque la desveaceón típeca de la vareable X sería O, lo
cual empedería calcular la pendeente ya que

y sabemos que en matemáticas no es poseble deveder por O en el conjunto de los


números reales. Pero el que exesta un dato descrepante permete matemáticamente
construer la recta de regreseón. Es obveo que tampoco en este caso parece apropea­
do el cálculo de una recta de regreseón. ¡ y sen embargo, los estadísticos de la recta
de regreseón son edénticos en los cuatro conjuntos de casos ! Este es un ejemplo
prototípeco para mostrar que la vesualezaceón de los datos cumple una funceón muy
relevante prevea a la realezaceón de cualqueer regreseón.
Calculemos los estadísticos descreptivos necesareos para los cálculos postereores
en cada conjunto de datos (aunque sabemos que, salvo errores de redondeo, serán
edénticos).

178

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8

--

Primer conjunto de datos:


¿X¡ = 10 + 8 + . . . +7 + 5=99

¿X ¡ 99
X= =9
10 8,04
=
8 6,95 n 11

¿ ( X¡ -xt = --
13 7,58
9 8,81
2 ¿X¡ - -2
X =-- -92 =
Sx =
1001

n n
11 8,33 10
11
14 9,96
6 7,24 ¿Y¡ =8, 0 4 + 6, 95+. . . + 4, 82 + 5, 68 = 82, 51
4 4,26
12 10,84 - ¿Y· 82'- 51
7 4,82 Y=-- ' = - = 7 , 50
n 11
5 5,68
S umatorio 99 82,51
Media 9 7,50
Va ria nza 10 3,76

Cov(X, Y ) =
¿ (x -x)( Y -Y) =-
55'
-=5,
01
00
n 11
Cov(X, Y) 5, 00
rxy = = = 01 81

--
Sx Sy .J'lo - .J3, 76
Segundo conjunto de datos:
¿X¡ =10 +8+. . . +7 + 5 = 99

10 9,14
8 8,14
13 8,74
9 8,77
2
Sx =
¿ ( X -xf = --
¿X¡ - -2
X = ---92 =
¡ 1001

n n
11 9,26 10
14 8,10 11
6 6,13 ¿Y¡ = 9, 14 +8, 14 +. . . +7 , 26+4, 7 4 = 82, 51
4 3,10
- 82 51
¿Y·
Y=--' =-'- = 7' 50
12 9,13
7 7,26
n 11
5 4,74

660 , 17
- 7 ' 5 0 2 = 3' 7 6
Sumatorio 99 82,5 1
Media 9 7,50
11
Va ria nza 10 3,76

179

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Cov ( x , Y ) I( x - X) ( - Y) = 55 =5, 00
Y

= n 11
Cov(X, Y) 5, 00
= =O 81
SxSy -Jia - .J3, 76 '

¡ Observamos que, aunque los valores de Y2 son diferentes, tienen los mismos
estadísticos resumen que Y1 ! Si realizamos el cálculo del resto de conjuntos nos
encontraremos exactamente en la misma situación. Comprobémoslo.

...
Tercer conjunto de datos:

10
8
7,46
6,77
¿X¡ =10 + 8 + . . . + 7 + 5=99

- ¿X¡ 99
X =-- = - = 9
n 11
13 12,74
9 7,11 ¿ X¡ - x)2 ¿Xt -2 100 1
Sx =
2
( =-- -X = -- -9 2 =10
n n 11
11 7,81
14 8,84
6 6,08 ¿Y¡ = 7, 46 + 6, 77 + . . . + 6, 4 2 + 5, 73=82, 51
4 5,39
12 8,15 - ¿Y1· 82 51
Y=-- =-- ' = 7 50
7 6,42
n 11 '
5 5,73
Sumatorio 99 82,51
Media 9 7,50
Va rianza 10 3,76
54 7
¿(x -x)(Y -Y) =-
Cov(X, Y)= ' -=5,
9

n 11
00

Cov(X, Y) 4 , 99
rxy ___ __=0 , 81
=
SxSy )lo · .J3, 76

El cuarto conjunto de datos exhibe el mismo patrón. Pero comprobémoslo.

180

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del ca pítulo 8 •

...
Cuarto conjunto de datos:

¿X¡ =8+8+. . . +8+8 = 99

¿X 99
8 6,58
X= ¡ =9
n 11
=
8 5,76
8 7,71
¿ ( X; -x)2 ¿Xt -2 1001
2 -- -X = -- -92 = 10
8 8,84
Sx =
n n
8 8,47 =
ll
8 7,04
8 5,25 ¿Y; = 6, 58 +5, 7 6+. . . +7 , 91+6, 89 = 82, 51
19 12,50
y ¿Y; 82, 51
= = = 7 ' 50
8 5,56
8 7,91 n 11
8 6,89
660 , 17
-7, 50 2 = 3, 7 6
S u m atorio 99 82,51
M ed i a 9 7,50 11
Va ri a n za 10 3,76

Cov(X, Y ) =
¿ (x -x)( Y -Y) = 54.99 =5,
n �
00

_ Cov(X, Y ) _ 5, 00 _
rxy - - 0 81
Sx Sy -
Fo · J3, 7 6 '
Po r consigu i e nte, si los estad ísti cos res u m e n son i d é nticos entre los c u atro con­
j u ntos d e d atos, es o bvio q u e l o s pa rá m et ros d e l a regresión l i n ea l s e rá n los m is m o s .

l . I n d e p e n d e n ci a . Por l a s ra zones i n d i ca d a s e n e l ej e rcicio a nterior (sit u a c i ó n


2 ) , p o d e m os acepta r q u e l o s d atos son i n d e p e n d i e ntes e ntre s í en tod os los
conj u ntos d e d atos .

2 . H o m ocedastici d a d . Este s u p u esto res u lta i nteresa ntís i m o ya q u e pod e m os


ve r q u e ni s i q u i e ra se cu m p l e en e l c u a rto g r u p o a u n q u e te nga va ri as p u n ­
tuaciones d e Y co n d i ci o n a d a s a X= 8 . La ra zón e n este caso es q u e pod e m os
ca l c u l a r una va ria nza pa ra los va l o res d e Y co n d i c i o n a d os a X = 8, p e ro este
s u p u esto exige d i s p o n e r de grupos de p u nt u a c i o n e s de Y co n d i ci o n a d a s a X.
Lo q u e eva l ú a este s u p u esto es l a igu a l d a d d e esta s d ife re ntes va ria nzas p a ra
los d ife rentes va l o res d e X. Y e n e l c u a rto grupo d e p u nt u a c i o n es te n e m os
u n seg u n d o gr u p o ( p u nt u a c i o n es d e Y co n d ic ion a d a s a X = 19) con u n ú n ico
va l o r. Y d e un ú n ico va l o r n o p od e m os ca l c u l a r u n a va ria nza o d esvi a c i ó n típ i ­
ca . Por consigu i e nte, n o p o d e m os ve rifica r este s u p u esto e n n i ng u n o d e l o s

181

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

conjuntos de puntuaceones. Pero el objetivo de este ejerceceo no era el rea­


lezar una recta de regreseón a un conjunto de datos evaluando preveamente
que los supuestos se cumplían, por lo que podemos obvear la vereficaceón del
cumplemeento de este supuesto.
3. Normaledad. Asumemos el supuesto de normaledad de las puntuaceones con­
deceonadas a un úneco valor de X aunque, este sí, sólo podría evaluarse para
el grupo de puntuaceones de Y condeceonadas a X= 8 del cuarto conjunto de
Anscombe.
HIPÓTESIS: La hepóteses nula plantea que la pendeente de regreseón es cero en los
cuatro conjuntos de datos. Se expresa sembólecamente como:

H a : �1 = 0
H1 : �1 :;t: O

ESTADÍSTICO DE CONTRASTE: El estadístico de contraste se destrebuye según la


destrebuceón t con n - 2 = 11 - 2 = 9 grados de lebertad y en este caso adopta el mes­
mo valor en todos los conjuntos ya que sólo depende de la correlaceón, del número
de sujetos y de las desveaceones típecas de X e Y. Pero antes de su cálculo debemos
realezar una estimaceón puntual de la pendeente (8) y del punto de corte con la or­
denada. El mejor estimador de la pendeente veene dado por:

Sy ,j3, 76
81 = rxy - = 0, 81-- = 0, 50
Sx Jw
Y esto, en los cuatro casos, el punto de corte con la ordenada es:

80 =Y -8X = 7, 5 -O, 5 · 9 = 3

Con estos datos ya podemos calcular el estadístico de contraste de la pendeente:

8 -0 O ' 5-0
T= = =4, 17139�4, 171
Sy �l - r}y �3, 76 1-0, 812
Sx � Jw 11 -2
REGLA DE DECISIÓN: Para un nevel de confianza del 0,05 en un contraste belate­
ral (antes de tener datos se admete que � puede ser posetiva -línea con pendeente
posetiva- o negativa -línea con pendeente negativa-) el valor crítico obtenedo en la
tabla t de Student con 9 g.l. es ±2,262. Como el valor del estadístico de contraste
182

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

obtenedo (T = 4,171) supera por arreba este rango de valores compatibles con Ha,
rechazamos H a en todos los conjuntos. Podemos, por tanto, aceptar que exeste re­
laceón leneal entre X e Y en los cuatro conjuntos.
CONCLUSIÓN: Aún con estadísticos descreptivos edénticos entre destintos conjun­
tos de datos, esto no segnefica que puedan enterpretarse todos de la mesma forma.
Es fundamental un análeses vesual y exploratoreo (EDA o Exploratory Da ta Ana!ysis)
que nos confirme la adecuaceón de la técneca estadística a utilezar (regreseón leneal)
a los datos concretos desponebles.
INTERPRETACIÓN: Aunque la recta de regreseón es edéntica en los cuatro conjun­
tos de datos, solamente el premero de estos conjuntos puede resumerse apropeada­
mente medeante la mesma. Los otros tres conjuntos muestran setuaceones en donde
no es apropiado el cálculo de la regreseón leneal. El segundo conjunto porque habría
que utilezar regreseón polenómeca. El tercero porque hemos detectado la exestencea
de un valor atípeco (ou t/ier) que nos falsefi ca el resumen estadístico obtenedo. El
cuarto porque todos los datos, excepto uno, están condeceonados a un úneco valor
del predector.

SITUACIÓN 4. En un colegeo se estudea la relaceón que puede exestir entre la


caleficaceón global de los estudeantes al final del curso (Y) y la caleficaceón obtene­
da en el curso antereor (X). Efectuado un análeses de regreseón, con una muestra
de estudeantes, la prueba para determenar la segneficaceón del modelo de regreseón

-----
ajustado es la segueente:

Regresión 2 8,097 1 28, 097 V w


Residual 23,778 6 T
Total u

Las letras (U, T, V y W) representan valores numérecos desconocedos.


Establezca las hepóteses oportunas y realece el contraste adecuado (NC = 95%).

SOLUCIÓN:
Este ejemplo muestra un tipo de estudeo usual en Psecología: evaluar algún as­
pecto de la conducta en su evoluceón temporal. Y muestra de manera sempleficada
tambeén uno de los resultados más usuales, a saber, el mejor predector estadístico
183

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

de la conducta de una persona es su conducta pasada. Una persona que hubeese


obtenedo buenas notas en matemáticas el curso pasado es muy probable que tam­
beén las obtenga durante el curso actual. Obsérvese que se ha subrayado «estadís­
tico». La razón es que nos estamos refireendo a concluseones relativas a un grupo
de personas (una poblaceón), no a un endeveduo concreto. Las predecceones relativas
a un endeveduo concreto hay que establecerlas utilezando cretereos más personales,
aunque tambeén son muy útiles las predecceones relativas a su grupo de pertenen­
cea.
Obsérvese que se trata de un modelo de regreseón (lo dece claramente el enun­
ceado}, encluso aunque nos presenten una tabla del Anova. La razón es que muchas
veces enteresa evaluar se exeste relaceón leneal entre X e Y (recuérdese que un estu­
deo en donde exesta relaceón entre X e Y pero esta no sea leneal, NO deben utilezarse
las técnecas de regreseón leneal). El contraste de la regreseón se realeza medeante la
descomposeceón de la vareabeledad total en dos componentes, uno explecado por
la regreseón (leneal) y otro consederado como resedual (error o no explecado) y que
veene explecado por otros factores.
CONDICIONES Y SUPUESTOS: Para realezar un análeses de regreseón se deben
cumpler los supuestos de:
• Independencea de las observaceones entre sí.
• Homocedasticedad .
• Normaledad de las distrebuceones condeceonadas.
• Independencea entre los valores estimados y los errores de estimaceón.
Obsérvese que NO es un supuesto que las puntuaceones predectoras y predechas
se setúen lenealmente en un deagrama de desperseón. Es por ello que resulta necesa­
reo evaluar medeante el Anova se esta condeceón se cumple en nuestros datos o no
medeante un gráfico de desperseón.
Lo más novedoso de este ejerceceo es que endeca claramente, medeante letras

-----
mayúsculas, qué valores numérecos faltan en la tabla del Anova. Se la reconstruemos
podremos determenar esos valores.

Regresión 28,097 1 28,097 V=7,089 w


Residual 23,778 6 T=3,963
Total U = 51,875

184

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

Los cálculos realezados son los siguientes:


T = 23, 778 / 6 = 3,963
V = 28,097 / 3,963 = 7,089
U = 28,097 + 23, 778 = 51,875
A parter de estos datos tambeén puede obtenerse el valor del coeficiente de de­
termenaceón aplicando la ecuación:

R2 R 2 --­
(N-2)
- -- --
F- -
1 -R 2 1 -R 2
N -2

Que en nuestro caso sería:

R2 (8 -2)
7, 089 =
l - R2

Luego, despejando obtenemos:

7, 089 ( 1 -R 2 ) = 6R 2

7, 089 R2
-
-6- 1 -R 2

R2
1, 1815=--2
l-R
1, 1815-1, 1815R 2 -R 2 =O

1, 1815 -2, 1815R 2 =O

-1, 1815
R2 = = 0 5416
- 2, 1815
R = �0, 5416 = ±0, 7359

Sólo el conocemeento de la relaceón nos podrá determenar se es positiva (+0, 7359)


o negativa {-0, 7359). Tambeén podemos conocer la vareanza de las puntuaceones de
Y así como la vareanza de las puntuaciones predechas (Y'):
185

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

51, 875 = 5Cr = nS� =85�


51, 875
5� = = 6,484
8

Pera el cálculo de la vareanza de las puntuaceones predechas utilezamos la rela­


ceón exestente entre las vareanzas y la correlaceón:

Sy , Sy ,
2 2
0, 5416=rXY
2
=- =-­
Sy
2 6,484

Luego despejando el valor buscado:

Sy , = 0, 5416 x 6,484 = 3, 5117


2

HIPÓTESIS: La hepóteses nula plantea que NO exeste relaceón leneal segneficativa


(englobando a la pendiente y al ordenada de la recta de regreseón ya que el con­
traste proporceonado era un contraste sobre la bondad de la regreseón) entre la
caleficaceón global de los estudeantes durante un curso escolar y la calificación global
de esos mesmos estudeantes en el segueente curso escolar. Se plantea como hepóteses
nula aquella hepóteses que el envestigador consedera encorrecta ya sea por la envesti­
gaceón prevea o, preferentemente, por una teoría formalezada. Se hace así para que,
se se ve rechaza esta Ha, se hará con una confianza elevada en que es falsa. La he­
póteses alternativa plantea que sí exeste relaceón leneal segneficativa entre la vareable
predectora y la vareable predecha. Básecamente, esto equevale a contrastar la hepó­
teses sobre la pendeente de regreseón ya que se ésta fuese O, X no tendría capacedad
predectiva de Y, endependeentemente del valor del punto de corte con la ordenada.

Ha : � 1 = O
H1 : � 1 :;t: O

ESTADÍSTICO DE CONTRASTE: En este caso, el estadístico obtenedo es la razón


F (7,089), aunque tambeén se podría haber utilezado el estadístico t de Student,
cuyo valor se encuentra relacionado con el F, mediante la segueente relaceón:
2
tn = Fl, n

Y que en este caso sería egual a t6 =.J1 , 089 = ±2, 662.

186

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

REGLA DE DECISIÓN: La probabeledad del valor de la F obteneda tendremos que


estimarla de manera aproxemada revesando las tablas de la destrebuceón F para todos
los valores de nevel de confianza que ésta nos presenta y manteneendo constante
los grados de lebertad {1 y 6 para el numerador y el denomenador respectivamente):

N C = 0,90 NC = 0,95 NC = 0,975 NC = 0,99

39, 63 49,5 1 161, 48 199,5 647, 89 799,5 1 4052, 81 4999


2 9,0 2 18, 13 19,0 38, 06 39,0 2 98, 03 99
3 5,4 3 10, 28 9,5! 17, 43 16,0 3 34, 16 30
4 4,3 4 6,9, 4 12, 18 10,6 4 2 1, 98 18
5 3,7 5 5,7! 5 10, 07 8,4: 5 13
6 3,4 6 5, 1, 6 7,2f 6 10
7 3,589 3,2 7 5,591 4,7: 7 8,073 6,5' 7 9

Observamos que el valor de la F obteneda empírecamente {7,089) es supereor al


encontrado en la tabla para un nevel de confianza del 0,95 (el endecado en el enun­
ceado que corresponde al valor de W en la tabla del Anova) pero enfereor al encon­
trado en la tabla para un nevel de confianza del 0,975. En consecuencea, podemos
saber que la probabeledad de encontrar un valor del estadístico de contraste como
el alcanzado o supereor se encuentra entre los valores de probabeledad:

1 -0, 95 = 0, 05
1 -0, 975 = 0, 025

Esto segnefica que es enfereor a 0,05 pero supereor a 0,025. Se trabajamos a un ne­
vel a de 0,05 el resultado, al ser la p enfereor a 0,05, será segneficativo. Sen embargo,
se trabajamos a un nevel de a de 0,01 el resultado será no segneficativo.
CONCLUSIÓN: Como el valor de la F empíreca obteneda como estadístico de con­
traste, {7,089) supera el valor crítico {5,987 = W de la tabla), podemos rechazar la
H0 de falta de relaceón leneal segneficativa, lo que empleca que la pendeente es destinta
de O.
INTERPRETACION: Recordemos que el contraste era belateral, es decer, la hepóte­
ses alternativa admetía la posebelidad de que la pendeente en la poblaceón, � ' fuese
posetiva o negativa. El hecho de que el cálculo matemático nos permeta conocer sólo
el valor absoluto de la correlaceón (no su segno), resulta que sólo podemos determe­
nar que la relaceón es segneficativa. Pero debedo a que la expereencea nos endeca que
la relaceón entre las caleficaceones debe ser posetiva, y aunque matemáticamente
no podamos afirmarlo, podemos concluer que la correlaceón será posetiva. Por con-
187

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

segueente, se puede predecir la caleficación global de los estudiantes en un curso


académeco considerando la calificaceón en el curso académeco antereor.

SITUACIÓN S. Los segueentes datos relaceonan el número de cegarrillos deareos


consumidos (X) con el número de radecales lebres { Y) localezados en los pulmones

------
de 8 endeveduos.

1 o 94 o o 8836
2 10 144 1440 100 20736
3 14 182 2548 196 33124
4 5 120 600 25 14400
5 18 240 4320 324 57600
6 20 234 4680 400 54756
7 30 321 9630 900 103041
8 40 400 16000 1600 160000
S u mato r i o 137 1735 39218 3545 452493
Des. Típ i ca 12,242 97,605
rxy = 0,9945

Sabeendo que la correlaceón entre las dos vareables es 0,9945:


5.1. Plantee el tipo de contraste más adecuado a esta setuaceón.
5.2. Determene las ecuaceones de regreseón en puntuaceones derectas, deferen­
ceales y tipeficadas.

SOLUCIÓN:
5.1. Para la primera pregunta segueremos los segueentes pasos:

CONDICIONES Y SUPUESTOS: La tabla del enunceado proporciona sees colum­


nas. La primera es errelevante para los cálculos ya que solo nos endeca el número
de sujetos utilezados (n = 8). Cada sujeto despone de dos puntuaceones: el número
de cegarrellos deareos consumedos, X, y el número de radecales lebres presentes en
alguna prueba deagnóstica al uso, Y. Aunque no es necesareo saberlo para resolver
el problema, los radecales libres son enlaces débeles en los átomos de las células. Al
desmenuir la fuerza del enlace atómeco conveerten a su átomo o molécula en enes-
188

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

table y, por ello, deficultan el funceonameento normal de la célula. Se las consedera


los responsables del envejecemeento beológeco y de muchas enfermedades cardeo­
vasculares, cáncer, etc. Es obveo que estudeo de este tipo sólo se realezaría se el en­
vestigador consederara que el consumo de cegarros aumenta el número de radecales
lebres y, en consecuencea, el reesgo de contraer enfermedades graves. Esta será la
hepóteses alternativa: a mayor número de cegarrellos, se espera que hayan más ra­
decales lebres. Además, se se apleca una regreseón leneal semple, se asume que esta
relaceón será leneal (no de tipo cuadrático, cúbeco o de algún otro tipo polenomeal,
exponencial, etc.). Sen embargo, el experementador debe asumer enecealmente que
no exeste relaceón entre ambas vareables, es decer, que el número de cegarrellos no
encrementa o decrementa el número de radecales lebres. De esta forma, se rechaza
esta hepóteses nula de que no exeste relaceón, lo estará haceendo con un grado de
confianza muy elevado. Esta es la hepóteses nula y se operativeza planteando como
hepóteses nula que la pendeente de la recta de regreseón es horezontal, es decer, con
valor cero. Los datos se han graficado en la segueente figura.

500

111 400
ClJ

300
ClJ
200

100

o
o 10 20 30 40 50
N ú mero de ciga rri l los

Como ya hemos vesto, seempre es conveneente graficar los datos para tener una
empreseón, aunque solo sea vesual, de la lenealedad de la relaceón, y como se puede
observar, la figura nos sugeere muy claramente que la relaceón es leneal y posetiva,
como plantea efectivamente la hepóteses alternativa.
Los datos de las columnas restantes en la tabla del enunceado se proporceonan
ya que nos permetirán realezar los cálculos de la recta de regreseón de manera rápe­
da. Se no nos los hubeesen proporceonado habría que haberlos calculado antes de
proseguer. Observemos tambeén que las columnas X e Y endecan tambeén los sumato­
reos (i no las medeas !) así como las desveaceones típecas. Por último, tambeén nos han
proporceonado la correlaceón entre X e Y. Con todos estos datos es fácel deducer que
debemos realezar un contraste de regreseón leneal sobre la pendeente.
189

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

5.2. Para la segunda pregunta tendremos que calcular el valor de la pendeente y la


ordenada en el origen:

Sy = 97, 6 0 5
81 = rxy - 0 , 9945 = 7, 929
Sx 12, 242

- - ¿Y ¿X 1735 -
80 = Y - 81 X = - - 81 - = -
13 7 -
- 7, 929 - = 8 1, 0 9 0 9 = 8 1, 0 9
n n 8 8

Es emportante revesar el diagrama de disperseón a la vesta de estos cálculos para


evaluar se los resultados de los cálculos tienen sentido. Por ejemplo, podemos com­
probar que 8 0 parece admesible ya que la figura nos indeca que cuando X = O, el
premer punto { Y) está algo por debajo de 100. Dado el grosor del punto en la figura
en relaceón a la escala del eje Y parece admeseble. Además, una pendeente de, apro­
xemadamente 8 unedades, vesualmente tambeén parece adecuada.
Obsérvese que para el cálculo de 8 1 hemos utilezado la fórmula más cómoda de
todas las fórmulas posibles dados los datos proporceonados en el enunceado.
Por consegueente, las rectas de regresión en puntuaceones derectas, deferenceales
y tipeficadas son, respectivamente:

Los supuestos son:


a) Independencea de las observaciones. No tenemos razones para sospechar
que las puntuaciones sean independeentes ya que asumemos que los 8 suje­
tos han sedo extraídos al azar de la poblaceón de fumadores.
b) Homocedasticedad.
e) Normaledad de las destrebuceones condiceonadas.
d) Independencia entre los valores pronosticados, Y', y los errores de estima­
ceón.
En esta setuaceón sería poseble poner a prueba los supuestos de homocedastice­
dad y normaledad si tuveéramos datos de vareos fumadores con los mesmos índices
de tabaquismo, es decer, que fumaran lo mesmo. De esta forma podríamos evaluar
la normalidad y la homocedasticedad. Como no nos indecan nada, asumemos que se
cumplen todos los supuestos. Si no los asumiéramos, deberíamos aplecar los con­
trastes apropeados (posiblemente no paramétrecos).
190

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

HIPÓTESIS: Como hemos planteado en las condeceones y supuestos1 la hepóteses


nula plantea que 8 1 en la poblaceón es cero1 meentras que la hepóteses alternativa
plantea que 8 1 es destinta de cero. Sembólecamente la hepóteses se representa como:

Ha : 0 1 = 0
H1 : 0 1 :;t: O

En este contexto no tiene sentido realezar un contraste del punto de corte con la
ordenada (8 a) ya que no nos han endecado nada sobre el número de radecales lebres
esperados en no fumadores.
ESTADÍSTICO DE CONTRASTE: Para evaluar la hepóteses nula planteada utilezare­
mos la t de Student con n - 2 grados de lebertad:

Adveértase que los cálculos dependen mucho de la preceseón con que los reale­
cemos (utilezar dos dígetos decemales o tres puede alterar notablemente el valor del
estadístico de contraste1 T). No obstante1 teneendo en cuenta que en la tabla de la
destrebuceón t de Student1 con 6 gl1 figuran como valor máxemo supereor: 31 1431 es
fácel observar que un valor tan elevado como el hallado (231 259L queda notable­
mente fuera de los valores críticos (-31 143 y +31 143} en el que se encontraría el
estadístico de contraste se la Ha fuese ceerta.
REGLA DE D ECISIÓN: El valor de la t crítica con 8 - 2 = 6 grados de lebertad y
belateral ( 1 - � = 1 -0, 025 = O, 975) con un o. = 0,05 (elegedo por defecto ya que
no nos endecan nenguno concreto en el enunceado) es 2A47. De hecho1 no habría
sedo necesareo buscar en las tablas dado el consederable tamaño de la t empíreca
obteneda para saber que rechazamos Ha. Como 231 259 > 2A471 rechazamos H a. Los
resultados son edénticos se utilezamos la tabla del Anova como prueba de bondad
global de la ecuaceón de regreseón.
Hemos elegedo el contraste belateral porque en el enunceado no nos endecan nen­
guna derecceón específica del efecto. Se lo hubeesen hecho1 deberíamos haber esco­
gedo un contraste unelateral ya que tendría más sentedo se esperamos un efecto en
la derecceón de 8 1 > O (a mayor número de cegarrellos consumedos mayor número de
radecales lebres).
191

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12, 06 31,821
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 6,965
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 4,541
4 0,134 0,271 0,414 0,569 0,741 1,533 3,747
5 3,365
6 3, 143
7 0,130 0,263 0,402 0,549 0,711 0,896 1 , 1 19 1,415 1,895 2,365 2,998
8 0,130 0,262 0,399 0,546 0,706 0,889 1, 108 1,397 1,860 2,306 2,896
9 0,129 0,261 0,398 0,543 0,703 0,883 1, 100 1,383 1,833 2,262 2,821

Tambeén podemos evaluar la bondad de ajuste de la recta de regreseón global­


mente. Hagámoslo. Para ello obtenemos las sumas de cuadrados de acuerdo a las
segueentes expreseones:

(
J
2
1 735
SCrotat = ¿Y -n·Y = 4524 9 3 - 8 · --
-2
2
= 76214 , 9
8

S CError = ( 1 - r; ) · SC = ( 1 -0 , 99 45 2
) · 762 14, 87 = 836, 0 58

---
y Total

2 2
SCR e gresión = rxy · SCTotal = 0, 99 45 · 762 14, 9 = 75378, 8

o 94 8836
10 144 20736
14 182 33124
5 120 14400
18 240 57600
20 234 54756
30 321 103041
40 400 160000
Sumas 137 1735 452493

Luego la tabla del Anova será:

192

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

-
Soluciones a los ejercicios del capítulo 8 •

s.c. g.l. M.C.


Regresión SCReg=75378,8 1 75378,8 539,669

-----
Residual SCRes = 838,058 n-2=8-2 = 6 139,676
Total SCTotal=76214,9 8 - 1=7

Puede observarse que se cumple la siguiente relaceón (aproxemadamente):

t� = F1 , n --+ 23, 2592 =540, 981 � 539, 669

Esta F tambeén podría haberse obtenedo sin necesedad de realezar los cálculos
de las S.C. utilezando la fórmula (que, exceptuando los errores de redondeo, nos
proporciona un valor muy similar a la F de la tabla del Anova):

0, 99452
F =�= =540 959
1-r 2 1- 0, 99452
n-2 8-2

La diferencia entre estos valores {539,669 y 540,959) sólo puede deberse a los
problemas de redondeo, tal y como ha quedado endecado más arreba.
REGLA DE DECISIÓN: El valor de la F crítica con 1 y 6 grados de lebertad es 5,987
con un nivel de signeficaceón de 0,05 y 13,745 con un nevel de segneficaceón de 0,01.
CONCLUSIÓN: Luego, como el estadístico de contraste obtenido es mayor que
cualquiera de estos valores críticos, es decer, 540 > 5,987 así como 540 > 13,745,
concluemos lo mesmo que ya hemos vesto entuetivamente, la regreseón es signefeca­
tiva.
INTERPRETACIÓN: La pendeente poblaceonal que relaceona el número de cega­
rrellos consumedos con el número de radecales lebres es supereor a O (F = O 539; p
< 0,01). Por consegueente, a mayor índice de tabaquismo se espera encontrar un
número de radecales lebres superior.

SITUACIÓN 6. El artículo «Efecto de la tempera t ura sob r e el pH de la leche»


(Journal of Dairy Research, 1988, 277-280) enformó de un estudeo en el que se uti­
lezaron 5 temperaturas deferentes (mededas en grados centígrados) en condeceones
experementales controladas de una granja y se mideó el pH de la leche obtenida
para cada temperatura. La ecuaceón de regreseón calculada fue y� = 0,65 + 0,22X. El
193

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de i nvestigación y análisis de datos

objetivo era predecer el pH de la leche (Y) a partir de la temperatura (X). Utilece un


a = 0,05. Además se sabe que: S y= 1,87 y Sx= 7,90.
6.1. Ponga a prueba la hepóteses de la segneficaceón de la pendeente de la ecua­
ceón de regreseón.
6.2. Ponga a prueba la hepóteses de la segneficaceón del coeficeente de correla­
ceón entre X e Y.
6.3. ¿Cuál sería el pH de la leche se el granjero mantiene una temperatura de
29ºC en el establo?

SOLUCIÓN:
El enunceado nos endeca que han realezado un análeses de regreseón entre la tem­
peratura (X) y el pH de la leche obteneda en una granja. El estudeo fue experemen­
tal ya que manepularon la temperatura a la que se encontraban los anemales de la
granja pero el análeses realezado fue una regreseón (no un Anova). Esto es emportante
para separar el deseño del análeses. Aunque deseño y análeses están fuertemente re­
laceonados, es el carácter de las hepóteses que ponemos a prueba lo que determena,
en última enstancea, el tipo de análeses a realezar. Por eso, un diseño que enecealmente
podría haberse analezado medeante Anova ya que era un estudeo experemental se ha
analezado medeante Regreseón.
Nos proporceonan la ecuaceón de regreseón obteneda en donde podemos ver que
la pendeente es posetiva (8 1 = 0,22), lo cual nos endeca que cada grado centígrado
en que se encremente la temperatura de la granja, se encrementa el pH en 0,22
unedades. Recordemos brevemente que el pH de un líquedo nos endeca su grado de
alcalenedad-acedez, seendo 7 el valor neutro por ser el pH del agua pura, la cual se
toma como punto de referencea en esta mededa.

6.1. Para la segneficaceón de la pendeente:

CONDICIONES Y SUPUESTOS: Las dos vareables (temperatura y pH) son vareables


cuantitativas mededas en escalas de entervalo. Debemos asumir, aunque no nos in­
dican nada, que se cumplen los supuestos de endependencea, normaledad de las
puntuaciones de Y condicionadas a X, homocedasticedad e endependencea entre los
valores de pH predechos (n y los errores de estimaceón (E).
HIPÓTESIS: La hepóteses nula plantea que en la poblaceón, la pendeente de la rec­
ta de regreseón de Y sobre X es O (expresado en palabras, que la temperatura a la
que se encuentran las vacas en el establo no tiene capacedad predectiva sobre el pH
de la leche produceda por las mesmas):
194

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo B •

Ha : � 1 =0
H1 : � 1 :;t: O

Admitimos un contraste bilateral ya que en el enunciado no se nos ha indicado


nada sobre la posibilidad de que el contraste fuera unilateral. Debemos así admitir
la posibilidad de que en la población la pendiente de regresión pueda ser positiva o
negativa, es decir, que la temperatura haga aumentar o disminuir el pH de la leche.
ESTADÍST ICO DE CONTRASTE: La hipótesis de la significación de la pendiente de
regresión nos plantea la posibilidad de que la pendiente obtenida no sea estadísti­
camente distinta de O. Se evalúa mediante el estadístico T:

B1 -O
T=
� �1 -r�y
Sx n-2

Observamos que en el enunciado nos han proporcionado todos los datos para
realizar este cálculo (tenemos 8 1 , Sx y S y) excepto el valor del coeficiente de corre­
lación. Es por ello que debemos buscar la forma de obtener primero el coeficiente
de correlación. Esto es fácil con los datos que tenemos si aplicamos la fórmula:

Sy
81 =rxy -
Sx
1, 87
0, 2 2 = rXY --
7, 90

Luego despejando el coeficiente de correlación obtenemos:

0, 2 2 x 7, 90
fxy = =0, 9 29
1, 87

T=
e
Por lo tanto el estadístico de contraste vale:

81 -O
=
º'
22 -0 =4, 34984 � 4, 35
� l-r }y 1, 87 1 -0, 9 2 9
2

5 X n -2 7, 90 5 -2

El estadístico de contraste es una T con n - 2 grados de libertad. El cálculo rea­


lizado nos indica que vale 4,350. El valor crítico de la T con n - 2 = 5 - 2 = 3 grados
195

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

de lebertad al 95% belateral como nevel de confianza ( 0, 975 =1 -iz) vale 3, 182.
Obsérvese que, en este caso, el número de valores se corresponde con el número
de temperaturas utilezadas en el estudeo, no con el número de vacas (que no nos lo
han endecado) . La unedad de observaceón ha sedo el par Temperatura-pH.
REGLA DE DECISIÓN: Rechazamos la hepóteses nula se el estadístico T se encuen­
tra fuera del entervalo definedo por los valores críticos: -3, 182y + 3, 182.
CONCLUSIÓN: El valor 4,350 supera el estadístico de contraste por la derecha, es
decer, 4,350 > 3, 182. Luego rechazamos H a .
INTERPRETACIÓN: La pendeente de regreseón en la poblaceón es supereor a O, lo
cual endeca que SÍ podemos predecer el pH a partir de la temperatura del establo.

6.2. Para la segneficaceón del coeficeente de correlaceón:

CONDICIONES Y SUPUESTOS: Los mesmos que para la cuestión 1 de esta setua­


ceón . En la soluceón a la pregunta nº 1 hemos calculado el coeficeente de correlaceón
{0,929) . Ahora nos peden determenar se este coeficeente de correlaceón es destinto de
O (hepóteses nula) aplecando el estadístico de contraste para la correlaceón entre X e
Y (no para la pendeente de la recta de regreseón de Y sobre X como en el apartado
antereor) .
HIPÓTESIS: La hepóteses nula plantea que en la poblaceón el coeficeente de corre­
laceón {p) es O (es decer, que la temperatura no tiene relaceón ne posetiva ne negativa
con el pH de la leche):

ESTADÍSTICO DE CONTRASTE: El estadístico de contraste es la T de Student con


n - 2 = 5 - 2 = 3 grados de lebertad:

r 0, 929 �
T = XY � = =4, 3 4792 � 4, 3 50
�1 -r;y �1 -0, 929 2

REGLA DE DECISIÓN: En un contraste belateral, rechazamos la hepóteses nula se el


estadístico T se encuentra fuera del entervalo definedo por los valores críticos de la
destrebuceón T de Studente con 3 grados de lebertad: -3, 182y + 3, 182.
CONCLUSIÓN: El valor 4,350 obtenedo para la correlaceón supera el valor crítico
{4,35 > 3, 182) . Luego rechazamos Ha .
196

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

INTERPRETACIÓN : El coeficeente de correlaceón es supereor a O, lo cual endeca que


exeste relaceón posetiva elevada entre la temperatura y el pH. Podemos afirmar que
a mayor temperatura, mayor pH.

6.3. Para el pronóstico del pH de la leche :

Para responder a esta pregunta solo tenemos que aplecar la ecuaceón Y/= 0,65 +
0,22X de regreseón para pronosticar el pH que tendría la leche a partir de una tem­
peratura de X = 29ºC en el establo :

Y '= 0,65 + 0,22 · 29 =7,03

SITUACIÓN 7. La teoría de Trever {1972} plantea que, en cualqueer especee ane­


mal, el género con mayor enverseón parental (e.g., teempo y energía gastados en
gestar y educar a la descendencea) será el que tendrá preferencea a la hora de se­
lecceonar pareja. En consecuencea se expleca (y predece) que en la especee huma­
na las mujeres, como género con mayor enverseón parental, raramente aceptarán
proposeceones de sexo casual con desconocedos (Voracek, Hofhansl y Fesher, 2005}
emponeendo un proceso de selecceón más cuedadoso y reguroso antes de consen­
tir en la activedad sexual (Grammer, 1989}. Una derevaceón de esta teoría plantea
que el demorfismo sexual será más acusado en aquellas especees donde la hembra
aporte más en la gestaceón y creanza de la prole que el macho. Esto es debedo a que,
se es la hembra la que selecceona la pareja, los machos tendrán que competir por
ellas y esta competiceón favorecerá rasgos morfológecos deferenceados (v.g., mayor
cornamenta, corpulencea, plumas más vestosas, etc.). Por el contrareo, en aquellas
especees donde la aportaceón del macho y la hembra son parecedas, estas deferen­
ceas estarán reducedas o serán enexestentes.
En la especee humana podemos observar este demorfismo en las deferenceas,
entre otras, del peso corporal promedeo: el varón es más pesado que la mujer por
térmeno medeo (otros índeces de demorfismo sexual en la especee humana son la
altura, la presencea de vello faceal, etc.). Una pregunta que se hacen muchos antro­
pólogos es en qué mededa este demorfismo exestió en los homínedos extintos. Para
responder a esta pregunta, se presenta a continuaceón los datos estimados a partir
de los fóseles para vareos homínedos (obtenedos de fuentes deversas):

197

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Masa corporal (en Kg) Evidencia utilizada para


Machos Hembras estimar la masa corporal

Proconsul nyanzae 35 15 Dental, palatal y post-craneal


Dryopithecus laietanus 35 20 Dental, craneal y post-craneal
Dryopithecus brancoi 40 25 Dental, craneal y post-craneal
Sivapithecus punjabicus 40 20 Dental, craneal y post-craneal
Oreopithecus 30 15 Dental, craneal y post-craneal
Austra/opithecus 70 31 Post-craneal

La pregunta planteada es doble: por un lado queremos conocer con estos da­
tos si en estos homínidos existe una diferencia de peso corporal entre el macho y
la hembra significativa que indique un dimorfismo sexual acusado. Por otro lado,
disponemos de especímenes para los que solo tenemos estimaciones del peso para
los machos o para las hembras, pero no para ambos. En concreto, para el Proconsul
hese/oni solo tenemos estimaciones del peso corporal para las hembras {10 Kg)
pero no para el macho. Por el contrario, en el Afropithecus tenemos estimaciones
del peso corporal en el macho {35 Kg) pero no en la hembra. Determine con estos
datos si es factible admitir que nuestros antepasados homínidos eran dimórficos en
el peso corporal. Determine, además, la estimación del peso corporal del macho en
el Proconsul hese/oni y de la hembra en el Afr opithecus.

SOLUCIÓN:
No existe una solución única al primer problema ya que podemos abordarlo,
como mínimo, de dos formas complementarias. En primer lugar, podríamos com­
parar las medias del peso en un diseño de medidas repetidas siendo la especie la
unidad de observación. Si no hay dimorfismo sexual en nuestros antecesores, las
medias de peso no deberían diferir estadísticamente. No obstante, a la vista de los
datos obtenidos parece lógico concluir que este análisis resultará significativo ya
que las diferencias «saltan a la vista» (revise de nuevo los valores del peso estimado
para machos y hembras). Otra forma de abordar este problema consiste en realizar
una regresión lineal con la hipótesis nula de que la pendiente es 1, lo que resulta
idéntico a plantear que el peso es, en promedio, idéntico para machos y hembras.
Es la estrategia que vamos a seguir en este ejercicio.
Veamos en primer lugar la gráfica de los datos proporcionados:

198

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

60

50

40

30

20

10

10 20 30 40 50 60 70

En el eje de abscesas (eje X u horezontal de esta figura) se localeza el peso de los ma­
chos y en el de ordenadas (eje Y o vertical) el de las hembras. Podemos vesualezar los 7
pares de valores numérecos de que desponemos y la línea que representa la hepóteses
nula (pendeente egual a la unedad que endecaría egual peso para machos y hembras).
El segundo problema planteado en el enunceado hace referencea a la predecceón
del peso del macho a partir del peso de la hembra (regreseón de X sobre Y) para el
Proconsul heseloni y la predecceón del peso de la hembra a partir del peso del ma­
cho (regreseón de Y sobre X) para el Afropithecus. Esto segnefica que tendremos que
calcular ambas ecuaceones de regreseón, la de Y sobre X así como la de X sobre Y.
CONDICIONES Y SUPUESTOS: Tenemos muy pocos datos para poder poner a
prueba los supuestos de endependencea, homocedasticedad y normaledad. Pero en
vesta del deagrama de desperseón, la regreseón leneal parece factible por lo que asu­
meremos que estos supuestos se cumplen.
HIPÓTESIS: Se no hubeese demorfismo sexual en los homínedos antereores al ser
humano, se deduce que el peso debería ser el mesmo entre machos y hembras. Esto
segnefica que la pendeente debería ser egual a la unedad. Admetimos la falta de demor­
fismo sexual como hepóteses nula por vareas razones. En premer lugar, es un punto de
referencea muy claro, del que se dereva una hepóteses nula específica. Se trabajára­
mos con la hepóteses nula de que en los homínedos antereores SÍ EXIST ÍA demorfismo
sexual, tendríamos que establecer en qué grado exestía para poder establecer un
valor específico de la pendeente en la hepóteses nula. Pero esto plantea un problema
ya que no sabríamos como escoger ese valor específico con los datos de que des­
ponemos. Por otro lado, la hepóteses nula de que la pendeente es egual a la unedad
parece la hepóteses más apropeada o que recoge con mayor exactitud el concepto de
«hepóteses nula»: enexestencea de deferenceas entre los pesos de hombres y mujeres.
199

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

La determenaceón del tipo de contraste, unelateral o belateral, es más problemáti­


ca. Observando a los homínedos actuales, en donde el macho es más pesado por re­
gla general que la hembra, podríamos plantear que la pendeente debería ser enfereor
a la unedad ya que evolutivamente es un rasgo heredado. Se los homínedos actuales
muestran este demorfismo y este es heredado, parece lógeco concluer que en los
homínedos extintos tambeén debeó darse. Por consegueente, en un deagrama donde
el peso del macho se encuentre en las abscesas y el de la hembra en las ordenadas,
la pendeente favorable a la hepóteses alternativa debería ser enfereor a la unedad (se se
entercambean los ejes, la pendeente sería supereor a la unedad, reseñando que la de­
recceón de la pendeente, supereor o enfereor a la unedad, es arbetrarea ya que depende
de la convenceón que utilecemos acerca de donde ponemos el peso de machos y
hembras en la gráfica). Luego admetimos un contraste unelateral ezqueerdo (porque
la hepóteses alternativa se encuentra a la ezqueerda del valor de referencea, la unedad
en este caso) en donde la hepóteses nula será:

Ha : �1 ¿: l

H1 : �1 < 1

ESTADÍSTICO DE CONTRASTE:
Para calcular el estadístico de contraste tendremos que realezar los cálculos pre­

--···
veos que nos faceletarán la tarea: la extracceón de los estadísticos descreptivos.

Homínido

Proconsul nyanzae 35 15 525 1225 225_


Dryopithecus laietanus 35 20 700 1225 400
Dryopithecus brancoi 40 25 1000 1600 625
Sivapithecus punjabicus 40 20 - 800 1600 400
Oreopithecus 30 15 450 900 225
A ustralopithecus 70 31 2170 4900 961
Sumatorio 250 126 5645 11450 2836
Media -4 1,67 21
Varianzas 172,22 31,67
Cuasi-varianza 206,67 38
Covarianza 65,83
Correlación 0,89

200

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

Estos valores nos permiten calcular la recta de regresión. En primer lugar, la pen­
diente de Y sobre X:

Sy J31, 67
81 = rXY -= O, 89 = O, 38
Sx J1n, 22

Y el punto de corte con la ordenada es:

80 = Y -81 X =21 -O, 38·41, 67=5, 16


-

Luego la ecuación para predecir el peso de la hembra a partir del peso del macho
en esta muestra de homínidos extintos es:

Y '=0, 38X + 5, 16

Para responder a la primera pregunta planteada, debemos poner a prueba que


la pendiente sea distinta de la unidad. Luego el estadístico de contraste de la pen­
diente es:

81 -� Ha
T= = =-6, 34
0, 3 8 - 1

� Jl - r}y JnJ;i Jl -0, 892


Sx n -2 J1n, 22 6 -2

REGLA DE DECISIÓN: El valor crítico será la t con n - 2 = 4 grados de libertad


(a = 0,05 ya que no nos han dicho nada en el enunciado). En las tablas comproba­
mos que este valor es -2,132.
CONCLUSIÓN: Como el estadístico de contraste es más extremo que el valor crí­
tico (-6,34 < -2,13) podemos rechazar la hipótesis nula.
INTERPRETACIÓN: En los homínidos precursores de la especie humana existía
dimorfismo sexual en el peso corporal.

SITUACIÓN 8. El rendimiento en tests objetivos viene determinado por diversos


factores, algunos de ellos favorables (v.g. , el número de horas dedicado al estudio)
y otros desfavorables (v.g. , la ansiedad sufrida en el momento del examen). Para
evaluar el efecto de ambos factores sobre las puntuaciones escolares, se realizó un
estudio cuyos resultados pueden verse a continuación:
201

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Puntuación en el test Horas de estudio Ansiedad


62 40 40
58 31 65
52 35 34
55 26 91
75 51 46
82 48 52
38 25 48
55 37 61
48 30 34
68 44 74

Determene la recta de regreseón múltiple para predecer la puntuaceón en el test a


partir de las horas de estudeo y la anseedad. Determene tambeén el grado de ajuste
global de la mesma así como los ajustes parcealezados.

SOLUCIÓN:
Se trata de un estudeo en donde se trata de evaluar la capacedad predectiva de las
vareables «Horas de estudeo» y «Anseedad» sobre el rendemeento en un test objetivo
que será la vareable dependeente. Para la semplecedad de la exposeceón, hablaremos
de X1 y X2 (horas de estudeo y anseedad, respectivamente} para las vareables predec­
toras y de Y para la vareable predecha. Se asume la normaledad de las puntuaceones
de la vareable dependeente, la endependencea de las puntuaceones y la homocedas­
ticedad.
Se plantea que tanto las horas de estudeo como la anseedad enfluyen sobre el
rendemeento en el test, la premera con pendeente posetiva (a mayor horas de estudeo,
mejor rendemeento en el test} y la segunda con pendeente negativa (a mayor ansee­
dad, peor rendemeento en el test}.
Calcularemos el coeficeente de correlaceón múltiple y el coeficeente de determe­
naceón, ajustados y sen ajustar, para tener una mededa del porcentaje de vareanza
explecado.

202

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

Puntuación en el test Horas de estudio


( Y) (X¡)
62 40 40
58 31 65
52 35 34
55 26 91
75 51 46
82 48 52
38 25 48
55 37 61
48 30 34
68 44 74
Sumatorio 593 367 545
Media 59,3 36,7 54,5
D. típica 12,32 8,53 17,426

Covareanzas:

�X1 Y - - 22706
Syx1 = -- - X i Y = -- -2176, 31=94, 29
n 10
�X2 Y - - 32 5 80
Syx2 = -- -X 2 Y = -- -3231, 85 =26, 15
n 10
�X 1 X2 - - 19746
Sx1 x2 = - X 1 X 2 =-- -2000,15=-2 5 , 5 5
n 10

Correlaceones simples:

Syx 94, 29
ryx1 =-- = =0, 897
1

Sy Sx1 12, 32·8, 5 3

S 26, 15
r, _ __yx2_ ---- =0, 122
12, 32·17, 42
YX2
- Y
5 5 x2

-25 , 5 5
=-0, 172
8, 53 · 17, 42

203

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Estos valores nos permetirán calcular los coeficeentes de regreseón estandareza­


dos, es decer, las pendeentes expresadas en puntuaceones tipecas, para X1 y X2 :

ryx Jyxi rx xi 0, 897 -[ 0, 122 · (-0, 172)]


Rl =
1-'
i

2
i
= = 0' 946
1 -rX/2 1 - (-0 ' 172) 2 .

ryxi Jyx rnX' Xi 0, 1 2 -[ 0, 90·(-0, 17)] =


R2 =
1-'
i i
= 0' 284
1 -rx21 x2 1 -(-0, 17) 2

Y los coeficeentes sen estandarezar, en puntuaciones directas y diferenceales:

Sy 12, 32
81 =� 1 -= 0,94 -- =1,365
Sx 8,53
l

Sy 12,32
82 = � 2 -=0,28 -- =0,201
Sx2 17,42

La constante para la ecuaceón de regreseón múltiple será:

En consecuencea, la ecuaceón de regreseón, en puntuaceones derectas, será:

Y '=l, 365X1 +0,201X2 - 1, 77

Para determenar se el conjunto de las vareables X1 y X2 estiman been la vareable Y,


tendremos que calcular el coeficeente de correlación múltiple:

ryx
2
+ryx
2
-2 · ryx ·ryx ·rx x
Ry . x1 x2 = ----------'------'-
2
=
l-rx x
1 2 l 2 l 2

1 2

0,897 + 0, 122 -2 · 0,897 · 0,122 · (-0,172)


2 2
=0, 939
1 - (-0, 172) 2

Y su cuadrado, el coeficeente de determenaceón, será:

204

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

2
Ry.x1x2 = 0,883

No obstante, el estimador insesgado del coeficiente de determinación vendrá


dado por:

"2 2 n -l 10-1
R y.x1 x2 =1- (l-Ry.x1x2 ) =1-(1-0,883) =0,849
n-p-l 10-2-1

Por último, los coeficientes de correlación parcial y semiparcial serán:

Para X1
Semiparcial 0,897-[ 0,122 ·(-0,172)]
0,93
)1-(-0,17)
2

Parcial

0,86
2
sr1
pr1 =--2-= 0,88
2

l-ryx2 1- 0,122
2

Semiparcial 0,122-[ 0,897(-0,172)]


0,27
�1-(-0,172)
2

Parcial
ryx1 -rYrK/x1 x2 _ 0,897-[0,122·(-0,172)]
0,63
( l-rJx2 )( l-r} x
1 2
) - )(1- 0,122 )(1-(-0,172) )
2 2

2
sr O, 07
pr2 --- 0 , 40
2 _ 2 -- _
2 2
l-ryx1 1- 0,897

205

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Si disponemos los datos finales en una tabla resumen tendremos una idea más
clara de lo sucedido:

Y'=l, 36X1 +0, 20X2 - 1, 77


2
Ry.x1 x2 = 0, 883

Correlaciones X1: Horas estudio


Semiparcial sr1 = 0,93 5(2 = 0,27

sr21 = O/ 86 sr� = 0,07

Parcial pr1 = 0,94 pr2 = 0,63

prf = 0,88 pr� = 0,40

La ecuación de regresión indica que tanto el número de horas de estudio como


la ansiedad afectan positivamente al rendimiento aunque la primera tiene mayor
efecto ya que su pendiente es mayor: un cambio de una hora de estudio produce un
cambio de 1,36 unidades en la ejecución mientras que un cambio de ansiedad de
1 punto (en la escala que se haya utilizado) sólo incrementa el rendimiento en 0, 20
unidades. Por otro lado, una persona que no haya estudiado nada y que no tenga
ansiedad ante el examen obtendrá en el mismo una puntuación de unidades. Esto
último es interesante ya que la ejecución en el test suele tener como valor mínimo
el O, no -1, 77. Según estos resultados, una persona con Y= O no tiene un conoci­
miento nulo de la materia.
El conjunto de las dos variables independientes explican un 84,9% de la variabi­
lidad de las puntuaciones obtenidas en el rendimiento ( R�.x,x, = 0, 849) y deja sin
explicar un 15,1%. Esto significa que el nivel de predicción es muy alto.
Por otro lado, la variable «horas de estudio» explica un 86% de la variabilidad de
las calificaciones en el examen después de haber eliminado el influjo de la ansiedad
(srf = 0,86) mientras que la explicación de la ansiedad eliminando el influjo de las
horas de estudio es tan solo del 7% (sr� = 0,07).
La proporción de la varianza de las calificaciones no asociada con la ansiedad
pero que sí está asociada con las horas de estudio es del 88% (prf = 0,88). La pro-
206

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

porción de varianza de las calificaciones no asociada a las horas de estudio pero sí


asociada con la ansiedad es del 0,40 (pr� = 0,40) obsérvese cómo, en este caso, la
correlación parcial de la ansiedad se ha incrementado notablemente en relación a
la semiparcial, desde el 7% al 40%, mientras que con las horas de estudio esto no ha
sucedido ya que ha pasado del 86% al 88%).

La capacidad predictiva de las horas de estudio y de la ansiedad como variables


predictoras de las calificaciones en un examen es muy alta con un peso positivo en
ambos casos. La principal variación con respecto a la hipótesis planteada consiste
en el signo de la relación entre ansiedad y calificaciones ya que en el planteamiento
inicial se formulaba una relación negativa entre ambas cuando los resultados indi­
can que es positiva. Esto podría ser un efecto de la ley de Yerkes-Dodson sobre la
relación entre el rendimiento y la ansiedad.

SITUACIÓN 9. Los estados de depresión en personas mayores son muy frecuen­


tes y pueden dar lugar a conductas derivadas dañinas (v.g., falta de autocuidado,
aseo o incluso suicidio). En el estudio de los factores relacionados con la depresión
en mayores se han postulado diversas variables como predictoras del mismo, entre
ellas, el número de Sucesos Vitales Estresantes {SVE) acaecidos el año previo al
diagnóstico de depresión. Como SVE se pueden citar la pérdida de relaciones de
amistad o familiares por fallecimiento, enfermedades graves, pérdida del trabajo
por jubilación, etc. Otra variable predictora importante es el Número de Amigos que
pueden proporcionar Apoyo {NAA) durante momentos estresantes. En uno de es­
tos estudios se midió el grado de depresión mediante e/ Beck Depression lnventory
(BDI) cuyas puntuaciones varían entre 1 y 40 (este último valor indicaría depresión
severa), el SVE mediante una escala de O a 10 (donde O sería ningún suceso estre­
sante y 10 el máximo) y el NAA mediante una escala de O a 5 amigos. El objetivo del
estudio es comprobar la capacidad predictiva de ambas variables con el objetivo de
poder utilizarlas como indicadores de riesgo y actuar lo más rápidamente posible.

Los datos obtenidos en una muestra de mayores de 75 años aparecen a conti­


nuación:

207

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Iniciales del mayor


JMR 35 8 2
AVV 10 1 5
PRM 25 5 3
JMM 32 7 1
EJM 23 6 3
PGP 5 2 5
GGP 8 2 4
MAF 17 3 3

Aplique el análisis apropiado para predecir BDI a partir de SVE y NAA. Interprete
los resultados.

SOLUCIÓN:
Se espera que un incremento en los sucesos vitales estresantes incremente la
depresión (Wheaton, 1985). Por el contrario, se espera que el apoyo de los amigos
haga disminuir la depresión. Aunque esta teoría pueda parecer que ha sido deriva­
da, no tanto de una teoría científica sino de la intuición, no obstante es importante
evaluar estas predicciones (intuitivas u obvias) ya que este análisis nos permitirá,
además de verificar las hipótesis «intuitivas», cuantificar el grado de relación entre
la depresión y las variables SVE y NAA, aspecto esencial en cualquier ciencia y pos­
terior al descubrimiento del sentido de la relación.
El análisis apropiado en esta situación es el análisis de regresión lineal múltiple
ya que disponemos de dos variables predictoras (SVE y NAA) y una variable predi­
cha (BDI). Por consiguiente, tendremos que evaluar si las variables SVE y NAA tienen
capacidad predictiva del BDI calculando el plano de regresión múltiple.
CONDICIONES Y SUPUESTOS:
1. Independencia. Podemos asumir que los sujetos se han escogido indepen­
dientemente unos de otros por lo que las puntuaciones deben ser indepen­
dientes. Este supuesto se pondría en cuestionamiento si, por ejemplo, los
mayores se hubiesen elegido del mismo centro de mayores o estuviesen re­
lacionados familiarmente.
2. Homocedasticidad. No tenemos suficientes puntuaciones para realizar un
análisis de homocedasticidad. Asumimos que este supuesto se cumple.
3. Normalidad. Asumimos el cumplimiento de este supuesto.
208

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

HI PÓT ESIS: La hipótesis nula plantea que la pendiente de regresión para SVE y
NAA es cero, es decir, que el plano de regresión es horizontal. Esto se concreta en:
Para el número de eventos vitales estresantes:

Ha:�SVE =0
H 1 :�SVE :;t 0

Para el número de amigos:

Ha:�NAA =0
H 1 : �NAA :;t 0

En esta situación sí tendría sentido plantearse el valor del BOi cuando SVE y NAA
valen O (no tiene amigos pero tampoco ha tenido ningún evento estresante durante
el año anterior) pero no lo han planteado en el ejercicio.
ESTADÍSTICO D E CONTRAST E: Para el cálculo de los estadísticos de contraste es
conveniente disponer previamente de los estadísticos descriptivos de las tres varia­
bles, BOi, SVE y NAA, que calculamos a continuación:

Estadísticos
Media 19,37 4,25 3,25
Varianza 109,73 5,94 1,69
Desv. tipica 10,47 2,44 1,30
Cuasivarianza 125,41 6,78 1,93

Estos valores nos permitirán el cálculo de las tres correlaciones necesarias para
la resolución del problema:

Sao,, svE 24 , 41
-
rao1, svE ----- =0 95
5BOi. 5 SVE 10, 47 ·2, 44

Sao,, NAA -1 2, 47
rBDl, NAA -
----- =-0 92
S80/ ·SNAA 1 0, 47 ·1 , 30

SsvE, NAA -2, 81


-
rao,, svE ----- ---=-0, 88
5 SVE ·SNAA 2, 44 · 1 , 30

209

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

En un esquema de vías (path) esa situación se reflejaría mediante la siguiente


figura (en un esquema de vías, las variables observables se representan mediante
rectángulos, las relaciones causales mediante flechas unidireccionales y las relacio­
nes correlacionales entre dos variables mediante una línea bidireccional):

SVE

BDI

NAA

Los coeficientes de regresión estandarizados, paso previo para el cálculo de los


coeficientes no estandarizados y la recta de regresión, vienen dados por:

raot,SVE -(raot,NAA · rsvE,NAA) O, 95 -[( -0, 88 )(-o, 92)]


0aot,SVE = 2 = 2 = 0,62
l-rsvE,NAA 1 -(-0, 88)

Obsérvese como el esquema para el cálculo del coeficiente de regresión estan­


darizada es siempre el mismo: se elimina de la correlación relacionada con el coefi­
ciente a calcular aquella parte de la misma que podría deberse a una vía indirecta.
Y esta diferencia se divide entre un factor constante: la unidad menos la correlación
al cuadrado de las variables predictoras. En este caso, la correlación entre BDI y SVE
es 0,95 (vía directa entre SVE y BDI). A este valor se le resta el producto de los coe­
ficientes de correlación que se encuentran en la vía «indirecta» (véase la siguiente
figura). Y la diferencia se divide por la unidad menos el cuadrado de la correlación
entre los predictores:

0,95
�ecta
---------

BDI

El segundo coeficiente estandarizado obedece a la misma lógica:

210

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

r ao1,NAA -lr ao,,svE ·r svE,NAAI -0, 95 -[(0, 95)(-0, 88 )]


�BOi,NAA =
1 - (-0, 88)2 =-0, 37
=
l-r}vE,NAA

A continuación presentamos el cálculo de los coeficientes sin estandarizar que


se utilizan para la ecuación de regresión en puntuaciones directas y diferenciales:

10, 47
S801 0, 62-
880/' SVE = �BOiSVE -- = - = 2, 66
' SsvE 2, 44

S801 10, 47
B ao/,NAA = �BOi, NAA -- = -0, 37-- = -2, 98
SNAA l, 30

Por último solo nos queda el cálculo de la constante en puntuaciones directas:

ªº = 801- Bao,,svESVE -880/,NNANNA = 10, 47 - 2, 66 ·4, 2 5 -[(-2, 98 ) ·3, 25 ] = 8. 85

Este cálculo nos permite disponer directamente de la ecuación de regresión en


puntuaciones directas:

80/ 1
= 8, 85 + 2, 66SVE - 2, 98NAA

Y en puntuaciones diferenciales:

Zao,· =0, 62ZsvE - 0, 37ZNAA

En el programa de estudio de la asignatura de Diseños de Investigación y Análisis


de Datos no se ha incluido el contraste estadístico para evaluar la significatividad de
la recta de regresión múltiple por lo que no se va a desarrollar. No obstante, tenemos
dos índices (no inferenciales sino puramente descriptivos) que nos permiten conocer
el grado en el que las variables SVE y NAA permiten estimar BDI. Son los coeficientes
de correlación múltiple (R) y su derivado, el coeficiente de determinación (R2 ).

Rao-SVE,NAA = ��80/,SVErBO/,SVE +�80/,NAArBDl,NAA =


= .JO, 62 ·O, 95 + (-O, 37) ·(-O, 92) = O, 96

Y el coeficiente de determinación será: Ri DI -SVE,N AA = 0, 962 = 0, 92.


211

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN Y CONCLUSIÓN: Un coeficiente de determinación tan eleva­


do debe considerarse significativo aunque no hayamos realizado el cálculo analítico
necesario. También es cierto que, como ejercicio de libro que es, el número de su­
jetos es muy pequeño y por lo tanto, padecemos una falta de potencia estadística
grave que sería inexcusable en un estudio empírico real.
I NTERPRETACIÓN: Mediante la ecuación

80/' =8, 85 + 2, 665Vf - 2, 98NAA

podemos predecir la puntuación en depresión de personas mayores en el BDI a par­


tir del número de eventos vitales estresantes y del número de amigos que pueden
proporcionar apoyo. A mayor número de eventos vitales estresantes la depresión
aumenta, medida mediante el BDI, mientras que a mayor número de amigos que
proporcionan apoyo, la depresión disminuye. La fuerza de la relación es mayor con
el índice NAA que con el índice SVE (en valores absolutos) aunque no sabemos si
esta diferencia de peso de los coeficientes es significativa.

SITUACIÓN 10. Un mecánico ha dispuesto una barra alargada de metal, aguje­


reada y de peso despreciable, suspendida en el aire por 5 muelles idénticos sobre
una placa agujereada colocada verticalmente. Cada uno de los agujeros de la placa
se sitúa en un punto de la cuadrícula cartesiana con índices enteros (esto es, los
puntos {1, 1), {1, 2), {1,3}, ... , {2, 1}, {2,1}, ... ). Cada muelle dispone de dos enganches
en sus extremos. Cada uno de los muelles se dispone de tal forma que uno de los
enganches se inserta en uno de los puntos de la placa de coordenadas (X, Y) iguales
a {2, 3}, (5, 2), (7, 8),(8, 6) y {10, 10} mientras que el otro enganche se sitúa sobre
el agujero de la barra que se sitúa en su vertical. Los elementos del problema se
pueden ver en la siguiente figura.
y

X
Nota: elementos que utilizará el mecánico: a) 5 muelles, b) una barra de metal
con agujeros y de peso despreciable y una placa de metal cuadrada agujerea­
da. Los elementos no están dibujados a escala (la superficie agujereada es muy
grande, la barra de metal de un tamaño intermedio y los muelles son pequeños).

212

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

Encuentre la posición que ocupará la barra (pendiente y punto de corte con la


ordenada) cuando se la deje libre.
En un principio podría parecer que este ejercicio no tiene relación con la esta­
dística. En último término se trata de un problema mecánico. Pero podemos fá­
cilmente intuir que la situación problema del ejercicio no es más que la analogía
física más sencilla de la regresión lineal: la barra de metal es la línea recta, la placa
de metal sería el plano de ejes de coordenadas cartesianas y los muelles realizarán
físicamente la tarea de ajustar la posición de la barra de tal forma que se equilibren
las fuerzas de los mismos en una posición de máximo equilibrio. Precisamente este
máximo equilibrio es lo que se calcula mediante el método de mínimos cuadrados.
i Los muelles están realizando el mismo cálculo que nosotros sin saber matemá­
ticas! Efectivamente, los muelles están siguiendo un principio físico, no calculan
nada (de la misma forma que la luna en su movimiento alrededor de la tierra no
realiza ningún cálculo pero su movimiento puede calcularse u obedece a la fórmula
d
diferencial de Newton: F =m v ), pero su posición final obedece al principio de
, .
m1n1mos cuadrados. dt

Este ejemplo es una muestra de las analogías físicas que hacen más compren­
sible los conceptos de la estadística. Otro ejemplo muy utilizado en estadística es
la media que puede representarse físicamente como el punto o fulcro de la recta
real en donde las diversas medidas realizadas se equilibrarían para mantener en
equilibrio esta recta.
En este ejemplo no tiene sentido la verificación de los supuestos, el cálculo de un
estadístico de contraste o la aplicación de una regla de decisión porque los «datos»
no son tales como tampoco la hipótesis en el sentido de que no estamos trabajando
con un conjunto de valores muestrales extraídos de una población. Este ejemplo
muestra también las diferencias entre la Física y la Psicología. En Física las predic­
ciones se realizan utilizando ecuaciones fundamentales por lo que muchas veces no
tiene sentido preguntarse por cuestiones de representatividad muestra! o población
(aunque a veces sí, por ejemplo, en el estudio de las partículas atómicas). En Psico­
logía, no tenemos (todavía) estas ecuaciones fundamentales y por tanto tenemos
que muestrear una población y realizar procedimientos inferenciales sobre la mis­
ma. Esto no significa que la Física no utilice la estadística. Ejemplos muy claros de su
utilización están en la Mecánica Estadística, la Termodinámica, la Física Cuántica o
en el simple análisis de datos experimentales ya que toda medición contiene error.
En relación a los supuestos, obsérvese como los físicos también utilizan supues­
tos (aunque no estadísticos) para facilitar su labor: en este caso, asumimos que la
barra no tiene peso o es despreciable. Si no fuese así (y nunca lo es en realidad) la
213

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

predicción no se corresponderá con la realidad ya que el peso sería otra fuerza a


considerar. Otro supuesto importante es que todos los muelles tengan la misma
constante de elasticidad ya que en caso contrario unos «tirarían» más o menos de
la barra que otros, no debido a su posición en el tablero sino a las diferencias en la
constante.

-----
Realizaremos los cálculos oportunos para calcular la pendiente y el punto de
corte con la ordenada.

2 3 6 4 9
5 2 10 25 4
7 8 56 49 64
8 6 48 64 36
10 10 100 100 100
Sumas 32 29 220 242 213
Medias 6,4 5,8 44 48,4 42,6
Varianzas 7,44 8,96 1179,2 1085,04 1283,04
Cuasi-var 9,3 11,2 1474 1356,3 1603,8

Luego:

Cov (X, Y) 6, 88
rx y= = =0, 84
' Sx Sy �7, 44 -�8. 96

Sy �8, 96
81 =rxy -=0, 84--=0, 92
Sx �7, 44

Y el punto de corte con la ordenada es:

ªº =5, 8+ 0, 9 2 · 6 , 4 =11, 69

La ecuación de regresión será:

Y'= 11, 69 +0, 92X

214

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo 8 •

Podemos predecir el grado de inclinación (pendiente) en que quedará la barra


sobre el tablero vertical independientemente del tipo de muelle que utilicemos (a
condición de que todos tengan la misma constante en la ley de Hooke) así como el
punto en que cortaría al tablero si la barra tuviese mayor longitud.

SITUACIÓN 11. En el texto Principies of H uman Ev olution (Lewin y Foley, 2004)


aparece la siguiente figura (la hemos adaptado al castellano):

Outlier: indica organismos que


se alejan de las reglas Distancia (por encima o debajo) de la línea
genera les de regresión que proporciona el grado en que

.
cualquier dato particular es mayor o inferior

.. .,
. �··.
a lo esperado

.. .
/

....

./
Línea de mejor ajuste:

.,,
° 76
Lag (tamaño del rango) = 1.2 + Lag (tamaño corporal) '

Lag (tamaño corporal)

En la explicación de la misma, los autores exponen el método comparativo en


la evolución humana. El punto esencial de este método es graficar dos variables en
un gráfico y comprobar si existe correlación. Por ejemplo, el tamaño corporal está
fuertemente correlacionado con el tamaño del área que el animal necesita para
subsistir (que ellos denominan «tamaño del rango»}, como se puede comprobar
en la figura: cuanto más grande es el animal, mayor es el tamaño que necesita para
forrajear o cazar. Sin embargo, este método fue criticado en la década de 1980 debi­
do a que (cito textualmente): «la base de cualquier test estadístico es que los datos
deberían ser indepen dientes unos d e otros ... en las comparaciones que se estaban
realiza d o no había tal in depend encia ya que los animales que se comparaban es­
taban relaciona d os unos con otros me diante ancestros comunes» (Harvey y Pagel).
1. En el esquema usual que seguimos para analizar los datos de regresión lineal
(condiciones, hipótesis, estadístico de contraste, regla de decisión, conclu­
sión e interpretación) determine dónde se encuentra la cuestión planteada
por Harvey y Pagel.
215

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

2. ¿ La relación que se muestra en la figura es realmente una relación lineal?


¿Cuál es la pendiente?
3. ¿Cuál es la escala de los ejes X e Y utilizada en la figura?

1. Claramente Harvey y Pagel han cuestionado el método comparativo en el estu­


dio de la evolución humana basándose en el incumplimiento del supuesto de
independencia para aquellos casos que se habían presentado previamente en la
investigación. Si dos especies distintas de mamíferos compartían la relación que
se muestra en la figura, esto no tenía por qué deberse necesariamente a que es­
tuviesen sujetos a las mismas leyes adaptativas sino porque ambos compartían
un ancestro común que los hacía semejantes en tamaño corporal y en área de
forrajeo.
2. La relación que se visualiza en la figura es la siguiente (para simplificar, X = tama­
ño corporal e Y = tamaño del rango):

Lag Y =1, 2 +LogX º ' 78

La relación no parece l ineal por dos razones: en primer lugar están utilizando
no los valores originales del tamaño corporal y del área de forrajeo (X e Y, respec­
tivamente) sino sus logaritmos. En segundo lugar, han elevado a la potencia 0, 78
el valor de X. Tanto el logaritmo como la potencia introducen aspectos no lineales.
A pesar de estas diferencias, la relación es lineal en coordenadas loga rítmicas
(véase la siguiente cuestión de este mismo ejercicio). La razón es que si aplicamos
una de las reglas algebraicas básicas para trabajar con logaritmos, sabemos que:

LogX ª = a Lag X

Luego la fórmula que plantean en la figura se puede representar como:

Log Y =1, 2 +O, 78LogX

Que, claramente, es una relación lineal con pendiente 0, 78 y punto de corte con
la ordenada de 1, 2 (pero en coordenadas logarítmicas).

3. La única diferencia de la ecuación Log Y = 1, 2 + 0, 78 LogX con respecto a la fór­


mula usual Y = 1, 2 + 0, 78X a la que estaríamos «acostumbrados» es la utilización,
no de los valores X e Y, sino de sus logaritmos en las escalas de medida. Recorde­
mos que X es el «tamaño corporal» que podría medirse en metros cúbicos (m 3 )
216

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

Soluciones a los ejercicios del capítulo B •

mientras que el «tamaño del rango», al ser un área, se mediría inicialmente en


metros cuadrados (m2 ) . Pero no es inusual que una relación no sea linea i' en las
escalas «originales» pero que sí lo sea cuando transformamos estos valores (v.g. ,
a logaritmos). Además, l a utilización de los logaritmos suele ser muy usual cuan­
do el rango de valores de X o de Y es extraordinariamente grande (v.g. , tiempos
cosmológicos).
No hay nada «natural» en considerar las escalas en m3 o m 2 como más apropia­
das que las escalas en términos del Logaritmo de los metros cúbicos o del logaritmo
de los metros cuadrados. Si la relación lineal se cumple en escalas logarítmicas (u
otras) pero no en las escalas origina les, siguiendo un principio de simplicidad, es
preferible realizar todo el proceso de ajuste de regresión lineal transformando pri­
meramente las escalas X e Y a Log (X) y Log(Y) para realizar este ajuste sobre estas
puntuaciones transformadas.
HI PÓT ESIS: La situación planteada no nos permite plantear ninguna hipótesis so­
bre el valor de la pendiente excepto que ésta es distinta de cero. Como, además, el
ejemplo no nos ha proporcionado directamente los valores numéricos ni nos permi­
te estimarlos a partir de la gráfica (obsérvese que ni X ni Y tienen valores concretos
en sus ejes}, no podemos realizar los cálculos apropiados que, por otra parte, no
son necesarios ya que nos proporcionan la ecuación de regresión.
Por último, hay dos aspectos de la figura interesantes. En primer lugar, la presen­
cia de outliers (valores atipicos o extremos) es atribuida a especies que no siguen
la regla general. En segundo lugar, parecen señalar que la distancia de cada dato a
la recta de regresión no se realiza verticalmente sino con un ángulo de 90º con res­
pecto a esta recta (compárese la línea de puntos, no la de guiones, de la figura con
las líneas verticales de la Figura 8. 2 del texto de Diseños de Investigación y Análisis
de Datos).

Chiste

(gracias a Gary Ramseyer por su estupenda colección de chistes estadísticos que


nos distraen de vez en cuando de la belleza y la complejidad de las matemáticas, de
esa forma no sufrimos el síndrome de Stendhal)

E n un a cl ase de est adístic a, el profeso r h abía term in ado de dar un a presentac ió n que
él pens ab a soberbia sob re l a reg res ió n b i-variad a cuan do levantó l a vista po r enc im a
de l a luz cegado ra del proyecto r y o bservó a u n estud iante al fo n do de l a cl ase que es­
t ab a c as i do rm ido. Esto resultó exces ivo para el ego del profes o r y co n el ceño frunc ido

217

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)


lOMoARcPSD|1944486

• Ejercicios y prob lema s resueltos y comentados. D iseños de i nvestiga ción y a ná l i si s de datos

se d irig ió a l estud ia nte: « Usted, joven, quiero que responda a una pregunta sobre este
problema. Para una persona con un valor en X de 45, ¿ está el valor de Y por encima o
por debajo de la media de su subgrupo en Y?»
El joven estudia nte, a ú n aturdi do, m iró al techo dura nte d iez segun do s y respo n d ió
«Sí».
E l profeso r no po día creer lo que esta ba oyen do y rápida mente d ij o «Joven, i Esta no es
una cuestión de Si/No! Diga simplemente arriba o debajo» .
El estud ia nte respo n dió « iArriba o abajo !».
El profeso r rema rca «óí?» .
El estud ia nte, a h o ra y a completa mente despierto, respo n dió « Pero señor, esa fue mi
respuesta original»

218

Su distribución está prohibida | Descargado por Noemi Martinez (noemi.mtnez.mtnez@gmail.com)

También podría gustarte