Está en la página 1de 215

·:xio estudiante debe conocer, la Psicología es una disciplina académica,

on y una ciencia que estudia la conducta y los procesos mentales de los


Como ciencia utiliza el Método Científico en la investigación para cons-
ra�e<os explicativos y teorías de la conducta susceptibles de comprobación
IIJlllae:ta. Como disciplina académica debe enseñar a los estudiantes y futuros
• - . a M : S a utilizar las herramientas de la investigación científica (conceptuales,
- . _ . ... critica, etc.) que les permitan avanzar en el conocimiento de su objeto
comprender la investigación que se realiza actualmente. Y como pro-
traer aquí las ideas expuestas en la introducción del texto de FUNDA-
DE VESTIGACIÓN EN PSICOLOGÍA por sus autoras:«(... ) los profesionales
ll!lmlog_ a, aunque no se propongan ser investigadores, deben adquirir ciertas
PD"ª enfrentarse a diferentes tareas como analizar problemas, leer docu-
* a ..ácter científico de forma comprensiva, aprendiendo a diferenciarlos
oe"Óficos, afrontar problemas que pueden ser resueltos con algunos pro-
, técnicas científicas, etc».
es a 'c3zón por la que en los programas de las disciplinas encuadradas en
Cencias Sociales y de la Salud, en la que se encuentra la Psicología, la
Descriptiva e Inferencia! es materia esencial de estudio ya que su uso es
: ..a1quier estudio científico en Psicología. El estudio de la Estadística en
- debe contemplarse como un objetivo en sí misma sino como herra-
se debe conocer, comprender y utilizar en las tareas de investigación
::>a'c3 interpretar correctamente sus conclusiones. Por esta razón se cur-
- · _ . . . . . , . curso del Grado, la asignatura de INTRODUCCIÓN AL ANÁLISIS DE

- aa- Se dedica a la Estadística Descriptiva como una herramienta básica en la


de observación. Esta disciplina nos permite organizar los datos mues-
saf>as y gráficos y analizarlos, con los índices descriptivos, para obtener

IX
• Ejercicios y problemas resueltos y comenta!'-os. Diseftos de Investigación y análisis de datos

información que nos permita, en un segundo paso, formular hipótesis sustentada:


en aquellos resultados.
En segundo curso se cursa la asignatura de DISEÑOS DE INVESTIGACIÓN Y AN.t-
LISIS DE DATOS que dedica sus contenidos a la Estadística Inferencia! como herrc-
mienta aplicada en la que, dependiendo de la naturaleza de los datos muestrale::
recogidos en la investigación y, por supuesto, del diseño utilizado, tendrá que se·
leccionar la técnica estadística más apropiada que se aplicará para la contrastació r
empírica de la hipótesis formulada sobre la población.
Con este motivo, en este texto se presenta una colección de situaciones, muchas
de ellas inspiradas o extraídas de articulas publicados en revistas profesionales \
científicas, para que el estudiante lea la situación, la comprenda y vea los pasos que
se siguen para contrastar la hipótesis que se formula. Para ello, se propone seguí'
los siguientes pasos.

l . CONDICIONES Y SUPUESTOS
En todo análisis inferencia! el estudiante debe identificar la hipótesis de la in-
vestigación (resultado de la derivación de una teoría) así como, las variables (in-
dependientes y dependientes) implicadas en estas hipótesis y su naturaleza. Un
aspecto esencial de este apartado son los supuestos que deben verificarse para
que podamos confiar en los resultados obtenidos. Estos supuestos son condiciones
que deben cumplirse para que el análisis tenga sentido. Además, cada análisis tiene
sus propios supuestos. En la medida de lo posible estos también debe ponerse a
prueba. Si no es posible hacerlo, deben hacerse explícitos. De alguna forma, son
como los cimientos de un edificio. El edificio puede estar bien construido pero si los
cimientos son de arena, el edificio no podrá sostenerse.
Las condiciones hacen referencia a diversos aspectos del diseño. Por ejemplo, si
los datos objeto de análisis provienen de una, dos o más de dos muestras, las cuales
a su vez pueden ser independientes o relacionadas, de la escala de las variables, etc.
Los contrastes a utilizar dependerán de estos factores.

2. FORMULACIÓN DE LAS HIPÓTESIS NULA Y ALTERNATIVA


Una hipótesis es una conjetura que se formula sobre uno o más parámetros de la
población (dependiendo del diseño) y que puede someterse a contrastación empíri-
ca a partir de los datos proporcionados por la o las muestras utilizadas en la investi-
gación. Como se indica en el manual de la asignatura (Pág. 33): «En general, siempre
se porte de algún interrogante que se planteo en el ámbito de uno investigación, o lo
luz de un determinado morco teórico, y debería formularse de uno manera sencillo

X
_ - " las mujeres en mayor proporción a partidos de centro izquierda que
a derecha?; En el proceso de trabajo manual ¿es más eficaz verba/izar
=..Jante la tarea que hacerlas en silencio?; ¿Es más eficaz una terapia

---:es
•Nl'o:: = =,era el tratamiento de la fobia de los niños a montar en ascensores?;
:;e hombres y mujeres son iguales por un mismo trabajo?».
Ea: = 2:,teada la pregunta se formulan las hipótesis nula, Ha , y su comple-
-- .... a - 3Ótesis alternativa o H 1 que son exhaustivas y mutuamente excluyen-
-sg-r-;ica que el rechazo de una implica la aceptación de la otra.
· nula es la hipótesis que provisionalmente se acepta como verdadera
a que se somete a contrastación empírica con los datos obtenidos en
::.., (similar a la presunción de inocencia en un estado de derecho). To-
::ac_ -0s estadísticos se realizan asumiendo que Ha es correcta de tal forma
""EC"azamos, lo estaremos haciendo con un alto nivel de confianza. «En
.. ::;ótesis nula afirma que no existe diferencia entre el valor del estadís-
en la muestra y el que formulamos como parámetro poblacional o, en
, que la diferencia observada entre estos dos valores es nula. Como la
:; .., e estos valores casi nunca van a coincidir, Jo que estamos afirmando
_-=.-encia observada puede explicarse como resultado del azar» (Pág. 34).
E-do de cómo se formulen la hipótesis nula y alternativa tendremos un
-· ateral o bilateral pero, en todo caso, la hipótesis nula añadirá a la dife-
- e sentido de la diferencia y la hipótesis alternativa el sentido contrario,
.a diferencia nula. Por ejemplo, ante la pregunta ¿Votan las mujeres en
-,,x,cr-ción a partidos de centro izquierda que a los de centro derecha?, las
se.,an:
..2S '"'1Ujeres votan en la misma o menor proporción a partidos de centro
erda que de centro derecha .
..,ujeres votan en mayor proporción a partidos de centro izquierda que
...3S

OE=:e11tro derecha .
.e ;enero/ la hipótesis científica, dirigida a encontrar resultados significati-
.. -oótesis alternativa que se aceptará como verdadera si la investigación
e-J encías contra la hipótesis nula que es la que se somete a contrastación
Pag. 37). Por lo general, pero no siempre, porque como se puede com-
--- 1arios de los ejemplos desarrollados en el libro de la asignatura y en los
. . . , .se presentan es perfectamente legítimo, dependiendo del contexto y de
e . defender que hombres y mujeres tienen el mismo salario, que niños
11os tienen el mismo rendimiento en tareas de compresión lectora, que
,. diferencias en la reacción de celos de hombres y mujeres ante la infide-

XI
'= = z-. :: encias entre la nota media obtenida en las prue=-
sae::::::.::ta- .:s esrudiantes de la enseñanza pública y privada, etc. Per:
a::.:::: - ::a --:ente como verdadera y sobre cuya asunción se realizan _
a:: ,'.'"C; es .a -2• ,a evidencia de los datos obtenidos en la investigación dirás
- - - = - E o se rechaza esta afirmación de igualdad (la hipótesis nula) que puedes::
= -_:;e-.o para el que se ha desarrollado la investigación.

3. ESTADÍSTICO DE CONTRASTE
«Representa una medida de la discrepancia entre la información proporciono:.;
por los datos empíricos recogidos en la muestra y la proposición teórica planteo:.;
en la hipótesis nula. Esta medida es una variable aleatoria con una determinoc:
distribución de probabilidad (normal, t, chi-cuadrado, etc.) que va a aportar infc·
moción empírica sobre la afirmación formulada en la H0 » (Pág. 37 y que se puec=
ampliar en el epígrafe 1.4.3). Un estadístico no es más que una función numériG.
dependiente de los valores muestra les, de la hipótesis nula supuesta verdadera y C=
los supuestos. Es por ello que el cálculo que se realiza para computar el estadístic:
de contraste se ha elegido para que nos proporcione una distribución estadístic:
conocida que nos permite calcular las probabilidades de sus valores.
El estadístico de contraste se reduce, pues, a una fórmula que se recoge en e
formulario y que el estudiante no debe memorizar pero sí aplicarla correctamente
para, una vez obtenido su valor, interpretarlo de cara a tomar una decisión respecte
a la H0 : su rechazo o no con una determinada probabilidad. En definitiva, el con-
traste de hipótesis no es más que la combinación de la teoría de la probabilidad\
la teoría de la decisión.

4. REGLA DE DECISIÓN
Para tomar una decisión hay que calcular el nivel crítico p o los valores críticos
de la distribución de probabilidad del estadístico de contraste aplicado (distribución
normal, t, F, chi-cuadrado, etc). «Según Fisher, el nivel de significación, a, repre-
senta el máximo riesgo que el investigador está dispuesto a cometer al tomar lo
decisión errónea de rechazar una hipótesis nula verdadera. Por tanto, a la luz de sus
resultados y del estadístico de contraste, el investigador calcula la probabilidad de
obtener unos resultados como los observados en la muestra o más extremos. Esta
probabilidad recibe el nombre de nivel crítico p. Si el nivel crítico p es muy pequeño
en comparación con el nivel de significación, "alfa'; rechazamos la H0 y en caso con-
trario la mantenemos» (Pág. 38).
«Otra alternativa a la hora de tomar la decisión de rechazar o no la hipótesis

XII
Presentación •

-'"siste en fijar el nivel de significación a, por lo que automáticamente se fija


o ,afores críticos de la distribución muestra/ que marcarán la máxima dife-

=
=Je podemos admitir, por simple azar, entre el valor teórico planteado en H0
,.obtenido en la muestra. Este valor, o valores críticos, definen -en la distri-
- Jestral del estadístico de contraste- los límites entre la zona de rechazo o
- ..:0» (Pág. 38).
5i: :<:'1aza la H0 cuando el nivel crítico p (la probabilidad de obtener un valor del
:o igual o más extremo al obtenido con la muestra asumiendo que H0 es
A ;:s menor que el nivel de significación (los más utilizados en la investigación

:rscc !OgÍa son 0,05 o 0,01) o cuando el estadístico de contraste supera el o los
_rr:_:oc: ::riticos de la distribución muestra! del estadístico para el nivel de significa-
...........:....:::...-- .:ado .

..s: : : cación de la regla de decisión nos permite tomar una decisión probabilísti-
s;;:cre - 0 : aceptarla o rechazarla. Esta es la conclusión para la que se ha diseñado
::E:::o el experimento. El objetivo es que esta decisión tendrá consecuencias
_,....'"'.""'_.._ o orácticas importantes.

:. PRETACIÓN
:.:-,e usión de rechazar o no la H0, se debe interpretar en el contexto teórico
-.<E?stigación que se está realizando de tal forma que permita confirmar o
m:::ra.:::::-' a hipótesis científica que dio lugar a la hipótesis estadística. Esta interpre-
:ebe servir para formular nuevos avances o desarrollos tanto teóricos como
¡trae:C--s en el área concreta que se esté investigando.

Madrid, septiembre de 2015

XIII
luciones a los ejercicios
capítulos 1 y 2
a.=..=-..;c._;;los

SITUACIÓN l. Un sociólogo conoce, por investigaciones anteriores, que el suel-


-.edio de la población de hombres para un determinado trabajo T, se distribuye
,a-:almente con media igual a 1500 euros mensuales y una desviación típica de
euros. Extrae una muestra aleatoria de 81 mujeres que desempeñan el mismo
tr.iei3jo T, observando que el sueldo medio en dicha muestra es igual a 1400 euros
'?llle""'suales con una desviación típica de 210 euros. Establece un nivel de confianza
iie 39% y quiere comprobar:
1.1. Si la variabilidad del sueldo de las mujeres es mayor que el que presentan
los hombres para el mismo trabajo.
1.2. Si el sueldo medio de las mujeres es inferior al de los hombres y la potencia
estadística de este contraste.

SOWCIÓN:
_ : . Para el primer contraste de hipótesis, seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: El diseño de este trabajo utiliza una muestra alea-


:;:,;a de 81 mujeres en el que la variable de análisis, el sueldo, es de naturaleza
,:-_antitativa que se distribuye normalmente.
HIPÓTESIS: El investigador quiere comprobar si la variabilidad del sueldo de las
-1.1jeres es mayor que el que presentan los hombres para el mismo trabajo para lo
:ue plantea un contraste unilateral derecho con las siguientes hipótesis:

H0 : ( / ::::;180 H1 : 0 2 > 180

ESTADÍSTICO DE CONTRASTE: El estadístico chi-cuadrado toma el siguiente valor:


3
• Ejercicios y problemas resueltos y comentados. Diseftos de investigación y análisis de date

2 n·S2 81·210 2
X = - - n2 =110 25
cro 180 2

REGLA DE DECISIÓN: En una distribución chi-cuadrado hay que buscar el\':


crítico correspondiente a un contraste unilateral derecho con nivel de confianzc:
99% y con 80 grados de libertad. El valor que deja por debajo una probabilida:::
0,99 es 112,328.

Probabilidad
g.1.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,995

1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,E-:.
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5=-:,-
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,S
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8:-.

so 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,t;.:i...
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9: ••
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 00,4252 104,2:-
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,32:
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2$'
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,3421 129,5612 135,8067 140,lE,'

Tabla 1: Representación parcial de la tabla de la distribución chi-cuadrado.

CONCLUSIÓN: Como el valor del estadístico de contraste obtenido no supere =


valor crítico (110,25 < 112,3288), con un nivel de confianza del 99% no poden-:
rechazar la hipótesis nula.
A la misma conclusión llegaríamos calculando el nivel crítico p correspondier:=
al estadístico de contraste obtenido de 110,25, que en una distribución chi-cuadr:-
do con 80 gl es un valor comprendido entre 106,63 y 112,33. Estos valores deje-
por encima una probabilidad de 0,025 y 0,01, respectivamente, por lo que el ni\::
crítico es mayor de 0,01 (p > 0,01).

4
Soluciones a los ejercicios de los capítulos l y 2 •

106,62 112,32
1110,2sl
!x.2 =
Figura 1: Representación gráfica del nivel critico del esta-
dístico chi-cuadrado =110,5.

-=-=::�ETACIÓN: La variabilidad del sueldo de las mujeres no es significativa-


-.z.or que el de los hombres (x.2 = 110,25; p > 0,01) con un nivel de confían-

::-a el segundo contraste de hipótesis, sobre el sueldo medio, seguiremos los

_ :>ICIONES Y SUPUESTOS. El diseño de este trabajo utiliza una muestra alea-


e =-: 81 mujeres en el que la variable de análisis, el sueldo en la muestra de mu-
- o de naturaleza cuantitativa que se distribuye normalmente en la población
,::-ianza conocida e igual a la de los hombres, como hemos contrastado en el

ajTESIS: El investigador quiere comprobar si el sueldo medio que perciben las


E-'.cS es inferior a 1.500 euros mensuales que, por investigaciones anteriores,
=r:-:...::::>ande al que reciben los hombres. Formula, por tanto, un contraste unilateral
e·do.

H0: µ�1.500 H1: µ<1.500

=5TADÍSTICO DE CONTRASTE: La distribución muestra! de la media de muestras


e7"2 das de una población normal con varianza conocida es normal, por lo que el
es:2oístico de contraste es la Z:

5

z -- Y---µ-o - 1400-1500
=-5
(J 180
¡-¡, J8l.
REGLA DE DECISIÓN: En la tabla de la distribución normal tipificada de puntu:
ciones Z buscamos el valor crítico para un nivel de confianza del 99% para un co'
traste unilateral izquierdo, es decir, el valor de Z que deja por debajo una probabi
dad de 0,01, y es -2,33.
-·-------···--------------------------------
1¡ o 0,01 0,02 0,03 0,04 0,j)S 0,06 0,07 0,08 0,09

-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3.40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
•3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
·3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
·2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
,.2J,só 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
·2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,60 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,50 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,40 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
0,0107 0,0104 0,010 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
·2,20 0,0139 0,0136 0,0132 0,0129 0;012s 0,0122 0,0119 0,0116 0,0113 0,0110
-2,10 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
·2,00 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
·1,90 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
·1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
·1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
1 ·1,60 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
·l,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
·1,30,. 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823

Tabla 2: Reproducción parcial de la tabla de la distribución normal tipificado.

CONCLUSIÓN: Como el estadístico de contraste (Z = -5) supera la máxima di-


ferencia que cabe esperar por simple azar (el valor crítico -2,33 para un nivel de
confianza del 99%}, rechazamos la hipótesis nula. A la misma conclusión llegamos
comparando el nivel crítico p con el nivel de significación «alfa». Obsérvese que en
la distribución normal tipificada el valor más extremo que podemos ver es -3,59
que deja por debajo una probabilidad de 0,0002. Como el estadístico de contraste
Z = - 5 es aún más extremo, el nivel crítico p es menor de 0,0002 que a su vez es
menor que el nivel de significación «alfa» de 0,01.

6
Soluciones a los ejercicios de los capítulos 1 y 2 •

Figura 2: Nivel crítico p del estadístico Z = - 5

INTERPRETACIÓN: Con un nivel de confianza del 99% se puede afirmar que el


sue do medio de las mujeres es menor de 1.500 euros mensuales que es el que
:,enen los hombres (Z = -5; p < 0,01).
POTENCIA DEL CONTRASTE: Se calcula para la H0 : l = 1.500 frente a la hipótesis
rnativa H1: µ = 1. 4 00.
fijarnos un nivel de confianza del Distribución muestra! de la media
para H0
99--6 por lo que, suponiendo que la H0
es verdadera, cualquier muestra con
a media cuya puntuación típica sea
inenor o igual que Z = -2,33 nos lle-
.a-ia a rechazar la H0. El valor de esta
:.edia es:
Distribución muestra! de la media
Y-µ0 Y-1500 para H1
Z= -2,33=
cr 20
4
=-2,33·20+1500=1453,4 euros
En la distribución correspondiente
Figura 3: Representación gráfica de la potencia
.¡ 2 H1, a la puntuación 14 53 le corres- del contraste.
ponde una puntuación típica de:

Y - µ 1 14 53,4 - 14 00 = 53, 4
Z= = = 2 67
cr 260 20
I

4 ../169

7
• Ejercicios y problemas resueltos y comentados. Díseífos de Investigación y análisis de datos

La potencia del contraste es la probabilidad de rechazar una H0 que es false


esto ocurrirá cuando el estadístico de contraste se sitúe en la zona representada:::-
1-«beta» que corresponde a la probabilidad de obtener puntuaciones menoref _
iguales a Z = 2,67. Buscamos esta probabilidad en la tabla de la distribución nor-.:.
y es 0,9962. Su complementario «beta» es la probabilidad de cometer un e
de tipo I o probabilidad de rechazar una H0 que es verdadera y vale 1 - 0,99E:. =
0,0038.

SITUACIÓN 2. Un investigador social tiene la hipótesis de que la edad me:.


de inicio en el consumo de alcohol de los jóvenes de una determinada Comun :;a_.
es más tardía que la media de la población general, establecida en 13 años. = -
contrastar su hipótesis selecciona una muestra de 25 jóvenes de su Comunidao 2-
contrando que la edad media es de 14 años con una desviación típica insesgaoc :.
2,8. Sabemos que la variable, edad de inicio en el consumo de alcohol, se distrib_ =
normalmente en la población.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra extraída de una poblac :-
con distribución normal y varianza desconocida. Se analiza la variable «edad de -
cio del consumo de alcohol» en los jóvenes que es una variable medida con es::3
de razón. Aunque la muestra es pequeña como la variable tiene distribución no -
en la población podremos utilizar un contraste paramétrico.
HIPÓTESIS: El investigador quiere comprobar que la edad media de inicio er -
Comunidad es más tardía (por tanto, mayor) que la media de la población gen::
establecida en 13 años. Para ello, formulará un contraste unilateral izquierd::
el que la hipótesis nula que establece que no hay diferencia significativas e,.. :-=
edad media en su Comunidad y la media de la población general

H0 : µe dad 13 años H1 : µe dad > 13 años

ESTADÍSTICO DE CONTRASTE: Siendo los datos provenientes de una poblacic-


con distribución normal y varianza desconocida, la distribución muestra! de la me-
dia es la distribución t de Student con n-1 = 24 grados de libertad.
Conocemos la desviación típica insesgada que utilizaremos como estimador c::
la desviación típica poblacional en la siguiente expresión:

8
Soluciones a los ejercicios de los capítulos 1y 2 •

REGLA DE DECISIÓN: En la distribución t de Student con 24 gl y para un contraste


_,.,ilateral derecho, buscamos el nivel crítico p asociado al estadístico T ==1,786. los
ta ores más próximos a este valor del estadístico de contraste son l , 711 y 2,064 a los
: ¡ue corresponden unos niveles críticos p de 0,05 y 0,025 respectivamente. Al ser el
estadístico de contraste 1,786 un valor comprendido entre l , 711 y 2,065 su nivel crí-
x o pes un valor comprendido entre 0,025 y 0,05 (p < 0,05 y p > 0,025). Por otra par-
- los valores críticos de la distribución muestra! que delimitan la zona de rechazo y
:e mantenimiento de la H0 son l , 711 y 2,492 para niveles de confianza de 0,95 y 0,99
r.espectivamente, que son los utilizados habitualmente en el campo de la psicología.

p = 0,02S

T = 1,786

Probabilidad
a.L
0,550 0,600 0,650 0,700 0,7SO 0,800 0,850 0,900
(§ 0,975 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2.706 31,821 63,657
z 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925

..
3 0,137
0,134
0,277
0,271
0,424
0.414
0,584
0,569
0,765
0,741
0,978
0,941
1,250
1,190
1,638
1,533
2,353
2,132
3,182
2,776
4,541
3,747
5,841
4,604

:zz 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
Z3 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
M 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,06 @ 2,797


J5 0,127
0,127
0,256
0,256
0,390
0,390
0,531
0,531
0,684
0,684
0,856
0,856
1,058
1,058
1 316
1,315
1,708
1,706
2,060
2,056
2,485
2.479
2,787
2,779


ff 0,127
0,127
0,256
0,256
0,389
0,389
O,S31
0,530
0,684
0,683
0,855
0,855
1,057
1,056
1,314
1,313
1,703
1,701
2,052
2,048
2,473
2.467
2,771
2,763

3: Representación gráfica del nivel crítico del estadístico t ==1,786 y su localización en la tabla
e distribución t.

9
• Ejercicios y problemas resueltos y comentados. Diseflos de investigación y análisis de datos

CONCLUSIÓN: Se rechazaría la Ho con un nivel de confianza del 95% pero no S<'


podría rechazar con un nivel de confianza del 99%. Con otras palabras, el resultadc
obtenido es significativo con a.= 0,05 pero no con a.= 0,01
INTERPRETACIÓN: A partir de los resultados de esta investigación, la edad med·:
de inicio de alcohol de los jóvenes de esta Comunidad es más tardía que la medi:
general con un nivel de confianza del 95%.

SITUACIÓN 3. La empresa SND's de sondeos electorales ha pronosticado que E


nivel de apoyo que recibirá el partido X en las próximas elecciones será del 40%. Des-
de el propio partido X se promueve un nuevo sondeo con el fin de contrastar la verac -
dad de esta afirmación. Para ello, selecciona una muestra aleatoria de 400 personas
con derecho a voto, de los cuales 128 manifiestan su intención de votar al partido X

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra de 400 personas y lavar;¿-
ble dependiente es el «apoyo que recibirá el partido X en las próximas elecciones
Es una variable dicotómica con distribución binomial. La muestra es grande por
que esta distribución se aproximará a la normal.
HIPÓTESIS: En la muestra utilizada en el sondeo encargado por el partido X,
proporción de personas que les votarían es del 32% (128/400 = 0,32). A partir e=
esta evidencia mostrada en los datos, se quiere contrastar si «el nivel de apoye_
será del 40%». Como no se marca si la diferencia será mayor o menor que ese va e
se plantea un contraste bilateral, con las siguientes hipótesis:

H0 :n=0,40

ESTADÍSTICO DE CONTRASTE: Por aproximación de la distribución binomial a


normal, utilizaremos el estadístico Z

Siendo el error típico de la proporción:

10
Soluciones a los ejercicios de los capítulos 1 y 2 •

e estadístico:

P-rr.0 = 0,32-0,40 =-3,266


Z=
(Jp
0,0245

-EGLA DE DECISIÓN: En la distribución normal y para un contraste bilateral, bus-


e s el nivel crítico p asociado al estadístico Z = -3,266. En la tabla el valor más
..,,o es, que deja por debajo una probabilidad de 0,0005 en uno de los extre-
a : s :e la distribución. Como se trata de un contraste de bilateral (de dos lados)
rnos que sumar también la probabilidad de P(Z > 3,279} = 0,0005 y el nivel
o es la suma de las probabilidades de los dos extremos de la distribución:
=- ::x:no.

0,0005

Z=-3,27 Z = 3,27

o 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0.0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005
0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0007 0,0007
0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
0.0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026

4 : :>eproducción parcial de la tabla de la distribución normal N(O;l} para encontrar el nivel


- =-z< = -3,27) representado en la figura superior.

-_:_us1óN: Aunque el enunciado de este ejercicio no establece el nivel de


a-m,::..-.:a, recurriremos a los utilizados habitualmente, que son el 96% o el 99%. Al
- e crítico p = 0,0010 (0,0005 + 0,0005) menor que el nivel de significación
-enor que 0,05, rechazamos la H0 con un nivel de confianza tanto del 95%
::e, 99%. A la misma conclusión llegamos comparando el valor del estadístico
L . . - - -

11
• Ejercicios y problemas resuelto!> y comentados. Diseños de investigación y análisis de datos

de contraste con los valores críticos que son ± 1 ,96 y ±2 ,58 correspondientes a e
niveles de confianza del 95% o del 99%, respectivamente, para un contraste bila::-
ral.
INTERPRETACIÓN: El nivel de apoyo que recibirá el partido X en las próxirr::...
elecciones será significativamente distinto del 4 0 % (Z = -3, 2 6 6 ; p < 0 , 0 0 1).
INTERVALO DE CONFIANZA: A esta misma conclusión se llega utilizando el int
valo de confianza para estimar, a partir de la proporción observada en la muest:
la proporción poblacional de votantes que tendrá el partido.
Con un nivel de confianza del 95 %, el error máximo de estimación es:

0,3 2 · ( 1 - 0 ,32)
Em ax = Z 1_r(i \J = l ,9 6 · =0, 0 4 5 7
4 00

Y el intervalo de confianza es:

L;n¡ = p - E m a x = 0 ,32- 0 , 0 457 = 0 , 2 74


Ls up = p + E m ax = 0 , 32+ 0 , 0 4 57 = 0 , 36 6

De acuerdo con esta estimación, la proporción poblacional de votos para el :::


tido es un valor comprendido entre el 2 7 ,4% y el 36 , 6 %. Como este intervalc -
contiene el valor planteado en la H0 de 0, 4 0 no podemos asumir este valor
rechaza H0 . Compruebe ahora que con un nivel de confianza del 99% tambie
rechazaría H0 , ya que el intervalo de confianza estima como proporción apoye:
partido X un valor comprendida entre 0 ,26 y 0 ,38 que no incluye el valor 0, 4 0 :
teado en H0 .
TAMAÑO DE LA MUESTRA: En el punto anterior se ha visto que el error má),. -
de estimación, con un nivel de confianza del 95%, era de 0 ,04 57 . Si quisiéramos =-
este error máximo de estimación en dos puntos porcentuales (0 ,0 2 ) ¿cuál det:c-
ser el tamaño de la muestra?
Para determinar el tamaño de la muestra con esas condiciones, debemos de:--
jar el valor den de la expresión:

0 , 32 -(1- 0 ,32 )
Em ax = Z i - <(i \J 0 ,0 2 = 1 ,9 6 ·
n

Y la expresión que resulta es:

12
Soluciones a los ejercicios de los c:3pftulos l y 2 •

2
21-<(i
1 962
-=p(l-p ) = 0 , 3 2 · ( 1 - 0 , 3 2 ) - -2- =2089,83 �2090 personas
Emax 0,02

!ITUACIÓN 4. «La formación alcanzada por la población adulta española ha


r=jo, de forma continua, en los últimos 10 años. Desde 1998 el porcentaje
es.:c'ioles de 25 a 64 años que poseen estudios superiores a los obligatorios ha
-,s;:,;= de 33% al 51% en 2008. En la misma proporción ha disminuido, por tanto,
xr::e ntaj e de españoles que sólo poseen estudios obligatorios, que ha pasado
�"'len 1998 al 49% en 2008» (Panorama de la Educación. Informe OCDE 2010).
=Sta situación, imagine que usted quiere confirmar que la proporción de adul-
: E s.J Comunidad que solo tienen los estudios obligatorios es significativamente
e que el indicador de España en 2008. Establece un nivel de confianza del 95%
:2 una muestra aleatoria de 900 adultos con edades comprendidas entre 25 y
- - - - � , . encontrando que 378 de ellos tienen solo los estudios obligatorios.

_,,......,..,..ÓN:
:::"DICIONES Y SUPUESTOS: Utilizamos una muestra de sujetos en los que la
z : e de estudio «estar en posesión de estudios superiores» es de naturaleza
� " ' 1 i c a (se tienen o no se tienen estos estudios) sobre la que se determina la
C"Ción de personas que poseen dicha cualidad.
: s datos de los que partimos son:

Estudio; süperío ;·; ' - s < ""! f<;

o los obligotprios · "', '


-
Estudios obligatorios,,'
.
'
n =900
33% 67%
51% 49% 378 con estudios obligatorios

378
. , de personas en Ia muestra con estu d.,os obl.1gatonos:
- aporc,on . p =- = O,42
900
- PÓTESIS: El investigador quiere comprobar que la proporción de adultos de su
_-,- _,idad que solo tienen los estudios obligatorios es significativamente inferior
- e indicador de España en 2008 establecido en el 49%. Las hipótesis nula y al-
�.ativa son:

H0 :n�0,49; H1 : 1t < 0,49;

13
• tjerdcios y problemas resueltos y comentados. Disef\os de investigación y análisis de datos

ESTADÍSTICO DE CONTRASTE: La variable de estudio «estar en posesión de es-


tudios obligatorias» es de naturaleza dicotómica (se tienen o no se tienen estos
estudios) con distribución binomial. Al tratarse de una muestra grande (n = 900) Lo
distribución binomial se aproxima a la normal, de forma que el estadístico de con-
traste es una puntuación típica, Z:

0, 4 2- 0, 4 9
= - 4 20
0,49·0,51
900

REGLA DE DECISIÓN: En la distribución normal el valor crítico, que representa le


máxima discrepancia que puede observarse por simple azar entre el valor obtenidc
en la muestra (p = 0,42) y el formulado en H0 como parámetro poblacional (H0 =
0, 4 9) correspondiente a un nivel de confianza del 95% para un contraste unilatera
izquierdo es Z = -1,64. Como el estadístico de contraste obtenido Z = -4,20 repre-
senta una discrepancia mayor, rechazamos H0.

«alfa»= 0,05
nivel de confianza= 0,95

Z=-4,20 lz=-- ·6¡,

Figura 4: Representación del valor crítico para un NC del 95% en un


contraste unilateral izquierdo.

De otra forma: buscamos el nivel crítico p asociado al estadístico Z = -4,20. Er


la tabla el valor más próximo es Z = -3,59, que deja por debajo una probabilidad de
0,0002. Como el estadístico de contraste Z = -4,20 es menor que este valor crítico
deducimos que la probabilidad de encontrar valores menores de Z = -4,20 es menor
de 0,0002.

14
Soluciqn_es a los ejercicios <;le los capítulos 1 y 2 •

p< 0,0002

0,42 0,49
Z=-4,20

Figura 5: Nivel crítico p del estadístico z = -4,20

CLUSIÓN: Con un nivel de confianza, previamente establecido en el 95%,


c -;:: :-nos Ha ya que el estadístico de contraste (Z = -4,20) representa una dis-
- ·a «mayor» que el valor crítico correspondiente a ese nivel de confianza del
:::::,r otra parte, el nivel crítico p (p < 0,0002) correspondiente al estadístico de
•-----:,-cr,e (Z = 4,20) nos permite concluir que la diferencia es significativa tanto con
- .-e de significación de 0,05 como del 0,01.
RPRETACIÓN: Se confirma la hipótesis del investigador de que la proporción
a r - tos de su Comunidad que solo tienen los estudios obligatorios es significa-
m e - , t e inferior que el indicador de España en 2008 con un nivel de significación
,ae:c- de 0,01.
rERVALO DE CONFIANZA: Con un nivel de confianza del 95% el intervalo de
-.a,za nos permite inferir, a partir de los datos obtenidos en la muestra, la pro-
xr,:.c:1 de adultos con estudios superiores. Este intervalo es:

::::ir tanto, la proporción de adultos de esa Comunidad con estudios superiores


_ valor comprendido entre 0,388 (38,8%) y 0,452 (45,2%) que no cubre el valor
Jlado en Ha de 0,49.

15
• Ejercicios y problemas resueltOil y comentadb$. Disefíos de investigación y análisis de '8atos

p < 0,0002

0,42 0,49
Z= -4,20

0,388 p = 0,42 0,452

Figura 6: Representación gráfica del intervalo de confianza de una proporción.

SITUACIÓN S. «En Educación Primaria, la media de alumnos por clase en les


centros públicos de España (19,7) es más baja que en la OCDE (21,6} y que en I:.
Unión Europea (20,3}. En los centros privados ocurre lo contrario, pues la media er
España es de 24,4 frente a 20,8 de media de la OCDE y 19,1 de la VE». (Panoramé
de la Educación. Informe OCDE 2010). Imagine que:
5.1. Usted sospecha que la media de los centros públicos de su Comunidad es
significativamente mayor que la media de España.
5.2. Y también que la media de los centros públicos de su Comunidad es signifi-
cativamente menor que la media de la OCDE.
Para contrastar estas hipótesis, selecciona una muestra aleatoria de 100 aulas
de educación primaria en centros públicos, encontrando que la media de alumnos
por clase es de 20,9 con una desviación típica poblacional de 5,8. Se asume que la
variable número de alumnos por clase se distribuye normalmente y se fija el nivel
de confianza del 95%.

SOLUCIÓN:
De forma resumida, los datos facilitados en el enunciado son:

16
Soluciones a los ejercicios de los capítulos 1 y 2 •

Media de alumnos por clase


Espaiia OCDE UE
19,7 21,6 20,3
Privados 24,4 20,8 19,1

:Jara la muestra: n = 100, Y=20,9, cr = 5,8. Para contrastar ambas hipótesis


rnos los siguientes pasos.
e: DICIONES Y SUPUESTOS: Se utiliza una muestra en la que la variable de es-
número de estudiantes por clase» es de naturaleza continua que se mide
escala de razón, cuya distribución poblacional asumimos que es normal con
.a-za conocida, según nos indica el enunciado.
;>()TESIS: Se plantean dos contrastes de hipótesis sobre dos medias poblacio-
aaes os dos son unilaterales ya que el investigador está marcando el sentido (ma-
- ...,enor) de la diferencia:

E primero es un contraste unilateral derecho ya que el investigador quiere


:omprobar si la media de los centros públicos de su Comunidad es significati-
.arnente mayor que la media de España establecida en 19, 7 alumnos por aula.

H0 :µS:19,7 H1 :µ>19,7

segundo contraste es unilateral izquierdo, ya que el investigador está mar-


cando el sentido de la diferencia al querer comprobar si la media de los centros
:,uolicos de su Comunidad es significativamente menor que de la media de la
OCDE, establecida en 21,6 alumnos por aula.

H1: µ<21,6

=- DÍSTICO DE CONTRASTE: Tratándose de una variable que se distribuye nor-


e'1te en la población con varianza poblacional conocida, la distribución mues-
;,e a media es normal y el estadístico de contraste que utilizaremos es la Z.

Para la primera hipótesis el estadístico de contraste es:

17
• Ejerdi;Jos y problemas resueltos y ,::ornentados. Diseños de investigación y análisis de e::

Y-µa
sy
20 , 9 - 19 ,7

1
Z= = =2, 0 6 9 2, 0 7
,Jioo

5.2. Y para la segunda hipótesis el estadístico de contraste es:

Y-µa 0 ,9 - 2 1, 6 _1121
1
Z= =2
5
' Yi 'o
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferenc:
que puede encontrarse por simple azar (el valor crítico) es +1,64 para un contrast:,
unilateral derecho y - 1 , 6 4 para un contraste unilateral izquierdo:

Valor crítico: -1,64 µ = 21,6


Z = -1,21

Figura 7: Representación gráfica de los valores críticos para la regla de decisión dos contrastes
unilaterales.

CONCLUSIÓN: Para el primer contraste, se rechazaría la Ha ya que el estadístico


de contraste obtenido (Z = 2, 0 7) supera la máxima diferencia que cabe esperar por
simple azar (el valor crítico: 1,64). Por el contrario, para el segundo contrastes no
hay evidencia suficiente para contrastar la Ha ya que el estadístico de contraste ob-
tenido (Z = -1,21) no supera la máxima diferencia que cabe esperar por simple azar
(-1, 6 4) con un nivel de confianza del 9 5% en ambas situaciones.
De otra forma, los niveles críticos p de ambos estadísticos son: p = 0 , 0 19 2 y
0,1131 respectivamente, tal y como se representan en las siguientes figuras.

18
Soluciones a los ejercicios de los capítulos 1 y 2 •

p = 0,1131

Valor crítico: -1,64 / µ = 21,6


[=3Jl]
ra 8: Representación gráfica de los niveles críticos p para la toma de decisión en das contrastes
- 'Otero/es.

Por tanto, para el primer contraste y partiendo de que la hipótesis nula (que es-
..::.:>lece que la media de alumnos por clase de los alumnos de los colegios públicos
: e esa comunidad es igual o menor de 19,7) es verdadera, la probabilidad de obte-
-er una muestra de 100 aulas de colegios públicos con una media de alumnos por
=ase de 20,9 es de 0,0192 (el nivel crítico p). Esta es una probabilidad pequeña en
::J'Tlparación al nivel de significación de 0,05 pero grande en comparación al nivel
:e significación de 0,01 por lo que rechazaríamos la H0 con un nivel de confianza del
?5% pero no podríamos tomar la misma decisión con un nivel de confianza del 99%.
Para el seg�ndo contraste, la probabilidad de que siendo cierta la Ho se obtenga
_ a muestra de 100 aulas con una media de estudiantes de 20,9 es de 0,1131. Esta
: ..obabilidad es grande en comparación con los niveles de significación del 0,01 y
::: 05 por lo que no hay evidencia suficiente para rechazar la H0 con un nivel de con-
'ianza del 95% ni tampoco al 99%.
INTERPRETACIÓN: La media de alumnos por aula en los colegios públicos de la
Comunidad del investigador es significativamente mayor que la media general de
=.spaña con un nivel de confianza del 95% pero no del 99%, (Z = -2,07; p = 0,0192),
:>ero no difiere significativamente de la media de los países de la OCDE con un nivel
: e confianza del 95% y del 99% (Z = -1,21; p = 0,1131).
Por otra parte y de forma adicional el investigador podría calcular, a partir de los
datos de su estudio, el intervalo de confianza de la media de alumnos por clase en
os colegios públicos de su Comunidad. Para ello, establece un nivel de confianza del
95%. En estas circunstancias el error máximo de estimación es:

cr 5,8
fmax = z1_u/ 1 = 1, 96 r:;-;::;:; = 1, 1368
12 " n ...,,100

19
• Ejercicios y problemas resueltos y comentados. Diseflos de investigacióO y análisis de datos

Y el intervalo de confianza se obtiene sumando y restando a la media de la mL


tra, este error máximo de estimación:

IC =Y ±Emax =20,9±1,13684(19, 76;22,04)

El intervalo de confianza de alumnos por clase de los colegios públicos de -


Comunidad es un valor comprendido entre 19,76 y 22,04 alumnos, que inclu',E
media de la OCDE (21,6) y la media de la UE (20,3) de los que NO difiere signi'=
tivamente, con un nivel de confianza del 95%, pero no incluye la media globa :.
España (19,7) de la que SÍ difiere significativamente.
Si, por otra parte, y una vez realizado este análisis el investigador decide esta: =-
cer el error máximo de estimación en 1 punto y un nivel de confianza del 95%, ¿(._
tamaño de muestra debería haber utilizado?
El error máximo es igual a:

Si hacemos E= 1, entonces:

5,8
l=l, 96

Despejando «n»:

Debería utilizar una muestra de 129 aulas de colegios públicos de su Comunic -

SITUACIÓN 6. Según el último estudio del Observatorio Español sobre Oro;::.


(2009), realizado en estudiantes de Secundaria de 14 a 18 años, el 5,1% ha consu - -
do cocaína alguna vez en la vida y el 2, 7% éxtasis. Además, el inicio en el consu-.
de cocaína y éxtasis tiene lugar cada vez a edades más tempranas. Así, mien
que en el año 2004 la edad media de inicio para la cocaína era de 15,9 años en =
hombres y 15, 7 en las mujeres, en el año 2008 disminuyó a 15,3 años y 15,2, respt_
20
Soluciones a los ejercicios de los capítulos 1 Y 2 1

:ivomente (Encuesto estatal sobre uso de drogas en enseñanzas secundaria, 2009)


rnagine que usted forma parte de un equipo de atención primaria que cubre a ur
oeterminado sector de su municipio y desea estimar, con un nivel de confianza de
35%:
6.1. La proporción de jóvenes de enseñanzas secundarias de su municipio que
han consumido cocaína al menos una vez
6.2. La edad media del consumo de cocaína de las mujeres de su municipio.
6.3. Además sospecha que la edad media del inicio en el consumo de cocaína
en los hombres de su municipio ha disminuido respecto a los datos genera-
les del 2004.
6.4. Finalmente desea contrastar la hipótesis de que la varianza poblacional en
la edad de inicio del consumo de cocaína en los hombres de su municipio
es significativamente mayor que 1,1 establecido para las mujeres.
Para ello, dispone de los datos de una muestra de 37 jóvenes varones y 41 muje-
res atendidos el pasado año en los que el 8% habían consumido cocaína, al menos
un vez, siendo la edad media de inicio en el consumo de cocaína de 15,4 años en
,os hombres y de 15,2 años en las mujeres con una desviación típica de 1,3 para los
""'Ombres y 1,1 en las mujeres.

SOLUCIÓN:
De forma resumida, los datos proporcionados en esta situación vienen recogidos
e'1 las siguientes tablas:

Jatos de encuestas estatales: Datos de la muestra de su municipio:

2009 5,1% Cocaína 2,7% Éxtasis


Edad media consumo cocaína
11.lli+iithrrh
Hombres 37 15,4 1,3 8%
Mujeres Mujeres 41 15,2 1,1 Cocaína

15,9 15,7
2008 15,3 15,2

l . A partir del 8% de jóvenes (hombres y mujeres) que han consumido cocaína, el


intervalo de confianza de la proporción poblacional de jóvenes consumidores
con un nivel de confianza del 95%, es:
IC=p±Emax

21
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Siendo el error máximo de estimación de la proporción poblacional:

0 ,0 3
Emax = Z l-'.7i - p-(l-p) = 1 9 6 · · (l - 0 , 0 3 ) = 1 9 6 · 0 0 307 = 0 , 06
n ' 37+41 ' '

Y, finalmente, el intervalo de confianza para la media poblacional de la propo·-


ción de jóvenes que han consumido cocaína, es:

I C = p ± Em ax = 0 , 0 8 ± 0 , 0 6 = (0 , 0 2; 0 ,14)

Es decir, entre un 1,4% y un 2% de los jóvenes de su municipio han consumic:


cocaína al menos una vez.

6.2. A partir de la información obtenida en la muestra respecto a la edad media c=


consumo de cocaína en las mujeres que ha sido de 15,2 años, obtenemos e:
intervalo de confianza para la media poblacional. Para ello, consideramos q1..=
la edad es una variable continua medida con escala de razón pero de la q1..;:
desconocemos la forma de su distribución en la población y su varianza. Baj::
estas condiciones y al tratarse de una muestra grande, la distribución muestré
de la edad media es la t de Student con n-1 grados de libertad.

1,1
Em ax = t _1.1_a/ sn-1 =2, 0 21 ,.-:;--:; =0,35
n , 12 '\In1 '\/41-1

El valor de t = 2, 0 21 se busca en las tablas con n - 1 = 41 - 1 = 40 grados dé


libertad:

22
Soluciones a los ejerciciosde los capítulos 1 y 2
---->--- a

= 2,021
O, 975t

Probabilidad

0,5SO 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,462 2,756
JO 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,0SO 1,303 1,684 2.423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
liO 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660

abla 5: Reproducción parcial de la tabla de la distribución t y su representación gráfica con los va/o-
_ críticos para el cálculo del intervalo de confianza.

Y el intervalo de confianza, es:

Y±fmax -+15,2±0,35---+ {14,84


15,55

6.3. Para comprobar si la edad media del inicio en el consumo de cocaína en los
hombres de su municipio ha disminuido respecto a los datos generales del
2004, formularemos un contraste de hipótesis, siguiendo los siguientes pa-
sos:

CONDICIONES Y SUPUESTOS: Partimos de la información proporcionada por una


""'1Uestra de 37 hombres con una edad media de 15,4 años. Desconocemos la forma
:€ la distribución poblacional de la edad de inicio en el consumo y su varianza. Por
23
• :éi r.tittli;í y problemas resueltos y comentadqs,.Dlsiiirlp ·de investigación y análisis de date

tanto, la distribución muestra! de la media es una distribución t de Student con r -


= 4 0 grados de libertad.
HIPÓTESIS: El investigador sospecha que la edad media del inicio en el consL
de cocaína en los hombres de su municipio ha disminuido respecto a los datos =--
nerales del 200 4 que era de 15, 9 para los hombres, por lo que plantea un contr -
unilateral izquierdo

H1 : µ<15, 9

ESTADÍSTICO DE CONTRASTE: Al tratarse de un diseño de una muestra extra:...


de una población con varianza desconocida, el estadístico de contraste es la t :::
Student con n - 1 gl.

4 15, 9 = - 2
T = Y - µ 0 =15, - ' 31
sn 1,3
n-1 37-1

REGLA DE DECISIÓN: Como en la tabla de la distribución t no figura la distribL-


ción t con 36 gl el valor crítico correspondiente a esta distribución deberemos bus-
carlo por aproximación con el valor de una distribución con 4 0gl. Para ello, el vale-
crítico t que deja por debajo una probabilidad de 0,05 es el mismo, pero de signe
contrario, al que deja por encima una probabilidad de 0,05 (y por debajo 0,95) que
corresponde a un nivel de confianza del 9 5% para un contraste unilateral derecho.
Este valor es -2,21 que es el que encontramos en las tablas con 4 0 gl como valor
más aproximado a los 36 gl de este ejemplo.

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800
.H
0,850 0,900 0,9SO o, :,s 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1.250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1.313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
0,126 0,255 0,388 0,529 0,681 .. 0,851 · 1 , 0 S C J - 1,303 1,684 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660

Tabla 6: Reproducción parcial de la tabla de la distribución t.

24
Soluciones a los ejercicios de los capítulos l y 2 •

CONCLUSIÓN: El valor crítico representa la máxima diferencia que puede darse por
simple azar. Como el estadístico de contraste (T =-2,31; p < 0,025) supera esta máxima
diferencia (-2,021), rechazamos la hipótesis nula con un nivel de confianza del 95%.

T=-2,31

Figura 9: Nivel critico del estadístico T =-2,31 en la distribución t


con 30 gl.

INTERPRETACIÓN: La edad media de inicio en el consumo de cocaína en los hom-


1:t"e.s es significativamente menor de 15,9 años (T = -2,31; p < 0,025).

6...3. Para analizar si la varianza poblacional en la edad de inicio del consumo de


cocaína en los hombres de su municipio es significativamente mayor que 1,1
establecido para las mujeres seguiremos los mismos pasos:

:ONDICIONES Y SUPUESTOS: Partimos de la información proporcionada por una


ra de 37 hombres con una desviación típica de 1,3 (Varianza de 1,3 2 = 1,69).
::.stribución muestra! de la varianza es una distribución chi-cuadrado con n - 1 gl.
PÓTESIS: El investigador quiere comprobar que la varianza poblacional de la
ii:t2C de inicio en el consumo de cocaína de los hombres es mayor de 1,1 2 = 1,21

. 2
H1 .cr >1,21

ESTADÍSTICO DE CONTRASTE: Utilizamos el estadístico chi-cuadrado, que vale:


25
• Ejercicios y_ problemas resµeltos y comentados. Dí!i.ei'los de investigación y anállsl� de datps

2 2
2 = n·Sn - l 41-1, 3
= 1 1 2 =S7,26
x 2
ªº ,
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferencia quE
cabe esperar por simple azar entre el valor de la varianza obtenido en la muestra res-
pecto al valor establecido en la hipótesis nula, viene determinada por el valor crític:
de la distribución chi-cuadrado con 36 gl. El valor más aproximado lo buscamos en las
tablas con 40 gl y es 55, 7585. Como el estadístico de contraste (57,26) supera el valo·
crítico 55,7585, rechazamos la hipótesis nula con ese nivel de confianza del 95%.

Pr-Q)>�biljdád
g.l.
0,005 0,010 0,02S 0,050 0,100 0,900 0,975 0,990 0,995

1 0,0000 0,0002 0,0010 0,0039 0,0158 2.7055 1 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 1 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603

29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 13,7867 14,9535 16,7908 18,4927 20,5992 40,2560 43,7730 46,9792 50,8922 53,6720
--20,7065 22,1643 24,4330 26,5093 29,0505 51,8051 lill.ili1 59,3417 63,6907 66,7660
so 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517

Tabla 7: Tabla de la distribución chi-cuadrado.

INTERPRETACIÓN: La varianza poblacional de la edad de inicio del consumo de


cocaína en los hombres es significativamente mayor que el de las mujeres (x. 2 =
57,26; p < 0,05).

Figura 10: Representación gráfica de la distribución chi-cuadrado, el


estadístico de contraste y el nivel crítica.

26
Soluciones a los ejercicios de los capítulos 1 y 2 •

' S I T U A C I Ó N 7. El Centro de Investigaciones Sociológicas {CIS} realiza constantes


estudios sobre la ideología e intención de voto de los españoles. Uno de los ítems
que incluye en sus cuestionarios es el de la «identificación ideológica», para lo que
se le pide al entrevistado que se ubique ideológicamente en una escala de 1 a 10
donde 1 significa extrema izquierda y 10 extrema derecha}. En su última encuesta
a la población española la media aritmética obtenida para la variable identificación
deológica fue de u_n 4,86. Un psicólogo social interesado en estudiar esta temática,
sospecha que en su localidad la intención de voto es significativamente <<más con-
servadora», para lo que diseña una encuesta dirigida a confirmar su hipótesis. Para
ello, selecciona una muestra de 31 personas a las que aplica el ítem de identifica-
::·ón ideológica, obteniendo una media de 5,40 y una cuasi-desviación típica de 1,2.
uiere además saber cuál sería el tamaño de la muestra que debería utilizar para
·mar la media poblacional fijando un error máximo de estimación de 0,2 puntos.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio corresponde a un diseño de una mues-
:ra en la que la variable de estudio «Identificación ideológica» es una variable cuan-
:rtativa medida con escala de intervalo en la que se obtiene la media y la varianza
:le la muestra de 31 personas que han respondido a la encuesta. Se desconoce la
:fstribución poblacional de esta variable y su varianza por lo que la distribución
'Tluestral de la media es la t de Student.
HIPÓTESIS: El investigador sospecha que en su localidad la intención de voto es
gnificativamente «más conservadora», por lo que plantea un contraste unilateral
el que la media en su locaclidad debe ser mayor de 4,86 que es la media de la
elación española:

H1:µ>4,86

ESTADÍSTICO DE CONTRASTE: Al desconocer la forma de la distribución poblacio-


.a y su varianza el estadístico de contraste es:

Y-µ0 5,40-4,86
T=--= = 2, 51
1,2
m
sn - 1
Fn
REGLA DE DECISIÓN: Para los niveles de confianza utilizados habitualmente (95%
o), localizamos en la tabla de la distribución t de Student con 30 grados de
oertad estos valores críticos y son 2,457 para un nivel de confianza del 99% en

27
• Ejercidos y problemas resueltos y comentados. Diseños de investigación y análisis de datos

un contraste unilateral derecho y 1,697 para un nivel de confianza del 95% de un


contraste unilateral derecho.

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660

Tabla 8: Reproducción parcial de la tabla de la distribución t.

CONCLUSIÓN: El estadístico T = 2,51 supera ambos valores los que nos conduce
a rechazar la H0 con un nivel de confianza del 99%.

Figura 11: Distribución t de Student.

INTERPRETACIÓN: Se confirma la sospecha del investigador de que la identifi-


cación ideológica en su localidad la es «más conservadora» que en la población
general (T= 2,51; 0,005 < p < 0,01).

28
Soluciones a los ejercicios de los capítulos l y 2 •

Si el investigador ha fijado un error máximo de 0,2 puntos para estimar la media


poblacional, el tamaño de la muestra utilizada sería:

Y despejando el valor den:

t2 2
2 n-1;1-'Yi' 2 2, 042
n=Sn-l 2 =1,2 · 2 =150,11 150
Emax 0,2

Í SITUACIÓN 8. El «Síndrome Jubilación» es la situación que experimentan cier-


:as personas ante esta nueva etapa vital con manifestaciones somáticas, psíquicas
, sociales negativas que afectan la calidad de vida del jubilado. Un estudio publica-
:10 por el GIE (Grupo de Investigación del Envejecimiento) mediante una encuesta
realizada en el 2006 utilizando una muestra de jubilados con edad media de 77,6
=,os y desviación típica de 8, 79 años encuentra que las manifestaciones psíquicas
... ós frecuentes eran la ansiedad (82%}, el pesimismo (13,3%) y la depresión (4, 7%}
que para el 32% de los expertos consultados el apoyo psicológico constituye la
estrategia de intervención más adecuada para superar estos estados. Imagine que
..sted quiere estudiar la situación de los jubilados de su localidad respecto a este
s'ndrome», para lo que utiliza una muestra aleatoria de 362 jubilados, con una
e-dad media de 71,2 años y una desviación típica de 12,5 y de los cuales, el 59,8%
=re. senta signos de ansiedad, el 35% pesimismo y el 5,2% depresión. Adicionalmen-
: : e indican que, con los datos del estudio anterior, el intervalo de confianza de la
::,roporción de jubilados con manifestaciones de depresión, es un valor comprendi-
:xi entre 0,0387 {3,87%) y 0,0553 (5,53%) con un nivel de confianza del 95%. Con
e.-:a información se propone realizar los siguientes análisis:
8.1. Conocer el tamaño aproximado de la muestra que se ha utilizado en el es-
tudio anterior.
8.2. Con los datos de su estudio, calcular el intervalo de confianza de la edad
media de los jubilados de su localidad con un nivel de confianza del 95% .
.3. Calcular el intervalo de confianza para la proporción de jubilados con mani-
festaciones psíquicas de ansiedad, con un nivel de confianza del 99%.

29
• E:jerciclos y problemas resueltos y comentados. Diseños de lnvestigacion y análisis de dates

8.4. Contrastar la hipótesis de que la proporción de jubilados de su local =.:


con manifestaciones psíquicas de pesimismo es significativamente me -
que el valor 0 ,133 facilitado por el GIE en el 20 0 6.

SOLUCIÓN:
8.1. Para responder a la primera pregunta conocemos los límites superior e infe r :
del intervalo de confianza. La diferencia entre ambos límites corresponde a la c -
plitud del intervalo y el error máximo de estimación es la mitad de esta diferenc =-

f¡ = p - E max - + 0 , 0 387 = 0 , 0 4 7 - Emax


}
/5 = p + E ax -+0, 0 553 = 0, 0 4 7+ Ema x -+
m

0 , 0 553- 0, 0 387
E = /5 - I¡ = =O ' 00 83
2 2

El error máximo de estimación para obtener el intervalo de confianza de ur¿


proporción, es:

Y despejando el valor den, obtenemos el tamaño de la muestra con un nivel de


confianza del 95% (Z = 1,96) siendo p = 0, 0 47 la proporción de jubilados con síndro-
me de depresión en el estudio anterior que se ha utilizado para obtener el intervalo:

2
zii 1 96 2
n=p(l-p)+ = 0,047(1- 0, 047) ' 2 = 2 4 97, 7 3 250 0 jubilados
Em ax 0 , 0 0 83

8.2. La edad media de los jubilados es una variable cuantitativa medida con escala
de razón y de la que desconocemos su distribución poblacional y su varianza.
En estas condiciones la distribución muestral de la media es la distribución t
de Student con n - 1 grados de libertad. Con un nivel de confianza del 95%, el
intervalo de confianza de la edad media de los jubilados de su localidad se ob-
tiene sumando y restando a la media de la muestra el error máximo de estima-
ción. Al tratarse de una muestra grande (n = 362) la distribución t se aproxima a
la normal por lo que el valor de t se busca en la tabla de la distribución normal
tipificada de puntuaciones Z :

30
Soluciones a los ejen:icips de los capítulos 1 y 2 •

Sn 12,5
Ema x = t1 o./ · ¡ - - : ; = 1, 96 · -J = 1,289
- /2 " n - 1 362-1

IC = Y ±fmax = 71,2±1,289 {69,91


72,49

La proporción de jubilados con manifestaciones psíquicas de ansiedad es una


variable con distribución binomial. Al tratarse de una muestra grande la distri-
bución binomial se aproxima a la normal, por lo que utilizaremos esta distri-
bución para determinar el intervalo de confianza que se obtendrá sumando y
restando a la proporción obtenida en la muestra (0,598) el error máximo de
estimación. Con un nivel de confianza del 99% el valor de Z es 2,58:

_ _ 0,598(1-0,598) _
Emax - Z 1_u./ p ( l - p ) -2,58 -0,0665
/2 n 362

I C = p ± Emax =0,598±0,0665---t {0,5315


0,6645

. Para contrastar la hipótesis de que la proporción de jubilados de su localidad


con manifestaciones psíquicas de pesimismo es significativamente mayor que
el valor 0,133 facilitado por el GIE en el 2006 seguimos los siguientes pasos:

CONDICIONES Y SUPUESTOS: El estudio corresponde a un diseño de una mues-


--a de 362 jubilados en la que la variable de estudio «manifestaciones psíquicas de
:,esimismo» de los jubilados de su localidad es una variable dicotómica con distri-
: JCión binomial. Como la muestra es grande la distribución binomial se aproxima
a a normal.
HIPÓTESIS: El investigador quiere contrastar que la proporción de jubilados con
.,anifestaciones psíquicas de pesimismo es mayor de 0,133 que es el valor encon-
7ado por el GIE para la población general. Plantea, por tanto un contraste unilateral.

H0:n::;0,133; H1: 1 t > 0,133

ESTADÍSTICO DE CONTRASTE: Aunque la distribución muestra! de la proporción


es una distribución binomial, al tratarse de una muestra grande, la distribución bi-
31
• lrjercicios y problemas resueltos y comentados. Diseños de lnvestigaciól!Y an�lisis de daL_

nomial se aproxima a la normal, por lo que utilizaremos el estadístico Z, sier .::


proporción de jubilados con manifestaciones psíquicas de pesimismo encon:--:a
en la muestra de estudio ha sido p = 0, 3 5.

z- p-1to - 0, 3 5- 0, 1 3 3
=12,158
- no (ln- 7to) - 0,1 3 3 ( 1 - 0 , 1 3 3 )
3 62

REGLA DE DECISIÓN: El estadístico de contraste es un valor muy extreme :


12,158). El valor máximo que podemos consultar en las tablas de curva norm2 _
= 3 ,59, que deja por encima de sí una proporción: p = 0,0002.

Figura 12: Representación gráfica del nivel crítica p en la dis-


tribución t de Student.

Por tanto, el valor crítico asociado a este estadístico de contraste es ur


menor de 0,0002
CONCLUSION: Se rechaza la hipótesis nula y se acepta la hipótesis alterna-
INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la propc-::
de jubilados de su localidad con manifestaciones psíquicas de pesimismo e s :
ficativamente mayor de 0,1 3 3 formulada para la población general en el es:_
anterior (Z = 12,158; p < 0,0002).

SITUACIÓN 9. El barómetro del CIS de marzo de 2012 realizado en 240 r _


píos de 48 provincias señalaba que el 23 ,4% estaba en situación de paro y de
a la pregunta ¿y cree Ud. que es muy probable, bastante, poco o nada probat =
durante los próximos doce meses encuentre Ud. trabajo?, el 22,6% manifesta::
«bastante probable», frente al 43 ,1% que creía que «poco probable» y e, · :
32
Soluciones a los ejercicios de los capítulos 1 y 2 •

«nada probable» y el resto «NS/NC». Imagine que usted quiere estudiar si es-
'esultados se reproducen actualmente en su localidad, para lo que realiza una
a.esta sobre una muestra de 100 personas en situación de paro con una edad
g · a de 39 años y desviación típica de 8,6 años de los cuales 25 le responden
1,2 bastante probable)), 35 responden que «poco probable)> y 20 que «nada pro-
e» mientras que el resto «no saben o no contestan,>. Con esa información se
_c-0ne realizar los siguientes análisis:
Calcular el intervalo de confianza de la varianza de la edad de las personas
en situación de paro de su localidad con un nivel de confianza del 95%.
9.2. Con los datos obtenidos en su muestra y fijando un nivel de confianza del
95%, calcular el intervalo de confianza para la proporción de personas en
situación de paro que considera «poco o nada probable>) encontrar trabajo
en los próximos doce meses.
- 3. Contrastar si la proporción de personas en paro que consideran «poco pro-
bable>) encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) proporcionados en el
estudio del CIS.
:::. . Contrastar si la desviación típica de la edad media de las personas en situa-
ción de paro es significativamente mayor de 7,6 años.

CIÓN:
_as datos de la encuesta del CIS, aparecen resumidos en la siguiente tabla:
--------11
Bastante Poco Nada NS/NC
431 o , _1_9 2_ _ _ 1_-_(o_,_2 2 6_ + 0 , 4 3 1 + 0, 1 9 2 ) , o, 1 5 1 1
º_, _ . _ _ _ _

=-
__ o_,_22_6_ _ _ _ _

la muestra con n = 100, media 39 y desviación típica 8,6, los resultados que
aElx'le son:

·
Bastante - , 0
Poco Nada NS/NC
0,35

_ La distribución muestra! de la varianza es una distribución chi-cuadrado con


- - 1 grados de libertad. Los límites del intervalo de confianza de la varianza
:x>blacional son:
33
• , Ej rcícios y problemas resueltos y comentados. Discf'íos de investigación y análisis de datos

ns 2 nS
2 <cr < 2
X 1 _ 0. / n - 1 Xa./ n-1
/2, /2,

Con un nivel de confianza del 95% buscamos en la tabla de chi-cuadrado con


100 - 1 = 99 grados de libertad los valores que delimitan una probabilidad centra
de 0,95. Al no figurar en la tabla los valores correspondientes a una distribución con
99 gl, utilizamos, por aproximación los que figuran en la fila de 100 gl.

0,025

74,22 129,56

Probabilidad
g.l.
0,005 0,010 0,025 1 0,050 0,100 0,900 0,950 0,97S 1 0,990 0,995

l 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7496
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8119 18,5476

70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
100 67,3276 70,0649 74,2219 I 77,9295 82,3581 118,4980 124,3421 129,5612 I 135,8067 140,1695

Figura 13: Representación de la distribución chi-cuadrado con 100 gl y los valores críticos para un ni-
ve/ de confianza del 95% y reproducción parcial de la tabla con la localización de estos valores críticos.

Y los límites que se obtienen son:

f. 100·8• 6 2 100·8,6 2
inf = =57 ' 085 Isup = = 9 9 ' 65
129 5612
I 74,2219

Y la varianza poblacional es un valor comprendido entre: 57,085 < cr < 99,65


34
Soluciones a los ejercicios de los capítulos l y 2 •

2. La distribución muestra! de la proporción es una distribución binomial que se


aproxima a la normal cuando la muestra es grande. Para calcular el intervalo
de confianza de la proporción de personas en situación de paro que considera
«poco o nada probable» encontrar trabajo en los próximos doce meses a partir
de la información obtenida en una muestra de 100 personas, utilizaremos la
aproximación a la normal.
En la muestra de 100 personas utilizada por el investigador, la proporción de per-
sonas que consideran «poco o nada probable» encontrar trabajo es: p = 0,35 + 0,20
= 0 55. El intervalo de confianza, con un nivel de confianza del 95%, es:

IC = p±Emax
o 5 5 ( 1 - 0 55)
Emax = Z 1-o/i' = 1 96 ' ' = O, 0975
, 100

IC=p±Emax =0,55±0,0975= {0,4525


0,6475

9.3. Para contrastar si la proporción de personas en paro que consideran «poco


probable» encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) proporcionados en el es-
tudio del CIS, seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS. El diseño de investigación de este trabajo utiliza


a muestra en el que la variable de análisis es de naturaleza dicotómica con dis-
.-..ibución binomial. Como la muestra es grande (n = 100 personas) la distribución
"11Uestral de la proporción de persona que consideran «poco probable» encontrar
trabajo se aproxima a la normal.
HIPÓTESIS: El objetivo del investigador es demostrar que la proporción de per-
sonas en paro que consideran «poco probable» encontrar trabajo en los próximos
doce meses en su localidad es significativamente menor que el valor 43,1%. Por lo
que plantea un contraste unilateral con las siguientes hipótesis.

H0 : n ¿: 0,431; H1: n < 0,431

ESTADÍSTICO DE CONTRASTE: Por aproximación de la distribución binomial a la


rmal, aplicamos el estadístico Z:

35
• Ejercicios y problemas resueltos y comentados. Disefíos de investigación y análisis de datos

z- p-rco - g 35 -
I o 431I
= - 1 , 636 - 1 , 64
- Jn 0(1- n 0) 0,431(1-0,431)
n 100

REGLA DE DECISIÓN: Como a p r i o r i no se establece un nivel de confianza, -=-


currimos a determinar el nivel crítico p asociado al estadístico de contraste. Er :
distribución normal, el nivel crítico p asociado al estadístico de contraste Z = - 1 , -
es 0,0505.

l.:..
Z=-1,64

o 0,01 0,02 0,03 0,05 0,06 0,07 0,08 O,Q9

0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005

-1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
8;0548--6;053'1 0,0495 0,0485 0,0475 0,0465 0,0455
-1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823

Figura 14: Representación del nivel crítico p para el estadístico Z = -1, 64 y reproducción parcial de lo
taba/ de la distribución N{O;l) con la localización del nivel crítico para un nivel de significación de 0,05

CONCLUSIÓN. Para este contraste no se ha establecido a priori un nivel de con-


fianza, pero como el valor crítico p = 0,0505 es mayor que los niveles de significa-
ción de 0,05 y del 0,01 utilizado habitualmente en este tipo de investigaciones, no
tenemos evidencia suficiente para rechazar la hipótesis nula. Por otra parte, en un
contraste unilateral izquierdo el valor crítico que deja por debajo una probabilidad
de 0,05 es -1,64 que representa la máxima diferencia que cabe esperar por simple
36
Soluciones a los ejercicios de los capítulos 1 y 2 •

azar entre el valor encontrado en la muestra y el valor formulado en la H a . Como el


estadístico de contraste, Z = -1, 6 36 no supera este valor, no podemos rechazar la


INTERPRETACIÓN: No hay evidencia para demostrar la hipótesis del investigador
a hipótesis alternativa) de que la proporción de personas en paro que consideran
::>0co probable» encontrar trabajo en los próximos doce meses en su localidad es
s; nificativamente menor que el valor 0,431 (43,1%) (Z = -1, 6 4; p > 0,05).

9.4. Para contrastar si la desviación típica de la edad media de las personas en si-
tuación de paro es significativamente mayor de 7, 6 años, seguimos los mismos
pasos que en los anteriores contrastes.

CONDICIONES Y SUPUESTOS: El diseño de investigación de este trabajo utiliza


s i a muestra de 100 personas en el que la variable objeto de estudio es la edad de
as personas en situación paro que es una variable cuantitativa que se mide con
esca'a de razón.

HIPÓTESIS: El investigador quiere contrastar si la desviación típica de la edad me-


� de las personas en situación de paro es significativamente mayor de 7, 6 años, o
o- e es lo mismo, si la varianza es significativamente mayor de 57, 76 = 7, 6 2 , para
que formula las siguientes hipótesis:

urPÓTESIS: Se formula un contraste unilateral ya que el investigador está mar-


c:.cdo el sentido de la diferencia.

H a :cr ::; 57, 76;


2
H 1 :cr
2
>57,76

ESTADÍSTICO DE CONTRASTE:

=ns;= 100·8, 6 2 = 739 6 =128


x2 05
cr o2
57, 76 57, 76

RfGLA DE DECISIÓN: Consultamos en la distribución chi-cuadrado con n - 1 gra-


de ibertad (100 - 1 = 99 gl) el valor más próximo al estadístico de contraste
tlilr" do. En la tabla y para 100 gl, los valores más próximos son 124, 34 y 129,5 6
� oejan por encima probabilidades de 0,05 y 0,025 respectivamente y entre los
• • � se encuentra el estadístico de contraste obtenido 128,05. Por tanto el nivel
r - ......... :; es un valor menor de 0,05 y mayor de 0,025.

37
• Ejercicios y problemas resueltos y co ntados. Diseños de investigación y análisis de

Probabilidad
g.l.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 1 0,975 1 0,990 0,9!1!i

1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7: -


2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10.:;.;.
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12.$3...
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,&:,_
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,- ;.
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8119 18,:,.!-º

70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2:-;
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,32:_
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,29:'.:
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,34211 129,56121 135,8067 140,16;,

t
Figura 15: Representación gráfica del nivel críi ca p en una distribución t can 100 gl reproduce : -
parcial de la tabla can la localización de las valares más próximos al estadístico de contraste.

CONCLUSIÓN: Para este contraste no se ha establecido un nivel de confianZ=


previo, pero al ser el nivel crítico p menor de 0,05 podremos rechazar la hipótes s
nula con un nivel de confianza del 95%, pero al ser mayor de 0,025 no podríamos
tomar la misma decisión con un nivel de confianza del 99% ni tampoco del 98%.
INTERPRETACIÓN: Se comprueba la hipótesis del investigador de que la desvia-
ción típica de la edad de las personas en situación de paro es mayor de 7,6 años
(o su varianza mayor de 57,76) con un nivel de confianza del 95% (X2 = 128,05; p <
0,05).

SITUACIÓN 10. Un psicólogo que investiga la percepción del tiempo, considera


que dicha habilidad se encuentra deteriorada en los fumadores durante la retirada

38
Soluciones a losejercicios de loscapítulos 1 y 2 •

aco-na. Para comprobarlo selecciona una m estra aleatoria de 41 fumadores a


somete a una abstinencia de tabaco con una duración de 24 horas, pidién-
que estimen el tiempo en segundos que había transcurrido en un periodo
::,ojetivamente, fue de 45 segundos. La media aritmética de la muestra fue
a 51 segundos con una cuasivarianza igual a 164. El psicólogo desea deter-
s la abstinencia tiene un impacto negativo sobre la percepción temporal,
••x::ando que el tiempo se sobre-estime y establece un nivel de significación de
como regla de decisión para su hipótesis.

::ma IÓN:
CONDICIONES Y SUPUESTOS. El estudio corresponde a un diseño de una muestra
el que la variable de estudio «la estimación del tiempo}) es una variable conti-
medida con escala de razón, de la que se desconoce la forma de su distribución
;:ioo acional y la varianza.
HIPÓTESIS: Dado que el psicólogo desea comprobar si el tiempo se sobre-esti-
hemos de plantear un contraste unilateral derecho, cuyas hipótesis son:

H0 :µ$45
H1: µ > 4 5

ESTADÍSTICO DE CONTRASTE: Dado que se desconoce la varianza poblacional, el


estadístico de contraste es:

T = Y-µ0 = 51-45 =3
sn-1 2

c r =s n-- -l =.J164
---2
F,i .[tu -
REGLA DE DECISIÓN: Buscando en las tablas T de Student con 40 grados de liber-
:ad y un nivel de confianza del 95%, el valor critico es 1,684 que deja por debajo una
:Y"obabilidad de 0,95 correspondiente a un contraste unilateral derecho.

39
• Ejercicios y problemas resueltos y comentados. Oiseflos oe Investigación y ariali�is de (jatos

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,6,-
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,9:..:
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,S.:_
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,&::-

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,7E:
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,7;:
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,75-:
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,7C-
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,6-,

Tabla 9: Reproducción parcial de la tabla de la distribución t de Student.

Por otra parte, en la distribución t de Studente con 40 gl, el valor más alto qL::
podemos ver en la tabla es 2,704 que deja por encima una probabilidad de 0,005.
CONCLUSIÓN: El estadístico de contraste (T = 3) supera el valor crítico con u-
nivel de confianza del 95% (3 > 1,684), pero también el nivel crítico p < 0,005 e.:
menor que el nivel de significación a = 0,05. Por tanto, rechazamos H0 .

Figura 16: Representación gráfica del nivel crítico p para el


estadístico T = 3.

INTERPRETACIÓN: Se confirma la hipótesis del investigador de que la percepciór


del tiempo se encuentra deteriorada en los fumadores durante la retirada de nico-
tina (T = 3; p < 0,005).

SITUACIÓN 11. Un sociólogo sabe, por investigaciones anteriores, que el suel-


do medio de la población de hombres en el trabajo Tes igual a 1500 euros men-
suales. Extrae una muestra aleatoria de 160 mujeres que desempeñan el trabajo T

40
Soluciones a los ejercicios de los capítulos 1 y 2 •

observando que el sueldo medio en dicha muestra es igual a 1400 euros mensuales
con una cuasivarianza igual a 64000. Quiere comprobar si el sueldo medio de las
mujeres es inferior al de los hombres. Nivel de confianza 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo el investigador utiliza una muestra
de 160 mujeres en el que la variable de estudio, el salario mensual, es una variable
cuantitativa que se mide con escala de razón de la que se desconoce la forma de
su distribución poblacional y su varianza. (Observe el estudiante que siendo esta
situación muy similar a la presentada en la situación 1, las condiciones y supuestos
son diferentes, lo que afecta a la elección del estadístico de contraste que hay que
aplicar)
HIPÓTESIS: Como el investigador quiere comprobar si el sueldo medio de las
-nujeres es inferior a 1500 euros, plantea un contraste unilateral izquierdo

H0 :µ;;=;:1.500 H1 :µ<1.500

ESTADÍSTICO DE CONTRASTE: Bajo las condiciones y supuestos expuestos, la dis-


Mbución muestra! de la media es una distribución t de Student con n - 1 grados de
·bertad y el estadístico de contraste es:

Y-µ0 1400-1500
T= = =-5

v 64000
160

La distribución t de Student se aproxima a la normal a medida que el tamaño de


ca muestra aumenta. En la tabla de la distribución t disponemos de información has-
:a 100 gl. Para valores mayores, las puntuaciones t y Z son prácticamente idénticas
:>0r lo que buscaríamos tanto el valor crítico como el nivel crítico p en la distribución
.,ormal tipificada de puntuaciones Z. (Ver el ejemplo de la situación 1).
CONCLUSIÓN: Al estadístico, Z = -5, le corresponde un nivel crítico p < 0,0002
:>0r lo que se rechazaría la H0 . Por otra parte, el estadístico Z = -5, supera los valores
:...¡ticos correspondientes tanto a un nivel de confianza del 95% como del 99% que
os lleva a la misma conclusión.

41
• \ Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de da te

0,0002

T=-S l1 Z = - 3 , 5 9
p <0,0002J

Figura 17: : Representación del nivel crítico p en una distribución t con


159 gl para el estadístico t = -5.

INTERPRETACIÓN: Con un nivel de confianza mayor del 99,98% se confirma e -


el sueldo medio de las mujeres en el trabajo Tes significativamente menor de 1.=:·
euros, (T = -5; p < 0,0002) que es el que corresponde a la población de homb·
para el mismo trabajo.

SITUACIÓN 12. Una preocupación creciente de los empresarios es el tiem¡:::


que los empleados dedican a actividades como navegar por Internet o enviar e-m2-
ls a los amigos durante las horas de trabajo. Para disponer de esta informacio-
selecciona una muestra aleatoria de 26 empleados, observando que el promed:
de tiempo dedicado a estas actividades durante una jornada laboral semanal fue e=
126 minutos y una desviación típica de 15 minutos. Asumiendo que esta variab E
se distribuye normalmente en la población y con un nivel de confianza 95% dese;:
conocer el intervalo de confianza del tiempo medio que dedican los empleados
a estas actividades. Además desea comprobar si la cantidad promedio de tiempc
perdido por sus empleados durante una jornada semanal de 40 horas es mayor de
120 minutos que es el valor obtenido el año anterior.

SOLUCIÓN:
El intervalo se obtiene sumando y restando a la media de la muestra el error
máximo de estimación:

IC=Y±Em ax

42
Soluciones a los ejercicios de los capítulos 1 y 2 •

El error máximo de estimación se obtiene bien a partir de la cuasi-desviación


·ca de la muestra, Sn - 1 , o de la desviación típica, Sn :

s - 1 =t
Emax =tn-1·1- u / 0 -y =t n-1·1- u / nr __ sn _
.
n-1,0,975 r----.:1
' /2 ' /2 '1n '-,fn-J.

Como conocemos la desviación típica de la muestra, utilizamos la segunda ex-


,7e5ión para obtener el error máximo de estimación:

El intervalo de confianza con un nivel de confianza del 95% es:

- 18
I C = Y ± Em a x =126±6,1 8 {132,
11 9, 8 2

Que indica que el tiempo medio que los empleados dedican a otras actividades
es un valor comprendido entre 1 19,8 2 y 1 32,18 minutos de su jornada laboral se-
...,anal con un nivel de confianza del 95%.

2,060
Linf = 119,82 - - - - - - - - - Lsup = 132,18

Figura 18: Representación gráfica del intervalo de confianza de la media.

Para el contraste de hipótesis seguiremos los siguientes pasos:


CONDICIONES Y SUPUESTOS: El investigador diseña una investigación en la que
..Jtiliza una muestra pequeña (n < 30). La variable de estudio «tiempo» dedicado a
otras actividades es de naturaleza cuantitativa y medida con escala de razón. Aun-
que la muestra es pequeña se aplicará un contraste paramétrico ya que variable se
::fstribuye normalmente en la población lo que asegura que la distribución muestra!
::Je la media sea una distribución t de Student.
43
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

HIPÓTESIS: Se formula un contraste unilateral en la que el investigador quiere


comprobar que el tiempo medio de dedicado a otras actividades es mayor de 120
minutos.

H1 :µ>120

ESTADÍSTICO DE CONTRASTE: Aunque la muestra es pequeña, la distribución


muestra! de la media es la distribución t de Student porque proviene de una pobla-
ción con distribución normal.

126-120 = = 2
T =_Y_--' µ-' º=--
5n 15 3
.Jn-1 .J26-l

CONCLUSIÓN: Con un nivel de confianza del 95% en un contraste unilateral dere-


cho, el valor crítico {l, 708) hay que buscarlo en la distribución t de Student con gra-
dos de libertad. Como el estadístico de contraste supera esta máxima diferencia que
cabe esperar por simple azar, rechazamos la H0 con un nivel de confianza del 95%.

0,025 <p < 0,05

Probabilidad
g.1.
0,550 0,600 0,6$0 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4;541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604

23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1 708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771

Tabla 10: Reproducción parcial de la tabla de la distribución t y representación del valor crítico y el
nivel crítico p poro el estadístico de contraste T = 2.

44
Soluciones<) los ejercicios de los capítulos 1y 2 •

Por otra parte, el estadístico de contraste T = 2 se encuentra entre los valores


_ -og y 2,060 que dejan por encima probabilidades de 0,05 y 0,025, respectiva men-
e. Por tanto, el valor crítico asociado al estadístico de contraste T = 2 es p < 0,05
oe•o p > 0,025. De forma que no podríamos rechazar la Ho con un nivel de confianza
,:.,e 99%
INTERPRETACIÓN. El investigador ha podido comprobar que, con un nivel de
:onfianza del 95% el tiempo que dedican los empleados a actividades como nave-
gar por internet o enviar e-mail privados es superior a los 120 minutos durante una
0'11ada laboral semanal. Además el tiempo medio que dedican los empleados a
esta actividad es un valor comprendido entre 119,82 y 132,18 minutos a la semana.

SITUACIÓN 13. Chaves y Noguera (2008) estudiaron la inserción laboral de


es titulados en Psicología de cinco promociones consecutivas (desde 2002 hasta
2006). Entre aquellos sujetos que estaban trabajando 6 meses después de finalizar
SuS estudios, el 81% son mujeres, el 31% accedieron al trabajo mediante contactos
:,ersonales y el 54% trabajaban a jornada completa. Si el número de titulados que
trabajaban 6 meses después de finalizar sus estudios es igual a 400, determine:
13.1. El intervalo de confianza para la proporción de mujeres tituladas en psico-
logía que estaban trabajando 6 meses después de finalizar sus estudios,
con un nivel de confianza del 99%.
13.2. Con un nivel de confianza del 99%, ¿cuál debería ser el tamaño de la mues-
tra para estimar con un error máximo de estimación del 2% la proporción
de titulados que accedieron al trabajo mediante contactos personales?
13.3. Si sospecha que la proporción de titulados que trabajan a jornada comple-
ta es distinta de los que trabajan a media jornada, ¿cuál sería su conclu-
sión?

SOLUCIÓN:
13.1. A partir de una muestra de 400 titulados en psicología, el intervalo de confian-
za de la proporción de mujeres tituladas en Psicología que estaban trabajando
6 meses después de finalizar sus estudios, es:

O' 8 1 · ( 1 - 0 ' 81)


. Emax = Z1-% = 2 58 · = O 05061
' 400 '
L¡n f = p - E m a x =0,81-0,05061=0,759
l,. u p = p + E m a x =0,81-0,05061=0,861

45
• Ejercicios y problemas re l,leltos y comemtados, Diseños de investiga!;ión y análisis d¡¡: datos

13.2. Si el error máxima de estimación es del 2% ( fmax = 0,02)

_ )p·(1-p) _ 0 ,31 · (1- 0 ,31)


Em ax - Z 1_a.l 0 ,02 - 2, 58
12 n n

Entonces, despejando el valor den, el tamaño de la muestra debería ser:

2
ZYi 2 58 2
n = p ( l - p ) - f = 0 ,31(1- 0,31)- '- 2 =3560 titulados
E 0 ,0 2

13.3. Para el contraste de hipótesis de que la proporción de titulados que traba_:-


ª jornada completa es distinta de los que trabajan a media jornada, seguirr:_
los siguientes pasos:

CONDICIONES Y SUPUESTOS: Se utiliza la información proporcionada por u--:


muestra. La variable de estudio es la «proporción de titulados que trabajan a jor-=
da completa» que es de naturaleza dicotómica y con distribución binomial que:=
aproxima a la normal cuando la muestra es grande (n > 25).
HIPÓTESIS: La hipótesis nula establece que no existen diferencias significati.::._
entre la proporción de titulados que trabajan a jornada completa respecto a los C-=
trabajan a media jornada. Si no existen diferencias, entonces estas proporcio"'=.
son iguales a 0 ,5 0 (5 0 %).

H0 :n=0,50;

ESTADÍSTICO DE CONTRASTE: Se utiliza el estadístico Z por aproximación de e:_

distribución binomial a la normal.

Z -- -P- -- n0 - 0 ,5 4 - 0, 5 0
=1 6
0 ,5 0 (1- 0 , 5 0)
4 00

REGLA DE DECISIÓN: Los valores críticos para un contraste bilateral con un niv:::
de confianza del 95 % son -1,96 y +1,96 y con un nivel de confianza del 99% sc-
-2,58 y +2,58. Por otra parte, en la distribución normal la puntuación típica Z = 1 :
deja por debajo una probabilidad de 0 ,94 5 2 y por encima 1 - 0 ,954 2 = 0, 0 54 8, ce-
lo que el nivel crítico p para un contraste bilateral es 0 ,0 54 8 + 0, 0 5 4 8 = 0,1 0 96.
46
Soluciones a los ejercicios de los capitulos l y 2 •

95%
-1,96 1,96
-2,58 99% 2,58
------
z ::o=) 0,01 0,02 0,03 0,04 0,05 ºV 0,07 0,09

0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
0,9641 0,9649 0,9656 0,9664 0,9678 0,9693 0,9699 0,9706
0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
uo 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9964

Tabla 11: Tabla de la distribución normal para localizar las valares críticos y nivel crítica p para un
5Wdístico Z = 1,6 en un contraste bilateral y representación gráfica de estos valores.

CONCLUSIÓN: Como el nivel critico p e s mayor que los niveles de significación


oe 0,05 y del 0,01, no tenemos evidencia suficiente para rechazar la hipótesis nula.
A a misma conclusión se llegaría comparando el estadístico de contraste con los va-
eres críticos ya que el estadístico de contraste no supera ninguno de esos valores.
INTERPRETACIÓN: No hay evidencia suficiente para afirmar que la proporción de
.:.J ados que trabajan a jornada completa es distinta de los que trabajan a media

ada.

«PIAAC (Programme far lnternational Assessment of Adult


s) es un estudio internacional que mide las destrezas cognitivas básicas que per-

47
• Ejercicios y problemas resueltos y comentados. Disef'íos de investigación y análisis de datos

mite a las personas adultas participar en la vida social y económica del siglo XXI
y también las habilidades laborales básicas que exige su puesto de trabajo. En su
último estudio realizado en el año 2013 comparando los resultados de 23 países de
la OCDE muestra que los adultos españoles de entre 16 y 65 obtuvieron en matemá-
ticas el último puesto, con una media de 246 puntos, 23 por debajo de la media de
la OCDE y 22 por debajo de la media de la UE. Entre sus conclusiones destaca que
los jóvenes españoles puntúan mucho más alto que los mayores y están más cerca
de la media de la OCDE y que la tasa de paro de los españoles con competencias
matemáticas en los niveles inferiores es tres veces superior de la que están en los
niveles superiores>>. Imagine que usted aplica la misma prueba a una muestra re-
presentativa de 121 jóvenes de su localidad con edades comprendidas entre 16 y
34 años obteniendo una media de 252 puntos con una desviación típica insesgada
de 77 puntos, siendo la proporción de jóvenes desempleados del 28,5%. Y estable-
ciendo un nivel de confianza del 95%, desea conocer:
14.1. El intervalo de confianza de la media de la población de los jóvenes espa-
ñoles en competencias matemáticas.
14.2. A partir de los datos de su estudio, y con un nivel de confianza del 95%,
¿entre que valores estimaría la proporción jóvenes desempleados en SL
localidad?
14.3. El intervalo de confianza de la varianza de las puntuaciones en competen-
cias matemáticas de la población de jóvenes españoles de su localidad es
14.4. Si hubiéramos querido estimar la varianza poblacional con un error máx·-
mo de estimación que no supere los 200 puntos, ¿cuál debería haber sidc
aproximadamente, el tamaño de la muestra seleccionada?
14.5. Si su interés es comprobar que la media en la prueba de competencias ma-
temáticas de los jóvenes españoles de su localidad es significativament=
inferior que la media general de los adultos de la UE, ¿cuál sería su conclL-
sión?

SOLUCIÓN:
De los datos del enunciado extraemos la siguiente tabla resumen de los datos

48
Solµciones a los ejercicios de los capítulos 1 y 2 a

España OCDE Sus datos


f Mefü 246 269 252
Cuasi-desvTipica 77

L Tamaño muestra 121

14.1. Nos encontramos ante un diseño de una muestra en la que la variable de es-
tudio: «las competencias matemáticas» es de tipo cuantitativo y medida con
escala de intervalo. Se desconoce la forma de su distribución en la población y
su varianza por lo que la distribución muestra! de la media es la t de Student.
Para obtener el intervalo de confianza de la media de la prueba en la población
de los jóvenes españoles en competencias matemáticas con un nivel de confianza
del 95%, calculamos primero el error máximo de estimación.

s n- 1 77
f m a x = t1_a/ r =1,96 r.;;;=1,96·7=13,72
72 v n v121

Y los límites del intervalo son:

L¡nf = Y - E m ax =252-13, 72=238,28


lsup = Y + Em a x = 252 + 13, 72 = 265, 72

14.2. La proporción es una variable dicotómica con distribución binomial. Como la


muestra es grande esta distribución se aproxima a la normal. Para obtener el
intervalo de confianza de la proporción, calculamos primero el error máximo
de estimación:

O 285(1-0 285)
Em az =Z1 _'Yi =1,96 ' ' =1,96·0,041=0,08
121

Y los límites del intervalo son:

nf = p - E m ax =0,285-0,08=0,205
Lsup = p + E m ax =0,285+0,08=0,365

49
• Ejercicios y problemas resueltos y comentados. Diseños de investigacion y análisis de datos

14.3. La varianza de una variable cuantitativa se distribuye según chi-cuadrado con


n - 1 grados de libertád. Cuando la muestra es grande, como en este caso, la
distribución chi-cuadrado se aproxima a la normal. Para obtener el intervalo de
confianza de la varianza calculamos primero el error máximo de estimación:

2i 2 2&
o.IS
Emax=Z1-72 - = 1 , 9 6 .77 - = 2 9 2 8
n 121

Y el intervalo es:

/C = 52 ± f ma x = 77 2 ±2928 = {3301
8857

14.4. Si queremos estimar la varianza poblacional con un error máximo de estima-


ción que no supere los 200 puntos, el tamaño de la muestra, con un nivel de
confianza del 95%, debería ser:

2
2
1' 96
n = 254 zi-<fi = 2. 774 . :: 6752
2
fmax 200 2

14.S. Para contrastar su hipótesis de que la media de los jóvenes españoles es signi-
ficativamente inferior que la media general de los adultos de la UE, partimos
de las mismas condiciones ya expuestos en el punto 14.1.

CONDICIONES Y SUPUESTOS: Nos encontramos ante un diseño de una muestra er


la que la variable de estudio: «las competencias matemáticas» es de tipo cuantitativc
y medida con escala de intervalo. Se desconoce la forma de su distribución en la po-
blación y su varianza por lo que la distribución muestra! de la media es la t de Student.
HIPÓTESIS: Se plantea un contraste unilateral con su hipótesis dirigida a encon-
trar diferencias significativas entre el valor teórico formulado como parámetro po-
blacional (268) y el valor obtenido en su investigación:

H1 : µ<268

ESTADÍSTICO DE CONTRASTE: Se aplica el estadístico T porque se trabaja con una


muestra grande que proviene de una población de la que se desconoce la forma de
la distribución y su varianza.
50
Soluciones a los ejercicios de los capítulos 1 y 2 •

-
Y - µ 0 = 252-268 = - 2 29
sn-1/
¡ .¡; 7/7/ v121
r:::::;

REGLA DE DECISIÓN: En una distribución t con 121 - 1 = 120 gl, el valor de tes
prácticamente igual al de Z de la distribución N(O;l). Y para un contraste unilateral
izquierdo esta probabilidad el nivel crítico p asociado al estadístico de contraste
obtenido es p = 0,0113.

----"'
p = 0,0113 ¡

Z=-2,28

Figura 19: Representación gráfica de la distribución t, el esta-


dístico de contraste y su nivel crítico p.

CONCLUSION: Como esta probabilidad es menor que el nivel de significación


establecido en el 0,05 (nivel de confianza del 95%) rechazamos la H0 .
INTERPRETACIÓN: Con un nivel de confianza del 95%, las competencias mate-
máticas de los jóvenes españoles de su localidad significativamente inferior que la
media general de los adultos de la UE.

SITUACIÓN 15. Uno de los mejores indicadores de la salud psicológica es el au-


to-concepto (Esnaola, Goñi y Madariaga 2008) que hace referencia a la idea u opi-
nión que cada persona tiene de sí misma. En una investigación realizada por Esnaola
y Revuelta (2009) con una muestra jóvenes de entre 12 y 24 años de la Comunidad
Autónoma Cántabra y País Vasco se analiza la relación entre la actividad ñsica y el
auto-concepto. Por sus respuestas a un cuestionario sobre prácticas físico-deporti-
vas el 31% fueron clasificados como inactivos y el resto como activos. En la escala
de auto-concepto físico, la media y desviación típica insesgada de los inactivos fue
de 22,41 y 4,1 respectivamente y en el grupo de activos, de 23,7 y 4,83.
51
• Ejercicios y problemas resueltos y comentados. Diseñosde Investigación y análisis de datos

15.1. Si con un nivel de confianza del 95% el error máximo para estimar la pro-
porción poblacional de jóvenes activos vale 0,0523 ¿Cuál era el tamaño de
la muestra utilizada en el trabajo de Esnaola y Revuelta?:
Suponiendo que el tamaño de la muestra fuera de 132 jóvenes, determine:
15.2. El intervalo de confianza de la varianza poblacional en la escala de au-
to-concepto físico para los jóvenes activos con edades comprendidas entre
12 y 24 años, con un nivel de confianza del 95%.
15.3. Si el investigador quisiera comprobar que la varianza poblacional de la es-
cala de auto-concepto físico para los sujetos inactivos es significativamen-
te distinta de 25 puntos, ¿Cuál sería su conclusión?

SOLUCIÓN:
Partimos de los siguientes datos resumidos proporcionados en el enunciado:

Escala autoconcepto
Media= 23,7
ACTIVOS (69%)
Desv. Tip. lnses = 4,83
Media= 22,41
INACTIVOS (31%)
Desv. Tip. lnses = 4,1

15.1. El tamaño de la muestra necesario con un error máximo de estimación fijado


en 0,0523 es:

0,69·0,31
0,0523 = 1,96

Y despejando el valor de n:

2 0,69 ·0,31
n=l,96 =300,4L=:300jovenes
0,0523 2

15.2. Los jóvenes activos son el 69% de la muestra compuesta por 132 jóvenes. Po
tanto, el grupo de jóvenes activos está formado por n = 0,69 x 132 = 91,08 =
91 jóvenes que obtienen en la escala una desviación típica insesgada de 4,83.
Los límites del intervalo de confianza son:
52
Soluciones a los ejercicios de los capítulos 1y 2 •

(91-1)·4,8i 2 (91-1)·4,8i
- -- (J - --
118,1359 65,6466

La varianza poblacional es un valor comprendido entre: 11, 77 cr 2 � 31,98 con


- nivel de confianza del 95%.

15.3. Para el contraste de esta hipótesis seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: La escala de autoconcepto es una variable medida


:on escala de intervalo aplicada a UNA muestra de jóvenes inactivos que provienen
:e una población con distribución desconocida. Como la muestra es grande (n > 30)
:x>demos aplicar un contraste parámetrico.
HIPÓTESIS: En la muestra se obtiene una varianza de 4,1 2 = 16,81. El investigador
auiere comprobar que la varianza poblacional de la escala de auto-concepto físico
:,ara los sujetos inactivos es significativamente distinta de 25 puntos. Como no se
-narca la dirección (mayor o menor) de la diferencia se formula un contraste bilate-
c3 con las siguientes hipótesis:

H0 : cr2 =25; H1 •. cr2 :;,=25

ESTADÍSTICO DE CONTRASTE: Los sujetos activos son 41 que corresponden al


31% de la muestra de 132 jóvenes. Para estos 41 jóvenes inactivos la desviación
típica insesgada en la escala es de 4,1 y el estadístico de contraste es:

(n-1)5 _ 1 (41-1)4,1 2
X2 = = =26 ' 9
cro2 25

REGLA DE DECISIÓN: La tabla de la distribución chi-cuadrado proporciona pro-


::>abilidades por debajo de un valor concreto de la distribución chi-cuadrado. En la
tabla de la distribución chi-cuadrado con 40 gl figuran los siguientes valores: 24,433
que deja por debajo una probabilidad de 0,025 y 59,3417 que deja por debajo una
probabilidad de 0,975. Estos dos valores corresponden a los valores críticos de una
distribución chi-cuadrado con 40 gl para un contraste bilateral con un nivel de con-
,anza del 95%.
Con un nivel de confianza del 99% los valores críticos son 20, 7 que deja por
debajo una probabilidad de 0,005 y 66,766 que deja por debajo una probabilidad
53
• EJE!rcícios y problemas r(:Jsueltosy cornentados. Disef'los de investigación y análisis de datos

de 0,995. Por tanto, ambos valores representan los valores críticos con un nivel c:
confianza del 99%.

Probabilidad
g.1.
0,010 1 0,025 1 0,050 0,100 0,900 0,950
[ 0,990 0995'

1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
s 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382

29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 14,9535 16,7908 18,4927 20,5992 40,2560 43,7730 46,9792 50,8922
40 22,1643 24 4330 1 26,5093 29,0505 51,8051 55,7585 @¿fil] 63,6907
50 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517

Tabla 12: Reproducción parcial de la tabla de la distribución chi-cuadrado.

Por otra parte, para una distribución con 40 gl el valor que aparece en la tabla
más próximo al estadístico de contraste obtenido es 26,5093 que deja por debajo
una probabilidad de 0,05. Por tanto, el nivel crítico p para un contraste bilateral es
p > 0,05.
CONCLUSIÓN: Como el estadístico de contraste no supera los valores críticos (ni
por la derecha ni por la izquierda), no hay evidencia suficiente para rechazar la H0
con un nivel de confianza del 95% ni del 99%. A la misma conclusión llegamos al
comparar el nivel crítico p con el nivel de significación.

24,43 [ \....,
20, 7 .___ ?! J
NC= 99%

Figura 20: Representación gráfica de la distribución chi-cuadrado con el


estadístico de contraste y los valores críticos para los niveles de confianza
del 95% y 99%.

54
Soluciones a los ejercicios de los capítulos 1 y 2 •

INTERPRETACIÓN: La varianza poblacional de la escala de auto-concepto físico


para los sujetos inactivos no difiere de forma significativa de los 25 puntos, con un
nivel de confianza del 95%.

SITUACIÓN 16 (amor de grillo). El artículo « We/1-Fed crickets bowl maidens


oven> (Nature Science Update, 1999} informó que los grillos de campo hembras
son atraídos por machos que tienen una frecuencia de canto (chirridos} elevada e
hipotetizaron que la tasa a la que los grillos macho cantan está relacionada con su
estado nutricional. La tasa usual del canto del grillo de campo macho es de 60 chi-
rridos por segundo. Para investigar si la tasa de canto está relacionada con el estado
nutricional, los investigadores alimentaron a grillos machos con una dieta alta en
proteínas durante 8 días, después de lo cual se midió la tasa del canto. Esta tasa de
canto en grillos macho con dieta alta en proteínas fue de 109. El tamaño muestra! y
la desviación típica fueron de n = 32 y Sn = 40. Utilice un a = 0,01.

SOLUCIÓN:
Se trata de un estudio con un único grupo de 32 grillos cuya tasa o frecuencia de
canto se mide Antes y Después de implementar una dieta alta en proteínas, aunque
solo nos proporcionan los datos del post-test (109 Hz) indicándonos indirectamente
que la tasa base de grillos no tratados (pre-test) es de 60 Hz. Cada grillo se mide
dos veces: antes de alimentarlo con una dieta alta en proteínas y otra después de
alimentarlo con esta dieta. Luego la tasa de canto de todos y cada uno de los grillos
se ha medido dos veces. Esto significa que las puntuaciones de antes y de después
están relacionadas. Es un diseño de dos grupos con medidas dependientes (diseño
pre-post}. No obstante, no podemos utilizar el contraste de dos muestras relaciona-
das para la media porque no se proporcionan los datos suficientes (no tenemos la
media de las diferencias y su varianza}. Pero podemos observar que tenemos datos
suficientes para realizar un contraste de una media con varianza poblacional desco-
,ccida asumiendo como hipótesis nula que la media es 60 Hz.
Los datos de que disponemos en el enunciado son:
• Tratamiento: dieta alta en proteínas durante 8 días.
• Número de grillos= 32; Desviación típica muestra! pos-tratamiento = Sn = 40.
Tasa de canto después del tratamiento 109 chirridos por segundo (es decir,
109 Hz).
• Tasa usual de canto = 60. Podemos considerar que esta es la tasa de canto
previa al tratamiento. Es decir, observamos que el estudio nos indica que se
55
• Ejercicios y ptoblemas resueltos y comentados. Diseños de investigación y ana lisis de datos

ha pasado de 60 Hz (línea base supuesta a priori) a 109 Hz por efecto del


tratamiento. ¿Será significativo este cambio debido al tratamiento o puede
considerarse un efecto del azar?
• Variable dependiente: chirridos por segundo (Hz). Debido a que esta variable
admite un valor de O como ausencia absoluta de canto (silencio), es una va-
riable de razón.
CONDICIONES Y SUPUESTOS:
• La variable dependiente se encuentra medida en una escala de razón.
• No nos indican en el enunciado que la distribución de la variable dependiente
sea normal en la población pero se cumple el supuesto de que n > 30.
• No conocemos la varianza poblacional.
HIPÓTESIS: Debemos plantear una hipótesis unilateral derecha ya que no resulta
lógico en el marco del estudio plantear que incrementar el suplementos de proteí-
nas pueda disminuir la tasa de canto.

H0 :µ 60
H1 :µ>60

ESTADÍSTICO DE CONTRASTE: Aplicaremos la prueba t de Student.

T = Y - µ 0 = 1 0 9 - 6 0 = =6,82
sn 40 7,18
.Jn-1 .J32-1

REGLA DE DECISIÓN: Al ser un contraste unilateral derecho, solo existe un valor


crítico. Debemos buscar en la Tabla de la T con 4 0 - 1 = 39 grados de libertad al 95%
de confianza. Utilizamos 40 grados de libertad porque es el más cercano a 39. El
valor obtenido es t = 2,021.

56
Soluciones a los ejercicios de los capítulos 1 y 2 •

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12, 06 31,821 63,657
2 0,142 0,289 0.445 0,617 0,816 1,061 1,386 1,886 2,920 4, 03 6,965 9,925
3 0,137 0,277 0.424 0,584 0,765 0,978 1,250 1,638 2,353 3, 82 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2. 76 3,747 4,604

28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2, 48 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 2,462 2,756
30 0,127 0..256 0,389 0,530 0,683 0,854 1,055 1,310 2,457 2,750
40 2.423 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2.403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
70 0,126 0,254 0,387 0,527 0,678 0,847 1,044 1,294 1,667 1,994 2,381 2,648
80 0,126 0,254 0,387 0,526 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639

CONCLUSIÓN: Como el estadístico de contraste obtenido (T= 6,82) es mayor que


el valor crítico (t = 2,021), es decir, 6,82 se encuentra en la región de rechazo de H0 .
Por consiguiente, rechazamos H0 .
INTERPRETACIÓN: Debemos concluir que el tratamiento alimentario ha sido
efectivo en el incremento de la frecuencia del chirrido de los grillos macho (T =
6,82; p < 0,005).

57
Soluciones a los ejercicios
de los capítulos 3 y 4

SITUACIÓN l . Un investigador pretende comprobar si los trabajadores que lle-


van menos de cinco años en una empresa concreta (Grupo 1) poseen mayores as-
piraciones profesionales que las personas que llevan cinco o más años (Grupo 2).
Para ello se entrevista a 32 personas que llevan menos de cinco años y a otras 32
personas que llevan cinco o más años, todas ellas elegidas al azar. Los resultados
mostraron que dentro del primer grupo se identificó a 18 personas con altas aspira-
ciones, mientras que en el segundo grupo se identificaron a 14 personas con altas
aspiraciones. Nivel de confianza 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos
muestras independientes seleccionadas al azar. La variable independiente es el
tiempo que unos profesionales llevan trabajando y que toma dos valores: menos de
c·nco años trabajando en la empresa y cinco o más años trabajando en la empresa.
La variable dependiente es el nivel de aspiraciones profesionales que toma también
dos valores: alto o bajo, por lo que se hará un análisis de diferencias de proporcio-
nes para dos muestras independientes.
HIPÓTESIS: El investigador quiere comprobar si los profesionales que llevan me-
nos de cinco años en una empresa (Grupo 1) poseen mayores aspiraciones que las
personas que llevan cinco o más años (Grupo 2). Como el investigador está mar-
cando la dirección de la diferencia (el grupo 1 tiene mayores aspiraciones que el
grupo 2) formula un contraste unilateral derecho con las siguientes hipótesis nula
alternativa:

61
• Ejercicios y problemas resueltos y comentados. Diseflos de investigación y análisis de datos

Ha : 1t1 s 1t2
H1: 1t1 > 1t2

O bien:

Ho: 7t1 -1t2 s O


H1 : 1t1 - 1t2 > O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro-


porciones de dos muestras independientes es una distribución binomial. Como las
muestras son grandes, la distribución binomial se aproxima a la normal y el estadís-
tico de contraste es una puntuación Z.

siendo p
= _n=1P- =1'--+_ n- =2'---P=2
n1 +n2

Primero calculamos P

18 14
32 + 32
P= 32 32 = 18+14 = 0 5
32+3 2 3 2+ 3 2 '

Finalmente:

-18
- - 14
z = --==(P=1=-=P2==)=-=º = = 0, 5 6 2 5 - 0, 4 3 7 5

_!:_)
32 32

)(_!:_
= =1
0'1 2 5
p (1 - p + o,50(1-0,50)(2-+ 2 - )
32 32
n1 n2

REGLA DE DECISIÓN: En la tabla de la distribución normal tipificada de puntua-


ciones Z buscamos el valor crítico para un nivel de confianza del 95% para un cor-
traste unilateral derecho y es 1, 6 4.
CONCLUSIÓN: Como el estadístico de contraste (Z = 1) no alcanza la máxim::
diferencia que cabe esperar por simple azar (el valor crítico 1, 6 4 para un nivel de
confianza del 95%), concluimos que no hay evidencia suficiente para rechazar e
hipótesis nula.
62
Soluciones a los ejercicios de los capítulos 3 y 4 •

Por otra parte, la puntuación Z = 1 deja por encima de sí una probabilidad de


: 1587 (el nivel crítico p) que es mayor que el nivel de significación «alfa» de 0,05
::>rrespondiente al nivel de confianza del 95% establecido por el investigador (o lo
: J e es lo mismo, el área correspondiente al valor crítico 1,64). Por tanto, no hay
ew'idencias suficientes para rechazar la hipótesis nula.

Z=l
1,64

INTERPRETACIÓN: Con un nivel de confianza del 95% no se puede afirmar que


existan diferencias significativas entre los dos grupos de trabajadores. En otras pa-
abras, no existen diferencias significativas en las aspiraciones profesionales de los
que llevan trabajando menos de cinco años y aquellos que lo llevan haciendo cinco
o más años (Z = 1; p = 0,1587).

SITUACIÓN 2. En un estudio cuyo objeto es evaluar el efecto de la música clási-


ca sobre la capacidad de concentración, disponemos de 62 sujetos con los que for-
mamos de manera aleatoria dos grupos de 31 sujetos cada uno. Al primero de ellos
(Grupo 1) se le sometió a una prueba de concentración escuchando música clásica
y al segundo (Grupo 2) se le sometió a la misma prueba en condiciones normales
de silencio. La puntuación media en una prueba de atención sostenida para el Gru-
po 1 fue de 86 puntos, con una cuasivarianza igual a 150. El Grupo 2 obtuvo una
media aritmética igual a 80 puntos en esa misma prueba y una cuasivarianza igual a
129. Sabiendo que la variable dependiente está medida en una escala de intervalo
y asumiendo varianzas poblacionales iguales y con un nivel de confianza del 9S%,
responda a las siguientes preguntas:

2.1. ¿Podemos afirmar que la media en concentración es superior para el grupo


que escuchó música clásica en relación al grupo que no escuchó nada?
63
• Ejercicios y problemas resueltos y comentados. Oiseflos de investigación y análisis de datos

2.2. ¿Cuánto vale el tamaño del efecto?

SOLUCIÓN:
2.1. Para la primera pregunta seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos


muestras independientes de igual tamaño (n1 =n 2 = 31 sujetos) seleccionadas al azar.
La variable independiente es la condición bajo las que se realiza la prueba de concen-
tración: condición de silencio o escuchando música clásica. La variable dependiente
es la capacidad de concentración, que es una variable de tipo cuantitativo medida
con escala de intervalo. Se asume que las varianzas poblacionales son iguales.
HIPÓTESIS: El investigador quiere comprobar si la media en concentración es
superior para el grupo que escuchó música clásica respecto a la condición de silen-
cio. Como el investigador está marcando la dirección de la diferencia formula un
contraste unilateral derecho con las siguientes hipótesis nula y alternativa:

Ho: µ1 s µ 2
H1: µ1 > µ2

O bien:

Ho : µ 1 - µ 2 S O
H1: µ1 - µ 2 >0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


para dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero supuestas iguales es la distribución t de Student con n1 + n2 - 2
gl y el estadístico de contraste es:

- -

(2-2-)
(Y1-Y2)-(µ1 - µ 2 ) (86-80)-0
T=---;=
= == == ============ ===== = ---;=
= == ===== ====== == == == = = 2
30 ·150 + 30 ·129
+
31+31-2 31 31

REGLA DE DECISIÓN: En la tabla de la distribución t con n 1 + n2 - 2 = 31 + 31 =


60 gl buscamos el valor crítico para un nivel de confianza del 95% en un contraste
unilateral derecho y es 1,671. Por otra parte, al valor del estadístico t = 2 con 60 gl
le corresponde un nivel crítico de p = 0,025.

64
Soluciones a los ejercicios de los capítulos 3 y 4 a

1,671 2,39
iT=2j

CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste -


= 2) supera el valor crítico 1,671 por lo que la diferencia entre las medias de los dos
grupos es significativa con un nivel de confianza del 95%. Con un nivel de confian22
del 99%, la diferencia entre las dos medias no es significativa ya que el estadístico
de contraste (T = 2) no supera el valor crítico, que en este caso sería de 2,39. A 2
misma conclusión se llegaría interpretando el nivel crítico p = 0,025 que es mayor
que el nivel de significación «alfa» de 0,01 pero menor que 0,05.
INTERPRETACIÓN: Con un nivel de confianza del 95%, la capacidad de concen-
tración cuando se está escuchando música clásica es significativamente mayor que
bajo la condición de silencio (t = 2; p = 0,025).

2.2. EL TAMAÑO DEL EFECTO se cuantifica con el índice d de Cohen y su valor es:

jY1 -Y2I 8
186 - º ====
d = --;::=
= ==== = = = = = --===== === 1 =o, 508
2 2 30 · 150 + 30 · 129
(n 1 -1)51 +(n 2 -1)52
31+31-2
n1 +n 2 - 2

El valor de la d de Cohen señala que la distancia de la media 86 del grupo


que hace la prueba escuchando música a la media 80 del grupo 2, en condición e
silencio, expresada en unidades de puntuación típica Z, es, en valor absoluto, de
0,508. Si buscamos en la Tabla la Z = 0,51 (obsérvese que es una aproximación de
dos decimales al valor 0,508) obtendremos que deja por debajo una proporción de
0,6950, lo que indica por encima deja una proporción de un 1 - 0,6950 = 0,305, es
decir, que la media del nivel de concentración del grupo que escucha música supera
en un 69,5% a la media del grupo que se concentra en condición de silencio.
65
• Ejercicios y Rroblemas resueltos y comentados Diseños de investigación y análisis de datos

Media bajo la 80 86 Media bajo la


condición de condición de
silencio Z= 0,51 música

SITUACIÓN 3. En una tarea sobre decisión léxica (indicar lo más rápidamente


posible si la palabra presentada es realmente una palabra o una pseudo-palabra
con estímulos presentados en la modalidad visual y en la que se miden tiempos de
reacción, un investigador dispone de una muestra aleatoria de 26 sujetos. Utiliza
dos grupos de palabras y parte de la hipótesis de que los tiempos de reacción serár
más cortos ante palabras de alta frecuencia léxica (aquellas que utilizamos más fre-
cuentemente en el lenguaje, Grupo 1) que ante palabras de baja frecuencia léxica
(Grupo 2). Tras realizar el experimento observa que el tiempo de reacción medie
para el Grupo 1 fue igual a 612,04 ms, mientras que para el Grupo 2 fue igual a 643
ms, siendo la cuasivarianza de las diferencias igual a 6656 ms 2 .

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para ana-
lizar si el tiempo de reacción (la variable dependiente) es mayor cuando las pala-
bras son de alta frecuencia léxica que cuando son de baja frecuencia (la variable
independiente). Utiliza un diseño de medidas repetidas (o muestra relacionadas
en la que la misma muestra de sujetos pasa por las dos condiciones experimentales
definidas por las dos condiciones que toma la variable independiente: palabras cor
alta y baja frecuencia léxica. La variable dependiente, el tiempo de reacción, es una
variable medida con escala de razón de la que se desconoce su distribución pobla-
cional y su varianza. Para poder aplicar un contraste paramétrico debemos asumi-
que la forma de la distribución poblacional, aunque desconocida, no se separa er
exceso de la normalidad por lo que la distribución muestra! de la diferencia de me-
dias es una distribución t de Student.
HIPÓTESIS: El investigador quiere comprobar que el tiempo de reacción es más
corto ante palabras de alta frecuencia léxica que ante palabras de baja frecuencia
66
Soluciones a los ejerciciosd e los capítulos 3 y 4 •

éxica. Como el investigador está marcando la dirección de la diferencia de medias,


=ormula un contraste unilateral izquierdo con las siguientes hipótesis nula y alter-
,ativa:

H o :µ1 µ 2
H1 :µ1 < µ 2

O bien:

H o : µ1 - µ 2 o
H1: µ1 - µ 2 < 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


::iara dos muestras relacionadas con varianza poblacional desconocida es la distri-
::ución t de Student y el estadístico de contraste es:

REGLA DE DECISIÓN: El investigador no ha establecido el nivel de confianza, por


o que en la tabla de la distribución t con n - 1 gl = 26 - 1 = 25 gl buscamos el valor
=fuco para un nivel de confianza del 95% o del 99% para un contraste unilateral
.:.cuierdo y son: -1,708 y-2,485 respectivamente. Por otra parte, al valor del esta-
: stico T = - 2,06 con 25 gl le corresponde un valor crítico comprendido entre 0,01
!>,OS y muy próximo a 0,025.
CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste (t
=-2,06) supera el valor crítico-1,708 pero no supera el valor crítico -2,485 por lo
:=ue la diferencia entre las medias de los dos grupos es significativa con un nivel de
:orifianza del 95% pero no con un nivel de confianza del 99%. A la misma conclusión
se legaría interpretando el nivel crítico p = 0,025 que es mayor que el nivel de sig-
�c,cación «alfa» de 0,01 pero menor que 0,05.
INTERPRETACIÓN: El tiempo de reacción ante palabras léxicas de alta frecuencia
es significativamente menor que ante palabras de baja frecuencia (T = -2,06; p =
_ 025) con un nivel de confianza del 95%.

67
• f:jercicios y ¡>roblemas resueitos y comentados. Diseños de investigación y análisis de datos

SITUACIÓN 4. Para comparar la eficacia de dos terapias («A» y «B») utilizac:_


para tratar el trastorno de personalidad «X», se toma una muestra aleatoria de 4C:
personas que sufren el trastorno «X», formándose dos grupos al azar de 200 pers:
nas cada uno. Al primer grupo se le aplica la terapia «A», siendo 172 personas ::
que se recuperan, mientras que al aplicar la terapia «B» se recuperan 148 persona,
Con un nivel de confianza del 95%, ¿son las dos terapias igualmente eficaces?.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para corr-
parar la eficacia de dos terapias. Utiliza un diseño de dos grupos independiente
seleccionados al azar. La variable independiente es el tipo de terapia, A o B y 2
variable dependiente es la recuperación que es una variable dicotómica (Si/No) cor
distribución binomial. Realizará un contraste de diferencias de proporciones cor
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si las dos terapias tienen la misma
eficacia, es decir, la misma proporción de recuperaciones. Como el investigador no
está marcando la dirección de la diferencia, formula un contraste bilateral con las
siguientes hipótesis nula y alternativa:

Ho: rcA =rea


H1 :rc A =/:-rea

O bien:

H0 :rc A -rea = 0
H1 : TCA - 1ta =t=-O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro-


porciones para dos muestras independientes utilizando muestras grandes es la dis-
tribución normal y el estadístico de contraste es:

z =_,_(
P,=A=-=pª= )=- =( TC=
A=-=1tª )
==

P(1-P)(__!_+.2_)
nA na

68
Soluciones a los ejerticios de los capítulos 3 y 4 •

Calculamos en primer las proporciones pA , p 8 y P.

172 148 P = 172+148


PA = - = 0 , 8 6 , p8 =-=0,74, O, 8O
200 200 400

El estadístico de contraste es:

(o'86-0'74 ) - o
=3
O 8·0 2 · ( - 1 - + - 1 - )
200 200
I I

REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos los valores


críticos para un contraste bilateral con un nivel de confianza del 95 y son: -1,96 y
+ 1,96. Como el estadístico de contraste obtenido, Z = 3, se encuentra fuera de estos
valores críticos, rechazamos la H0 con un nivel de confianza del 95%

Z =-1,96 Z = +l,96

Por otra parte, al valor del estadístico Z = 3 le corresponde un nivel crítico p =


0,0013. Como el contraste es bilateral, el nivel crítico pes 0,0013 + 0,0013 = 0,0026,
menor que 0,01, por lo que la diferencia encontrada es significativa.

69
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y analisls d datos

Z=-3 Z=3

INTERPRETACIÓN: El investigador tiene evidencia suficiente para concluir que las


dos terapias proporcionan resultados distintos en cuanto a su proporción de recL-
peraciones (Z = 3; p = 0,0026).

SITUACIÓN S. En una tarea de reconocimiento de palabras, un investigado·


mantiene la hipótesis de que los estudiantes de carreras de «letras» tardarán me-
nos que los estudiantes de <<ciencias» en reconocer los estímulos presentados. Tras
seleccionar dos muestras aleatorias de 31 observaciones cada una, y registrar e
tiempo de reacción, obtiene una media aritmética igual a 653,2 ms para el grupo
de estudiantes de ciencias (Grupo 1) y de 600 ms para el grupo de estudiantes de
letras (Grupo 2), siendo la cuasivarianza igual en ambas muestras, con un valor de
6200 ms 2 . Contraste la hipótesis del investigador con un nivel de confianza del 95%
y calcule el tamaño del efecto.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos
muestras independientes de igual tamaño (sujetos) seleccionadas al azar. La varia-
ble independiente es el tipo de estudios, con dos valores «ciencias» o <<letras» y la
variable dependiente es el tiempo de reacción en el reconocimiento de palabras,
que es una variable medida en una escala de razón. El análisis de datos que aplicará
es un contraste de hipótesis sobre diferencia de medias entre dos muestras inde-
pendientes, con varianzas poblacionales desconocidas pero iguales.
HIPÓTESIS: El investigador quiere comprobar que los estudiantes de carreras de
«letras» tardarán menos que los estudiantes de «ciencias» en reconocer los estí-
mulos presentados, es decir, su hipótesis es que el tiempo de reacción es menor
para los estudiantes de letras que para los de ciencias. Como el investigador está
70
Soluciones a los erclcicls de los qipítulos 3 y 4 •

-::-:ando la dirección de la diferencia, formula un contraste unilateral derecho con


:;·guientes hipótesis nula y alternativa:

Ha :µce µLL
H1: µ c e > µ u

O bien:

Ha: µce -µLL ::;o


H1 : µce - µ u > O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


::iara dos muestras independientes que provienen de poblaciones con varianzas
::esconocidas pero supuestas iguales es la distribución t de Student con n 1 + n 2 - 2
5 y el estadístico de contraste es:

(Ycc-YLL ) - ( µ c c - µ L L )
T ----;:=============
A2 A2
=

(_!_+_!._)
(ncc - 1 ) 5 1 + ( n u - 1 ) 5 2
nc c + n u - 2 nc c nu
(653,2-600)-0
= - , == = = = = = ==:== = = = 2 66
30-6200+30·6200 · ( 2 - + 2 - )
31+31-2 31 31

REGLA DE DECISIÓN: En la tabla de la distribución t con n1 + n2 - 2 gl = 31 + 3 1 - 2


= 60 gl buscamos el valor crítico para un nivel de confianza del 95% de un contraste
unilateral derecho y es 1,671. Por otra parte, al estadístico de contraste t = 2,66 le
corresponde un nivel crítico p = 0,005.
CONCLUSIÓN: Con un nivel de confianza del 95%, el estadístico de contraste
(T = 2,66) supera el valor crítico por lo que la diferencia entre las medias de los dos
grupos es significativa con un nivel de confianza del 95%. A la misma conclusión se
llegaría interpretando el nivel crítico p = 0,005 que es menor que el nivel de signifi-
cación «alfa» de 0,05 establecido a priori por el investigador.
INTERPRETACIÓN: Los estudiantes de carreras de <<letras» tardan menos tiempo
que los estudiantes de «ciencias» en tareas de reconocimiento de palabras (T =
2,66; p = 0,005).

71
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

TAMAÑO DEL EFECTO: se cuantifica con el índice d de Cohen y su valor es:

1653,2-6001
d= - - ; = = = = = = = = = 0,6756
30 · 6200 + 30 · 6200
31+31-2

El valor de la «d» de Cohen señala que la distancia de la media 653,2 del gru-
po de Ciencias a la media 600 del grupo de Letras es, expresada en unidades de
puntuación típica Z y en valor absoluto, de 0,6756. Si buscamos en la Tabla la Z =
0,67 obtendremos que deja por debajo una proporción de 0,7486, lo que indica por
encima deja una proporción de un 1 - 0,748 = 0,2514, es decir, que hay un 74,86%
de estudiantes de Ciencias con un tiempo de reacción superior a la media de lo que
tardan los estudiantes de letras. O de otra forma, un 25,14% de estudiantes de Cien-
cias tienen un tiempo de reacción inferior a la media de los estudiantes de Ciencias.

Tiempo medio de 600 653,2 Tiempo medio de


reacción de los reacción de los
estudiantes de Letras d = 0,67 estudiantes de Ciencias

SITUACIÓN 6. En un estudio piloto para un nuevo tratamiento contra el SIDA


(Thompson, 1991), se midieron diversas variables en 27 pacientes con SIDA. Entre
las variables medidas se incluyó el número de células T-4 sanguíneas al inicio del tra-
tamiento y 90 días más tarde. Los resultados fueron: Yo días =324; Y9odías =334,4.
Por estudios anteriores se sabe que la varianza poblacional de las diferencias en el
contaje de células T-4 vale 150. El investigador fija un nivel de confianza del 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para eva-
luar el efecto del tratamiento (la variable independiente) sobre el número de célu-
las T-4 sanguíneas (la variable dependiente) medida en la misma muestra de sujetos
72
Soluciones a los ejercicios de los capítulos 3 y 4 •

pero en dos momentos distintos: al inicio del tratamiento y 90 días después. La


variable dependiente es de tipo cuantitativo medida mediante una escala de razón.
Se trata, por tanto, de un diseño de dos muestras relacionadas para comparar sus
medias y se conoce, por investigaciones previas, la varianza poblacional de las dife-
rencias. En estas condiciones la distribución muestra! de la diferencia de medias es
una distribución normal.
HIPÓTESIS: El investigador quiere comprobar cómo afecta el tratamiento al nú-
mero de células T-4 sanguíneas pero sin marcar el sentido de su influencia por lo
que formula un contraste bilateral con las siguientes hipótesis nula y alternativa:

Ho :µo =µgo
H1: µo* µgo

O bien:

Ho : µo - µgo = O
H1 : µo - µgo *O

ESTADÍSTICO Df CONTRASTE: La distribución muestra! de la diferencia de medias


para dos muestras relacionadas con varianza poblacional conocida es la distribución
normal y el estadístico de contraste es:

R:
Z= o-µd =
(32 4 - 334 , 4 ) - o
{iso
= - 4 ,4 1

v--:- Vv
REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos los valores
críticos para un nivel de confianza del 95% que son -1,96 y +1,96. Por otra parte,
el valor más extremo que podemos encontrar en ta tabla de la distribución normal
tipificada es 3,59 que deja por encima una probabilidad de 0,0002. Esto significa que
no podemos conocer la probabilidad para una Z de - 4 ,41. No obstante, a efectos del
contraste, no se resentirá si utilizamos el nivel crítico de la Z = 3,59 como sustituto del
nivel crítico de la Z = -4, 4 1 . Como se trata de un contraste bilateral, el nivel crítico, p,
correspondiente al estadístico de contraste T = 4 ,4 1 (utilizando la aproximación indi-
cada) será menor de 0,0002 + 0,0002 = 0,000 4 . Por tanto, el nivel crítico es p < 0,000 4 .
CONCLUSIÓN: Con un nivel de confianza del 95%, estadístico de contraste (Z =
- 4 ,4 1 ) es más extremo que los valores críticos, que representan la máxima diferen-
cia que cabe esperar por simple azar. Por tanto, hay evidencia suficiente para recha-
73
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

zar la H0 . A la misma conclusión se llegaría interpretando el nivel crítico p < 0,000..:


que es menor que el nivel de significación «alfa» de 0,01 establecido previamente
por el investigador.

INTERPRETACIÓN: La nueva terapia del tratamiento del SIDA produce una varia-
ción significativa (Z = -4,41: p < 0,0004) en el aumento de células T-4 sanguíneas.

SITUACIÓN 7. Un psicólogo sospecha que los alumnos de cuarto de grado (Gru-


po 1) presentan una media superior y más variabilidad en la variable «Autoestima»
que los alumnos de primer curso de grado (Grupo 2). Para comprobar estas hipóte-
sis selecciona dos muestras aleatorias de igual tamaño (n 1 = n2 = 31) a las que aplica
- 2
un test de autoestima. Los resultados fueron: Y1 = 22,16, 51 = 76,42 para el Grupo
- 2
1 y Y2 =20,07, 52 =47,58 para el Grupo 2. Asumiendo un nivel de confianza del
95% ponga a prueba las hipótesis del investigador.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com-
parar los niveles de autoestima y su variabilidad en dos grupos distintos de alum-
nos. La variable dependiente, la autoestima, es de tipo cuantitativo medida en una
escala de intervalo de la que se desconoce la forma de su distribución poblacional
y su varianzas. Se trata, por tanto, de un diseño de dos muestras independientes
y hay que realizar dos contrastes de hipótesis: uno para las varianzas y el segundo
para las medias.
74
Soluciones a los ejercicios de los capítulos 3 y 4 •

HIPÓTESIS: El investigador quiere comprobar si el nivel de autoestima de los es-


tudiantes del Grupo 1 es mayor que la del Grupo 2, para lo que plantea un contraste
de hipótesis unilateral de diferencias de medias para dos muestras independien-
tes. Previamente debe comprobar si las muestras provienen de poblaciones con
la misma varianza. Se plantea la hipótesis sobre la variabilidad de manera previa a
la hipótesis de la media porque esto nos permitirá tener información sobre un su-
puesto (igualdad de las varianzas poblacionales) necesario para realizar el contraste
de la media. La hipótesis del investigador es que la varianza de los estudiantes del
Grupo 1 es superior a la del Grupo dos, para lo que formula un contraste unilateral
derecho con las siguientes hipótesis

Ho : crZ,1 _:s;crZ,2
H1 : crZ,1 > crZ,2

O bien:

ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos


varianzas es una distribución F de Snedecor y el estadístico de contraste es:

REGLA DE DECISIÓN: En la tabla de la distribución F con los grados de libertad del


numerador (n - 1 = 3 1 - 1 = 30) y los del denominador() buscamos el valor crítico
con un nivel de confianza del 95% en un contraste unilateral derecho y es 1,841. De
la misma forma, y consultado las tablas de la F, observamos que con 30 grados de
libertad en el numerador y 30 grados de libertad en el denominador, el valor de F
= 1,606 deja por debajo de sí un área de 0,90. Luego el nivel crítico asociado a este
estadístico de contraste es 1 - 0,90 = 0,10.

75
• Ejercicios y probti:!ni s resueltos y comentados. Diseños de lnvestígaci9n y análisis de datos

F = 1,606 1,841

CONCLUSIÓN: Como el estadístico de contraste no supera el valor crítico (1,841)


no hay evidencias suficientes para rechazar la hipótesis nula de igualdad de varian-
zas.
INTERPRETACIÓN: No hay diferencias en la variabilidad del nivel de autoestima
entre estos dos grupos de estudiantes (F30; 30 = 1,606; p = 0,10).
En estas condiciones el contraste sobre la diferencia de medias se realiza asu-
miendo que las dos muestras provienen de poblaciones con las mismas varianzas:
HIPÓTESIS: El investigador quiere comprobar si el nivel de autoestima del Grupo
1 es mayor que la del Grupo 2 por lo que formula un contraste unilateral con las
siguientes hipótesis nula y alternativa:

Ho: µG l s µ G 2
H1: µGl > µ G 2

O bien:

H o :µGl - µ G 2 ::;o
H1 : µ G l - µG 2 > 0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


entre dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero iguales (contrastado en el punto anterior) es la distribución t de
Student con n 1 + n2 - 2 gl:

76
Soluciones a los ejercicios de los capítulos 3 y 4 •

(rG1-YG2 )-(µG1 -µG2) (22,16-20,01)-0


T = -;:::===== = = ==== = = = = = = --;::= ==== = = = ==== = = = 1,045
30·76,42+30-47,58( + )
(ni - l ) S +(n2 - l)s;
( + ) 31+31-2 31 31
n1 + n2 - 2 n1 n2

REGLA DE DECISIÓN: En la tabla de la distribución t de Student y con n1 + n2 - 2


gl = 31 + 3 1 - 2 = 60 gl buscamos el valor crítico con un nivel de confianza del 95%
en un contraste unilateral derecho y es 1,671. Por otra parte, en la distribución t con
60 gl, el estadístico de contraste T = 1,045 deja por debajo una probabilidad de 0,85
por lo que su nivel crítico es p = 0,15.
CONCLUSIÓN: Como el estadístico de contraste {1,045) no supera el valor crítico
(1,671) no hay evidencias suficientes para rechazar la hipótesis nula de igualdad de
igualdad de medias. A la misma conclusión se llega comparando el nivel crítico p =
0,15 con el nivel de significación a = 0,05.
INTERPRETACIÓN: No existen diferencias significativas (T= 1,405; p = 0,15) entre
las medias del nivel de autoestima de los estudiantes de primer curso y cuarto curso
de grado.
TAMAÑO DEL EFECTO: El índice d de Cohen es un índice del tamaño del efecto
y su valor es:

¡r1-r2I ¡22,16-20,011
d = ---.===== = = = = = = , = ==== = = = ==== = o, 2654
A2 A2 30· 76,42+30 ·47,58
(n 1 -1)51 +(n2 -1)52
31+31-2
n1 +n2 - 2

El valor de la «d» de Cohen señala que la diferencia entre las medias 22,16
y 20,07 expresada en unidades de puntuación típica Z, es, en valor absoluto, de
0,2654. Si buscamos en la Tabla la Z = 0,26 obtendremos que deja por debajo una
proporción de 0,6026, lo que indica un 1 - 0,6026 = 0,3974, es decir, que el nivel
60,26% de los sujetos del grupo 1 tienen un nivel de autoestima superior a la media
del grupo 2. O también que el 39, 74% de los sujetos del grupo 1 tienen un nivel de
autoestima por debajo de la media del grupo 2.

77
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis dé datos

Media del G2 20,07 22,16 Media del G l


d = 0,26 Diferencia en unidades Z

SITUACIÓN 8. El equipo docente de una determinada asignatura quiere com-


probar la eficacia de un material docente nuevo respecto al utilizado en convocato-
rias anteriores. Selecciona una muestra aleatoria de 64 alumnos, con los que forma
dos grupos de igual tamaño también al azar. A los sujetos del Grupo 1 les proporcio-
na el nuevo material, mientras que los del Grupo 2 trabajan con el material antiguo.
El equipo docente tiene la hipótesis de que con el nuevo material las notas serán
más elevadas. Tras el examen de fin de curso los alumnos del Grupo 1 obtienen una
nota media igual a 7, con una cuasivarianza igual a 15, mientras que para el Grupo
2 la media es igual a 5,2 y la cuasivarianza igual a 17. Con un nivel de confianza del
95%, responda a las siguientes preguntas:
8.1. Contraste la hipótesis del investigador y determine el tamaño del efecto.
8.2. Calcule el intervalo de confianza de la diferencia de medias, interpretando
el resultado.

SOLUCIÓN:
Partimos de dos muestras independientes con los siguientes datos:

- A2
Grupo l . Material Nuevo: Y Nue vo = 7 S N ue vo = 15 nN uevo = 32
- A2
Grupo 2. Material Antiguo: Y A n tiguo = 5,2 5A n tiguo = 17 nA ntig uo =32

8.1. Para someter a contrastación la hipótesis del investigador, seguimos los si-
guientes pasos:

CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com-


probar la eficacia de un material docente nuevo respecto al utilizado en convoca-
78
Solucione� a ).os ajercicios (je los capítulos 3 y 4 •

torias anteriores. La variable independiente es el material docente con dos valores:


el nuevo y el antiguo y la variable dependiente es el rendimiento de los estudiantes
manifestado por la calificación obtenida en el examen final, que es una variable
cuantitativa medida en una escala de intervalo. Se trata, por tanto, de un diseño de
dos muestras independientes que provienen de dos poblaciones con varianzas des-
conocidas en las que habrá que contrastar previamente si son iguales o distintas.
HIPÓTESIS: El investigador quiere comprobar si el nuevo material docente es
más eficaz que el anterior para lo que plantea un contraste unilateral. Previamente
debe comprobar si las muestras provienen de poblaciones con la misma varianza,
para lo que formula las siguientes hipótesis.

Ha : crtuevo = CJntiguo
. 2
H1 · CJNuevo *a Antiguo
2

ESTADÍSTICO DE CONTRASTE: La distribución muestra/ del cociente entre dos


varianzas es una distribución F de Snedecor y el estadístico de contraste es:

2
SNuevo = 15 =O
F= 2 88
17 '
5Antiguo

REGLA DE DECISIÓN: Para un contraste bilateral y con un nivel de confianza del


95%, debemos buscar los valores de F que dejan por debajo una probabilidad de
0 ,0 2 5 y de 0 ,97 5. El valor que nos ofrece la tabla F para 30 grados de libertad en el
numerador y 30 grados de libertad en el denominador (los más próximos a 31) es
igual a 1, 8 4 1, luego los valores críticos son:

1
Foo2s·30·3o
' ' ' = -2,0
-= 0 ,4 8 2 Fo,975;30;30 = 2 , 0 7 4
74

CONCLUSIÓN: Como el estadístico F = 0 ,8 8 se encuentra comprendido entre los


valores críticos, no podemos rechazar la hipótesis nula, por lo que podemos supo-
ner que las varianzas son iguales.
En estas condiciones realizamos el contraste de hipótesis sobre las medias con
las siguientes:
CONDICIONES Y SUPUESTOS: Es un diseño de dos muestras independientes y
grandes (n > 30 ) que provienen de poblaciones con distribución desconocida, va-
79
• Ejercicio$ y problema resueltos y comentados. Dísefios de ¡nve:!ltigación y ani3lisis de datos

rianzas desconocidas pero iguales. En estas condiciones, la distribución muestra! de


la media es la distribución t de Student.
HIPÓTESIS: El investigador quiere demostrar que el nuevo material es más eficaz
que el antiguo por lo que formula un contrate unilateral derecho con las siguientes
hipótesis:

Ho : µN uevo S µA nt
H1 : µN ue vo > µA n t

O bien:

Ho : µN uevo - µ A nt SO
H¡ : µN uevo - µA nt > O

ESTADÍSTICO DE CONTRASTE:

( 7 - 5 '2 ) - 0
=18
31·15+31-17(_!_+_!_)
62 32 32

NC = 0,95
p < 0,025

o 1 ,6 7 1 (7-5,2)
f--·---- ---i
T= 1,8

REGLA DE DECISIÓN: En la tabla de la distribución t de Student buscamos el valor


crítico t para un contraste unilateral derecho con n1 + n2 - 2 = 32 + 32 - 2 = 62 g.l. y
con 60 gl (que es el valor más aproximado que aparece en las tablas) el valor de t que
deja por debajo una probabilidad de 0,95 es 1,671 para un nivel de confianza del 95%.
80
S0l1,1ciqnes a los ejercicios de los capitulas 3 y 4 •

CONCLUSIÓN: Como el estadístico de contraste (1,8) supera el valor crítico 1,671


rechazamos la H0 con un nivel de confianza del 95%. El nivel crítico del estadístico
de contraste es, en todo caso, p < 0,025 lo que nos permite concluir que la diferen-
cia observada es significativa con un nivel de confianza del 95%.
INTERPRETACIÓN: Con el nuevo material docente los estudiantes obtienen re-
sultados significativamente mejores que con el antiguo (T = 1,8; p < 0,025).
TAMAÑO DEL EFECTO: Calculamos el índice d de Cohen:

jrN-Y Al j7-5,2I
d= --;::=========-;=======O 45
2 2 31·15+31·17
(nN -1)5N +(nA -1)5A
62
nN +nA - 2

Este índice representa la distancia entre las medias de los dos grupos en unida-
des de puntuación típica Z.

Material 2 7 Material
Antiguo Nuevo
d= 0,45

El valor del estadístico de Cohen nos indica que el 67,36% de los estudiantes que
han utilizado el nuevo material docente han obtenido un rendimiento que supera a
la media del grupo que ha utilizado el material antiguo.

8.2. INTERVALO DE CONFIANZA DE LA DIFERENCIA DE MEDIAS: Tomando de las ta-


blas el valor más próximo para los grados de libertad, el intervalo de confianza
para la diferencia de medias con un nivel de confianza del 95% viene definido
por los límites:

81
• EJi:!rcicios y problémas resueltos y comentados. Diseños de investigación y análisis de datos

(nN-1)5 +(nA -1)5! (-1+ - 1)


(- - )
Y N - Y A ± t 1-ª2;nN
Y i + n, - 2 nN + n A - 2 nN nA
=

-O 2
=(7-5,2)±2·1 (
+3,8

El intervalo de confianza puede utilizarse también para el contraste de hipótesis


bilaterales. Obsérvese que el intervalo de confianza obtenido nos índica que la dife-
rencia entre las dos medias poblacionales es un valor comprendido entre -0,2 y 3,8.
Como en este intervalo está comprendida la diferencia nula que formularía la Ha de
un contraste bilateral, no podríamos rechazar la Ha que establece una diferencia de
cero entre las dos medías poblacionales de este mismo contraste, si fuera bilateral.

-2 o +2
1,8 + 2 = 3,8
--i--
1 , 8 - 2 =-0,2

(7 - 5,2) = 1,8

SITUACIÓN 9. Un psicólogo imparte una conferencia a una muestra de fu- 200


madores en la que les expone un tratamiento para abandonar este hábito. También
pregunta a los sujetos, antes y después de la conferencia, que cuantifiquen en una
escala de O a 10 si se sienten capaces de dejar de fumar tras recibir el tratamiento,
donde el cero indicaría que no se sienten capaces de ninguna forma y 10 que lo
lograrán con absoluta certeza. Antes de la conferencia, la mitad de los sujetos de
la muestra están dispuestos a seguir el tratamiento. Tras la conferencia, encuentra
que 80 personas que estaban dispuestas a seguir la terapia mantienen la idea de
hacerlo, y que otras 80 personas que no estaban dispuestas a seguir la terapia han
cambiado de opinión. El psicólogo pretende lograr que el número de sujetos que
deciden someterse a la terapia sea mayor tras la conferencia. Respecto a la pre-
gunta que plantea el psicólogo a los sujetos, se encuentra que aquellos que no se
82
Soluciones a los ejercicios de los capítulos 3 y 4 •

sentían capaces de dejar de fumar antes de la conferencia obtienen una media su-
perior después de la conferencia, siendo dicha media un punto superior a la media
antes de la conferencia y la cuasidesviación típica de las diferencias es igual a 5. Se
establece un nivel de confianza del 95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador utiliza una muestra de sujetos de
los que obtiene información en dos momentos distintos. La información obtenida
es la variable independiente: ANTES de asistir una conferencia y DESPUÉS de salir
de la misma. Utiliza, por tanto, un diseño de muestras relacionadas. Como variable
dependiente obtiene, por un lado, las medias obtenidas en una escala que cuan-
tifica su capacidad estimada para abandonar el hábito de fumar, antes y después
de asistir a la conferencia. Se trata de una variable cuantitativa medida con escala
de intervalo. Y por otra parte, también obtiene la proporción de sujetos dispues-
tos a someterse a la terapia antes y después de asistir a la conferencia. En estas
circunstancias tendrá que realizar dos contrastes de hipótesis dentro de un diseño
de muestras relacionadas: uno para la diferencia de proporciones y otro para la
diferencia de medias.
HIPÓTESIS: Para el contraste de la diferencia entre las proporciones el psicólogo
pretende lograr que el número de sujetos que deciden someterse a la terapia sea
mayor tras la conferencia por lo que plantea un contraste unilateral izquierdo con
las siguientes hipótesis nula y alternativa:

H o : nAntes noespués

H1 : re Antes < 71:Después

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro-


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes. El estadístico de contraste es, por tanto, una puntuación Z con la si-
guiente expresión:

Z = -b- - c
-./b+c

Para su cálculo construimos la siguiente tabla con los datos aportados en el


enunciado y marcados en negrita:

83
• Ejercicios y problemas resueltosy comentacos. Diseños d e investigación y análisis de datos

Después_de;la conferencia• !
' g - - , · . '.')- : , - t. ..,,. . . . . c.11
1':'

$1

Antes de la a= 80 b=20 100


conferencia NO c=80 d=20 100

160 40 200

Para calcular el estadístico de contraste «Z» nos fijamos en los sujetos que apor-
tan información, es decir, aquellos que han cambiado de opinión ANTES y DESPUÉS
de asistir a la conferencia (casillas b y e de la tabla):

Z = - b- -=c 20-80 = - 6
.Jb+c .J20+80

REGLA DE DECISIÓN: En la tabla de la distribución normal y con un nivel de con-


fianza del 95% para un contraste unilateral izquierdo buscamos el valor crítico con
un nivel de confianza del 95% y es z, = -1,64. Por otra parte, el estadístico de con-
traste es muy extremo, superior al valor mayor que podemos consultar en las tablas
(Z = -3,59), que deja por debajo de sí una proporción igual a 0,0002 que correspon-
de al nivel crítico p < 0,0002.
CONCLUSIÓN: Como el estadístico de contraste (Z = -6) supera el valor crítico
(-1,64) a un nivel de confianza del 95%, se rechaza la H0 . A la misma conclusión se
llega interpretando el nivel crítico que es menor que el nivel de significación «alfa»
de 0,05.
INTERPRETACIÓN: La proporción de sujetos dispuestos a someterse a terapia
aumenta significativamente después de asistir a la conferencia (Z = -6; p < 0,0002).
Para el contraste de la diferencia de medias el psicólogo pretende demostrar
que el número de sujetos que deciden someterse a la terapia será mayor tras la
conferencia evaluada a través del cuestionario. En base a esta información previa
proporcionada en el enunciado formula las siguientes hipótesis.
HIPÓTESIS: El investigador quiere comprobar que la media de los sujetos que ini-
cialmente no están dispuestos a seguir el tratamiento ( n = 100) es superior después
de la conferencia por lo que formula las siguientes hipótesis

84
Soluciones a los ej rcícíos de los capítulos 3 y 4 •

Ha : µAntes :,; µDespués


H1 : µAntes > µDespués

O bien:

Ha : µAntes - µDespués ::; O


H1 : µAntes - µDespués > O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


para muestras relacionadas es la distribución t de Student con n - l gl. Al pasar la
escala, el investigador encuentra que dicha media es un punto superior a la media
antes de la conferencia por lo que el estadístico de contraste es:

T= fil = /52
D-µd 1-0
=2

f 100
REGLA DE DECISIÓN: En la distribución t de Student con n - l = 100 - 1 = 99 gl y
para un contraste unilateral derecho buscamos el valor crítico que deja por debajo
de sí una probabilidad de 0,95. Según las tablas este valor es 1,66. Por otra parte,
para una distribución t con 100 gl (el valor más próximo a nuestra situación que tie-
ne 99 gl) el valor del estadístico de contraste t = 2 se encuentra comprendido entre
1,984 y 2,364 que dejan por debajo las probabilidades de 0,975 y 0,99, respectiva-
mente, y por encima de 0,025 y 0,01 respectivamente (los valores 0,025 y 0,01 son
los complementarios de 0,975 y 0,99 respectivamente). Por tanto el nivel crítico
asociado al estadístico de contraste t = 2 es un valor comprendido entre 0,025 < p <
0,01 como se representa en la siguiente gráfica,

85
• Ejercicios y problemas resueltos y comentados. Diseffos de investigación y análisis de datos

CONCLUSIÓN: Como el estadístico de contraste (Z = 2) supera el valor crítico de


1,66 podemos rechazar la hipótesis nula con un nivel de confianza del 95%. Por otra
parte, el nivel crítico p < 0,025 (correspondiente a una t = 1,984) nos indica que el
resultado es significativo con un nivel de confianza del 97,5% ya que 2 > 1,984 pero
no lo es con un nivel de confianza del 99%.
INTERPRETACIÓN: La media de los sujetos que inicialmente no están dispuestos
a seguir el tratamiento es superior después de asistir a la conferencia (t 99 = 2; p <
0,025).

SITUACIÓN 10. El partido político X elabora un vídeo pre-electoral con la inten-


ción de incrementar el número de votos en las siguientes elecciones. Extrae una
muestra aleatoria de 200 personas a las que muestra el vídeo. Antes de verlo 120
personas declararon que no votarían al partido X, 60 de las cuales cambiaron de
opinión tras ver el vídeo, siendo 136 sujetos en total los que manifestaron su in-
tención de votar al partido X después de ver el vídeo. Con un nivel de confianza del
95%.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo la variable independiente es el vi-
deo y se quiere analizar su influencia sobre la variable dependiente que es la inten-
ción de voto. Esta variable tomará dos valores, SÍ o NO, que constituye una variable
dicotómica. En el diseño de este estudio la fuente de información es la opinión
manifestada por una muestra de 200 personas en dos momentos distintos: ANTES y
DESPUÉS de ver el video. Se trata, por tanto, de un diseño de muestras relacionadas
en el que se analizará la influencia del video sobre la intención de voto.

86
Soluciones a los ejercicios de los capitulas 3 y 4 •

HIPÓTESIS: El trabajo se diseña con la intención de comprobar que el video in-


crementará la intención del voto por lo que se formula un contraste unilateral con
las siguientes hipótesis nula y alternativa:

H a : 1CAntes 1toespués

H1 : 1CAntes < ¡¡;Después

O bien:

H o : ¡¡;Antes -1toespués O

H1 : nAntes - noespués < O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro-


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes. El estadístico de contraste es, por tanto, una puntuación Z que pode-
mos calcular mediante la siguiente expresión:

b-c
Z=--
.Jb+c

Para su cálculo, completamos la siguiente tabla que recoge en negrita los datos
proporcionados en el enunciado mientras que el resto de datos han sido calculados
por simple álgebra:

Después
SI
-· .
a= 76 b=4 80
Antes
c=60 d= 60 120
136 64 200

La construcción de esta matriz nos permite calcular el valor del estadístico de


contraste:

z - - b- --c 60-4
-7
- ../b+c - ../60+4 -

87
• Ejercicios y problema resucttos y cornentados. Diseños de investigación y análisis de datos

También se podría aplicar el estadístico chi-cuadrado de McNemar cuyo valor es:

2 = (b - e )2 = (60 - 4 )2 =49
X
b+c 60+4

REGLA DE DECISIÓN: En la tabla de la distribución normal y con un nivel de con-


fianza del 95% para un contraste unilateral derecho buscamos el valor crítico con
un nivel de confianza del 95% y resulta ser Z c = -1,64. Por otra parte, consultando
la tabla de la distribución normal observamos que la puntuación más extrema que
podemos encontrar es igual a 3,59, que deja por encima de sí una proporción igual
a 0,0002. Como el estadístico de contraste Z = 7 es un valor aún más extremo su
nivel crítico es p < 0,0002.
Para el estadístico de McNemar utilizamos la distribución chi-cuadrado con 1 gl
y un nivel de confianza del 95% y observamos que el estadístico de contraste {49)
supera el valor crítico de 5,0239. Por otra parte, el valor más alto que figura en la
tabla de la distribución chi-cuadrado con 1 gl es 7,8794 que deja por encima de sí
una probabilidad de 0,005. Como el valor del estadístico de contraste (49) es aún
más extremo su nivel crítico es p < 0,005.
CONCLUSIÓN: Tanto el estadístico Z como el chi-cuadrado de McNemar superan
sus respectivos valores críticos con un nivel de confianza del 95%. Se rechaza la H0
porque la probabilidad de encontrar un valor como el estadístico de contraste o
más extremo es muy pequeña (p < 0,0002).
INTERPRETACIÓN: Podemos inferir que el vídeo resulta efectivo porque incre-
menta el número de votantes del partido (Z = 7; p < 0,0002; x 2 = 49; p < 0,005).

SITUACIÓN 11. El Barómetro del CIS de septiembre de señala que a la


2011
pregunta: ¿Cuál es el principal problema que existe actualmente en España?, res-
pondieron 468 jóvenes con edades comprendidas entre 25 y 34 años, de los cuales
el 57,3% señalaban «el paro», el 19,2% indicaban «los problemas de índole eco-
nómica» y para el 9,4% el principal problema era «la clase política y los partidos
políticos». En el mismo mes del 2012 se volvió a pasar la misma encuesta a otros
480 jóvenes del mismo rango de edad. De estos jóvenes, y ante la misma pregunta,
216 señalaban «el paro», 114 se pronunciaban por «los problemas de índole econó-
mico» y 63 señalaban a «la clase política y los partidos políticos» como el principal
problema. Con estos datos, el investigador desea analizar si la consideración de «la
clase política y los partidos políticos» como principal problema ha aumentado signi-
ficativamente en el 2012 respecto al año anterior.
88
Soluciones a los ejercicios de los capítulos 3 y 4 •

SOLUCIÓN:
De los datos del enunciado extraemos la siguiente información:

1.
Problemas
Paro Clase política
económicos
2011 0,573 0,192 0,094
216 114 63
--=0,45 =0,2375 -=O 13125
480 480 480

CONDICIONES Y SUPUESTOS: En este trabajo se quiere analizar si la opinión de


los jóvenes respecto al «principal problema que existe actualmente en España» (la
variable dependiente de naturaleza cualitativa) ha variado con el transcurso del
tiempo (la variable independiente es el momento de aplicación de la encuesta con
dos valores: septiembre de 2011 y septiembre de 2012). El investigador utiliza dos
muestras independientes, una en septiembre de 2011 formada por 468 jóvenes y
otra un año después formada por 480 jóvenes. Aplicará, por tanto, un contraste de
diferencia de proporciones para dos muestras independientes.
HIPÓTESIS: El investigador quiere analizar si la consideración de «la clase política
y los partidos políticos» como principal problema ha aumentado significativamente
en el 2012 respecto al año anterior. Como está marcando el sentido de la diferencia
formula un contraste unilateral con las siguientes hipótesis nula y alternativa:

Ho : 1t2011 �1!2012
H1 : 1t2011 < 1t2012

O bien:

Ha : 1!20 11 - 1t20 12 �O
H1 : 1t2011 - 1t2012 < O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro-


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes como sucede en este caso. El estadístico de contraste es, por tanto, una
puntuación Z con la siguiente expresión:

89
• Ejercicios y problemas resueltos y comentados. Diseños de ínvestigación y análisis de datos

siendo: p = n2011P2011 + n2012P2012


n2011 + n2012

Y su valor, es:

63
468 ·o, 094 + 4 8 0 -
P= 48º =0,113
468+480

(0,094-0,13125)-o
Z-- - - ; = = = = = = = = = = = = = = = = - 1 , 8 1
0, 113( 1 - 0 , 113 ) ( - 1 - + - 1 - )
468 480

REGLA DE DECISIÓN: En la tabla de la distribución normal el estadístico de con-


traste Z = -1,81 deja por debajo una probabilidad de 0,0351 que corresponde a su
nivel crítico p.

Z = -1,81

CONCLUSIÓN: Como el nivel crítico p = 0,0351 es menor que el nivel de signifi-


cación «alfa» de 0,05 pero mayor que el nivel de significación de 0,01 rechazamos
la hipótesis nula con un nivel de significación de 0,05 (o con un nivel de confianza
del 95%).
INTERPRETACIÓN: La consideración de «la clase política y los partidos políticos»
como principal problema ha aumentado significativamente en el 2012 respecto al
año anterior (Z =-1,81; p = 0,0351).

90
Soluciones iil los ejercicios de los capítulos 3 y 4 •

SITUACIÓN 12. Con los mismos datos del ejemplo anterior desea comprobar
si la consideración del paro como principal problema de los jóvenes no ha variado
significativamente en el 2012 respecto al 2011.
CONDICIONES Y SUPUESTOS: las mismas de la situación anterior siendo ahora la
variable dependiente la consideración del paro como principal problema.
HIPÓTESIS: El investigador quiere analizar si la consideración del paro no ha
variado de un año a otro. Formula un contraste bilateral ya que no marca el sentido
de la diferencia, siendo las hipótesis nula y alternativa las siguientes:

Ha : rc 2 a11 = rc2a12
H1 : TC2a11 ::;:. 7t2012

O bien:

Ha : 1t2a11 - 1t2a12 = O
H1 : TC2 011 - 1t2 a12 ::;:.0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro-


porciones es la distribución binomial que tiende a la normal cuando las muestras
son grandes. El estadístico de contraste es, por tanto, una puntuación Z con la si-
guiente expresión:

siendo: p = n2011P2 011 + n2012P2012


n2011 + n2012

468-0,573+216
P= =0,5107
468+480

(0,573-0,45)-0
Z-- -;::= = ==== = = = ==== = = = = 3, 79
0, 5107 ( 1 - O, 5 1 0 7 ) ( - 1 - + - 1 - )
468 480

REGLA DE DECISIÓN: Consultando las tablas de curva normal, observamos que


la mayor puntuación que podemos consultar es z = 3,59, que deja por encima de
sí una proporción igual a 0,0002. Como el contraste es bilateral, multiplicamos por
dos esta probabilidad, por lo que el nivel crítico es p < 0,0004 y rechazamos la hi-
pótesis nula.

91
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

INTERPRETACIÓN: La consideración del paro como principal problema de los


jóvenes ha variado significativamente en el 2012 respecto al 2011 (Z = 3,79; p <
0,0004), en concreto, ha disminuido del 57,3% al 45% siendo esta diferencia signi-
ficativa.

SITUACIÓN 13. Siguiendo con los mismos datos del CIS, imagine por un mo-
mento que tuviera usted acceso a la muestra de los 480 jóvenes encuestados en
septiembre del 2012 para volverles a realizar la misma pregunta y analizar los cam-
bios de opinión sobre la consideración del paro como principal problema. Encuen-
tra que ahora son 233 los que siguen considerando el paro como el problema prin-
cipal y que de los 216 que en septiembre lo señalaban como el problema principal
ahora son 193 los que siguen manteniendo la misma opinión.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Ahora está utilizando la misma muestra de 480
jóvenes a los que hace la misma pregunta en dos momentos temporales distintos:
ANTES (en el 2012) y DESPÚÉS (en este momento). Utilizará un diseño de muestras
relacionadas para comparar dos proporciones.
HIPÓTESIS: El investigador quiere analizar los cambios de opinión sobre la con-
sideración del paro como principal problema pero sin marcar el sentido de este
cambio, por lo que formula un contraste bilateral con las siguientes hipótesis nula
y alternativa:

Ho : TC20 12 = reAHORA
H¡ : TC20 12 # reAHORA

O bien:

Ha : TC20 12 = reAHORA = 0
H¡ : TC20 12 # TCAHORA # 0

ESTADÍSTICO DE CONTRASTE: Para realizar el contraste sobre dos proporciones


con muestras relacionadas, construimos, en primer lugar, la siguiente tabla con los
datos del enunciado (en negrita) deduciendo fácilmente el resto.

92
Soluciones a los ejercicios de los capítulos 3 y 4 •

" .i .
- , " •: . "'
2012-.
-,;r " .-

Otros problemas

11
193 b=40 233
Otros problemas e= 23 224 247
216 264 480

Y el estadístico de contraste es:

b-c 40-23
Z = r;--:- = 2, 14
v b + c .J40+23

REGLA DE DECISIÓN: Consultando las tablas de curva normal, observamos que la


probabilidad de obtener puntuaciones más extremas que Z = 2,14 es igual a 0,0162.
Dado que el contraste es bilateral, el nivel crítico es igual a p = 0,0162 · 2 =0,0324.
CONCLUSIÓN: Dado que el nivel crítico 0,0324 es menor que el nivel de significa-
ción «alfa» de 0,05, rechazamos la H0 con un nivel de confianza del 95%.
INTREPRETACIÓN: A partir del resultado obtenido, podemos afirmar que «La va-
loración de paro como principal problema que existe actualmente en España ha
variado en estos meses con una seguridad del 96,8% (Z = 2,14; p = 0,0324)».

SITUACIÓN 14. Retomando los mismos datos del Barómetro del CIS de sep-
tiembre de 2011 (véase siguiente tabla), el investigador desea ahora comprobar si
la percepción del paro como principal problema ha disminuido en 2012 respecto de
2011 en un porcentaje superior al 5%.

Problemas
_ Paro Clase política
económicos
2011 0,573 0,192 0,094
216 = 0 114 63
45 -=0,2375 =0,13125
480 480 480

93
• Ejercicios y problema$ resueltos y comentados, Diseño:; de investigación y análisis de datos

SOLUCIÓN:
CONDICIONES Y SUPUESTOS. Son los mismos, pero considerando ahora que la
variable dependiente son los datos del paro.
HIPÓTESIS. El investigador quiere comprobar si la percepción del paro como
principal problema ha disminuido en 2 012 respecto de 2 011 en un porcentaje su-
perior al 5%. Como está marcando el sentido de la diferencia, formula las siguientes
hipótesis nula y alternativa:

Ha : 1t2011 - n2a12 O, 05
H1 : n2 011 -11:20 12 > 0,05

ESTADÍSTICO DE CONTRASTE: Bajo la condición en la que la hipótesis nula marca


un valor O para la diferencia de proporciones, la distribución muestra! de la diferen-
cia de proporciones es la distribución normal, con media igual a D y el estadístico
de contraste es:

(p - P 2 ) - D (0,573-0,45)-0,05
Z = - . == = ==1 ===== == = = = - .== ==== = = = = == = = = = 2 , 2 6 5
P1 (1-p1) p2 (1-p2) 0,573(1-0,573) 0,45(1-0,45)
+ +
n1 n2 468 480

REGLA DE DECISIÓN: Consultando la tabla de la distribución normal, la probabi-


lidad de obtener un resultado como el observado (Z = 2 ,2 6 5}, o más extremos (el
nivel crítico p) es 0,0119.
CONCLUSIÓN: Comparando el nivel crítico p obtenido con los niveles de signifi-
cación habituales de 0,05 y 0,01 observamos que p = 0,0119 es menor de 0,05 pero
mayor de 0,01, por lo que rechazamos la Ha con un nivel de significación de 0,0 5 .
INTERPRETACIÓN: La percepción del paro como principal problema ha disminui-
do significativamente en 2 012 en un porcentaje superior al 5% respecto de 2011
(Z = 2 ,2 6 5; p = 0,0119).

SITUACIÓN 15. Uno de los factores comunes en diferentes estudios sobre la


predicción del riesgo de violencia grave en la pareja, es el consumo de drogas por
parte de alguno o ambos miembros de la pareja (Campbell, 2007). En una investi-
gación publicada bajo el título: «Variables psicosociales y riesgo de violencia grave
en parejas con abuso de sustancias tóxicas y maltrato previo» (Amor y cols., 2012),
94
Soluciones a los ejercicios de los capítulos 3 y 4 •

se aplicaba la Escala de Predicción del Riesgo de Violencia Grave contra la Pare-


ja-Revisada (EPV-R) para evaluar el grado de riesgo de violencia grave en función
del consumo de sustancias tóxicas dentro de la pareja. Para ello, se seleccionaron
dos grupos: a) parejas en los que ambos miembros consumían sustancias tóxicas,
y b) parejas en los que solo consumía sustancias tóxicas la persona agresora. Los
resultados mostraron que hay una probabilidad diferente de violencia grave (t =
2,30; p = 0,024) en aquellas parejas en las que ambos consumen sustancias tóxicas
(N = 44; Y = 20,86; Sn-1 = 9,41) en comparación con aquellos casos en los que qu n
consume sustancias tóxicas es exclusivamente la persona que agrede (N = 36; Y =
16,19; s n- 1 = 8,51).
Con los datos de este estudio:
15.1. Indique cuáles son la variable dependiente e independiente de este estu-
dio.
15.2. El tipo de contraste que se ha aplicado.
15.3. Calcule el estadístico de contraste para comprobar si las muestras provie-
nen de poblaciones con varianzas iguales.
15.4. Indique el tipo de contraste que se aplicaría para analizar «el grado de ries-
go de violencia grave en función del consumo de sustancias tóxicas dentro
de la pareja».
15.S. Interprete la significación de los resultados mostrados por Amor y colabo-
radores.
15.6. A partir de los resultados de Amor y cols. (2012) calcule e interprete los
límites del intervalo de confianza para la diferencia de medias, con un nivel
de confianza del 95%.
15.7. Con los datos de la investigación de Amor y cols., calcule e interprete el
índice «d» de Cohen para cuantificar el tamaño del efecto.

SOLUCIÓN:
15.1. Lo que se ha medido en ambos grupos de parejas (aquellas en las que ambos
miembros consumen sustancias tóxicas y aquellas en donde sólo las consume
el agresor) ha sido el EPV-R, que es la escala aplicada y constituye la variable
dependiente. Consideramos esta escala como cuantitativa y medida en una
escala de intervalo. Esta variable «depende» del consumo de sustancias tó-
xicas (la variable independiente, en este caso de tipo cualitativo) que nos ha
permitido clasificar las parejas en dos grupos.

95
a Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

15.2. Para comparar los resultados obtenidos por los dos grupos de parejas en los
resultados obtenidos en la Escala de Predicción del Riesgo de Violencia Gra-
ve contra la Pareja-Revisada (EPV-R) se aplica un contraste paramétrico para
muestras independientes (si en una pareja consumen ambos miembros sus-
tancias tóxicas se clasifica en un grupo y si consume solamente el agresor se
clasifican en el otro grupo, es decir, nunca pueden coincidir) y el contraste es
paramétrico ya que se trata de una <<t».

15.3. Para contrastar la hipótesis de si las muestras provienen de dos poblaciones


con la misma varianza aplicamos el estadístico F de Snedecor que se distribu-
ye con n 1 - 1 y n2 - 1 gl, siendo n1 y n2 los tamaños muestrales de los que se
obtienen las varianzas del numerador y denominador:

2
9,41 2
F = 512 ==8 51 2 = 1 223
1

52 '

Como clasificar a un grupo como «primero» (subíndice 1) o como «segundo>>


(subíndice 2} es arbitrario, se recomienda colocar el de menor varianza en el deno-
minador de la razón F para que este valor sea superior a la unidad. En las tablas de la
distribución F con 43 y 35 gl, el nivel crítico p asociado a este estadístico de contras-
te es superior a 0,10 (obsérvese que la F para 0,90 con 40 y 30 grados de libertad,
los más cercanos a 43 y 35, vale 1,573 que resulta superior a 1,223).

15.4. Para analizar «el grado de riesgo de violencia grave en función del consumo
de sustancias tóxicas dentro de la pareja» se aplica un contraste bilateral de
diferencia de medias, ya que el investigador no marca «a priori» el sentido de
la diferencia que espera encontrar.

15.5. Los resultados encontrados por Amor y cols. (2012) son t = 2,30 con una p =
0,024 luego 1 - 0,024 = 0,976 que en términos porcentuales es 97,6%, lo que
significa que hay una seguridad del 97,6% de que las diferencias encontradas
sean significativas.

15.6. A partir de los resultados de Amor y cols. (2012), los límites del intervalo de
confianza para la diferencia de medias, con un nivel de confianza del 95% son:

96
Soluciones a los ejercicios de los capítulos 3 y 4 •

(44-1)9,41 2 + (36 - 1)8, 512 ( 1 0,637


= ( 20 86-16 19 ) ±1 99.
I I I
44+36-2
-+-
1)
44 36
< 8,703
Por tanto, a partir de la información obtenida inferimos que la diferencia de
medias poblacional es un valor comprendido entre 0,6373 y 8,703. Este resultado
indica que si quisiéramos contrastar la hipótesis de si existen diferencias significati-
vas entre las medias formulando las hipótesis:

Ha: µ1 - µ 1 = 0
H1: µ1 - µ 2 :;t:Q

La conclusión sería rechazar la Ha ya que el intervalo de confianza no incluye el


valor O de «diferencia nula» entre las medias poblacionales.

15.7. El índice «d» de Cohen es un índice de tamaño del efecto y su cálculo es:

IYN-YAl 120,86-16,191
d = --.== ===== = ===== = = = --.== = = == = = = = = = = = O, 52
2 2
(nN -l)SN +(nA -l)SA (44-1)9,41 2 ·(36-1)8,51 2
nN +nA - 2 44+36-2

El valor de la «d» de Cohen es un índice estandarizado que señala que la diferen-


cia entre 16,19 y 20,86 en la variable dependiente es 0,52 expresada en unidades
de puntuaciones típicas. Si buscamos en la Tabla la probabilidad asociada a una Z =
0,52 obtendremos que deja por debajo una proporción de 0,6985, lo que indica una
probabilidad superior de 1 - 0,6985 = 0,3015, es decir, que el nivel de riesgo de vio-
lencia grave es aproximadamente un 30,15% superior en parejas en los que ambos
miembros consumen sustancias tóxicas respecto a la media del grupo de parejas en
los que solo consume el agresor.

97
• Ejercicios y problemas resueltosy comentados. Diseños de investigación y análisis de datos

16,19 20,86
Media del grupo en el "'- Media del grupo en el
/ " ' - que consumen los dos
que solo consume un z = 0,5178
miembro de la pareja. miembros de la pareja.

SITUACIÓN 16. «Uno de los mejores indicadores de la salud psicológica es el


auto-concepto (Esnaola, Goñi y Madariaga, 2008) que hace referencia a la idea u
opinión que cada persona tiene de sí misma». En una investigación realizada por
Esnaola y Revuelta (2009) con una muestra de 300 jóvenes de la Comunidad Autó-
noma Cántabra y País Vasco se analizan las relaciones entre la actividad física y el
auto-concepto. La edad media fue de 18,64 años y la desviación típica igual a 3,51
años. Por sus respuestas a un cuestionario sobre prácticas físico-deportivas el 69%
fueron clasificados como activos frente al resto que fueron clasificados como inac-
tivos. En la escala de auto-concepto físico, la media y desviación típica insesgada de
los inactivos fue de 22,41 y 4,1 respectivamente y en el grupo de activos, de 23, 7
y 4,83. El investigador quiere comprobar si existen diferencias significativas en la
escala de auto-concepto físico entre los sujetos activos e inactivos y el tamaño del
efecto de la actividad física sobre el auto concepto.

SOLUCIÓN:
Del enunciado extraemos la siguiente información:

Muestra total: n=300, Y ed ad =18,64; S e da d =3,51; PA c tivos =0,69-+P¡ noc tivos =0,31

Escalas de auto concepto:

98
Soluciones a los ejercicios de los capítulos 3 y 4 •

69% 0,69 X 300 = 207 23,7 4,83

31% 0,31 X 300 = 93 22,41 4,1

CONDICIONES Y SUPUESTOS: En este estudio, la variable independiente es la


actividad física que se evalúa mediante un cuestionario y que se utiliza para dividir
a los sujetos en dos grupos: activos e inactivos. La variable dependiente es el auto
concepto que se mide con un cuestionario y es una variable medida en una escala
de intervalo. Se trata de un diseño de dos muestras independientes que provie-
nen de poblaciones con varianzas desconocidas y habrá que comprobar si estas
muestras provienen de dos poblaciones con varianzas iguales o distintas, por lo que
formulamos las siguientes hipótesis previas al contraste principal sobre las medias.
HIPÓTESIS: Como paso previo al contraste de medias, hay que comprobar si las
muestras provienen de poblaciones con la misma varianza, para lo que formulamos
las siguientes hipótesis (A significa «Activo» e I significa «Inactivo»):

H0 :crA =cr,
H1: <JA:;:. cr,

O bien:

ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos


varianzas es una distribución F de Snedecor y el estadístico de contraste es:

A2 2
5A 4,83
F=-=--=138
A2 4 1 12
s,
f

99
a Ejer icios y problemas resueltos y comentados. Diseños de investigación y am11isis de datos

REGLA DE DECISIÓN: Como el investigador no fija un nivel de confianza, buscare-


mos el nivel crítico p que corresponde al estadístico de contraste obtenido, F = l,38.
En la tabla de la distribución F no figuran de forma expresa, los grados de libertad
del numerador ( n - 1 = 207 - 1 = 206) y los del denominador (n - 1 = 9 3 - 1 = 92), por
lo que lo buscaremos por aproximación a los grados de libertad más aproximados
que son 120, para el numerador y 120 para el denominador. En un contraste bilate-
ral, para un nivel de confianza del 99%, el valor que aparece en la tabla es 1,606 y
para un nivel de confianza del 95% es 1,433. Como el estadístico de contraste (F =
1,38) no alcanza estos valores críticos, el nivel crítico p del estadístico de contraste
obtenido es p > 0,05.

-------
95% - - - - - - -
·-
99% - · - - - - - -

1,433 1,606

F = 1,38; p > 0,05

CONCLUSIÓN: No se puede rechazar la H 0 ya que el nivel crítico p del estadístico


de contraste F = 1,38 es p > 0,05.
INTERPRETACIÓN: Las dos muestras provienen de poblaciones con la misma
varianza (F = 1,38; p > 0,05).
Para realizar el contraste de hipótesis sobre las medias se añade, a las CONDI-
CIONES Y SUPUESTOS anteriores, el hecho de que las dos muestras provienen de
· poblaciones con la misma varianza.
HIPÓTESIS: El investigador quiere comprobar si existen diferencias significativas
en la escala de auto-concepto físico entre los sujetos activos e inactivos. Como no
indica el sentido positivo o negativo de la diferencia, se formula un contraste bilate-
ral con las siguientes hipótesis nula y alternativa:

Ho : µ A = µ,
H1 :µA =t=-µ,

100
Soluciones¡¡¡ los ejercicios de los capítulos 3 y 4 •

O bien:

Ho : µ A - µ , = 0
H1: µA - µ, :;t O

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


entre dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero iguales (contrastado en el punto anterior) es la distribución t de
Student con gl n1 + n2 - 2 gl:

(rA-Y,)-(µA-µ,) (23,7-22,41)-o
T=--¡::========================--¡::======================
A
2 A2
(nA - l ) S A +(n, - 1 ) 5 , 206·4,832 +92·4,12
(-1-+_!_)
nA +n1 - 2 207+93-2 207 93
n n
(2-+2-)
1 2

= 2,238 2: 2,24

REGLA DE DECISIÓN: En la tabla de la distribución t de Student y con n1 + n2 - 2 gl


buscamos el nivel crítico para el estadístico de contraste T = 2,24. A partir de 100 gl
la distribución t se aproxima a la normal, por lo que deberemos recurrir a la tabla de
la distribución normal tipificada de puntuaciones Z para determinar la probabilidad
de encontrar valores más extremos de 2,24 de un contraste bilateral. Esta probabi-
lidad es de 0,0125 a cada lado.

-2,24 +2,24

CONCLUSIÓN: Como el nivel crítico pes mayor de 0,01 rechazamos la H0 con un


nivel de confianza del 95%.
TAMAÑO DEL EFECTO: El índice d de Cohen estima la magnitud del efecto o rela-
ción entre la actividad física y el auto concepto y vale:

101
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

IYA-Y,1
d --;:::========
123,7-22,411
= --;::::======= = 0, 279 = 0, 28
A2 A2
(n A - l ) S A +(n, - 1 ) 5 , 206·4,832 +92·4,12
nA + n 1 - 2 207 + 9 3 - 2

Esto indica que el 61,03% de los sujetos activos tienen un auto concepto que su-
pera la media de los sujetos inactivos. Un 38,97% de los sujetos activos no alcanzan
la media del nivel de auto concepto de los sujetos inactivos.

Media de los 22,41 23,7 Media de los


sujetos inactivos - - - sujetos activos
d = 0,28

INTERPRETACIÓN: La actividad ñsica influye sobre al auto concepto que los suje-
tos tienen sobre sí mismos, de forma que los sujetos activos tienen un auto concep-
to superior que las personas inactivas (T = 2,24; p < 0,025; d = 0,2794).

SITUACIÓN 17. «El Programa Internacional para la Evaluación de la Competen-


cia de los Adultos del 2013 (PIAAC, por su sigla en Inglés) sitúa a España en los últi-
mos puestos entre los países de la OCDE, solo por encima de Italia en comprensión
lectora. Los españoles examinados de entre 15 y 65 años obtuvieron en compren-
sión lectora una media igual a 252 puntos, 21 por debajo de la media de la OCDE
y 19 por debajo de la media de la UE. Entre sus conclusiones destaca la estrecha
relación entre los niveles de comprensión lectora de los adultos y sus posibilidades
de encontrar trabajo». Imagine que, ante estos resultados, usted diseña un trabajo
con una muestra de jóvenes de su localidad con el fin de comprobar:
17.1. Si el nivel de comprensión lectora de los jóvenes con empleo es significati-
vamente mayor que la de los jóvenes desempleados.
17.2. Si la proporción de empleados entre los jóvenes de su localidad supera en
más de quince puntos porcentuales a la proporción de desempleados.
102
Soluciones a los ejercicios de los capitulas 3y 4 •

Para ello, selecciona una muestra de 182 jóvenes de su localidad con edades
comprendidas entre 25 y 34 años, de los que el 33,5% están en situación de des-
empleo, y les aplica la misma prueba. La media y desviación típica insesgada de
los desempleados es de 251 y 115, respectivamente, frente a 289 y 92 de los que
tienen empleo.
A partir de los datos del enunciado, tenemos la siguiente información: Número
de sujetos 182 jóvenes, de los cuales:

Desempleados 33,5% 61 251 115

Empleados 66,5% 121 289 92

17.1. Para el primer contraste seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: La variable independiente es la situación laboral,


de naturaleza dicotómica, con los que forma dos grupos, empleados y desemplea-
dos, a los que pasa una prueba de comprensión lectora (la variable dependiente)
que es de naturaleza cuantitativa y medida en una escala de intervalo. Se desco-
noce la forma de la distribución de esta variable en la población y sus varianzas. Se
trata, por tanto, de un diseño de dos muestras independientes y antes de realizar
un contraste sobre las medias, debemos comprobar si las muestras provienen de
poblaciones con la misma varianza para lo que formulamos las siguientes hipótesis
previas:
HIPÓTESIS:

=
Ha:aE ao
H1:aE=l=ao

O bien:

103
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

ESTADÍSTICO DE CONTRASTE: La distribución muestra! del cociente entre dos


varianzas es una distribución F de Snedecor y el estadístico de contraste es:
A2
115 2
F= So= = 1 562
5 92 2

REGLA DE DECISIÓN: En la distribución F con 6 1 - 1 = 60 y 1 2 1 - 1 = 120 grados


de libertad figuran los valores 1,53 que deja por debajo una probabilidad de 0,975
(y por encima de 0,025) y el valor 1,656 que deja por debajo una probabilidad de
0,99 y por encima de 0,01. Puesto que el estadístico de contraste se encuentra en-
tre estos dos, el nivel crítico pes menor que 0,025 y mayor de 0,01:

-----P = 0,025
"e------ p = 0,01

1,53
F= 1,562
0,01 < p < 0,025

CONCLUSIÓN: Se rechaza la Ha con un nivel de confianza del 95%.


INTERPRETACIÓN: Podemos admitir que las dos muestras provienen de pobla-
ciones con distintas varianzas (F = 1,562; p < 0,025)
Para realizar el contraste de hipótesis sobre las medias se añade, a las CONDI-
CIONES Y SUPUESTOS anteriores, la condición de que las dos muestras provienen de
poblaciones con la misma varianza.
HIPÓTESIS: El investigador quiere comprobar si el nivel de comprensión lectora
de los jóvenes con empleo es significativamente mayor que la de los jóvenes des-
empleados para lo que formula un contraste unilateral derecho con las siguientes
hipótesis nula y alternativa:

Ha :µE s µ o
H1 : µE >µo

104
Soluciones a los ej rclcios de los capítulos 3 y 4 •

O bien:

Ho :µE-µ O :::;o
H1 :µE-µ O >0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de medias


entre dos muestras independientes que provienen de poblaciones con varianzas
desconocidas pero distintas (contrastado en el punto anterior) es la distribución t
de Student y el estadístico de contraste es:

cr- -
Y,-Y,

Siendo el error típico de la distribución muestra! de la diferencia de medias:

cr- -
Y,-Y,
=

Con lo que el valor del estadístico de contraste es:

Que se distribuye según la distribución t de Student con los grados de libertad


ajustados mediante la corrección de Welch:

105
a Ejercicios y problem¡¡s resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN: En la distribución t con 100 gl, el estadístico t = 2,24 s


encuentra entre los valores 1,984 y 2,364 que dejan por encima una probabilida
de 0,025 y 0,01 respectivamente. Por tanto, al valor t = 2,24 le corresponde un niv·
crítico mayor que 0,01 y menor que 0,025.

- p = 0,025

·- p = 0,01

t= 2,24

CONCLUSIÓN: Se rechaza la Ha con un nivel de confianza del 95%, pero no se


ouede rechazar con un nivel de confianza del 99%.
INTERPRETACIÓN: El nivel de comprensión lectora de los jóvenes con empleo es
s·gnificativamente mayor que la de los jóvenes desempleados (T = 2,24; p < 0,025).

17.2. Para el segundo contraste seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: Se trata de un diseño de dos muestras indepen-


c·entes en las que la variable la variable dependiente es de naturaleza dicotómica
con distribución binomial. Como se utiliza muestras grandes, la distribución bino-
mial se aproxima a la normal.
HIPÓTESIS: Si quiere contrastar la hipótesis de que la proporción de empleados
e"ltre los jóvenes de su localidad supera en más de quince puntos porcentuales a la
oroporción de desempleados para lo que se formulan las siguientes hipótesis nula
y alternativa:

Ha: rcf - n 0 :; 0,15


H1: nE - n 0 > 0,15

ESTADÍSTICO DE CONTRASTE: Al tratarse de muestras grandes, la distribución


muestra! de la diferencia de proporciones se aproxima a la distribución normal,
siendo el estadístico de contraste:

106
Soluciones a los ejercicios de los capítulos 3y 4 a
- p 2 ) - D = (0,665-0,335)-0,15 = 2
Z= (P1 1 43

crp.-p2 0,074

p ( 1- pi ) p2(1-p2) 0,335(1-0,335) 0,665(1-0,665)


crp,-p, = - -1 - + = + =O ' 074
n1 n2 61 121

REGLA DE DECISIÓN: Como el investigador no ha establecido un nivel de con-


fianza previo, buscamos el nivel crítico p correspondiente al estadístico de contraste
obtenido. En la tabla de la distribución normal, el valor de Z = 2,43 deja por debajo
una probabilidad de 0,9925 y por encima de 1 - 0,9925 = 0,0075.
CONCLUSIÓN: El nivel crítico obtenido es menor que los niveles de significación
habitualmente utilizados en psicología (p = 0,0075 < 0,01), por lo que rechazamos
la hipótesis nula.
INTERPRETACIÓN: la proporción de empleados entre los jóvenes de la localidad
supera en más de un 15% a la proporción de desempleados (Z = 2,43; p = 0,0075).

SITUACIÓN 18. Chaves y Noguera (2008) estudiaron la inserción laboral de los


titulados en Psicología de cinco promociones consecutivas (desde 2002 hasta 2006)
en una muestra de 531 titulados. Para las tres primeras promociones (Grupo 1), el
74% de los sujetos estaban trabajando 6 meses después de haber finalizado sus
estudios (n1 = 319), mientras que para las dos últimas promociones (Grupo 2), el
índice de inserción laboral fue igual al 80% (n2 = 212). Se pretende contrastar si la
inserción laboral difiere entre las tres primeras y las dos últimas promociones.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com-
parar si la inserción laboral difiere entre dos grupos diferentes de promociones de
estudiantes de Psicología. La variable independiente es el año de promoción y la
variable dependiente es la inserción laboral que es una variable dicotómica con
distribución binomial. Realizará un contraste de diferencias de proporciones con
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si la inserción laboral difiere entre
las tres primeras y las dos últimas promociones. Como el investigador no está mar-
107
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

cando la dirección de la diferencia formula un contraste bilateral con las siguientes


hipótesis nula y alternativa:

Ho : 1tG1 = 1tG2
H1 : 7tG1 -=fe 7tG2

O bien:

Ho : 1tG 1 - rcG 2 = O
H1 : 1tG 1 - 1tG 2 *0

ESTADÍSTICO DE CONTRASTE: La distribución muestra! de la diferencia de pro-


porciones para dos muestras independientes utilizando muestras grandes es la dis-
tribución normal y el estadístico de contraste es:

+
siendo: p = nG1P G 1 nG1 PG 2
n1 + n 2

Y su valor, es:

P-- 319·0, 74+212·0,80 (o, 7 4 - 0 , 8 0 ) - o


0,764 Z= = - 1 59
319+212
0,764(1-0,764)(-1-+-1-)
319 212

REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos la proba-


bilidad de encontrar valores tan extremos o más que el valor Z = -1,59, es decir, la
probabilidad de P(Z < -1,59) = 0,0559. Como se trata de un contraste bilateral el
nivel crítico es p = 0,0559 x 2 = 0,1118.

108
Soluciones a los ejercicios de los capítulos 3 y 4 a

Z=-1,59 Z= +l,59

CONCLUSIÓN: Como el nivel crítico p = 0,1118 es mayor que el nivel de significa-


ción a. de 0,05 no hay evidencia suficiente para rechazar la hipótesis nula.
INTERPRETACIÓN: La inserción laboral no difiere significativamente entre los dos
grupos de promociones de estudiantes de Psicología (Z = -1,59; p = 0,1118).

109
Soluciones a los ejercicios
de los capítulos 5, 6 y 7

SITUACIÓN l. Las puntuaciones obtenidas por dos grupos de diez alumnos cada

-
grupo, en el test de inteligencia Y, son las siguientes:

46 35 17 11 22 20 31 18 22
m11120 10 20 15 18 6 12 12 6 11

l . Calcule el estadístico F del análisis de varianza entre los grupos


2. Calcule el estadístico de contraste t para dos medias independientes y com-
pare el resultado con el obtenido en el apartado anterior.

SOLUCIÓN:
1.1. Tal como se pide en el enunciado del problema, vamos a calcular el estadístico
F. Para ello, previamente, elevamos al cuadrado cada una de las puntuaciones
de los grupos A y B y sumamos, por columnas, todas las puntuaciones.

113
----
• EJorcicios y problemas re!iuí;!ltos y com�mtados. Diseños de investigación y análisis de datos

40 1600 20 400
46 2116 10 100
35 1225 20 400
17 289 15 225
11 121 18 324
22 484 6 36
20 400 12 144
31 961 12 144
18 324 6 36
22 484 11 121
262 8004 130 1930

Con los resultados de esta tabla, tenemos que:

¿¿)' ¡¡= 262 + 130 = 392


¿¿)'J = 8004 + 1930 = 9934
Y calculamos las sumas de cuadrado total, intergrupos e intragrupos:

SCTotal= ¿ ¿ Y J (¿¿ y.. )2= 9 9 3 4 - - 392- = 9 9 3 4 - 7 6 8 3 , 2 = 2 2 5 0 , 8


11
2

N 20
2 2
SC/nter= ¿ [ (¿Y;j )J (¿¿Y;j ) = (-262
-+--
2
130 2 392 2
) -=871,2
- -
n ¡ N 10 10 20

SC/ntra = SCTotal - SC/nter = 2250, 8 - 871, 2 = 1379, 6

Con estos datos, construimos la tabla resumen del ANOVA unifactorial para ob-
tener el estadístico F.

114

--
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

F.V. s.c. g.l. M.C.


lnterGrupos 871,2 1 871,2 11,36
lntraGrupos 1379,6 18 76,64
Total 2250,8 19

Y el valor del estadístico es F = 11,36


a) Calculamos, ahora, el estadístico t para dos muestras independientes:

Para lo que obtenemos las medias, varianzas y cuasi-varianzas de cada grupo:

YA =262/10=26,2

s = ¿,Y;}-Y!= 8004
10
-26,2 2
=113,96
nA
-2 10
Cuasi-varianza: 5A = - -nS A2 = - - 1 1 3 , 9 6 = 1 2 6 , 6 2
n-1 10-1

Ya =130/10=13

2 ¿Y;J
Sa = - - - Y
-2
a
1930
=---13
2
=24
na 10
-2 10
Cuasi-varianza: Sa = - -nS a2 = - - 2 4 = 2 6 , 6 7
n-1 1 0 -1

Y el valor del estadístico T, es:

(26,2-13)-o
T= = 3 37
(9)(126,62)+(9)(26,67) 1 1
+
18 10 10

115
• Ejercicios y problemas resueltos y comentados. Diseflos de investigación y analisis de datos

Comparando ambos resultados, tal como nos pedía el enunciado del problema,
comprobamos que t2 = F.:

(3,37)2 = 11,36

Y recordamos que, siempre que tengamos dos grupos independientes, se cum-


ple la igualdad de t2 = F entre el resultado del análisis de varianza y del estadístico t.

SITUACIÓN 2. Aplicando tres métodos de educación compensatoria a tres


muestras aleatorias de una determinada población se obtuvieron los siguientes re-
sultados:

Método A 2 4 3 8 6 7 3 5 7 5
Método B 5 6 5 9 7 10 5 7 9 7
MétodoC 2 3 4 1 4 6 2 3 5 o

Sabemos que las observaciones son independientes, las varianzas homogéneas


y la variable se distribuye normalmente. El investigador quiere probar que los tres
métodos producen resultados distintos pero, sobre todo, considera que le intereSc
ver la diferencia entre el método B y los demás, dado que está especialmente inte-
resado en ese método.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Dado que tenemos tres muestras independientes
vamos a aplicar un análisis de varianza de un solo factor. El enunciado dice que s:
cumplen los supuestos de independencia de las observaciones, normalidad de lzs
distribuciones y homogeneidad de las varianzas que son los que exige el ANO\
unifactorial.
HIPÓTESIS ESTADÍSTICAS: Como solo hay un factor, solo podemos formular ur =-
hipótesis para comprobar si la variable independiente, el método de educación, ce-
sus tres niveles (A, B y C), influye sobre los resultados. Si los métodos son igual e:
eficaces, entonces las medias serán iguales, por lo que las hipótesis nula y alterna-
tiva son:

116
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Ho :µA = µ 8 =µe
H1 : µ A * µ8 *µe al menos para unaµ ¡

ESTADÍSTICO DE CONTRASTE:

F = MCinter
MCintra

------
Para el cálculo de las sumas de cuadrados, sumamos todas las puntuaciones y
sus cuadrados, que figuran en la siguiente tabla:

2 4 5 25 2 4
4 16 6 36 3 9
3 9 s 25 4 16
8 64 9 81 1 1
6 36 7 49 4 16
7 49 10 100 6 36
3 9 5 25 2 4
5 25 7 49 3 9
7 49 9 81 5 25
5 25 7 49 o o
so 286 70 520 30 120

SCTotal=¿¿Y¡f-
(¿¿Y--)11 2 = ( 2 8 6 + 5 2 0 + 1 2 0 ) - ( s o + 70+3o) 2
=926-750=176
N 30
2 2
'ictnter= ¿ [ (¿Y¡j
)J - (¿¿Yij )= ¿ (so 2
+ 70 2 + 30 2
) -750=80
n; N 10

ictntra = SCTotal-SC/nter = 1 7 6 - 8 0 = 9 6

Con estos datos, completamos la tabla y obtenemos el estadístico F

117
• Ejerciciosy problemas resueltosy ca otádos. Diseños de investigación y análisis de datos

-----------------------------il
, . - . , , . , , ,• .¡,,, •

F.V.
------r! - M.C;
lnter 11,26
lntra
Total
1

r REGLA DE DECISIÓN: El valor crítico que obtenemos en

1 1
2
161,448
18,513
1 2

199,ºº
19, 00
las tablas de la distribución F para 2 y 27 grados de libertad
con un nivel de confianza del 95%, no figura expresamente
en la tabla. Sólo podemos conocer dos valores entre los
3 10,128 9, 52
que se encuentra el valor buscado:
4 7,709 6, 44
5 6,608 5, 86

F2, 2 0 = 3,493
6 5,987 5, 43
1 5,591 4, 37
8 5,318 4, 59 F2,30 = 3,316
17 4,451 3, 92
18 4,414 3, 55 Si tuviéramos que optar por un valor elegiríamos el más
19 4,381
20 4,351
cercano a los grados de libertad nominales. En este caso,
30 4,171 27 grados de libertad están más cerca de 30 que de 20 por
60 4,001 3,150
120 3,920 3,072
lo que aceptaremos 3,316. El estadístico de contraste ob-
tenido, 11,26 supera ampliamente ambos valores.
CONCLUSIÓN: Rechazamos la hipótesis nula porque el valor del estadístico de
contraste (11,26) supera el valor crítico que representa la máxima diferencia que
cabe esperar por simple azar entre los dos grupos.
INTERPRETACIÓN: Con un nivel de confianza del 95% debemos considerar que
al menos dos de los tres métodos de educación compensatoria influyen de forma
distinta en los resultados obtenidos.
COMPARACIONES MÚLTIPLES: Dado que hemos rechazado la hipótesis nula,
realizaremos las comparaciones múltiples, primero entre las tres medias, para ver
entre qué métodos se encuentra la diferencia y para poder contestar a la pregunta
del investigador a quien le interesa ver la diferencia entre el método B y los demás,
dado que está especialmente interesado en ese método realizaremos la compara-
ción del método B contra los métodos A y C juntos.

118
Soluciones a los ejercicios dg los capítulos 5, 6 y 7 •

Donde, n = 1 0 (modelo equilibrado) k = 3 YA = 5 Y8 = 7 Ye = 3 MCe rror = 3 ,5 5


y el F crítico obtenido en las tablas ha sido f2,30 = 3 ,3 16 (aunque el valor exacto que
se puede obtener con un programa informático es: !2,27 = 3 5
3, )
Coeficientes para las comparaciones:

Comparaciones Coeficientes
AyB 1 -1 o
AyC 1 o -1
ByC o 1 -1
By (A+C) -1 2 -1

1
CRscheffé ( 3 - 1) ( 3 , 3 1 6 ) ( 3 , 5 5) ( ( + =(2, 5 7 5 ) ( 0, 8 4 3 ) = 2, 1 7
10 1 ))

Este valor, 2, 1 7 1, es la mínima diferencia que puede producirse entre dos me-
dias para que no sea significativa. Cualquier diferencia mayor, sería significativa al
nivel de significación establecido.

IA-81 = I S - 71= 2 <2,1 7


I A - C l = I S - 3 1= 2 <2,1 7
I B - C l = l 7 - 3 l= 4 >2, 1 7

Vemos, pues, que sólo la diferencia entre el método B y el Ces significativa pero
no entre A y B o A y C que no superan la máxima diferencia de Scheffé.
Si comparamos, como quiere el investigador, el método B con los otros dos jun-
tos, el contraste tendrá que combinar los grupos B y C y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo A, de tal forma que la hipó-
tesis nula tendrá la siguiente expresión:

Que también se podría reescribir de la siguiente forma:

119
• Ejercicios y problemas tesueltos y comentados. Diseños de inve&tigación y .análisis de datos

O de esta otra, si utilizamos números enteros:

De la formulación de la hipótesis y respetando este orden, los coeficientes a utili-


zar pueden ser: (1;-0,5:-0,5) o bien (2, -1; -1), o bien (-1; 0,5; 0;5) o cualquier otra
combinación que respete las condiciones de que los grupos A y C tengan coeficien-
tes con el mismo signo, el grupo B tendrá el signo contrario e igual a la suma de los
coeficientes de los otros grupos, de forma que la suma de todos ellos sea «nula», es
decir, valga O, para finalmente aplicar la expresión de la prueba de Scheffé:

CRscheffé (3-1)(3,316)
10
2 (-1) 2 (-1) 2
(3,55) [(2- + - - + - -
10 10
J =(2,575)(1,46)= 3, 76

l(2)Ya + ( - l ) Y A + ( - l ) Y c l = J ( 2 ) ( 7 ) + ( - 1 ) ( 5 ) + ( - 1 ) ( 3 ) J = 6 > 3, 76

Por lo tanto vemos que el Método B produce resultados significativamente dis-


tintos que los métodos A y C tomados conjuntamente.

SITUACIÓN 3. Se realizó un estudio para evaluar el efecto de la falta de sincro-


nía entre las claves visuales y auditivas en la retención de palabras habladas. Para
ello se asignaron aleatoriamente 30 sujetos a tres grupos distintos (10 sujetos en
cada grupo). A cada grupo se le mostró una película de una persona recitando una
lista de 50 palabras. Las condiciones que se manipularon fueron:

Grupo 1 (rápido): el sonido precedía a los movimientos de los labios.


Grupo 2 (normal): el sonido y el movimiento de los labios estaban en sincronía.
Grupo 3 (lento): Los movimientos de los labios precedían al sonido.

Asumiendo que se cumplen los supuestos del Anova, el investigador se planteó


si existían diferencias en la tasa de recuerdo promedio de palabras entre estos tres
grupos. Los resultados obtenidos fueron:

120
Soluciones a los ejercicios de los capftulos 5. 6 y 7 •

SSA = S SEn tre _niveles =233,867; SSs/ A = SSoentro_niveles = 535, 60

3.1. Contraste la hipótesis del investigador con un nivel de confianza del 95%.
3.2. Analice nuevamente los datos con un nivel de confianza del 99%.

SOLUCIÓN:
3.1. CONDICIONES Y SUPUESTOS: Se trata de un diseño experimental en el que
se ha manipulado una variable independiente (un único factor) que, en este
caso, es la sincronía entre el movimiento de los labios y el sonido cuando se
pronuncian palabras. En la vida real vemos a las personas hablando al mismo
tiempo que las oímos. No hay asincronía entre la voz y la imagen excepto en
condiciones anómalas de mal funcionamiento de los equipos informáticos. Sin
embargo también podemos introducir estas anomalías mediante técnicas in-
formáticas para estudios como este. lnformáticamente es posible adelantar o
atrasar el sonido en relación al vídeo. La pregunta que se planteaban los inves-
tigadores es en qué medida esta asincronía afecta a la memoria de las palabras
pronunciadas. Por consiguiente, la variable dependiente es una medida de la
memoria.
Finalmente, y según el enunciado, se asume el cumplimiento de los tres supues-
tos: independencia, normalidad y homocedasticidad.
HIPÓTESIS: Las medias de recuerdo en las tres condiciones son idénticas.

Ho : µG ,upol = µG,upo2 = µG ,upo3


H1: µG ,upol ;t: µG,upo2 ;t: µGrup o 3 , para algún µ¡ :/= µ¡

En la hipótesis alternativa hemos introducido los subíndices i y j para indicar un


valor cualquiera de los que pueden adoptar las medias (Grupal, Grupo2 y Grupo3).
Esta hipótesis puede leerse indicando que para algún valor de i y j distintos entre
sí (obviamente no tiene sentido comparar un grupo consigo mismo), sus medias
difieren. Como tenemos tres grupos, las comparaciones uno-a-uno sólo pueden ser
tres: Grupal vs. Grupo2, Grupal vs. Grupo3 y Grupo2 vs. Grupo3.
ESTADÍSTICO DE CONTRASTE: El estadístico de contraste es la razón F entre la
variabilidad debida al factor manipulado y la variabilidad debida al error.
En el enunciado nos proporcionan dos sumas de cuadrados (SC), las cuales, jun-
to con los grados de libertad que podemos deducir del diseño experimental y del
número de sujetos, nos permitirán construir la Tabla del Anova, que es la base de
121
• l!:jercicios y problemas resueltos y comentados. Diseffos de investigación y análisis de datos

este análisis. Pero las SC nos las presentan como SS, lo cual no es problemático ya
que son los términos que se utilizan en inglés (SC = Sumas de Cuadrados, SS= Sum
of Squares). Es muy habitual la utilización de la terminología SS en los módulos
informáticos al uso. De la misma forma, a veces podremos ver el resto de términos
con sus iniciales inglesas. Así, MC = Medias Cuadráticas es idéntico a MS = Mean
Squares, mientras que gl = grados de libertad es idéntico a dof = degrees of free-
dom.

- --
El diseño nos indica que tenemos un análisis factorial de un factor con tres nive-
les. La tabla del anova será:

Fuentes de variación
lnter (factor manlpulado) 233,867 1-1=3-1=2 116,934 5,895
lntra (error) s.3.S....6Q N -1 = 3 0 - 3:;: 27 19,837
Tot I 769,467 N - 1 = 30 - 1 :;: 29

Hemos puesto en negrita y subrayado los datos proporcionados por el enuncia-


do y el resto han sido extraídos según los siguientes cálculos:

233, 8 6 7 = 116
MC-mte r = SCinte r = , 934
g /in ter 2

MC-mt ra = SCin tra = 535, 60 =19 , 837


g/intra 27
MC in ter - 11 6 , 934
F- - 5 8 95
19,837
- MCin tra - - '
Por tanto, el estadístico de contraste F, vale aproximadamente 5,89.
REGLA DE DECISIÓN: Para determinar si esta variabilidad es superior a la que se
esperaría por azar debemos buscar en las tablas de la razón F con los mismos grados
de libertad del Anova (2 y 27) y con un nivel de confianza del 95%. Podemos obser-
var que no se encuentra exactamente el valor con 2 y 27 grados de libertad. Sólo
podemos conocer dos valores entre los que se encuentra el valor buscado:

F2 ,20 = 3,493
F2 ,30 = 3,316

122
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Y ambos se encuentran por debajo del valor del estadístico de contraste calcula-
do (5,895) por lo que no hay incertidumbre en la decisión a tomar.
CONCLUSIÓN: Debido a que la F empírica obtenida en la tabla del Anova (5,895)
es superior a las F críticas que hemos obtenido de las tablas, podemos rechazar H0
con un nivel de confianza del 95%.
INTERPRETACIÓN: Existen, al menos, dos grupos en el experimento cuyas medias
son diferentes (F = 5,895; p < 0,05). La razón F obtenida se dice que es un estadístico
global u ómnibus ya que sólo nos indica que existen diferencias significativas pero
no nos permite determinar entre qué par de grupos se producen estas diferencias.
Sería interesante realizar comparaciones a posteriori pero en este caso descono-
cemos las medias de las muestras a comparar. No obstante, sí es interesante referir
los valores de los pesos, o coeficientes, para poner a prueba la hipótesis a poste-
riori más interesante: que el recuerdo se muestra afectado por la asincronía de los
índices auditivos y visuales, sin importar su dirección. Es por ello que en este caso,
deberíamos comparar las condiciones «asincrónicas» versus las «no sincrónicas».
Vemos que los grupos 1 y 3 son condiciones asincrónicas y el grupo 2 es sincrónica.
Por ello, el contraste tendrá que combinar los grupos 1 y 3 y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo 2. Para ello, y respetando
el orden (CoeficienteGrupol' Coeficiente G ru p oi ' CoeficienteGrupo3), se pueden utilizar

los coeficientes (-1,-1) (i,-1, ) (-%,1,-%)


2, o bien o bien o cualquier otro

que respete las condiciones de que los grupos 1 y 3 tengan pesos con el mismo sig-
no, el grupo 2 tenga el signo contrario y la suma de los coeficientes valga O.

3.2. Con un nivel de confianza del 99%, tanto los supuestos como la Tabla del Anova
son idénticas ya que el nivel de confianza sólo afecta al criterio de decisión.
t
CRITERIO DE DECISIÓN: Debemos consultar el valor de la F críi ca en la Tabla de
la F con un Nivel de Confianza del 0,99.

123
• Ejercicios y problemas resueltos y comentados. Diseí'los de investigación y análisis de datos

r--
1
P(Fn l 'nJ 5afn.,, ) 0, 9 9
Tenemos el mismo problema que hemos
discutido previamente cuando intentamos
1 '

2 3 4
encontrar el valor de la F crítica con 2 y 30
4052,181 5403,352 5624,583
2 98,503 99,166 99,249 grados de libertad para un nivel de confian-
3 34,116 29,457 28,710 za del 95%. Por consiguiente, tomaremos la
21,198 16,694 15,977
5 16,258 12,060 11,392 misma decisión: aproximar al valor más cer-
cano según los grados de libertad. En este
11 9,646 6,217 5,668
"2 12 9,330 5,953 5,412 caso elegiremos F(2, 30) = 5,390. Sabemos
13 9,074 5,739 5,205 que el verdadero valor es un poco superior
14 8,862 5,564 5,035
15 8,683 5,417 4,893
a 5,390 pero sin llegar a 5,849 (se encuentra
16 8,531 5,292 4,773 en un punto entre ambos).
17 8,400 5,185 4,669
18 8,285 5,092 4,579 Observamos que incluso en esta situa-
19 8,185 5,010 4,500
ción, con un nivel de confianza tan elevado,
20 8,096 4,938 4,431
30 7,562 4,510 4,018 seguimos rechazando H0 ya que el estadísti-
60 7,077 4,977 4,126 3,649 co de contraste, 5,895 supera el valor crítico
120 6,851 4,787 3,949 3,480
5,390 que representa la máxima diferencia
que cabe esperar por simple azar.

SITUACIÓN 4. En la Tabla se presentan los datos referidos a las tasas de crimi-


nalidad de distintas ciudades americanas. Las ciudades están clasificadas según su
especialización funcional: ciudades industriales, de servicio o administrativas. Nivel
de confianza: 95%.

Tipo de ciudad
Industrial Servicios Administrativa
4,3 5,1 12,5
2,8 6,2 3,1
12,3 1,8 1,6
16,3 9,5 6,2
5,9 4,1 3,8
7,8 3,6 7,1
9,1 11,2 11,4
10,2 3,3 1,9

¿Y 68,7 44,8 47,6


2
¿Y 725,81 324,04 405,28

124
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Analice y extraiga las conclusiones de estos datos según el diseño apropiado.


¿Existen diferencias en la tasa de criminalidad entre las ciudades industriales y
las de servicios?

SOLUCIÓN:
Observamos que nos han proporcionado los datos directos de la variable depen-
diente: Tasa de criminalidad. La unidad de observación es la ciudad (cada ciudad
tiene su propia tasa de criminalidad) y cada ciudad solo puede tener una única tasa
de criminalidad en un momento determinado. Además, considerando que las ciu-
dades se han clasificado en tres categorías exhaustivas (industriales, de servicios o
administrativas) en función de su actividad comercial principal, cada valor numérico
proporcionado en la tabla solo puede pertenecer a una ciudad. Esto significa que te-
nemos un factor de medidas o muestras independientes con tres niveles. Debemos
aplicar un Anova de medidas independientes con tres niveles.
CONDICIONES Y SUPUESTOS: Asumimos que el modelo es de efectos fijos ya
que sólo nos interesan los niveles concretos de ciudades expuestos en la Tabla. Los
supuestos son los propios del Anova (independencia de las observaciones, norma-
lidad y homocedasticidad). La variable dependiente es de razón ya que es una tasa
cuyo valor O es significativo e indica ausencia de criminalidad.
HIPÓTESIS: La hipótesis nula afirma que no existen diferencias en las tasas de
criminalidad entre los tres tipos de ciudades, es decir:

Ho : µindustria l = µservicios = µa dministrativo

Frente a la alternativa que formula que existen diferencias significativas entre, al


menos, dos de ellas:

H1 : µindustria l * µservic ios * µa dminis trativa ; para al menos dos de ellas

ESTADÍSTICO DE CONTRASTE: Además, nos han facilitado los cálculos dándolos


los sumatorios de Y y de Y2 . A partir de los mismos debemos calcular las Sumas de
Cuadrados de la Tabla del ANOVA. En este ejercicio utilizaremos las razones básicas.

2
T2 (:z:: =1A i r (6 8 , 7+44,8+47,6) 25.95 3 ,2
= =
[T] N 3 =
8 +8
+ 8
= 24 =1081, 3 8
Ii"'Pi

125
• Ejercicios y problemas resueltos y comentados. Diseños de investigacion y ana lisis de datos

3 2)
68•7 2 44•8 2 4716 2
[A]=¿ ( = + + =589,961+250,88+283,22=1124,06
i=l n; 8 8 8

[Y]= ¿ ¿ Y ; J =725,81+324,04+405,28=1455,13

A partir de estos valores podemos calcular las sumas de cuadrados:

SCrotal = [ Y ] - [ T ] = 1455,13-1081,38 =373, 75

SC1 n ter = [A ] - [ T ] =1124,06-1081,38 = 42,68

SC1n tra = [ Y ] - [ A ] = 1455,13-1124,06 = 331,07

Verificamos que la SCtotal es la suma de las SCin ter y la SCin tr a · Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili-
brado con 3 x 8 = 24 unidades de observación en total y 3 niveles del factor).
Hemos obtenido en la Solución una razón F empírica de 1,35. El valor crítico de
la F al 95% de confianza con 2 y 21 grados de libertad no aparece exactamente en
la tabla del formulario, pero tenemos un valor muy aproximado (F2 , 20) cuyo valor
es 3,493.
REGLA DE DECISIÓN: Rechazaremos H0 si el valor de la F empírica obtenida con
nuestros datos y que aparece en la Tabla del Anova es superior a la F crítica obteni-
da en las tablas de la F de Snedecor-Fisher para un nivel de confianza del 95%.
CONCLUSIÓN: Como el valor de la F empírica (el estadístico de contraste) es in-
ferior al valor de la F crítica (1,35 < 3,493) no hay evidencia suficiente para rechazar
la H0 .
Una consecuencia derivada de este resultado es que no es posible contestar
positivamente a la pregunta acerca de si existen diferencias entre las ciudades in-
dustriales y las de servicios. Solamente en el caso en que hubiésemos rechazado H0
tendría sentido plantearse esta pregunta realizando la prueba de Scheffé.
INTERPRETACIÓN: No existe evidencia empírica para afirmar que la tasa de cri-
minalidad depende del tipo de ciudad en que viven las personas.

SITUACIÓN S . Diversos estudios ponen de manifiesto que las enfermedades de


tipo alérgico se ven agravadas por la presencia de fuerte estrés. Además, la época
126
y análisis de datos Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

del año parece afectar de forma decisiva a la gravedad de los trastornos alérgicos.
- 283, 22 ==1124, O! En un estudio se ha utilizado una muestra aleatoria de 5 pacientes alérgicos (todos
con el mismo tipo de alergia) sometidos todos ellos a condiciones de alto estrés. Un
grupo de especialistas ha evaluado la gravedad de la alergia de cada paciente (en
una escala de O a 10) en los cuatro periodos estacionales: primavera, verano, otoño
e invierno. Para analizar estos datos, el investigador utilizó un ANOVA cuyas razones
_adrados: básicas aparecen a continuación (utilice un a = 0,05):

[A X S]
s s
'-- -9_1_º -ª- _ 2_, - 9_4_º ·
Analice y extraiga las conclusiones de estos datos según el diseño apropiado.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio ha utilizado solo 5 participantes proce-
dentes de una misma población caracterizada porque padecen alergia y alto estrés,
y ha medido la gravedad de la alergia (variable dependiente) en cuatro periodos
estacionales. Esto significa que para cada participante disponemos de 4 puntuacio-
nes, una en cada periodo. Por consiguiente, se trata de muestras relacionadas o de-
pendientes ya que las observaciones de cada estación pertenecen al mismo sujeto.
la variable manipulada ha sido el periodo estacional. Es un diseño de un factor de
medidas dependientes con 4 niveles: primavera, verano, otoño y verano.
las condiciones que deben cumplir los datos son los propios correspondientes
a un diseño intra-sujetos:
l . la variable dependiente se encuentra medida a un nivel mínimo de intervalo.
Debido a que los especialistas han medido la alergia en una escala (asumimos
que continua) del O al 10, podemos afirmar se cumple el supuesto. Aunque
no podemos afirmar que si un especialista ha puntuado la alergia de un suje-
to en una estación como cero significa ausencia absoluta de alergia ya que la
medición es subjetiva, al menos podemos confirmar el nivel de intervalo en
la medida de la variable dependiente.
2. las puntuaciones de alergia en cada estación son independientes entre sí.
3. las puntuaciones de alergia en cada estación deben distribuirse según la cur-
va normal.
4. las varianzas de las puntuaciones en alergia deben ser iguales entre sí.
S. las covarianzas entre cada par de niveles del factor deben ser iguales entre sí.
127
• Ejercicios y problmas resueltos y comentados. Diseños de investigación y análisis de datos

HIPÓTESIS: la hipótesis nula que se pone a prueba es que no existen diferencias


en la alergia en función de los periodos estacionales.

Ha: µp rimavera = µv erana = µata ña = µin v iern o

Mientras que la hipótesis alternativa afirma que, al menos para un par de esta-
ciones, sí existen diferencias. Como existen 4 estaciones, se plantea que alguna de
las 6 comparaciones posibles es significativa, es decir, que en alguna de ellas {o en
varias) existen diferencias en la magnitud de la alergia.

H1 : µp r ima vera * µ vera na * µa ta ña * µin viern o al menos para un par de medias

ESTADÍSTICO DE CONTRASTE: Para el cálculo del estadístico de contraste, F, parti-


mos de los datos que nos proporcionan en el enunciado. Estos son las razones básicas
del factor {A), de los sujetos {S), de la interacción entre ambos {AS) y del total (T). Con
ellas se pueden construir las Sumas de Cuadrados necesarias para construir la tabla
del Anova de grupos relacionados o dependientes. En la primera tabla hemos amplia-
do las razones básicas con el cálculo de las Sumas de Cuadrados correspondientes.

Razón básica Fórmula de las se Cálculo de las se


[AJ= 910 SCA = [A] - [T] SC A = 910-84 5 = 65
[S] = 852,5 ses = [SJ - [Tl ses= 852,5 - 845 = 7,5
[AxS] = 940 SCA xS = [AxS] - [A] - [S] + [T] SC A xS = 940 - 910- 85 2,5 + 845 = 22,5
[T] = 845 SC T = [AS] - [T] SCr = 940 - 845 = 95
'--·---------

Estos resultados nos permiten construir la tabla del Anova considerando que
tenemos 4 niveles del factor (a= 4) y tenemos 5 sujetos (s = 5).

1

[sujeto; (S) J
"J
7, 5
g.d.l.

a-1=4-1=3
s-1=5-1=4
21,667
1,875
21,67 / 1,875 = 11, 5 6

{a.s)-o-s+l=
Error (A><S) 7, 5 1,875
(4x5)- 4 _ 5 + 1 = 12
r. Total 95 N - l = 20 - 1= 19 5
l- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - '

128
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

El estadístico de contraste es la razón F con 3 y 12 grados de libertad a un nivel


de confianza del 95%. Según las tablas este valor es F3 ,12,95% = 3,490.
REGLA DE DECISIÓN: El valor crítico de la distribución muestra! es F = 3,490 y
observamos que el estadístico de contraste supera el valor crítico (11,56 > 3,490).
CONCLUSIÓN: Rechazamos H0 con un nivel de confianza del 95%
INTERPRETACIÓN: Existen, al menos, dos estaciones en las que los síntomas de
alergia de las personas difieren entre si (F = 11,56; p < 0,05 ).

SITUACIÓN 6. El director de la Escuela de Ajedrez estaba interesado en identifi-


car la mejor estrategia de control de la atención (durante las partidas) para entrenar
a los alumnos en la utilización de la más adecuada. Se han estudiado tres estra-
tegias: centrarse en estímulos internos (A), centrarse en estímulos externos (B) y
hacer una parada de pensamiento((). El control de la atención se ha operativizado
mediante una variable fisiológica (variaciones en la actividad eléctrica de la piel). Se
seleccionó una muestra aleatoria compuesta por 45 jugadores de ajedrez, que se
asignaron al azar, y por igual, a cada una de las tres condiciones experimentales. Se
obtuvieron los siguientes resultados:

Media suma Y : L Y sc:¿Y 2


A 15 37 555 22350
B 15 34 510 18300
e 15 47 705 35295

Tras realizar todas las comprobaciones necesarias se concluyó que las observa-
ciones eran independientes, las distribuciones normales y las varianzas homogé-
neas y el investigador quiere comprobar si las estrategias de control de la atención
influyen sobre el rendimiento de los jugadores.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Disponemos de una variable independiente {la
estrategia de control ) con tres niveles o valores y se quiere estudiar su influen-
cia sobre la atención en los jugadores de ajedrez. Se forman al azar tres muestras
indpendientes de 15 sujetos cada una. Se trata, por tanto, de un diseño factorial
equilibrado en la que se cumplen los supuestos del ANOVA.
129
• Ejercicios y problemas resueltos y comentados. Dsefíos de investigación y análisis de datos

HIPÓTESIS ESTADÍSTICAS: Se trata de un contraste bilateral ya que el investigador


no ha establecido previamente que alguna estrategia produzca mejores resultados
que otra. La hipótesis nula establece que no existen diferencias entre los tres tipos
de estrategia, frente a la hipótesis alternativa de que, al menos, para un para de
estrategia sí existen diferencias significativas.

Ha :µA = µ s =µe
H 1 : µ A * µ 8 *µe¡, para algún par

ESTADÍSTICO DE CONTRASTE: Además, nos han facilitado los cálculos dándolos


los sumatorios de Y y de Y2 . A partir de los mismos debemos calcular las Sumas de
Cuadrados de la Tabla del ANOVA. En este ejercicio utilizaremos las razones básicas.

[T]= TN
2
)' J s s s + S l O + 705)
jz:'.;t; 2
25953, 2
= 69620
15+15+15 45
L;=Pi
3 2
555 2 510 2 705 2
[ A ] = ¿ [ -A 1 J = - + - + - = 7 1 0 1 0
i=l n; 15 15 15

[Y]= ¿¿J;J = 22350 + 18300 + 35295 = 75945

A partir de estos valores podemos calcular las sumas de cuadrados:

SCTo ta l = [Y]-[ T]= 75945 - 69620 = 6325


SC1n te r = [A ] - [ T ] = 71010-69620 = 1390
SC 1n tra = [ Y ] - [ A ] = 75945- 71010 = 4935

Verificamos que la SCtotal es la suma de las SC inter y la SC i ntra· Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili-
brado con 3 x 15 = 45 jugadores de ajedrez en total repartidos a 3 niveles del factor).

Fuentes de Sumas de Grados de Medias


variación Cuadrados libertad Cuadráticas
lnter 1390 3-1=2 695 0,28
lntra 4935 4 5 - 3 = 42 2467,5
Total 6325 4 5 - 1 = 44

130
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

REGLA DE DECISIÓN: Hemos obtenido en la solución una razón F empírica de


0,28. El valor crítico de la F al 95% de confianza con 2 y 42 grados de libertad no
aparece exactamente en la tabla del formulario por lo que buscamos los más apro-
ximados que son (F2, 30) cuyo valor es 3,316 y (F2 •60) = 3,15.
CONCLUSIÓN: Como el valor obtenido del estadístico de contraste, F, no supera
el valor crítico, no se puede rechazar la H0 .
INTERPRETACIÓN: No existen diferencias significativas entre las distintas estra-
tegia para la mejora de la atención de los jugadores de ajedrez (F = 0,28; p > 0,05).

SITUACIÓN 7. Para estudiar el efecto del paso del tiempo sobre la calidad del
recuerdo, se realiza un estudio en el que a un grupo de 9 personas seleccionadas de
forma aleatoria se les presenta una historia escrita que deben memorizar durante
20 minutos. Terminado el tiempo de memorización, se dejó transcurrir una hora y
se pidió a los 8 sujetos que escribieran la historia que habían intentado memorizar.
Un grupo de expertos evaluó la calidad del recuerdo de cada sujeto. Transcurrido
un día se volvió a pedir a los sujetos que realizasen la misma tarea, y lo mismo se
hizo al cabo de una semana y al cabo de un mes, obteniendo los resultados de la
siguiente tabla:

7 7 4
6 7 5
8 6 5
9 5 3
7 7 4
8 7 4
7 6 2
8 7 3

Con estos datos, compruebe el efecto del paso del tiempo sobre la calidad del
recuerdo.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El experimento se realiza sobre una muestra de
ocho sujetos a los que se les evalúa la calidad del recuerdo {la variable dependiente)
en tres momentos distintos (pasado 1 día, 1 semana y 1 mes) que es la variable in-

131
• Ejercicios y problemas resueltos y comehtados. Diseños de investigación y análisis de dato s

dependiente seleccionada por el experimentador. Se trata de un diseño intrasujetos


o de muestras relacionadas y la técnica a aplicar sería un ANOVA unifactorial intra-
sujetos de efectos fijos. Para ello, la variable dependiente {la calidad del recuerdo)
debe ser una variable cuantitativa, con distribución normal y varianza constante en
cada una de las condiciones. Las observaciones son independientes entre sí.
HIPÓTESIS ESTADÍSTICA: La hipótesis nula dirá que el paso del tiempo no influye
sobre la calidad del recuerdo, es decir:

Y la hipótesis alternativa, niega la anterior, para indicar que el paso del tiempo sí
influye sobre la calidad del recuerdo:

H1: µ10 *µ1 5 *µ1 M, para al menos dos de ellas

ESTADISTICO DE CONTRASTE: A partir de los datos de la tabla, obtenemos los


cuadrados de cada puntuación, sus sumas y sumas de los cuadrados, por columnas
para cada nivel de tratamiento y por filas para cada sujeto:

DATOS ORIGINALES CUADRADOS


ld ls lm ld ls lm s 52

Suj 1 7 7 4 49 49 16 18 324
Suj 2 6 7 5 36 49 25 18 324
Suj 3 8 6 5 64 36 25 19 361
Suj 4 9 5 3 81 25 9 17 289
Suj 5 7 7 4 49 49 16 18 324
Suj 6 8 7 4 64 49 16 19 361
Suj7 7 6 2 49 36 4 15 225
Suj 8 8 7 3 64 49 9 18 324
A¡ 60 52 30 456 342 120 142 2532
A?1 3600 2704 900

A partir de estas puntuaciones y sus cuadrados, obtenemos las razones básicas:

132
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

= 602+522+302
[A]=¿A =900,5
s 8

[AS]= ¿A = 4 9 + 4 9 + 1 6 + 3 6 + 4 9 + 2 5 + 6 4 ... =456+342+120=918

¿ S ( 324+324+361+289+ ... 2532


[S]= = = =844
a 3 3

[T]=
(¿ASij
as
t =
(60+52+30}2 =840,17
3·8

Y las sumas de cuadrados son:

SeT = [ A S ] - [ r ] =918-840,17 = 77,83

SeA = [A ] - [ r ] =900,5-840,17 = 60,33

ses=[ s ] - [ r ] = 844-840,17 = 3,83


se( AxS) = [A S ] - [ A ] - [ SA] + [r] = 918-900,5-844 + 840,17 = 13, 67

-- --
Para finalmente construir la tabla del ANOVA intrasujetos:

g.l.
[A]-[T] = Factor A 60,33 o-1 = 2 30,167 30,9
[S]-[T] = Sujetos 3,83 s-1 = 7 0,547 0,561
[AS]-[A]-[S]+[T] = A><S 13,67 (a--l){s-1) = 14 0,976
[AS]-[T] = Total 77,83 N-1= 23

REGLA DE DECISIÓN: Con 2 y 14 gl y un nivel de confianza del 95%, el valor crí-


tico para tomar una decisión respecto a la hipótesis nula es 3, 74 y con un nivel de
confianza del 99% es 5,564.
CONCLUSIÓN: Como el estadístico de contraste supera el valor crítico tanto al
95% como al 99%, rechazamos la hipótesis nula.
INTERPRETACIÓN: El paso del tiempo afecta a la memoria (F = 30,9; p < 0,01)

133
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SITUACIÓN 8. En un trabajo publicado por García Leivo, P; Gómez Jacinto, L y


Canto Ortiz, JM, {2001) se analizo los diferencias de género ante situaciones desen-
cadenantes de celos, encontrando que los mujeres presentan mayor molestar que
los hombres ante lo infidelidad emocional (pérdida de atención, cuidado y protec-
ción que la parejo dirige hacia otro persono), no existiendo diferencias significativas
ante la infidelidad sexual, que es lo que más celos e ira genera tanto en hombres
como en mujeres.
Imagine que está usted interesado en comprobar si las diferencias entre hom-
bres y mujeres ante la infidelidad emocional es la misma para diferentes grupos
de edad. Para ello, selecciona una muestra de 30 personas con relación de pareja
estable y con la misma proporción de hombres que de mujeres con los que forma
tres grupos de edad: jóvenes (entre 18 y 35 años), medianos (entre 36 y 55 años)
y mayores (más de 56 años). Todos ellos contemplan un escenario de infidelidad
y posteriormente responden al cuestionario de reacciones emocionales de Shac-
kelford, T y Col (2000). Se asume que los datos cumplen los supuestos necesarios
para realizar el análisis estadístico correspondiente con un diseño equilibrado. El
investigador quiere contrastar si ante la infidelidad emocional, existen diferencias
tanto por razón de sexo como por la edad y si la reacción de la mujer como la del
hombre varía con la edad.
Representando por A la variable sexo y por B la variable grupo de edad se obtie-
nen los resultados de la siguiente tabla, que representa la suma de las puntuaciones
de cada grupo, y las razones básicas que se indican:

B IM•ifoHIHt·iM!:Mii [Y]=717 [r]=662,7


- 18 18
29 21 f A l = 674, 73 f Bl =682,1 f ABl = 700,6
33 22

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Contamos con dos factores, el sexo y la edad. El
primero con dos niveles, hombre y mujer y el segundo, siendo una variable cuanti-
tativa, se ha categorizado en tres grupos: jóvenes, medianos y mayores. Por tanto,
se trata de un diseño de dos factores (2x3). El número de sujetos de cada una de
134
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

estas seis condiciones experimentales es de 5. La variable dependiente es la medida


obtenida a través del cuestionario de reacciones emocionales de Shackelford, T y
Col (2000). Aplicaremos un A N O V A bifactorial intersujetos de efectos fijos ya que en
el enunciado nos indican que se cumplen los supuestos necesarios, a saber, norma-
lidad, independencia de las observaciones y homocedasticidad.

HIPÓTESIS: Para el factor sexo, establecemos que no existen diferencias en la re-


acción emocional de hombres y mujeres ante una situación de infidelidad emocio-
nal, es decir, que las puntuaciones medias de hombres y mujeres en el cuestionario
son iguales:

H o : µHombres = µMujeres
H1 : µHombres *µMujeres
Para el factor edad, la hipótesis nula establece que la edad no afecta a la reac-
ción emocional, o dicho con otras palabras, que las medias en el cuestionario de los
tres grupos de edad son iguales. Por su parte, la hipótesis alternativa indicará que sí
afecta, al menos para un par de niveles del factor iluminación.

H o :µJOV =µMEO = µ M A Y
H1: µ10v * µ M EO * µ M A Y al menos para un par de grupos de edad

Para la interacción la hipótesis nula afirma que los efectos de la edad y del sexo
son aditivos, de tal forma que la reacción emocional entre hombres y mujeres es la
misma con independencia de la edad, o viceversa, que la reacción para los distintos
grupos de edad es la misma con independencia del sexo. En términos gráficos se
vería reflejado en que las medias de la reacción emocional entre hombres y mujeres
se situarían sobre líneas paralelas en los tres grupos de edad, por un lado, y que la
media para los distintos grupos de edad para hombres y mujeres se situarían sobre
líneas paralelas. Y veremos estas gráficas en la resolución de esta situación.

H0 : No existe interacción
H1 : Existe interacción

ESTADÍSTICO DE CONTRASTE: Para las hipótesis sobre los efectos principales de


los factores sexo, edad e interacción, obtenemos las sumas de cuadrados a partir de
las razones básicas proporcionadas en el enunciado.

135
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SCT = [Y]-[T] = 7 1 7 - 6 62, 7 = 54 ,3

SCA =[A]-[r] = 6 74 , 7 3 - 6 6 2, 7 =12,03

SCB = [B]-[r] = 6 8 2,1- 66 2, 7 = 19 ,4

SCAB = [ A B ] - [ A ] - [ B]+[T] = 700, 6 - 6 74 , 7 3 - 6 8 2,1+ 6 62, 7 = 6 ,47

SCError = [ Y ] - [ AB] = 7 1 7 - 70 0,6 = 16 , 4

------
Con lo que la tabla resumen del ANOVA es:

A 12,03 1 12,03 17,61 <0,01


B 19,40 2 9,70 14,20 < 0,01
AxS 6,47 2 3,23 4,73 < 0,05
INTRA 16,40 24 0,68
TOTAL 54,30 29

REGLA DE DECISIÓN: Con 1 y 24 gl, para el factor A, o con 2 y 24 gl, para el factor
By la interacción, y para los niveles de confianza del 9 5% o del 9 9 %, los valores crí-
ticos que podemos encontrar en la tabla, son:

Í2;20;0,95 =3, 4 9 F = 1;20;0,9S= 4, 35

Í 2 ;20;0,99 = 5, 8 49 F = 1;20;0,99= 8 , 0 9 6

CONCLUSIÓN: Se rechaza la hipótesis nula si el valor del estadístico F de cada


contraste supera el valor crítico.
INTERPRETACIÓN: Existen diferencias significativas en la reacción emocional de
hombres y mujeres ante la infidelidad emocional de su pareja (F = 17,61; p < 0, 0 1).
También se observan diferencias significativas en la reacción emocional para los
distintos grupos de edad (F = 14,20; p < 0,01). Existe interacción entre la reacción
emocional de hombres y mujeres con la edad, es decir, las diferencias en la reacción
emocional entre hombres y mujeres no es la misma para los diferentes grupos de
edad (F = 4,73; p < 0 ,05). Las siguientes gráficas muestran esta situación:

136
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

._ _ _
--.----·-·--
---¡ 35 l
::
135--

- _:_ ::1
120 ,..=,._--:-_:::- •20 - - -.....-Jov 1
-+-MUJERES MEDI
15-- ............- - - - - · - HOMBRES
----
1
15
- ......_MAY
10 110
5

JOV MED MAY _____j MUJERES_: _H°."BRE _ _._J


Observando la figura de la izquierda se observa que no hay diferencias entre
hombres y mujeres del grupo de los jóvenes (entre 18 y 35 años) pero sí pueden
producirse diferencias para los medianos (de 36 a 55 años) y mayores (con más de
56 años). Observando ahora la figura de la derecha, puede que no existan diferen-
cias entre los distintos grupos de edad de los hombres pero sí entre los distintos
grupos de edad de las mujeres, siendo éstas más acusadas entra las mujeres de más
de 56 años y medianas {de 36 a 55 años) respecto a las más jóvenes.
El análisis de los efectos simples nos permite analizar el factor A (sexo) en cada
una de los niveles del fator B (grupos de edad). Comenzando con el factor A en la
condición b1 de B -que en el contexto de esta situación, se refiere a la diferencia
entre hombres y mujeres jóvenes (de 18 a 35 años)-. Para ello, se calculan las razo-
nes básicas:

Siendo la suma de cuadrados:

[ SCA en b.J = [A en b1 ] - [ 8 ] con a - 1 grados de libertad


1

Utilizando los datos de la siguiente tabla en la que figuran las sumas de los suje-
tos de cada uno de los grupos y las sumas marginales de los niveles de cada factor:

137
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

A
B al: MUJERES a2: HOMBRES

l§lt·M 18 18 36

1%13éi
,,, w-
29 21 so
33 22 55
80 61 141

Resultado bastante obvio, considerando que la suma de las puntuaciones para


los hombres y mujeres del grupo de los jóvenes son iguales.
Continuamos calculando la suma de cuadrados para los otros niveles del factor
B, grupos de edad medianos, b2 , y mayores, b3 .

50 2
[Bi]=-=-=250
an 2·5
[ SCA en b,] = [A en b i ] - ( B ] =256,4-250 =6,4
2

Y para el grupo de mayores, b3 :

( 8 3 ] =Bi- = - 55
2
=302,50
an 2·5

138
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

[ s cA en b, ] = [A en b3J-[B3]=314,6-302,5=12,1

También se analizara el factor 8 en cada una de las condiciones O; de A, es decir,


las diferencias en la reacción emocional entre los distintos grupos de edad de las
mujeres y las diferencias entre los distintos grupos de edad de los hombres.

)2- - A
L (AB1 · 182 29 2 332 80 2
2
1 1
[5C8 ena' ] = [ B e n o1 ] - [Ai ] = =-+-+---=24,13
n b·n 5 5 5 3.5

-A= - + -18
2
+ - - - =212
1 222 61 2
73
b· n 5 5 5 3·5 '

Con estas sumas de cuadrados completamos la siguiente tabla, las medias cua-

------
dráticas (SC/gl) y los estadísticos F, como cociente entre la media cuadrática de cada
nivel y la media cuadrática del error o intra del ANOVA realizado anteriormente:

[A en b1 ]= 0,00 1 0,00 0,00 >0,5


[A en b2 ]= 6,40 1 6,40 9,37 <0,05
[A en b3 ]= 12,10 1 12,10 17,71 <0,01
[8 en a1 ]= 24,13 2 12,07 17,66 <0,01
[8 en a2 ]= 1,73 2 0,87 1,27 >0,05
INTRA 16,40 24 0,68

REGLA DE DECISIÓN: Buscamos en las tablas los valores críticos de F con 1 y 24


gl y con 2 y 24 gl para los niveles de confianza del 95 y 99%. El valor más próximo en
las tablas es con 1 y 20gl o con 2 y 20gl.

Íi; 2 0;0,95 =3, 4 9 F =1; 2 0;0,95= 4, 35

Í2;20;0,99 = 5, 8 4 9 F =1;20;0,99 = 8, 0 9 6

CONCLUSIÓN: Las diferencias significativas se producen en los niveles b2 y b3 de


A y en el nivel o1 de B.
139
• Ejercicios y problemas resueltos y comentados. Diseflos de investigación y análisis de datos

INTERPRETACIÓN: Existen diferencias significativas en la reacción de los hom-


bres y mujeres ante la infidelidad emocional dentro del grupo de los de edad me-
diana (F = 9,37; p < 0,05) y también dentro del grupo de mayores (F = 17,71; p <
0,01). Pero no existen diferencias entre la reacción de hombres y mujeres dentro
del grupo de los jóvenes.
Existen diferencias entre la reacción ante la infidelidad emocional de las mujeres
mayores, medianas y jóvenes, siendo más alta para las mujeres de mayor edad y
más baja para las de menor edad. No existen diferencias entre los hombres debidas
a la edad.

- + - a l : MUJERES a2: HOMBRES - + - b l : JOV .. b2: MED -..... b3: MAY


1
35 35

_____
_
30-

25 T
20 20.
,

5 -----'="- ===
:: .- --=-
5
F = 17,66; p < 0,01
-----

1 o+ bl:--···,- - --·-··- ol --- ··--,


JOV b2: MED b3: MAY al: MUJERES a2: HOMBRES

SITUACIÓN 9. El laboratorio de aprendizaje animal dispone de doce ratas de


la raza Wistar, con las que realiza un experimento. Posteriormente adquieren otro
grupo de doce ratas Long Evans y, tras la realización del mismo experimento en las
mismas condiciones, sospechan que los resultados son diferentes según con qué
grupo de ratas se realice la experiencia. La prueba consistía en tomar los tiempos
que tardaban en recorrer un corredor con recompensa final, después de 1, 2 ó 3
días de privación de comida. La variable dependiente (tiempos) se distribuye nor-
malmente, además las observaciones son independientes y las varianzas homogé-
neas. Los tiempos, en segundos, fueron los siguientes:

A: Wistar B: long Evans


1 día 2 días 3 días 1 día 2 días 3 días
6 5 9 7 6 13
5 4 10 8 7 15
4 3 11 9 8 16
3 2 12 4 5 18

140
Soluciones a los ejercicios de los capítulos 5, 6 y 7 a
a) Averigüe si es cierto que existen diferencias entre las dos razas de ratas en los
tiempos que tardan en atravesar el corredor.
b) ¿Cómo influyen esos días de privación de comida en los tiempos que tardan
las ratas en atravesar el corredor?
e) ¿Se obtiene algún efecto cuando se combinan los dos factores?

SOLUCION:
CONDICIONES Y SUPUESTOS: En este experimento se trabaja con dos variables
independientes o factores. La raza, con dos niveles, y el tiempo de privación de
alimento, con tres niveles. La variable dependiente es el tiempo que, según el enun-
ciado del problema, cumple los supuestos de independencia de las observaciones,
normalidad de las distribuciones y homogeneidad de las varianzas. Se trata, por
tanto, de un diseño (2x3) que se resolverá analizando los datos con un ANOVA bi-
factorial con interacción de efectos fijos.
HIPÓTESIS ESTADÍSTICAS: Hipótesis para el factor A, raza: La hipótesis nula esta-
blece que no hay diferencias significativas en el tiempo que tardan en recorrer el
laberinto las dos razas de ratas, frente a la hipótesis alternativa que afirmaría que sí
existen esas diferencias. Se trata, por tanto, de un contraste bilateral.

Ha :µw =µLE
H1 : µW-:¡; µLE

Hipótesis para el factor 8: La hipótesis nula establece que no hay diferencias


significativas en el tiempo que tardan las ratas en recorrer el laberinto por causa
del tiempo de privación de comida. La hipótesis alternativa indicaría que el tiempo
de privación produce diferencias significativas en el tiempo que tardan las ratas en
recorrer el laberinto.

Ha : µ1 = µ2 = µ3
H1 : µ1 -:¡; µ2-:¡; µ3 al menos para una µ¡

Hipótesis para la interacción: La hipótesis nula establece que el tiempo que tar-
dan las ratas en recorrer el laberinto es el mismo con independencia de la raza y
del tiempo de privación. Es decir, no existe interacción entre la raza y el tiempo de
privación sobre la ejecución de la rata para recorrer el laberinto. La hipótesis alter-
nativa indicaría que sí existe interacción.

141
• Ejercicios y problemas resue ltos y comentados. Diseños de investigación y an lisis de datos

H0 : No existe interación
H1 : Existe interacción

ESTADÍSTICOS DE CONTRASTE: Al tener tres hipótesis a contrastar, debemos cal-


cular tres estadísticos de contraste:
El estadístico de contraste para el factor A «raza» es:

= M C factor roza roto


F
MCerror

El estadístico de contraste para el factor 8 «tiempo de privación»:

= M C factor tiempo privación


F
MCerror

El estadístico de contraste para la interacción (AxB):

= MCinterocción
F
MCerror

Y utilizando los siguientes datos:

Factor A: raza rata


Factor B: tiempo B1: B2: B3: 81: 82: B3:
1 día 2días 3 días ldía 2 días 3 días
6 5 9 7 6 13
5 4 10 8 7 15
4 3 11 9 8 16
3 2 12 4 5 18

Sumas: ¿Y; ¡ 18 14 42 28 26 62 190

Sumas cuadrados: ¿ Y;J 86 54 446 210 174 974 1994


!

En la siguiente tabla aparecen las sumas de las puntuaciones para cada una de
las 3x2 condiciones que nos facilitan las operaciones para obtener las sumas de
cuadrados.

142
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

SUMAS 81: 1 día B3: 3 día


AJ . : Wistar 18 14 42 :E:EY;= 74
A2: Long Evans 28 26 62 :E:EY; = 116
:E:EY.J = 46 :E:EYi = 40 :E:EY.J = 104 :E:E:EY0i = 190

Calcularemos las razones básicas para obtener las sumas de cuadrados corres-
pondientes:

[Y]= ¿Y¡j=1944
r2 1902
[r]=-=--=1504,17
abn 2·3·4
2
' ° 'A = 74 2 + l l 6 2 =1577,67
[A]=-L.._i
bn 3·4

2
'°'(A8) 18 2 +14 2 +42 2 +28 2 +26 2 +42 2
[AB]= L . ' = =1897
n 4

Y con estos valores, las sumas de cuadrados, son:

SCT = [Y]-[T] ==1944-1504,17 =439,83

SCA = [A ]-[T] = 1577,67-1504,17 = 73, 5

SCB= [B]-[r] = 1816,5-1504,17 = 312, 33


SCAB = [ A B ] - [ A ] - [ B]+[T] = 1897-1577,67-1816,5+ 1504,17 = 7

SCError = [ Y ] - [ AB] =1944-1897 =47

Con estos resultados, completamos la tabla del ANOVA para calcular los estadís-
ticos de contraste:

143
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

. . . . '

MC
73,50 37,53

..
Factor B tiempo
...
Interacción (AxB)
312,33
7,00
b-1= 2
(a-l)(b-1} = 2
156,17
3,50
79,74
1,79
Residual 47,00 ab(n-l} = 24 1,96

Total 439,83 N - l = 29

REGLA DE DECISIÓN: Lo primero que probamos es la Ha de la interacción porque


de no ser significativa habría que recalcular los estadísticos F de cada factor.
Con un nivel de confianza del 95% el valor crítico de la tabla de la distribución de
F para 2 grados de libertad en el numerador y 18 grados de libertad en el denomi-
nador es de 6,013. Dado que el estadístico de contraste de la interacción: 1,79 no
supera el valor crítico, no podemos rechazar la Ha , por lo tanto la interacción no es
significativa e indica que el modelo se considera aditivo.
Bajo estas circunstancias, procedemos a acumular la suma de cuadrados y los
grados de libertad de la interacción al error, recalculándolo los estadísticos F para
cada uno de los factores, que ahora son:

Factor A raza rata 73,5 1 73,5 35,38


Factor B tiempo 312,33 2 156,165 75,2
Interacción (AxB)
Residual 54 26 2,08
Total 439,83 29

Para el factor «raza de rata», el valor crítico de F con 1 y 26 grados de libertad,


con un nivel de confianza del 95%, no figura en las tablas. El más aproximado es
con 1 y 30 gl y vale 4,171; y para el factor tiempo de privación, con 2 y 30 grados de
libertad el valor crítico es 3,316.
Comparándolos con nuestros resultados, tenemos que 35,38 > 4,171 por lo que
rechazamos la Ha del factor raza de rata; y para el factor tiempo de privación, el es-
144
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

tadístico de contraste 75,2 es mayor que el valor crítico 3,316 por lo tanto, también
rechazamos la H0 del factor tiempo de privación.
INTERPRETACIÓN:
a) Dado que hemos rechazado la hipótesis nula del factor tipo de rata, podemos
contestar a la primera de las preguntas diciendo que, con un nivel de confian-
za del 95%, afirmamos que existen diferencias entre las dos razas de ratas en
su tarea de recorrer el laberinto (F = 35,38; p<0,05).
b) Dado que hemos rechazado la hipótesis nula del factor tiempo de privación,
podemos afirmar, con un nivel de confianza del 95%, que estar privadas de
comida 1,2 ó 3 días influye de forma distinta en el tiempo que tardan en re-
correr el laberinto (F = 75,2; p < 0,05). Debemos realizar las comparaciones
múltiples para comprobar exactamente entre quienes está la diferencia.
c) Respecto a la tercera de las preguntas, vimos que el modelo era aditivo al
no poder rechazar la hipótesis nula de la interacción, por lo tanto, no se da
ningún efecto significativo cuando se combinan los dos factores (F = 1, 79; p >
0,05).
La siguientes gráficas representan la situación donde se aprecia que no existe in-
teracción al no producirse un cruce o «no paralelismo» significativo entre las líneas.
r 1 0 - - - --- - - - -----
-,
1:f---=-.7 -- 60 ·'.---·---··--- ----- 1
so - - - · - - - -
_¿ - ----····-·
------
::_=7l;7-
1
4 0 -· Bl

I::¡.::_ . ·--:::;,
1
1
-- o - B21

2 0 ·: - - ----- _,.__ B31


10 ·----- 130 - -- . . . - · --
110 -t- - - -- -
1 o -- -·-··-·-· ···---····-··--··,B3 º ¡_ - ------,
Bl B2 Al A2

SITUACIÓN 10. Un estudio publicado por García, M.C., Navas, M.S., Cuadra-
do, l., Y Molero, F. {2003} con el título: «Inmigración y prejuicio: Actitudes de una
muestra de adolescentes almerienses» tiene como objetivo conocer la imagen que
los adolescentes de una zona, con alta recepción de trabajadores extranjeros, tie-
nen acerca de los inmigrantes. Entre sus resultados se indica que existen diferencias
significativas en la imagen de los inmigrantes en función del sexo y de la edad de los
adolescentes, siendo más bajas para las chicas y para los de mayor edad. Imagine
que desea comprobar si estas diferencias existen también en otras zonas donde la
145
• Eiercicios y problemas resueltos y comentados. Diseños de investigación y an;ílisis de datos

recepción de inmigrantes es menor. Para ello, selecciona una muestra de 20 adoles-


centes con edades comprendidas entre 14 y 16 años de los que el 50% son chicas.
La mitad son de 2º de la ESO y el resto de 4º de la ESO. Todos ellos responden a la
Escala de Racismo Moderno de McConahay y cols. (1981}. Se asume que los datos
cumplen los supuestos necesarios para realizar el análisis estadístico correspon-
diente. Representando por A la variable sexo y por 8 la variable edad se obtienen
los siguientes resultados parciales: SCT = 130,2; MC/ntra = 1,925; [Y] = 1316; [A] =
1198,6; [8] = 1243,6.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En esta situación el investigador quiere comprobar
si en la población de adolescentes de su localidad existen diferencias significativas
en la imagen de los inmigrantes en función del sexo y de la edad. Las variables inde-
pendientes son el sexo y la edad y la variable dependiente la imagen que los adoles-
centes tienen de los inmigrantes medida a través de la Escala de Racismo Moderno
de McConahay y colaboradores. Cada variable independiente tiene dos valores o
categorías y la variable dependiente es de naturaleza cuantitativa medida con esca-
la de intervalo. Se trata, por tanto, de un diseño 2x2 para muestras independientes
que se analiza con un ANOVA de dos factores con interacción. En el enunciado se
indica que se asume que se cumplen los supuestos necesarios para realizar este
análisis: independencia de las observaciones, normalidad y homocedasticidad. El
modelo del ANOVA de dos factores indica que cada puntuación es la suma de varios
componentes:

Donde «alfa» representa la influencia del factor A: sexo; «Beta» la influencia del
factor 8: edad y «alfa x beta» el efecto de la interacción entre estas dos variables
sobre la imagen de los inmigrantes.
HIPÓTESIS: Trabajando con dos factores, se plantean tres hipótesis nulas. La pri-
mera para analizar la influencia del sexo sobre la variable dependiente. La segunda
para analizar la influencia de la edad y la tercera para la interacción. Todas ellas se
pueden escribir de diferentes formas:
Para analizar si existen diferencias entre chicos y chicas, formulamos las hipótesis:
H0 : No existen diferencias significativas entre las medias obtenidas en la Escala
de Racismo Moderno obtenidas por los chicos y las chicas. O lo que es lo mismo:
todos los a ; = O que conlleva a la igualdad de las medias poblacionales.

146
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

Ho : �Lchicos = µchicas

H1: Existe diferencias significativas entre las medias obtenidas en la Escala de


Racismo Moderno por los chicos y las chicas. Es decir, no todos los O.;= O por lo que:

Para analizar si existen diferencias entre los dos grupos de edad de 2º y 4º de la


ESO, formulamos las hipótesis:
H0 : No existen diferencias significativas entre las medias obtenidas en la Escala
de Racismo Moderno por los adolescentes de 2º y 4º de la ESO. Es decir, no todos
los p.J = O lo que implica la igualdad de las medias para cada nivel del factor edad:

H1: Existe diferencias significativas entre las medias obtenidas en la Escala de


Racismo Moderno por los adolescentes de 2º y 4º de la ESO. No todos los p1 = O.

Para analizar si existe interacción del sexo con la edad, formulamos las hipótesis:

H0 : No existe interacción. Todos los a.p ij = O


H1: Existe interacción. No todos los a.P;1 = O

ESTADÍSTICO DE CONTRASTE: Para completar la tabla del ANOVA a partir de los


resultados parciales proporcionados en el enunciado, procedemos de la siguiente
forma.
Se trata de una ANOVA de dos factores (sexo y edad) con dos niveles en cada
factor. Hay 10 chicas, 5 de 2º y otras 5 de 4º de la ESO. Y los mismo para los chicos,
por lo que se trata de un diseño equilibrado con 5 sujetos en cada nivel del factor.
Con los datos del enunciado vamos completando la siguiente tabla del ANOVA, co-
menzando por los grados de libertad:

147
• ••••
• Ejercicios y problemas resueltos y comentados. Diseftos de investigación y análisis de datos

. . : . . ..
se GL

A (SEXO) a-1 = 1
B (EDAD) b-1 = 1
AB (a-l)(b-1) = 1
ERROR 16 x 1,525 = 24,40 ab(n-1) = 16 1,525
TOTAL 70,55 n-1= 19

SCrotal = [ Y ] - [ T ] 70,55 = 1303-[T] [T] = 1303- 70,55 = 1232,45

MC1ntra = scintra 1 , 5 2 5 = - scintra


- sc,ntro =1,525·16=24,40
ab ( n - l ) 16

SCA =[A]-[T]=1240-1232,45=8,45

SC8 = [B]-[T] =1243, 7-1232,45=11,25

Teniendo en cuenta la descomposición de la variabilidad total de las puntuacio-


nes:

SCrotal =SC( A) + s e ( B)+ SC(AB)+SCError

y despejando la SC(AB), tenemos que:

SCA 8 =SCT-(SCA+SCB+SCError)= 70,55-8,45-11,25-24,49=26,45

Y situamos todos estos resultados sobre la tabla, para obtener las MC dividiendo
su respectiva SC entre sus grados de libertad. Finalmente, calculamos los va lores del
estadístico F, dividiendo la MC de cada fuente de variación entre la MCError.

148
•••• ••
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

A (SEXO) 8,45 1 8,45 5,5409 4,494 8,531


B (EDAD) 11,25 1 11,25 7,377 4,494 8,531
AB 26,45 1 26,45 17,3442 4,494 8,531
24,40 16 1,525
TOTAL 70,55 19

REGLA DE DECISIÓN: En este ejemplo concreto, los valores críticos para los nive-
les de confianza del 95% y del 99% se localizan en la tabla con 1 gl en el numerador
y 16 gl en el denominador y son 4,494 y 8,531, respectivamente.
CONCLUSIÓN: Con un nivel de confianza del 95%, todos los estadísticos de con-
traste obtenidos superan sus respectivos valores críticos, rechazaríamos las tres
hipótesis nulas formuladas. La hipótesis de no existencia de interacción se puede
rechazar, incluso con un nivel de confianza del 99%.
INTERPRETACIÓN:

• Existen diferencias significativas en la imagen que los chicos y chicas adoles-


centes tienen de los inmigrantes (F = 5,5409; p < 0,05).

• Existen diferencias significativas en la imagen que los adolescentes de 22 y 42


de la ESO tienen de los inmigrantes (F = 7,377; p < 0,05).

• Existe interacción del sexo con la edad de los adolescentes respecto a la ima-
gen que tienen de los inmigrantes (F = 17,34; p < 0,01).

SITUACIÓN 11. Para estudiar el efecto de ciertas variables motivacionales so-


bre el rendimiento en tareas de logro, se diseñaron dos programas de entrenamien-
to motivacional (A 1 =instrumental y A2 = atribucional) y se les aplico a dos grupos de
15 sujetos cada uno seleccionados al azar. Un tercer grupo, también de 15 sujetos,
no recibió entrenamiento pero realizó la misma tarea que los sujetos entrenados
(A 3 = grupo control). Un tercio de los sujetos de cada grupo recibió el entrena-
miento bajo un clima de clase 8 1 = cooperativo, 8 2 = competitivo y 8 3 = individual.
La evaluación del rendimiento de los sujetos, tras el entrenamiento, arrojó los re-
149
• Ejercicios y problemas resueltos y comentados. Disef1os de investigación y análisis de datos

sultados cuyo resumen aparece en la tabla (en las celdillas está el sumatorio de las
puntuaciones de los sujetos de cada una de las condiciones del experimento; en las
marginales los sumatorios correspondientes a cada factor A o B, respectivamente y
también conocemos que I I I Y ; } = 1456; además SCA = 70 y SC8 = 40

Factor B: Clima de la clase


Factor A: entrenamiento
35 105
30 20 25 75
25 15 20 60
90 60 90 240

Utilizando a.= 0,05 comprobar si el tipo de entrenamiento y el clima afecta al


rendimiento en tareas de logro.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un modelo bifactorial (entrenamiento y
clima) con tres muestras independientes. Se asume que se cumplen los supuestos
de independencia de las observaciones, normalidad y homocedasticidad que re-
quiere este tipo de análisis.
HIPÓTESIS ESTADÍSTICAS: Para el factor A, tipo de entrenamiento, la hipótesis
nula y alternativa, son:

Ho :µ A l = µ A 2 = µ A 3
H1: µA l :f. µA 2 :f. µA 3, para algún µ¡ :f. µj

Para el factor B:

Ho : µ8 1 = µ8 2 = µ8 3
H1 : µ8 1 :f. µ8 2 :f. µ8 3 , para algún µ¡ :f. µj

Para la interacción entre el tipo de entrenamiento con el clima:

H0 : No existe interacción entre los dos factores


H1 : Existe interacción entre los factores

150
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

ESTADÍSTICO DE CONTRASTE: Un estadístico para cada una de las tres hipótesis


formuladas:
Los tipos de entrenamiento son A 1, A 2 y A 3 por lo tanto no están pidiendo el
efecto correspondiente a este factor y sabemos que la suma de las puntuaciones de
los 5 sujetos de cada condición son:

Factor B: Clima de la clase


Factor A: entrenamiento B1 B2 B3 Sumas
35 25 45 105
30 20 25 75
A3 25 15 20 60
Sumas 90 60 90 240

Conocemos también la suma de los cuadrados de todas las puntuaciones


( : ¿ ¿ ¿ Y¡Jk = 1456), y seA = 40 y seB = 70. Nos falta, por tanto, calcular las sumas de
cuadrados total, ser, de la interacción, SC(AxB), y del error, SCError, cuyas expresio-
nes, a partir de las razones básicas, son:

ser =[Y]-[r]

SCAB = [AB]-[ A ] - [ B]+ [r]

SCError = [ Y ] - [ AB]

Calculamos algunas de estas razones básicas.

r2 240 2
[r]=-= =1280
abn 3·3·15

Y, por el enunciado, sabemos que [Y]= ¿¿¿}J =1456. Por lo que la seres:
s e r = [ Y ] - [ r ] = 1456-1280 = 176

Como SCError = [Y]-[AB], debemos calcular la razón básica [AB]

151
• Ejercicios y problemas resueltos y cornentados. Diseños de investigación y análisis de datos

[AB]= L.,
""'
(AB )' = 35 2 + 25 2 + 45 2 + 30 2 + 20 2 + 25 2 + 25 2 + 15 2 + 20 2 =1410
n 15

Y continuamos con la SCError = [Y]-[AB]= 1456 - 1410 =46


Para la 5C(Ax8) = [AB]-[A]-[B]+[T] podemos optar por calcular las razones bási-
cas de [A] y [B]:

[B]=-=
LB¡ 90 2 + 60 2 + 90 2
=1350
an 3-15
se( AxB) = [AB]-[ B]+[r] = 1410-1320-1350+ 1280 =20

O bien despejar su valor de: SCT = SCA + SCB + SC(AxB) + SCError, para llegar al
mismo resultado.

SC (Ax B) = SCT - SCA - SCB - SCError = 176 - 40 - 70 - 46 = 20

-----
Finalmente, la tabla del ANOVA queda:

40 2 20 15,65 3,26
70 2 35 27,39 3,26
20 4 5 3,91 2,63
46 36 1,28
TOTAL 176 46

REGLA DE DECISIÓN: Con un nivel de confianza del 95%, los valores críticos para
cada una de las hipótesis aparecen en la columna derecha de la tabla anterior.
t
CONCLUSIÓN: Como todos los valores de F obtenidos, superan los valores críi -
cos, se rechazarían las tres la hipótesis nula formuladas con un nivel de confianza
del 95%.
152
Soluciones a los ejercicios de los capítulos S. 6 y 7 •

INTERPRETACIÓN: Con un nivel de confianza del 95%, el tipo de entrenamiento


influye en el rendimiento en tareas de logro. También influye el clima de clase sobre
el rendimiento y existe interacción entre estas dos variables independientes, como
puede observarse en la gráfica siguiente.
------- -------
- . - Al·INSTRUM[NTAL A2: AlRIBUCIONAl _ , _ A3: CONl ROL -.- 151: COOPERATIVO 82: COMPCllflVO - ' - 83: INDIVIOUAL

- ------------
1 45
50 - -- - - -- --
40
-

-----
35

l
1 2s
3 0 r · --- -- . - -- -- ,-._;:__
20
15 ----·
10
s t
O+-- - ,- o
------------
81: COOPCRATIVO 82: COMPETITIVO 83: INDIVIDUAL
---'
Al: INSTRUMENTAL A2: ATRIBUC!ONAL A3: CONTROL

El análisis de los efectos simples nos permite analizar el factor A, tipo de en-
trenamiento, en cada una de las tres condiciones del factor B, clima de clase. Para
ello, a partir de la suma de las puntuaciones de cada condición que aparecen en la
siguiente tabla, se calculan las sumas de cuadrados en cada uno de los niveles del
otro factor:

81:COOPERATIVO BZ:COMPETITIVO 83:INDIVIDUAL Sumas

Al: INSTRUMENTAL 35 25 45 105

A2: ATRIBUCIONAL 30 20 25 75
A3:CONTROL 25 15 20 60

Sumas 90 60 90

[SCA enb1 ]=[A en bi)-[8 1 ] =


¿ (AB;1 ) 2 8 2 35 2 30 2 25 2 90 2
__1._=-+-+---=10
n an 5 5 5 3·5
¿ (AB;2 ) 2
� 25 2 20 2 15 2 60 2
[ J
SCA enb, = [ A en b2]-[B2]=
n
-=-+-+---=10
an 5 5 5 3-5
¿ (AB ¡3 )
2
8 45 2 25 2 20 2 90
[ s c A enb. ] = [A en b3 ] - [B3 ] = =5+5+5- =70
n - an 3.5

También se analizara el factor 8 en cada una de las condicionesª; de A, es decir, las


diferencias entre los distintos climas de clase para cada uno de los entrenamientos.
153
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

A} 30 2 20 2 25 2 75 2
= + + - =10
b-n 5 5 5 3-5

A 2 25 2 15 2 20 2 60 2
2 = + + - =10
b-n 5 5 5 3-5

-----
Con estas sumas de cuadrados completamos la siguiente tabla:

10 2 5 3,91 <0,05
10 2 5 3,91 <0,05
70 2 35 27,39 <0,01
40 2 20 15,65 <0,01
10 2 5 3,91 <0,05
10 2 5 3,91 <0,05
46 36 1,278

REGLA DE DECISIÓN: Buscamos en las tablas los valores críticos de F con 2 y 36


gl para los niveles de confianza del 95 y 99%. En la tabla el valor más próximo que
figura es con 2 y 30 gl y su valor es:f2 ;3 o; 0,95 = 3,316 y f2; 3 o; 0,99 = 5,39. Todos los esta-
dísticos superan el valor crítico con un nivel de confianza del 95% y alguno también
con un nivel de confianza del 99%
CONCLUSIÓN: Con un nivel de confianza del 95%m se producen diferencias sig-
nificativas en todos los niveles b1, b2 y b3 de A y en todos los niveles a 1 , a 2 y a3 de 8.
INTERPRETACIÓN: El entrenamiento motivacional produce diferencias significa-
tivas en el rendimiento tanto si la clase se desarrolla con un clima cooperativo, com-
petitivo (F = 3,95; p < 0,05) como en el individual (F = 27,39; p < 0,01). Igualmente, el
clima de la clase genera diferencias en el rendimiento tanto bajo un entrenamiento
instrumental (F = 15,65; p < 0,01) como con un entrenamiento atribucional o en el
grupo control, que no recibía entrenamiento (F = 3,91; p < 0,05 ).
154
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

t'\2: ATRlBUCIONAL _...,_ Al: CONTROL . . . , _ 81: COOPERATIVO 82: COMPCTITrvo '
_ . _ 83; INDIVIDUAL 1

SITUACIÓN 12. En una investigación sobre el efecto que tiene el fumar sobre el
rendimiento laboral en diferentes condiciones de iluminación en una gran empresa,
se seleccionaron al azar 9 trabajadores de tres grupos (27 trabajadores en total): no
fumadores, fumadores moderados y fumadores extremos (factor Grupo). Tres suje-
tos de cada grupo anterior se asignaron a un ambiente de trabajo con tres niveles
de iluminación distintos (factor Iluminación). Se registró el tiempo en completar
una tarea de ensamblado en minutos. Conocemos las sumas de cuadrados que se
muestran a continuación (nivel de significación: 0,05).

5CG ru p o =84,90; 5C11u minación =298,07; 5CEr ror =59,25; 5Crotal =445,03

Analice el estudio según el diseño apropiado. ¿Qué podemos decir de los efectos
simples?

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Nos indican claramente que han manipulado expe-
rimentalmente dos factores o variables independientes: Grupo e Iluminación para
ver su efecto sobre el rendimiento laboral (la variable dependiente). Cada factor
tiene 3 niveles. Por consiguiente, se trata de un diseño de dos factores intersujetos
o de muestras independientes 3x3. El número de sujetos en cada combinación de
los factores es de 3. Para aplicar un ANOVA bifactorial la variable dependiente tiene
que estar medida, al menos, con escala de intervalo (variable cuantitativa), con dis-
tribución normal y varianza constante para cada grupo (homocedasticidad).
HIPÓTESIS: Para el factor Grupo, establecemos que el fumar no afecta al rendi-
miento laboral de los trabajadores, o lo que es lo mismo, que las medias del ren-
dimiento laboral de los tres grupos son iguales. La hipótesis alternativa indica que
las medias sí afectan al rendimiento laboral, o lo que es lo mismo, que al menos las
medias de dos grupos son distintas:
155
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Ho : µn o _fumodo res = µ¡umodo res_moderodo s = µ¡umodo res_extremo s


H1: µn o _fumadores :f. µfumado res,.,..., :f. µfumado res,,,,.,.., al menos para un par de
000
,

tratamientos

Para el factor Iluminación sólo sabemos que hay tres niveles pero no nos han
indicado sus valores, así que los representaremos con los subíndices 1, 2 y 3. E igual-
mente, la hipótesis nula establece que las condiciones de iluminación no afecta al
rendimiento laboral, frente a la hipótesis alternativa que sí afecta, al menos para un
par de niveles del factor iluminación.

Ho : µ1 = µ2 = µ3
H1: µ1 :f. µ2 :f. µ3 al menos para un par de tratamientos

Para la interacción la hipótesis nula afirma que los efectos del Grupo y de la Ilu-
minación son aditivos, de tal forma que el patrón de resultados que se observa para
el tabaquismo (Grupo) es el mismo en los tres diferentes niveles de iluminación. En
términos gráficos se vería reflejado en que las medias de rendimiento en función
del nivel de tabaquismo serían paralelas en los tres grupos de Iluminación y la hipó-
tesis nula y alternativa son:

H0 : No existe interacción entre el tabaquismo y los niveles de iluminación sobre


el rendimiento laboral.
H1: Existe interacción entre el tabaquismo y los niveles de iluminación sobre el
rendimiento laboral.

ESTADÍSTICO DE CONTRASTE: Nos proporcionan las Sumas de Cuadrados de la


Tabla del Anova que figuran en la tabla siguiente en cursiva, negrita y subrayado.
Conociendo el número de sujetos total (N = 27) y el número de niveles de cada
factor (3), y que el diseño es (3x3) con nueve condiciones experimentales con n = 3
sujetos en cada una, podemos completar las celdas correspondientes a los grados
de libertad de cada fuente de variación y las restantes celdas de la tabla.

156
---
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

42,45 12,895 3,555

m.Jll. b-1=2 149,035 45,272 3,555


Grupo x Iluminación 2,81 (a-l)(b-1) = 4 0,7025 0,213 2,928
ab(n-1) = 18 3,292
N - 1 = 26 17,116

Como sabemos que la s e total es la suma de las s e Grupo más la se Iluminación


más la s e Grupo x Iluminación más s e error (intra) podemos calcular las s e que nos
falta y, a partir de ella, realizar el resto de cálculos.

s e A x B = SC r -(
se A + s e B + S es /A B) = 445,03-(84,90+298,07 +59,25) = 2,81

En la tabla del Anova hemos incluido una nueva columna que indica el valor de
la F crítica para cada factor o interacción al 95%. Estos valores de la F crítica sólo de-
pende de los grados de libertad correspondientes a cada comparación y, por tanto,
coincide en el caso de los factores A y B (ambos con 2 y 18 grados de libertad) pero
difiere para el contraste de la interacción {con 4 y 18 grados de libertad).
REGLA DE DECISIÓN: Rechazaremos H0 siempre que el estadístico de contraste F
obtenido en el Anova supere el valor crítico de la tabla de la distribución F. Observa-
mos que esto se ha producido para el factor A y el factor B como factores principales
(12,895 > 3,555 y 45,272 > 3,5555, respectivamente) pero no así para la interacción
entre A y B (0,123 < 2,928).
CONCLUSIÓN: La primera hipótesis que hay que contrastar es sobre la interac-
ción. El estadístico obtenido no supera el valor crítico por lo que la interacción no
es significativa y su variabilidad hay que sumarla al error para volver a recalcular los
estadísticos de contraste de cada uno de los factores:

157
-----
• Ejercicios y problemas resueltos y comentados. Disef1os de investigación y analisis de datos

84,90 2 42,45 15,048 3,44


Iluminación (B) 298,07 2 149,035 52,83 3,44

lntl'a (S/AB) 62,06 22 2,821


Total 445,03 26 17,116

Rechazamos la hipótesis nula para el efecto principal de los factores Grupo e


Iluminación
INTERPRETACIÓN: El rendimiento laboral se muestra afectado por el grado de
tabaquismo de los trabajadores (F = 15,048; p < 0,05) así como por el nivel de ilumi-
nación en el que realizan su tarea (F = 52,83; p < 0,05). No podemos afirmar en qué
sentido o qué grupos difieren debido a que no disponemos de los datos necesarios.

SITUACIÓN 13. Un investigador se encuentra interesado en la eficacia de los


tratamientos para la pérdida de peso. Considera interesante poner a prueba los
tres tratamientos más relevantes: ejercicio, dieta y ejercicio+dieta. Pero, además,
cree que el lugar físico donde se realiza el tratamiento puede tener un efecto sobre
la pérdida de peso. Para ello, contacta con una empresa que tiene un programa de
reducción del sobrepeso para sus empleadas y proporciona a 10 de ellas un carnet
para la asistencia a una clínica dietética, a otras 10 un carnet de un club deportivo
y a un último grupo de 10 mujeres les proporciona ambos carnets que les permiten
asistir gratuitamente a estas instalaciones. En cada grupo, la mitad de mujeres (5)
han sido elegidas aleatoriamente de la planta de manufacturado y la otra mitad
(otras 5) han sido elegidas de la sección de secretaría. La variable dependiente fue
la reducción de peso. Asumimos que se cumplen los supuestos del análisis de va-
rianza. Trabajamos a un a.= 0,05.
Determine el tipo de diseño y el análisis a aplicar.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un experimento en donde se han ma-
nipulado, según el enunciado, dos variables: el tratamiento recibido y la planta de
trabajo de la que proceden las mujeres que se van a someter al mismo. La prime-
ra variable (tratamiento) adopta 3 niveles: dieta, ejercicio o dieta+ejercicio. La se-
158
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

gunda variable (plianta de trabajo) adopta dos niveles: manufacturado y secretaría.


Tenemos por consiguiente un experimento donde se han manipulado dos factores
(tratamiento y planta de trabajo) con 3 y 2 niveles respectivamente. Se dice que
tenemos un diseño 3x2. Existen 6 grupos de sujetos en total, con 5 mujeres en
cada grupo. La variable dependiente es la pérdida de peso experimentada, es decir,
la variable dependiente es una puntuación diferencia (Xantes - X después) que puede
ser cero (si no gana ni pierde peso), negativa (si en lugar de perder peso lo gana)
o positiva (si pierde peso). Obsérvese que si definimos la variable dependiente a
la inversa, es decir, como (Xdespués - Xantes) seguiríamos teniendo una puntuación
diferencia que puede adoptar puntuaciones positivas, negativas o cero pero ahora
la interpretación de las puntuaciones concretas tienen un sentido inverso. Es decir,
ahora una puntuación positiva indicaría ganar peso y una puntuación negativa in-
dicaría perder peso). Considerar cuidadosamente cómo se interpretan las puntua-
ciones de la variable dependiente en un estudio real es de suma importancia para
poder interpretar adecuadamente los resultados.

Tendríamos por tanto un diseño del tipo de la siguiente tabla:

Tratamiento Planta de trabajo Mujeres Variable dependiente

M1 xl_antes-xl_después
Mz x2_antes-x2_después
Manufacturado M3 x3_antes-x3_después
M4 x4_antes-x4_después
Ms Xs_antes-XS_después
Dieta
M6 x6_antes-x6_después
M7 X ¡ _antes-X?_después
Secretaría Mg Xs_antes-XS_después
M9 x9_antes-x9_después
M10 X1o_antes-X1o_después
Manufacturado
Ejercicio
Secretaría
Manufacturado

M36 x36_antes- . x 36_después


Dieta+ Ejercicio M37 x37_antes-x37_después
Secretaría M3s X3s_antes-X3s_después
M39 x39 _antes-x39_después
M40 X4o_antes-X40_después

159
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Esta es la manera «estándar» de analizar estos datos. Obsérvese, no obstante,


que el investigador podría haber elegido otra forma de analizarlos: considerando
los dos factores ínter-sujetos ya vistos (tratamiento y planta de trabajo) e incluyen-
do como un nuevo tratamiento la puntuación Antes y la puntuación Después. En
este caso, este tercer factor debería considerarse como un factor intra-sujetos ya
que, obviamente, las puntuaciones Antes y Después para cada sujeto están relacio-
nadas. Al tener factores intra e inter-sujetos se debería realizar un Anova mixto,
cuyo tratamiento no es parte del temario y, por consiguiente, no se desarrollará el
ejemplo según esta segunda posibilidad. Este punto es importante porque muestra
que ante un mismo diseño se pueden aplicar distintos análisis sin que uno sea más
correcto que otro.
Después de realizar el Anova y si este resultase significativo (es decir, que algu-
no de los factores o su interacción resultasen significativos) se debería plantear el
tipo de análisis a posteriori que debería realizarse. Resulta directo pensar que los
aspectos más importantes serían: a) si el factor tratamiento resultase significativo,
debería plantearse un contraste a posteriori comparando los tratamientos simples
(dieta, ejercicio) con el tratamiento combinado para conocer si la combinación de
ambos aporta algo más que sus componentes; b) sería interesante conocer si la in-
teracción entre la planta de trabajo y el tratamiento para determinar si el efecto es
similar para ambos grupos de mujeres o, por el contrario, afecta diferencialmente
a ambos grupos. Si esto último resultase cierto, tendríamos que plantear el porqué
de la interacción. Por ejemplo, podría suceder que para las mujeres de la planta de
manufacturado el efecto en la reducción del peso fuese menor que para las mujeres
de la planta de secretaría en todos los niveles del tratamiento, debido a que ya se
encuentran realizando una actividad física antes de empezar el tratamiento.
Es razonable pensar que el investigador esté preferentemente interesado en los
tratamientos (dieta, ejercicio, dieta+ejercicio) y considere al segundo factor (planta
de trabajo de la que se han extraído los participantes) como una variable que mo-
derará el efecto del tratamiento ya que las participantes de la planta de manufac-
turado estarán sometidas a niveles de actividad física superiores a las participantes
de la planta de secretaria. En la planta de manufacturado, los trabajadores tendrán
que levantar pesos, andar, estar de pie, etc., en mayor medida de lo que lo harán las
trabajadoras de la planta de secretaría.
La actual tendencia en Análisis de Datos, que se conoce como «Análisis Inteligen-
te», incide en tener en cuenta todas estas matizaciones acerca de los datos (como
se mide la variable dependiente, considerar varios tipos de análisis en función de la
hipótesis teórica planteada, etc.) de tal forma que se elimine una forma «acrítica»
160
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •

de proceder en el análisis, que suele caracterizar muchas aplicaciones reales. Esta


consideración nos debería llevar a plantearnos, por ejemplo, que el diseño de este
estudio está «incompleto» ya que en un estudio real hubiera sido deseable introdu-
cir también un grupo de control que no fuese sometido a ningún tipo de tratamien-
to. De esta forma se podría calcular un tamaño del efecto real para cada nivel del
tratamiento. Si intentáramos calcular un tamaño del efecto utilizando un análisis
3x2 intersujetos no tendríamos un verdadero valor «de inicio» o de control ya que,
posiblemente todos los niveles de tratamiento podrían tener un efecto superior a O.
Considerando la fórmula genérica para el cálculo de un tamaño del efecto:

= Y Control - Y Experimento/
d
Sy

Observamos que nos enfrentaríamos al problema de decidir cuál de los tres gru-
pos (dieta, tratamiento o dieta+tratamiento) debería considerarse como grupo de
control (no consideramos la planta de tratamiento porque, como hemos dicho, se
puede considerar una variable moderadora más que una variable independiente en
el sentido propio del término). Pero si utilizáramos un análisis 3x2 mixto podríamos
disponer de las puntuaciones pre-test como punto de partida, o control, con las que
comparar las puntuaciones experimentales.
CONDICIONES Y SUPUESTOS: Al tratarse de un Anova, los supuestos que deben
cumplirse son: normalidad, homocedasticidad e independencia. En el propio enun-
ciado se nos indica que asumamos que estos supuestos se cumplen.
HIPÓTESIS: La hipótesis que se pone a prueba (Ha) es que la media de las tres
condiciones experimentales es la misma, es decir, que los tres tratamientos de pér-
dida de peso tienen el mismo efecto.

Ha : µdieto = µejercicio = µdieta+ejercicio

La hipótesis alternativa plantea que existen, al menos, dos grupos cuyas medias
en pérdida de peso difieren.

H¡ : µdieta *µejercicio OR µdieto *µdieta+ejercicio OR µejercicio *µdieta+ejercicio


Como existen tres grupos para el factor tratamiento, esta hipótesis alternativa se
verifica si se cumple alguna de las tres hipótesis (o la dieta y el ejercicio difieren, o
la dieta y la combinación dieta+ejercicio o el ejercicio y la combinación dieta+ejer-
cicio). Con que se cumpla alguna de las tres hipótesis se rechaza Ha y se acepta H1.
161
• Ejercicios y problemas resueltos y comentados. Disefios de investigación y análisis de datos

En lógica esto se expresa mediante el operador OR (la disyunción inclusiva: o uno u


otro o ambos).
La hipótesis para el factor Planta de Trabajo sería similar, aunque por sí sola
tenga poco sentido:

H o : µManufacturado = µSecretaría
H1 : µMonufocturado i= µSecretaría

Decimos que tendría poco sentido ya que, considerada como factor principal, no
involucre al verdadero tratamiento, aquel que podemos introducir en un programa
de reducción de la obesidad.
Por último, tendríamos que poner a prueba la interacción entre la planta de
trabajo y el tratamiento.

H0 : No existe interacción
H 1 : Existe interacción

ESTADÍSTICO DE CONTRASTE: No podemos calcularlo ya que no nos han pro-


porcionado datos concretos ni estadísticos resumen. En consecuencia, tampoco
podemos tomar una decisión o interpretación simplemente con el enunciado del
ejercicio.

162
BLOQUE IV

Análisis de regresión
Soluciones a los ejercicios
de los capítulos 8 y 9

SITUACIÓN l. Algunas personas con discapacidad física o sensorial tienen acce-


so a simios amaestrados para ayudarles a realizar las tareas domésticas. Estos simios
tienen la ventaja sobre los perros de que pueden manipular objetos con sus manos
(v.g., abrir recipientes o acercar objetos). Los siguientes datos proporcionan el nú-
mero de tareas que nueve monos pudieron realizar así como el número de años que
esos mismos monos habían estado trabajando con personas discapacitadas.

Nombre del mono Años de trabajo Tareas que puede realizar


Hellion 10 28
Freeway 8 24
SuSu 6,5 28
Henri 6 28
Jo 5 27
Peepers 1,5 23
Cleo 0,5 15
Jeep 0,5 6
Maggie 0,4 23
Nota: se ha respetado el nombre en inglés de los monos como reconocimiento a su encomiable labor con
personas discapacitadas. Por otro lado, cualquier parecido de estos estudios con la ficción cinematográfica
(v.g., El amanecer del planeta de las simios) es pura coincidencia. Fuente: Journal of Rehobilitation Reseorch
and Development, 28, No. 2, 91-96, 1991.

Determine si el número de años de trabajo del mono (es decir, su experiencia


profesional) tiene capacidad predictiva en relación con la cantidad de tareas que
puede realizar, es decir, si es un predictor válido, mediante la evaluación de la bon-
dad de ajuste de la regresión.
165
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

SOLUCIÓN:
Se trata de un problema de regresión lineal simple en donde pretendemos eva-
luar la capacidad predictora del número de años de amaestramiento de monos en
relación al número de tareas que pueden realizar para las personas discapacitadas.
La variable dependiente será el número de tareas que puede realizar el mono y la
variable independiente será el número de años. Para no repetirnos con los largos
nombres de las variables, llamaremos X a la variable independiente e Y a la variable
dependiente.
CONDICIONES Y SUPUESTOS: Los supuestos son de independencia entre las ob-
servaciones, homocedasticidad y normalidad. Con respecto a la independencia, no
parece lógico dudar de la misma si los monos han sido extraídos de distintos labo-
ratorios o zoológicos e incluso de distintos países. No podemos evaluar la homo-
cedasticidad y la normalidad porque necesitaríamos disponer de una muestra de
datos en la variable Y (número de tareas), para cada uno de los valores de la variable
independiente X (número de años). En este sentido, solo Cleo y Jeep tienen el mis-
mo valor en la variable «años de trabajo» y distinto valor en el «número de tareas».
En todo caso, no tenemos razones para suponer que se incumplan estos supuestos
según el enunciado.
Lo que sí es interesante notar es el incumplimiento del supuesto de la conti-
nuidad de las variables. En concreto, la variable Y es discreta ya que el número de
tareas sólo puede adoptar valores del conjunto de los números naturales( = {O, 1,
2, ... }). Aunque es una variable medida en una escala de razón, este incumplimiento
podría cuestionar el análisis de regresión.
HIPÓTESIS: El investigador ha planteado el contraste de la bondad del ajuste de
la regresión para lo que tenemos que evaluar el contraste del coeficiente de regre-
sión B mediante un Anova. En el mismo, la hipótesis nula es que el número de años
de trabajo del mono no predice el número de tareas que éste puede realizar, lo que
expresado simplemente indica que los monos no aprenden nuevas tareas con la
experiencia.

Ho: P1 = 0
H1 :P1 :¡tQ

Para verificar la consistencia del análisis, realizaremos el contraste de la bondad


de ajuste de la recta global mediante el Anova. Este Anova evalúa en qué medida
los datos pueden ser predichos mediante una línea recta, separando la variabilidad
total en un componente explicado por la recta y un componente que no explica, el
166
Soluciones a los ejercícios de los capítulos 8 y 9 •

residuo. Si el Anova resulta significativo implica que el coeficiente de regresión B1


que evalúa si la pendiente es significativamente distinta de cero también lo es.
ESTADÍSTICO DE CONTRASTE: Para el cálculo de la Tabla del Anova, tendremos
que realizar previamente el cálculo de las Sumas de Cuadrados {SC) debidas a la
recta de regresión que mejor ajusta nuestros datos y las SC del residuo. Para ello
necesitamos disponer de los valores (pendiente y punto de corte con la ordenada)
que mejor se ajusta, según el criterio de mínimos cuadrados, a los datos muestra les
representados en el siguiente diagrama de dispersión:

Tareas
35

30
• • • •
25
• •
20

15 •
10

5

Años de trabajo
o 2 4 6 8 10

Al final del ejercicio se comentará lo que sugiere la gráfica ya que es muy inte-
resante.

167
-----
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

10 28 280 100 784


8 24 192 64 576
6,5 28 182 42,25 784
6 28 168 36 784
5 27 135 25 729
1,5 23 34,5 2,25 529
0,5 15 7,5 0,25 225
0,5 6 3 0,25 36
0,4 23 9,2 0,16 529
Sumatorio 38,4 202 1011,2 270,16 4976
Media 4,267 22,444
Sx 3,437 7,010

¿XY - - 10112
Sxy = - - - X · Y = ' 4,267·22,444=16,587=16,59
n 9
16,587
----=0,688=0,69
3,437 · 7,010

Estos valores nos permiten calcular la pendiente y el punto de corte con la or-
denada.

_ n ¿ X Y - ¿ X ¿ Y _9·1011,2-38,4·202_ -
-1,405=1,40
81 - 2 - 2
n¿x2-(¿x) 9·270,16-38,4

Aunque también podríamos haberlo realizado mediante la fórmula (que nos ser-
virá también de verificación}:

Sy 7,010
81 = r x y - = 0 , 6 8 8 - - = 1 , 4 0 3 = 1 , 4 0
Sx 3,437

La diferencia entre ambos valores (1,405 y 1,403} se debe a errores de redondeo.


Para obtener la ecuación de regresión debemos calcular también el punto de
corte con la ordenada:

168
Soluciones a los ejercicios de los capítulos 8 y 9 •

80 = Y - 81 ·X =22,444-1,405·4,267 = 16,449 = 16,45

Luego la ecuación de regresión en puntuaciones directas es (con dos dígitos de


precisión):

Y' =16,45+1,40X¡

Esta ecuación nos permitirá construir las sumas de cuadrados que necesitamos
para la tabla del Anova, aplicándosela a todos los valores de X (años de entrena-
miento). Como ejemplo, para X = 10, el valor pronosticado será Y'= 16,449 + 1,405
· 10 = 30,499.

Sumas de Cuadrados
SCT= SCReg= SCError=
X y Y' ( Y - Y)2 ( Y ' - Y) 2 ( Y - Y1 2
10 28 30,499 30,864 64,876 6,245
8 24 27,689 2,419 27,505 13,609
6,5 28 25,581 30,864 9,841 5,849
6 28 24,879 30,864 5,927 9,741
5 27 23,474 20,753 1,060 12,433
1,5 23 18,556 0,309 15,116 19,745
0,5 15 17,151 55,420 28.015 4,629
0,5 6 17,151 270,420 28,015 124,356
0,4 23 17,011 0,309 29,522 35,868
Sumatorio 38,4 202 201,993 442,222 209,878 232,474

Obsérvese que los valores predichos (Y') se han obtenido aplicando la ecuación
Y'= 16,452 + 1,405X; a cada valor de X. Con los cálculos anteriores podemos cons-
truir la tabla del ANOVA y evaluar la hipótesis sobre la significación de la regresión:

Fuentes de
g.l. M.C.
Variación
209,878 1 209,878 6,319
232,474 n-2=9-2=7 33,211
Total 442,222 n-1=9-1=8

169
• Ejercicios y problen1as resueltos y comentados. Diseños de investigación y análisis de datos

Estas sumas de cuadrados también se pueden obtener con las siguientes expre-

--
siones, que conducen a los mismos resultados, salvo errores de arrastre del redon-
deo a dos o tres decimales:

28 784
- 2 2 -2
24 576 SCrotol = ¿ ( Y - Y ) = ¿ Y - n · Y =
28 784 22
4976- 9 -( r = 442, 22
28 784
27 729 SCError = ¿ ( Y - Y ' ) 2 = ( 1 - r : y )·SCrotal =
23 529 = ( 1-0,6892 )·442,22 = 232,474
15 225
SCRegresión =
I(Y ,- Y-)2 = 'xy2 ·SCrotal =
6 36
= 0,6892 -442,22 =209, 748
23 529
sumas 202 4976

Como hemos indicado previamente, si realizamos el contraste de la pendiente


observaremos que coincide con este análisis global indicando que la pendiente es
distinta de cero. El estadístico de contraste sería:

a= ,
8-0 140-0
=2,502
T= Sy 7,010 1-0,688 2
sx 3,437 9-2

que comparado con el valor crítico (t 7 = 2,365 < 2,502) en un contraste bilateral a
un a = 0,05.
REGLA DE DECISIÓN: La bondad de ajuste de la regresión, considerada global-
mente, será considerada significativa si el valor del estadístico obtenido (F9 11= 1,912
= 7 = 6,319) supera el valor crítico que en este caso es 5,591, para un a = 0,05, o
12,246 para un a = 0,01, podemos concluir que la regresión es significativa con un
t
nivel de confianza del 95%. El nivel críi co p, calculado con un software estadístico,
es 0,0403, mayor que 0,01, pero menor que 0,05.
CONCLUSIÓN: Rechazamos la hipótesis nula a un nivel de significación del 005.
170
Soluciones a los ejercicios de los capítulos 8 y 9 •

INTERPRETACIÓN: Con respecto al modelo nulo en donde la mejor predicción


que podemos realizar del número de tareas que puede realizar un simio es igual a
la media de los valores de la variable dependiente, el modelo que incluye el número
de años de entrenamiento permite mejorar esta predicción significativamente (F =
6,319; p < 0,05).
Con respecto a la gráfica de los datos es interesante realizar tres observaciones.
En primer lugar, parece existir una asíntota en el número de tareas que pueden rea-
lizar los monos ya que para valores elevados del número de años de entrenamiento,
el número de tareas parece estabilizarse entre 25-30. Si es así tendríamos un límite
de aprendizaje en monos que sería muy interesante comprobar y estudiar porqué
se produce. En segundo lugar, debe observarse que los monos aprenden unas pocas
tareas muy rápidamente, con muy poco entrenamiento. Por último, aunque se ne-
cesitan más datos (unan= 9 es muy baja), es posible que una regresión lineal no sea
la más idónea ya que los datos parecen conformarse más a una función polinómica
con un inicio de aprendizaje muy rápido y una asíntota horizontal. Es decir, sobre es-
tos datos sería recomendable realizar una regresión no lineal ya que su bondad de
ajuste sería mayor previsiblemente o, quizás, una regresión no paramétrica debido
al incumplimiento de los supuestos.
Nota: esta situación ha sido recogida de una base de datos pública (StatSci.org).
Esto significa que en la red existen multitud de bases de datos con las que el alumno
puede practicar si así lo desea. Muchas de estas bases de datos son específicas para
la aplicación de un método estadístico u otro, en concreto, este ejemplo venía bajo
el encabezado de Regresión Lineal Simple. Ejemplos de bases de datos públicas son
OzDASL o DASL.

SITUACIÓN 2. Anscombe (1973) presentó cuatro conjuntos de datos artificiales


que tenían la misma recta de regresión pero eran claramente diferentes. En la figura
se puede ver uno de estos conjuntos de datos (11 pares de datos) junto con la recta
de regresión que mejor ajusta por el criterio de mínimos cuadrados (línea oblicua
en negro).

171
• Ejercicios y problemas resueltos y comentados. Disel'los de investigación y análisis de datos

Estadísticos de este conjunto de datos:


12
Sx = 3,162

1
10 S y = 1,936
y
8 ' x y = 0,816
a = 0,05

1 1 1 1
6 8 10 12 14
X

El análisis de la regresión para los datos de la figura nos indicó que la regresión
fue significativa [F(l, 9) = 17,972, MCRe g resión = 1,528, p = 0,002).
Calcule la pendiente de la recta de regresión, el error máximo de su intervalo de
confianza y ponga a prueba la significación de la correlación entre X e Y.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: nos indican explícitamente que se trata de una rec-
ta de regresión como, además, puede deducirse inspeccionando la figura. En ella,
tenemos 11 puntos que representan los pares de datos en las variables X e Y. Pode-
mos observar visualmente que 10 de estos puntos siguen una línea recta perfecta
mientras que el punto con abscisa X= 13 se desvía notablemente de la misma. Es un
dato atípico. La línea oblicua representa el ajuste por mínimos cuadrados obtenido
en la regresión. Resulta directo observar visualmente que si no hubiese sido por el
dato atípico, la recta de regresión (línea oblicua) debería haber pasado por todos
y cada uno de los puntos sin desviación alguna, es decir, sin error. Ha sido el valor
atípico el que ha «tirado» de la recta de regresión calculada hacía sí, desviándola del
resto de puntos que sí se ajustan a una línea recta.
Recordemos que Anscombe presentó otros tres conjuntos de datos -que vere-
mos más adelante en otros gráficos- cuya recta de regresión y estadísticos descrip-
tivos eran idénticos a los presentados aquí, pero que variaban notablemente al gra-
ficarlos. Su objetivo fue mostrar que en toda investigación, y antes de embarcarse
en la tarea de realizar cálculos ciegamente, es conveniente inspeccionar los datos
gráficamente para comprenderlos.
Aunque no lo indican explícitamente en el enunciado, la observación de los ejes
X e Y nos indica que, como mínimo, ambas variables se encuentran en una escala
de intervalo. Dada esta condición, son tres los supuestos que deben cumplirse para
que las inferencias que puedan extraerse del análisis de regresión sean apropiadas:
172
)O luciones a los ejercicios de los capítulos 8 y 9 •

1. Independencia. Dados los comentarios iniciales, se deduce que estos datos


no se extrajeron de una población de unidades de observación concretas
(personas, hospitales, naciones, ... ) sino que se obtuvieron mediante un cál-
culo explícito. Por consiguiente, y como no nos han dicho nada en contra,
podemos aceptar que los datos son independientes entre sí.
2. Homocedasticidad. Que se refiere a que la varianza de los valores de Y es la
misma para todos los valores de la variable predictora X. Sin embargo, este
caso es paradójico en ese sentido ya que para un valor concreto de X no
existe variabilidad, cosa que sería lo usual si los datos proviniesen de obser-
vaciones reales, no simuladas. Esto se puede deducir de la figura al observar
que para un valor de X sólo existe un único punto en su vertical. Si existiesen
varios podríamos hablar de varianza superior a O condicionada a ese valor de
X, pero no es el caso. No obstante, podemos asumir que se cumple el supues-
to de homocedasticidad porque la observación gráfica de los datos nos indica
que la recta de regresión es apropiada.
3. Normalidad. Tampoco podemos aceptar de manera estricta este supuesto
por dos razones. En primer lugar, porque para cada valor de X sólo tenemos
un valor de Y (como ya hemos comentado) y no una distribución de valores.
Si no tenemos una distribución de valores, no podemos poner a prueba la
normalidad de la misma. En segundo lugar, si se hubiesen computado varios
valores de Y para un X dado, todos habrían tenido el mismo valor ya que los
valores de Y se obtenían aplicando la ecuación lineal que generó los datos. Y
una ecuación lineal siempre produce un único valor Y para un valor X dado.
A pesar del incumplimiento o la imposibilidad de verificar algunos de los supues-
tos, se puede aplicar la ecuación de regresión por mínimos cuadrados.
HIPÓTESIS: La hipótesis nula plantea que la correlación entre X e Y es cero que
expresado simbólicamente es:

ESTADÍSTICO DE CONTRASTE: El estadístico de contraste para la correlación se


distribuye según la distribución t y en este caso adopta el valor:

rx y .Jn - 2 0,816.Jll-2
T= = 4 235
J1-r;y 1-0,816 2

17
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN: Para un nivel de confianza del en un contraste bilateral

valor de ii =' Yi'


(antes de tener datos se admite que puede ser positiva o negativa) utilizamos un
º º =0,025. Luego el valor crítico obtenido en la tabla t de Stu-
dent con n - 2 = 1 1 - 2 = 9 grados de libertad es ±2,262 (es decir, un rango que va
desde -2,262 a +2,262). Como el valor del estadístico de contraste obtenido (T =
4,235) supera por arriba, y queda fuera de este rango de valores compatibles con
H0, rechazamos Ha , como se muestra en la figura:

-4 -2 O

Región de aceptación
la hipótesis nula
T= 4,235

Podemos, por tanto, aceptar que existe relación entre X e Y. Como nos propor-
cionan la estimación puntual de la misma (rxy = 0,816), no es necesario su cálculo.
El anterior contraste nos permite rechazar una relación entre X e Y, pero no su
tipo y tendencia. Para ello tendremos que realizar el contraste de la pendiente plan-
teando el siguiente contraste:

Ha : 1 = 0
H1 :P1 :;t:O

Para poner a prueba esta hipótesis debemos calcular previamente le valor de la


pendiente muestra l. El mejor estimador insesgado de la pendiente viene dado por:

S 1,936
81 = r x y - y= 0 , 8 1 6 - - = 0 , 4 9 9 6 1 2 9 0 , S O
Sx 3,162

174
Sofudones a los ejercicios de íos capítulos 8 y 9 •

Con este dato podemos calcular el estadístico de contraste para la pendiente:

B-0 0,50
1,936 1-0,816 2 =3,738 3,74
T = Sx e = 3,162 9-2

El valor crítico para este contraste será el mismo que hemos utilizado para el
contraste de la correlación (t = ±2,262) ya que éste solo depende del número de
grados de libertad y del nivel de confianza. Podemos verificar que también en este
caso podemos rechazar la hipótesis nula de que la pendiente era O y, por consi-
guiente, no tenía capacidad predictora ya que el estadístico de contraste supera el
valor crítico: 3,738 > 2,262.
Una verificación poco precisa del valor de la pendiente sería dibujar en la figura
del enunciado un cuadrado. La diagonal positiva de este cuadrado tendría pendien-
te 1 y, por consiguiente, la pendiente obtenida sería justo la mitad de este valor
(véase la siguiente figura). En esta figura el cuadrado se ha dibujado desde los valo-
res 6 al 8 en ambos ejes (se utilizan exactamente los mismos valores para obtener
el cuadrado y porque si las escalas del eje X e Y no son iguales, sería la única forma
de obtener una figura cuya pendiente positiva fuese de 45º y, por tanto, pendiente
igual a la unidad). A continuación se dibuja su diagonal positiva (véase la recta en
rojo del cuadrado) que tendría pendiente igual a la unidad. Observamos que, efec-
tivamente, la recta de regresión obtenida tiene un ángulo que es la mitad (0,5) de
la línea roja en relación al eje X.

10

4 6 8 10
X

Para calcular el error máximo del intervalo de confianza de la pendiente, debe-


mos utilizar la fórmula:

2
S Jg-r
Emax -- t n-2·1-u/ · a B -- t n-2·1-u/ ._r_
5
, 12 · 12 x n -2

175
• Ejercicios y problemas resueltos y comentados. DíseNos de investigación y análisis de datos

Para el nivel de confianza planteado, el estadístico t vale (con a/2 porque el con-
traste es bilateral) 2 ,2 6 2 y como conocemos el número de casos (n = 11) podemos
realizar el cálculo con la primera igualdad de más arriba:
=
' n/2 = t11-2;1- O'O/2
tn - 2'1- ' '975 2 , 2 6 2
S / = tgi)

= Ji-r:y
= 1 , 9 3 6 J l - 0 , 8 1 6 = 011 18
2
<Js
Sx n- 2 3 ,16 2 9

f m a x = lt n - 2;1- o./2 · cr8 1 = 12 , 2 6 2 · 0, 1 1 8 1= 0, 2 6 7


CONCLUSIÓN: La variable X tiene capacidad predictora sobre Yy el valor puntual
de la pendiente de la regresión lineal es de 0,5. El error máximo que cometemos es
de 0, 2 6 7 puntos por lo que el rango de valores entre los que se encontrará al 9 5%
de confianza la pendiente en la población será:

0,7 6 6
I C = B1 ± Em ax = 0 , 4 9 9 ± 0, 2 6 7 = (
0, 2 3 2

INTERPRETACIÓN: El valor atípico podría haber «tirado» de sí la pendiente de la


recta de regresión como para hacerla insigníficante, es decir, indistinta de O (v.g.,
plantéese el alumno qué sucedería si el valor atípico hubiese sido el punto {13, 3}).
Aunque se sigue manteniendo la capacidad predictiva de X sobre Y, la presencia
del valor atípico ha sido el responsable de que la pendiente de regresión puntual
estimada sea 0,5 cuando, si se eliminase el valor atípico, la pendiente habría tenido
otro valor pero, por el contrario, la capacidad predictiva habría sido perfecta.

SITUACIÓN 3. En la situación anterior se ha utilizado uno de los elementos del


cuarteto de Anscombe con estadísticos resumen. A continuación presentamos los
datos originales para los cuatro conjuntos del cuarteto.

176
Soluciones a los ejercicios de los capítulos 8 y 9 •

Primer conjunto Segundo conjunto Tercer conjunto Cuarto conjunto


X1 Y1 X2 Y2 X3 Y3 X4 Y4

10 8,04 10 9,14 10 7,46 8 6,58


8 6,95 8 8,14 8 6,77 8 5,76
13 7,58 13 8,74 13 12,74 8 7,71
9 8,81 9 8,77 9 7,11 8 8,84
11 8,33 11 9,26 11 7,81 8 8,47
14 9,96 14 8,10 14 8,84 8 7,04
6 7,24 6 6,13 6 6,08 8 5,25
4 4,26 4 3,10 4 5,39 19 12,50
12 10,84 12 9,13 12 8,15 8 5,56
7 4,82 7 7,26 7 6,42 8 7,91
5 5,68 5 4,74 5 5,73 8 6,89

l . Calcule la pendiente de la recta de regresión y el error máximo de su interva-


lo de confianza para cada conjunto. Interprete los resultados en conjunto.

SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de cuatro rectas de regresión con 11 pares
de datos cada una. Los diagramas de dispersión de cada conjunto de datos nos indi-
can claramente las diferencias entre las mismas.

Primer conjunto Segundo conjunto

• •
y y
1 ••• •
••
10 10\

• •
• • • g'
61 • • 61

• •
4[ 4·
t •
2r 2¡
+---··-·· ·- · · -
2 4 6 8
.-
10 12 14 X
- 2- 4
- ·- -·-·
6 8 - 10-- 12 -14 X

177
• Ejercicios y problC!mas resueltos y comentados. Diseños de investigación y análisis de datos

Tercer conjunto Cuarto conjunto


y

y

12

• •
10
••
• • ••• • • • 8
6 ••
X - - X
2 4 6 8 10 12 14 5 10 15

En el primer conjunto observamos una serie de datos que pueden modelarse


mediante una línea recta con pendiente positiva. Es el conjunto «ideal» para aplicar
la regresión lineal. En el segundo vemos que existe una relación muy clara entre X e
Y, pero esta relación no es lineal sino curvilínea. Se puede calcular perfectamente la
recta de regresión pero, viendo la gráfica, no es apropiada ya que, en todo caso, ha-
bría que aplicar la regresión polinómica (que no entra en el temario). El tercer caso
es el que se revisó en el ejercicio previo. El cuarto caso es muy interesante también
ya que todos los datos, excepto uno, tienen la misma abscisa (X= 8) y distintos va-
lores de la ordenada Y. El que exista un único punto discrepante permite construir
la recta de regresión. Si este punto se eliminara, esta recta de regresión lineal sería
imposible matemáticamente porque la desviación ti pica de la variable X sería O, lo
cual impediría calcular la pendiente ya que

y sabemos que en matemáticas no es posible dividir por O en el conjunto de los


números reales. Pero el que exista un dato discrepante permite matemática mente
construir la recta de regresión. Es obvio que tampoco en este caso parece apropia-
do el cálculo de una recta de regresión. iY sin embargo, los estadísticos de la recta
de regresión son idénticos en los cuatro conjuntos de casos! Este es un ejemplo
prototípico para mostrar que la visualización de los datos cumple una función muy
relevante previa a la realización de cualquier regresión.
Calculemos los estadísticos descriptivos necesarios para los cálculos posteriores
en cada conjunto de datos (aunque sabemos que, salvo errores de redondeo, serán
idénticos).

178
Soluciones a los ejercicios de los capítulos By 9 •

--
Primer conjunto de datos:

10
8
8,04
6,95
¿ X ; = 1 0 + 8 + ... + 7 + 5 = 99

-
X = -¿-X= ¡- = 99
n
9
11
13 7,58
2
9 8,81
11 8,33 2 I ( x ; - x . ) = -¿-X- ¡X - 2 = -1-0-0 91 2= 10
Sx =
14 9,96 n n 11
6 7,24 ¿Y¡=8, 04+ 6,95 + ... +4,82+ 5 , 68 = 82, 5 1
4 4,26
12 10,84 - " Y · 82 5 1
7 4,82 Y=-¿_, = - ' - = 7 '5 0
n 11
5 5,68
2
Sumatorio 99 82,51 s : = ¿ ( Y ; - Y ) =-¿_Y_/ - Y 2 = 6 6 0 , 1 1 7 50 2 = 3 76
Media 9 7,50
n n 11 ' '
Varianza 10 3,76
55, 0 1 =
Cov(X,Y)=¿(x-x)(Y-Y) 5 '0 0
n 11

Cov(X, Y) 5 ,0 0

--
=O ' 81
�y=
SxS y M ·..j3,76
Segundo conjunto de datos:
¿ X ; = 1 0 + 8 + ... + 7 + 5 = 99

10 9,14
8 8,14 X= ¿X; =99 = 9
n 11
13 8,74

I(X¡ -x.)
2
9 8,77
= -¿-X- X
¡
2 -2 1001 2= 10
11 9,26 Sx = =---9
n n 11
14 8,10
6
4
6,13
3,10
¿Y¡=9, 14 + 8, 1 4 + ... + 7,26+4, 74 =82, 5 1

12 9,13
¿ Y ; = 82, 5 1 = 7 5 0
7 7,26 Y= n 11 '
5 4,74
2
2
Sumatorio 99 82,51 s: = ¿ ( Y ; - Y ) = ¿Y; _y2 = 66 0 , 1 1 - 7 5 0 2 = 3 76
Media 9 7,50 ' '
n n 11
Varianza 10 3,76

179
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

( X - x ) ( Y Y) 55
Cov(X, Y ) = ¿ : - = =5, 0 0
n 11

rx y = Cov(X, Y) 5, 0 0
=O 81
Sx S y .flo-,J3,76 '

¡Observamos que, aunque los valores de Y2 son diferentes, tienen los mismos
estadísticos resumen que Y1 ! Si realizamos el cálculo del resto de conjuntos nos

--
encontraremos exactamente en la misma situación. Comprobémoslo.

Tercer conjunto de datos:

¿ X ; = 1 0 + 8 + ... + 7 + 5 = 9 9

10 7,46
X = ¿ X; = 9 9 = 9
8 6,77 n 11
13 12,74
9 7,11
2=
¿( X¡ - x) 2 = -¿-X- ¡X -2 10 0 1 2 =1
11 7,81 Sx =---9 0
14 8,84 n n 11
6 6,08 ¿ Y ; = 7,46+6, 77 + ... +6,42+5, 73 =82, 5 1
4 5,39
12 8,15 y
=
¿ Y ; = 82, 5 1 = 715
7 6,42 0
n 11
5 5,73
2
Sumatorio 99 82,51 2
Sy = L.,
'°'(Y; -Y) '°'Y,-
__
=-L.,
2
-2
y =
66 0 17
' - 7 , 5 0 2 =3,76
Med;a 9 7,50
n n 11
L Varianza 10 3,76
I,(x-x)( Y - Y) 54 97
Cov(X, Y ) = =-' -=5, 00
n 11

rx y = Cov (X , Y ) = 4, 9 9
= 0 1 81
S x Sy .flo-,J3,76

El cuarto conjunto de datos exhibe el mismo patrón. Pero comprobémoslo.

180
Soluciones a los ejercicios de los capítulos 8 y 9 •

--
Cuarto conjunto de datos:

¿X;= 8 + 8 + ... +8+8=99


8 6,58 - ¿X; 99
X=--=-=9
8 5,76 n ll
8 7,71
2
8 8,84 2 I(x;-x) = -¿xt
--X
-2 1001
=---9
2 =10
8 8,47 Sx =
n n ll
8 7,04
8 5,25 ¿Y;=6,58+5,76+ ... + 7,91+6,89=82,51
19 12,50
8 5,56 y= ¿ Y ; = 82,51 =7
8 7,91 ' 50
n ll
8 6,89
Sumatorio 99 82,51 )Y;-Y) 2 -¿}'
S 2y = - - - -
/ -2 = 660,17 2
Media 9 7,50
--Y 7,50 =3,76
n n ll
Varianza 10 3,76
I(x-x)(Y-Y) 54.99
Cov(X,Y)= --'---' -'- =5 ' 00
n 11
Cov{X, Y) 5,00
fxy = =0 , 81
SxSy . J w - . J 3 , 76

Por consiguiente, si los estadísticos resumen son idénticos entre los cuatro con-
juntos de datos, es obvio que los parámetros de la regresión lineal serán los mismos.
1. Independencia. Por las razones indicadas en el ejercicio anterior (situación
2), podemos aceptar que los datos son independientes entre sí en todos los
conjuntos de datos.
2. Homocedasticidad. Este supuesto resulta interesantísimo ya que podemos
ver que ni siquiera se cumple en el cuarto grupo aunque tenga varias pun-
tuaciones de Y condicionadas a X= 8. La razón en este caso es que podemos
calcular una varianza para los valores de Y condicionados a X= 8, pero este
supuesto exige disponer de grupos de puntuaciones de Y condicionadas a X.
Lo que evalúa este supuesto es la igualdad de estas diferentes varianzas para
los diferentes valores de X. Y en el cuarto grupo de puntuaciones tenemos
un segundo grupo (puntuaciones de Y condicionadas a X= 19) con un único
valor. Y de un único valor no podemos calcular una varianza o desviación típi-
ca. Por consiguiente, no podemos verificar este supuesto en ninguno de los
181
• Ejercicios y problemas resueltos y comentacos. Disel'los de investigación y análisis de datos

conjuntos de puntuaciones. Pero el objetivo de este ejercicio no era el rea-


lizar una recta de regresión a un conjunto de datos evaluando previamente
que los supuestos se cumplían, por lo que podemos obviar la verificación del
cumplimiento de este supuesto.
3. Normalidad. Asumimos el supuesto de normalidad de las puntuaciones con-
dicionadas a un único valor de X aunque, este sí, sólo podría evaluarse para
el grupo de puntuaciones de Y condicionadas a X = 8 del cuarto conjunto de
Anscombe.
HIPÓTESIS: La hipótesis nula plantea que la pendiente de regresión es cero en los
cuatro conjuntos de datos. Se expresa simbólicamente como:

Ho :P1 =0
H1 : �1 ;t: O

ESTADÍSTICO DE CONTRASTE: El estadístico de contraste se distribuye según la


distribución t con n - 2 = 1 1 - 2 = 9 grados de libertad y en este caso adopta el mis-
mo valor en todos los conjuntos ya que sólo depende de la correlación, del número
de sujetos y de las desviaciones típicas de X e Y. Pero antes de su cálculo debemos
realizar una estimación puntual de la pendiente (B) y del punto de corte con la or-
denada. El mejor estimador de la pendiente viene dado por:

Sy 76
81 = rx y - = 0,81 �3, =0,50
Sx �
-vlO

Y esto, en los cuatro casos, el punto de corte con la ordenada es:

80 = Y - B X = 7 , 5 - 0 , 5 · 9 =3

Con estos datos ya podemos calcular el estadístico de contraste de la pendiente:

8-0 O' 5 - 0
T= = =4,17139�4,171
2
Sy �3, 76 1-0,81
Jl-r; y

Sx � M 11-2

REGLA DE DECISIÓN: Para un nivel de confianza del 0,05 en un contraste bilate-


ral (antes de tener datos se admite que P puede ser positiva -línea con pendiente
positiva- o negativa -línea con pendiente negativa-) el valor crítico obtenido en la
tabla t de Student con 9 g.l. es ±2,262. Como el valor del estadístico de contraste

182
Soluciones a los ejercicios de los capítulos 8 y 9 •

obtenido (T = 4,171) supera por arriba este rango de valores compatibles con H0 ,
rechazamos H0 en todos los conjuntos. Podemos, por tanto, aceptar que existe re-
lación lineal entre X e Y en los cuatro conjuntos.
CONCLUSIÓN: Aún con estadísticos descriptivos idénticos entre distintos conjun-
tos de datos, esto no significa que puedan interpretarse todos de la misma forma.
Es fundamental un análisis visual y exploratorio (EDA o Exploratory Data Analysis)
que nos confirme la adecuación de la técnica estadística a utilizar (regresión lineal)
a los datos concretos disponibles.
INTERPRETACIÓN: Aunque la recta de regresión es idéntica en los cuatro conjun-
tos de datos, solamente el primero de estos conjuntos puede resumirse apropiada-
mente mediante la misma. Los otros tres conjuntos muestran situaciones en donde
no es apropiado el cálculo de la regresión lineal. El segundo conjunto porque habría
que utilizar regresión polinómica. El tercero porque hemos detectado la existencia
de un valor atípico (outlier) que nos falsifica el resumen estadístico obtenido. El
cuarto porque todos los datos, excepto uno, están condicionados a un único valor
del predictor.

SITUACIÓN 4. En un colegio se estudia la relación que puede existir entre la


calificación global de los estudiantes al final del curso (Y) y la calificación obteni-
da en el curso anterior (X). Efectuado un análisis de regresión, con una muestra

-----
de estudiantes, la prueba para determinar la significación del modelo de regresión
ajustado es la siguiente:

Regresión 28,097 1 28,097 V w


Residual 23,778 6 T
Total u

Las letras {U, T, V y W) representan valores numéricos desconocidos.


Establezca las hipótesis oportunas y realice el contraste adecuado {NC = 95%).

SOLUCIÓN:
Este ejemplo muestra un tipo de estudio usual en Psicología: evaluar algún as-
pecto de la conducta en su evolución temporal. Y muestra de manera simplificada
también uno de los resultados más usuales, a saber, el mejor predictor estadístico
183
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

de la conducta de una persona es su conducta pasada. Una persona que hubiese


obtenido buenas notas en matemáticas el curso pasado es muy probable que tam-
bién las obtenga durante el curso actual. Obsérvese que se ha subrayado «estadís-
tico». La razón es que nos estamos refiriendo a conclusiones relativas a un grupo
de personas (una población), no a un individuo concreto. Las predicciones relativas
a un individuo concreto hay que establecerlas utilizando criterios más personales,
aunque también son muy útiles las predicciones relativas a su grupo de pertenen-
cia.
Obsérvese que se trata de un modelo de regresión (lo dice claramente el enun-
ciado), incluso aunque nos presenten una tabla del Anova. La razón es que muchas
veces interesa evaluar si existe relación lineal entre X e Y (recuérdese que un estu-
dio en donde exista relación entre X e Y pero esta no sea lineal, NO deben utilizarse
las técnicas de regresión lineal). El contraste de la regresión se realiza mediante la
descomposición de la variabilidad total en dos componentes, uno explicado por
la regresión (lineal) y otro considerado como residual (error o no explicado) y que
viene explicado por otros factores.
CONDICIONES Y SUPUESTOS: Para realizar un análisis de regresión se deben
cumplir los supuestos de:
• Independencia de las observaciones entre sí.
• Homocedasticidad.
• Normalidad de las distribuciones condicionadas.
• Independencia entre los valores estimados y los errores de estimación.
Obsérvese que NO es un supuesto que las puntuaciones predictoras y predichas
se sitúen linealmente en un diagrama de dispersión. Es por ello que resulta necesa-
rio evaluar mediante el Anova si esta condición se cumple en nuestros datos o no
mediante un gráfico de dispersión.
Lo más novedoso de este ejercicio es que indica claramente, mediante letras

-----
mayúsculas, qué valores numéricos faltan en la tabla del Anova. Si la reconstruimos
podremos determinar esos valores.

Regresión 28,097 1 28,097 V = 7,089 w


Residual 23,778 6 T = 3,963
Total U = 51,875

184
Soluciones a los ejercicios de los capítulos B y 9 •

Los cálculos realizados son los siguientes:


T = 23,778 / 6 = 3,963
V = 28,097 / 3,963 = 7,089
U = 28,097 + 23,778 = 51,875
A partir de estos datos también puede obtenerse el valor del coeficiente de de-
terminación aplicando la ecuación:

R2 ( N - 2 )
F -- - -R2 - ---'-----'--
1-R2 - 1-R2
N-2

Que en nuestro caso sería:

R2 ( 8 - 2 )
7,089 =
1 - R2

Luego, despejando obtenemos:

7,089( 1 - R 2 ) = 6R 2

7,089
-----
R2
6 1 - R2

R2
1,1815=--2
1-R

1, 1815-1, 1815R 2 - R 2 = O

1, 1815-2, 1815R 2 = O

-11815
R2 = ' = 0 5416
-2,1815

R =.J0,5416 =±0, 7359

Sólo el conocimiento de la relación nos podrá determinar si es positiva (+0,7359)


o negativa (-0,7359). También podemos conocer Ja varianza de las puntuaciones de
Y así como la varianza de las puntuaciones predichas (Y'):
185
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

5 1, 8 75 = 5Cr = n s ; =85;

s; = 51, 8 7 5 = 6 48 4
8

Pera el cálculo de la varianza de las puntuaciones predichas utilizamos la rela-


ción existente entre las varianzas y la correlación:

2 2
2 = -Sy, = - -Sy,
0,5416=rxy
Sy2 6,484

Luego despejando el valor buscado:

Sy2, =0, 5 416 x 6,48 4 = 3, 5117

HIPÓTESIS: La hipótesis nula plantea que NO existe relación lineal significativa


(englobando a la pendiente y al ordenada de la recta de regresión ya que el con-
traste proporcionado era un contraste sobre la bondad de la regresión) entre la
calificación global de los estudiantes durante un curso escolar y la calificación global
de esos mismos estudiantes en el siguiente curso escolar. Se plantea como hipótesis
nula aquella hipótesis que el investigador considera incorrecta ya sea por la investi-
gación previa o, preferentemente, por una teoría formalizada. Se hace así para que,
si se ve rechaza esta H0 , se hará con una confianza elevada en que es falsa. La hi-
pótesis alternativa plantea que sí existe relación lineal significativa entre la variable
predictora y la variable predicha. Básicamente, esto equivale a contrastar la hipó-
tesis sobre la pendiente de regresión ya que si ésta fuese O, X no tendría capacidad
predictiva de Y, independientemente del valor del punto de corte con la ordenada.

Ho :P1 = 0
H1: P1 :;t 0

ESTADÍSTICO DE CONTRASTE: En este caso, el estadístico obtenido es la razón


F (7,0 8 9), aunque también se podría haber utilizado el estadístico t de Student,
cuyo valor se encuentra relacionado con el F, mediante la siguiente relación:

Y que en este caso sería igual a t6 = J 7 ,08 9 =±2,662.

186
Soluciones a los ejercicios de los capítulos 8 y 9 •

REGLA DE DECISIÓN: La probabilidad del valor de la F obtenida tendremos que


estimarla de manera aproximada revisando las tablas de la distribución F para todos
los valores de nivel de confianza que ésta nos presenta y manteniendo constante
los grados de libertad (1 y 6 para el numerador y el denominador respectivamente):

NC =0,90 NC =0,95 NC = 0,975 NC= 0,99


-------·-

1 1 1

1 49,5 1 161, 48 199,5 1 647, 89 799,5 1 4052, 81 4999


2 9,0 2 18, 13 19,0 2 38, 06 39,0 2 98, 03 99
3 5,4 3 10, 28 9,5! 3 17, 3 16,0 3 34, 16 30
4 4,3 4 6,9t 4 12, 18 10,6 4 21, 98 18
5 3,7 5 5,71 s 8,4: s 13
6 3,4 6 s,1, 6 7,21 6 10
7 3,2 7 4,7: 7 8,073 6,5' 7 12,246 9

Observamos que el valor de la F obtenida empíricamente (7,089) es superior al


encontrado en la tabla para un nivel de confianza del 0,95 (el indicado en el enun-
ciado que corresponde al valor de W en la tabla del Anova) pero inferior al encon-
trado en la tabla para un nivel de confianza del 0,975. En consecuencia, podemos
saber que la probabilidad de encontrar un valor del estadístico de contraste como
el alcanzado o superior se encuentra entre los valores de probabilidad:

1-0,95=0,05
1-0,975 =0,025

Esto significa que es inferior a 0,05 pero superior a 0,025. Si trabajamos a un ni-
vel a de 0,05 el resultado, al ser la p inferior a 0,05, será significativo. Sin embargo,
si trabajamos a un nivel de a de 0,01 el resultado será no significativo.
CONCLUSIÓN: Como el valor de la F empírica obtenida como estadístico de con-
traste, (7,089) supera el valor crítico (5,987 = W de la tabla), podemos rechazar la
H0 de falta de relación lineal significativa, lo que implica que la pendiente es distinta
de O.
INTERPRETACION: Recordemos que el contraste era bilateral, es decir, la hipóte-
sis alternativa admitía la posibilidad de que la pendiente en la población, �, fuese
positiva o negativa. El hecho de que el cálculo matemático nos permita conocer sólo
el valor absoluto de la correlación (no su signo), resulta que sólo podemos determi-
nar que la relación es significativa. Pero debido a que la experiencia nos indica que
la relación entre las calificaciones debe ser positiva, y aunque matemáticamente
no podamos afirmarlo, podemos concluir que la correlación será positiva. Por con-

187
• Ejerciciosy problemas resueltos y comentados. Díseflos de investigacióny análisisde datos

siguiente, se puede predecir la calificación global de los estudiantes en un curso


académico considerando la calificación en el curso académico anterior.

SITUACIÓN 5. Los siguientes datos relacionan el número de cigarrillos diarios

------
consumidos (X) con el número de radicales libres (Y) localizados en los pulmones
de 8 individuos.

1 o o o 8836
2 10 144 1440 100 20736
3 14 182 2548 196 33124
4 5 120 600 25 14400
5 18 240 4320 324 57600
6 20 234 4680 400 54756
7 30 321 9630 900 103041
8 40 400 16000 1600 160000
Sumatorio 137 1735 39218 3545 452493
Des. Típica 12,242 97,605

l rxy = 0,9945

Sabiendo que la correlación entre las dos variables es 0,9945:


5.1. Plantee el tipo de contraste más adecuado a esta situación.
5.2. Determine las ecuaciones de regresión en puntuaciones directas, diferen-
ciales y tipificadas.

SOLUCIÓN:
5.1. Para la primera pregunta seguiremos los siguientes pasos:

CONDICIONES Y SUPUESTOS: La tabla del enunciado proporciona seis colum-


nas. La primera es irrelevante para los cálculos ya que solo nos indica el número
de sujetos utilizados (n = 8). Cada sujeto dispone de dos puntuaciones: el número
de cigarrillos diarios consumidos, X, y el número de radicales libres presentes en
alguna prueba diagnóstica al uso, Y. Aunque no es necesario saberlo para resolver
el problema, los radicales libres son enlaces débiles en los átomos de las células. Al
disminuir la fuerza del enlace atómico convierten a su átomo o molécula en ines-
188
Soluciones a los ejercicios de los capítulos 8 y 9 •

table y, por ello, dificultan el funcionamiento normal de la célula. Se las considera


los responsables del envejecimiento biológico y de muchas enfermedades cardio-
vasculares, cáncer, etc. Es obvio que estudio de este tipo sólo se realizaría si el in-
vestigador considerara que el consumo de cigarros aumenta el número de radicales
libres y, en consecuencia, el riesgo de contraer enfermedades graves. Esta será la
hipótesis alternativa: a mayor número de cigarrillos, se espera que hayan más ra-
dicales libres. Además, si se aplica una regresión lineal simple, se asume que esta
relación será lineal (no de tipo cuadrático, cúbico o de algún otro tipo polinomial,
exponencial, etc.). Sin embargo, el experimentador debe asumir inicialmente que
no existe relación entre ambas variables, es decir, que el número de cigarrillos no
incrementa o decrementa el número de radicales libres. De esta forma, si rechaza
esta hipótesis nula de que no existe relación, lo estará haciendo con un grado de
confianza muy elevado. Esta es la hipótesis nula y se operativiza planteando como
hipótesis nula que la pendiente de la recta de regresión es horizontal, es decir, con
valor cero. Los datos se han graficado en la siguiente figura.

500

"' 400
300

200

100

o
o 10 20 30 40 50
Número de cigarrillos

Como ya hemos visto, siempre es conveniente graficar los datos para tener una
impresión, aunque solo sea visual, de la linealidad de la relación, y como se puede
observar, la figura nos sugiere muy claramente que la relación es lineal y positiva,
como plantea efectivamente la hipótesis alternativa.
Los datos de las columnas restantes en la tabla del enunciado se proporcionan
ya que nos permitirán realizar los cálculos de la recta de regresión de manera rápi-
da. Si no nos los hubiesen proporcionado habría que haberlos calculado antes de
proseguir. Observemos también que las columnas X e Y indican también los sumato-
rios (ino las medias!) así como las desviaciones típicas. Por último, también nos han
proporcionado la correlación entre X e Y. Con todos estos datos es fácil deducir que
debemos realizar un contraste de regresión lineal sobre la pendiente.
189
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

5.2. Para la segunda pregunta tendremos que calcular el valor de la pendiente y la


ordenada en el origen:

Sy 97,605
81 = r x y - = 0 , 9 9 4 5 =7,929
Sx 12,242

- - 2J ¿X
80 = Y - 81 X = - - 8 1 - = - - -
1735 137
7 , 9 2 9 - = 8 1 , 0 9 0 9 �81,09
n n 8 8

Es importante revisar el diagrama de dispersión a la vista de estos cálculos para


evaluar si los resultados de los cálculos tienen sentido. Por ejemplo, podemos com-
probar que 80 parece admisible ya que la figura nos indica que cuando X = O, el
primer punto (Y) está algo por debajo de 100. Dado el grosor del punto en la figura
en relación a la escala del eje Y parece admisible. Además, una pendiente de, apro-
ximadamente 8 unidades, visualmente también parece adecuada.

Obsérvese que para el cálculo de 81 hemos utilizado la fórmula más cómoda de


todas las fórmulas posibles dados los datos proporcionados en el enunciado.

Por consiguiente, las rectas de regresión en puntuaciones directas, diferenciales


y tipificadas son, respectivamente:

Z ' ¡ = fx y Z x =0,9945Zx
I I

Los supuestos son:

a) Independencia de las observaciones. No tenemos razones para sospechar


que las puntuaciones sean independientes ya que asumimos que los 8 suje-
tos han sido extraídos al azar de la población de fumadores.

b} Homocedasticidad.
e) Normalidad de las distribuciones condicionadas.
d} Independencia entre los valores pronosticados, Y', y los errores de estima-
ción.

En esta situación sería posible poner a prueba los supuestos de homocedastici-


dad y normalidad si tuviéramos datos de varios fumadores con los mismos índices
de tabaquismo, es decir, que fumaran lo mismo. De esta forma podríamos evaluar
la normalidad y la homocedasticidad. Como no nos indican nada, asumimos que se
cumplen todos los supuestos. Si no los asumiéramos, deberíamos aplicar los con-
trastes apropiados (posiblemente no paramétricos).

190
Soluciones a los ejercicios de los capítulos 8 y 9 •

HIPÓTESIS: Como hemos planteado en las condiciones y supuestos, la hipótesis


nula plantea que 8 1 en la población es cero, mientras que la hipótesis alternativa
plantea que 81 es distinta de cero. Simbólicamente la hipótesis se representa como:

Ho :P1 =O
H1: P1 :;t: 0

En este contexto no tiene sentido realizar un contraste del punto de corte con la
ordenada (8 0 ) ya que no nos han indicado nada sobre el número de radicales libres
esperados en no fumadores.
ESTADÍSTICO DE CONTRASTE: Para evaluar la hipótesis nula planteada utilizare-
mos la t de Student con n - 2 grados de libertad:

T --
81 - P i _ 81 - P i _ 7,929-0 = 7,929 = 7,929 =23,259
cr - s __
,
9_7_6-05---;
=

1=- 0,=9==5=2 7,973,J0,043 0,3409


94
8
_r_ g 2 - r x y
Sx n-2 12,242 8-2

Adviértase que los cálculos dependen mucho de la precisión con que los reali-
cemos (utilizar dos dígitos decimales o tres puede alterar notablemente el valor del
estadístico de contraste, n. No obstante, teniendo en cuenta que en la tabla de la
distribución t de Student, con 6 gl, figuran como valor máximo superior: 3,143, es
fácil observar que un valor tan elevado como el hallado (23,259), queda notable-
mente fuera de los valores críticos (-3,143 y +3,143) en el que se encontraría el
estadístico de contraste si la H0 fuese cierta.
REGLA DE DECISIÓN: El valor de la t crítica con 8 - 2 = 6 grados de libertad y

bilateral ( 1 - � =1-0,025=0,975) con un a = 0,05 (elegido por defecto ya que

no nos indican ninguno concreto en el enunciado) es 2,447. De hecho, no habría


sido necesario buscar en las tablas dado el considerable tamaño de la t empírica
obtenida para saber que rechazamos H0. Como 23,259 > 2,447, rechazamos H0. Los
resultados son idénticos si utilizamos la tabla del Anova como prueba de bondad
global de la ecuación de regresión.
Hemos elegido el contraste bilateral porque en el enunciado no nos indican nin-
guna dirección específica del efecto. Si lo hubiesen hecho, deberíamos haber esco-
gido un contraste unilateral ya que tendría más sentido si esperamos un efecto en
la dirección de 81 >O (a mayor número de cigarrillos consumidos mayor número de
radicales libres).

191
• Ejercicios y problemas resueltos y comentados. Disef1os de investigación y análisis de datos

Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990

1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 31,821
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 6,965
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 4,541
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 3,747
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 3,365
6 -6;B1 o, 04 9,553 1-8-6,906 - 1 , 4 3 4 - - - - 4 ; 4 4 0 - 1, 3,143
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,998
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,896
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821

También podemos evaluar la bondad de ajuste de la recta de regresión global-


mente. Hagámoslo. Para ello obtenemos las sumas de cuadrados de acuerdo a las
siguientes expresiones:

2 -2 1735
SCr otol = ¿ Y - n · Y =452493-8· - 8 -
( )2 =76214,9

2
SCError = ( 1 - r ; y )·SCr o to l =(1-0,9945 ) · 76214,87 = 836, 058

---
2 2
SCRe g resión = rx y ·SCro tol =0,9945 · 76214,9=75378,8

o 8836
10 144 20736
14 182 33124
5 120 14400
18 240 57600
20 234 54756
30 321 103041
40 400 160000
Sumas 137 1735 452493

Luego la tabla del Anova será:

192
-
Soluciones a los ejercicios de los capítulos 8 y 9 a

s.c. g.l. M.C.


Regresión SCR eg = 75378,8 1 75378,8 539,669
Residual SCRes = 838,058 n-2=8-2=6 139,676
Total SCTo tal = 76214,9 8-1=7

Puede observarse que se cumple la siguiente relación (aproximadamente):

t =Fin 23,2 59
2 = 5 4 0,981 ::: 5 39 ,669

Esta F también podría haberse obtenido sin necesidad de realizar los cálculos
de las S.C. utilizando la fórmula (que, exceptuando los errores de redondeo, nos
proporciona un valor muy similar a la F de la tabla del Anova):

2
0, 9 9 4 5 2
F = - r - =2 = 54 0 959
1-r 1 - 0 , 99 4 5 2
n-2 8-2

La diferencia entre estos valores (5 39 ,669 y 5 40,9 59) sólo puede deberse a los
problemas de redondeo, tal y como ha quedado indicado más arriba.
REGLA DE DECISIÓN: El valor de la F crítica con 1 y 6 grados de libertad es 5 ,9 87
con un nivel de significación de 0,0 5 y 13,7 4 5 con un nivel de significación de 0,01.
CONCLUSIÓN: Luego, como el estadístico de contraste obtenido es mayor que
cualquiera de estos valores críticos, es decir, 5 4 0 > 5 ,9 87 así como 54 0 > 13,7 4 5 ,
concluimos lo mismo que ya hemos visto intuitivamente, la regresión es significa-
tiva.
INTERPRETACIÓN: La pendiente poblacional que relaciona el número de ciga-
rrillos consumidos con el número de radicales libres es superior a O (F = O 5 39 ; p
< 0,01). Por consiguiente, a mayor índice de tabaquismo se espera encontrar un
número de radicales libres superior.

SITUACIÓN 6. El artículo «Efecto de la temperatura sobre el pH de la leche»


(Journal o f Dairy Research,1988, 277-280) informó de un estudio en el que se uti-
lizaron 5 temperaturas diferentes (medidas en grados centígrados) en condiciones
experimentales controladas de una granja y se midió el pH de la leche obtenida
para cada temperatura. La ecuación de regresión calculada fue Y'= 0,65 + 0,22X. El
193
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

objetivo era predecir el pH de la leche (Y) a partir de la temperatura {X). Utilice un


a = 0,05. Además se sabe que: S y = 1,87 y Sx = 7,90.
6.1. Ponga a prueba la hipótesis de la significación de la pendiente de la ecua-
ción de regresión.
6.2. Ponga a prueba la hipótesis de la significación del coeficiente de correla-
ción entre X e Y.
6.3. ¿Cuál sería el pH de la leche si el granjero mantiene una temperatura de
29QC en el establo?

SOLUCIÓN:
El enunciado nos indica que han realizado un análisis de regresión entre la tem-
peratura (X) y el pH de la leche obtenida en una granja. El estudio fue experimen-
tal ya que manipularon la temperatura a la que se encontraban los animales de la
granja pero el análisis realizado fue una regresión (no un Anova). Esto es importante
para separar el diseño del análisis. Aunque diseño y análisis están fuertemente re-
lacionados, es el carácter de las hipótesis que ponemos a prueba lo que determina,
en última instancia, el tipo de análisis a realizar. Por eso, un diseño que inicialmente
podría haberse analizado mediante Anova ya que era un estudio experimental se ha
analizado mediante Regresión.
Nos proporcionan la ecuación de regresión obtenida en donde podemos ver que
la pendiente es positiva {81 = 0,22), lo cual nos indica que cada grado centígrado
en que se incremente la temperatura de la granja, se incrementa el pH en 0,22
unidades. Recordemos brevemente que el pH de un líquido nos indica su grado de
alcalinidad-acidez, siendo 7 el valor neutro por ser el pH del agua pura, la cual se
toma como punto de referencia en esta medida.

6.1. Para la significación de la pendiente:

CONDICIONES Y SUPUESTOS: Las dos variables (temperatura y pH) son variables


cuantitativas medidas en escalas de intervalo. Debemos asumir, aunque no nos in-
dican nada, que se cumplen los supuestos de independencia, normalidad de las
puntuaciones de Y condicionadas a X, homocedasticidad e independencia entre los
valores de pH predichos (Y') y los errores de estimación (E).
HIPÓTESIS: La hipótesis nula plantea que en la población, la pendiente de la rec-
ta de regresión de Y sobre X es O (expresado en palabras, que la temperatura a la
que se encuentran las vacas en el establo no tiene capacidad predictiva sobre el pH
de la leche producida por las mismas):
194
Soluciones a los ejercicios de los capítulos 8 y 9 •

Ho : 1 = 0
H1 : 1 :;t: O

Admitimos un contraste bilateral ya que en el enunciado no se nos ha indicado


nada sobre la posibilidad de que el contraste fuera unilateral. Debemos así admitir
la posibilidad de que en la población la pendiente de regresión pueda ser positiva o
negativa, es decir, que la temperatura haga aumentar o disminuir el pH de la leche.
ESTADÍSTICO DE CONTRASTE: La hipótesis de la significación de la pendiente de
regresión nos plantea la posibilidad de que la pendiente obtenida no sea estadísti-
camente distinta de O. Se evalúa mediante el estadístico T:

81 - O
T=
J1-r;y
Sx n-2

Observamos que en el enunciado nos han proporcionado todos los datos para
realizar este cálculo (tenemos 81' Sx y S y ) excepto el valor del coeficiente de corre-
lación. Es por ello que debemos buscar la forma de obtener primero el coeficiente
de correlación. Esto es fácil con los datos que tenemos si aplicamos la fórmula:

Sy
81 = r x y -
Sx
1' 8 7
O1 2 2 = rXY
7 90
I

Luego despejando el coeficiente de correlación obtenemos:

_ 0,22x7,90
rxy - -- O 9 2 9
1, 8 7

Por lo tanto el estadístico de contraste vale:

T =--ª 1 --0=
J1-r;y
--====
1, 8 7
0,22-0

1-0,929
2
=
= 4, 34984 4, 35

Sx n-2 7,90 5-2

El estadístico de contraste es una T con n - 2 grados de libertad. El cálculo rea-


lizado nos indica que vale 4,350. El valor crítico de la T con n - 2 = 5 - 2 = 3 grados
195
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

de libertad al 95% bilateral como nivel de confianza ( O, 975 = 1 - ' J i ) vale 3,182.
Obsérvese que, en este caso, el número de valores se corresponde con el número
de temperaturas utilizadas en el estudio, no con el número de vacas (que no nos lo
han indicado). La unidad de observación ha sido el par Temperatura-pH.
REGLA DE DECISIÓN: Rechazamos la hipótesis nula si el estadístico T se encuen-
tra fuera del intervalo definido por los valores críticos: -3,182y + 3,182.
CONCLUSIÓN: El valor 4,350 supera el estadístico de contraste por la derecha, es
decir, 4,350 > 3,182. Luego rechazamos H0 .
INTERPRETACIÓN: La pendiente de regresión en la población es superior a O, lo
cual indica que SÍ podemos predecir el pH a partir de la temperatura del establo.

6.2. Para la significación del coeficiente de correlación:

CONDICIONES Y SUPUESTOS: Los mismos que para la cuestión 1 de esta situa-


ción. En la solución a la pregunta n9 1 hemos calculado el coeficiente de correlación
(0,929). Ahora nos piden determinar si este coeficiente de correlación es distinto de
O (hipótesis nula) aplicando el estadístico de contraste para la correlación entre X e
Y (no para la pendiente de la recta de regresión de Y sobre X como en el apartado
anterior).
HIPÓTESIS: La hipótesis nula plantea que en la población el coeficiente de corre-
lación (p) es O (es decir, que la temperatura no tiene relación ni positiva ni negativa
con el pH de la leche):

ESTADÍSTICO DE CONTRASTE: El estadístico de contraste es la T de Student con


n - 2 = 5 - 2 = 3 grados de libertad:

rx y = 0,929
T= 4,34792 4,350
" r1:--rT} y J i - 0 , 9 2 92

REGLA DE DECISIÓN: En un contraste bilateral, rechazamos la hipótesis nula si el


estadístico T se encuentra fuera del intervalo definido por los valores críticos de la
distribución T de Studente con 3 grados de libertad: -3,182y + 3,182.
CONCLUSIÓN: El valor 4,350 obtenido para la correlación supera el valor crítico
(4,35 > 3,182). Luego rechazamos H0 .
196
Soluciones a los ejercicios de los capítulos 8 y 9 •

INTERPRETACIÓN: El coeficiente de correlación es superior a O, lo cual indica que


existe relación positiva elevada entre la temperatura y el pH. Podemos afirmar que
a mayor temperatura, mayor pH.

6.3. Para el pronóstico del pH de la leche:

Para responder a esta pregunta solo tenemos que aplicar la ecuación Y'= 0,65 +
0,22X de regresión para pronosticar el pH que tendría la leche a partir de una tem-
peratura de X= 29QC en el establo:

Y' =0,65+0,22·29 = 7,03

SITUACIÓN 7. La teoría de Triver (1972) plantea que, en cualquier especie ani-


mal, el género con mayor inversión parental (e.g., tiempo y energía gastados en
gestar y educar a la descendencia) será el que tendrá preferencia a la hora de se-
leccionar pareja. En consecuencia se explica (y predice) que en la especie huma-
na las mujeres, como género con mayor inversión parental, raramente aceptarán
proposiciones de sexo casual con desconocidos (Voracek, Hofhansl y Fisher, 2005)
imponiendo un proceso de selección más cuidadoso y riguroso antes de consen-
tir en la actividad sexual (Grammer, 1989). Una derivación de esta teoría plantea
que el dimorfismo sexual será más acusado en aquellas especies donde la hembra
aporte más en la gestación y crianza de la prole que el macho. Esto es debido a que,
si es la hembra la que selecciona la pareja, los machos tendrán que competir por
ellas y esta competición favorecerá rasgos morfológicos diferenciados (v.g., mayor
cornamenta, corpulencia, plumas más vistosas, etc.). Por el contrario, en aquellas
especies donde la aportación del macho y la hembra son parecidas, estas diferen-
cias estarán reducidas o serán inexistentes.
En la especie humana podemos observar este dimorfismo en las diferencias,
entre otras, del peso corporal promedio: el varón es más pesado que la mujer por
término medio (otros índices de dimorfismo sexual en la especie humana son la
altura, la presencia de vello facial, etc.). Una pregunta que se hacen muchos antro-
pólogos es en qué medida este dimorfismo existió en los homínidos extintos. Para
responder a esta pregunta, se presenta a continuación los datos estimados a partir
de los fósiles para varios homínidos (obtenidos de fuentes diversas):

197
• Ejercicios y problemas resueltos y comentados. Diseños de Investigación y análisis de datos

Masa corporal (en Kg) . . '


Evidencia utilizada para
Homínido
Machos Hembras estimar la masa corporal

Proconsul nyanzae 35 15 Dental, palatal y post-craneal


Dryopithecus laietanus 35 20 Dental, craneal y post-craneal
Dryopithecus brancoi 40 25 Dental, craneal y post-craneal
Sivapithecus punjabicus 40 20 Dental, craneal y post-craneal
Oreopithecus 30 15 Dental, craneal y post-craneal
1 Australopith_e_c_u_s 70 31
_________________ ___
P_o_s_t--cr_a_n_e_a1

La pregunta planteada es doble: por un lado queremos conocer con estos da-
tos si en estos homínidos existe una diferencia de peso corporal entre el macho y
la hembra significativa que indique un dimorfismo sexual acusado. Por otro lado,
disponemos de especímenes para los que solo tenemos estimaciones del peso para
los machos o para las hembras, pero no para ambos. En concreto, para el Proconsu/
heseloni solo tenemos estimaciones del peso corporal para las hembras (10 Kg)
pero no para el macho. Por el contrario, en el Afropithecus tenemos estimaciones
del peso corporal en el macho (35 Kg) pero no en la hembra. Determine con estos
datos si es factible admitir que nuestros antepasados homínidos eran dimórficos en
el peso corporal. Determine, además, la estimación del peso corporal del macho en
el Proconsul heseloni y de la hembra en el Afropithecus.

SOLUCIÓN:
No existe una solución única al primer problema ya que podemos abordarlo,
como mínimo, de dos formas complementarias. En primer lugar, podríamos com-
parar las medias del peso en un diseño de medidas repetidas siendo la especie la
unidad de observación. Si no hay dimorfismo sexual en nuestros antecesores, las
medias de peso no deberían diferir estadísticamente. No obstante, a la vista de los
datos obtenidos parece lógico concluir que este análisis resultará significativo ya
que las diferencias «saltan a la vista» (revise de nuevo los valores del peso estimado
para machos y hembras). Otra forma de abordar este problema consiste en realizar
una regresión lineal con la hipótesis nula de que la pendiente es 1, lo que resulta
idéntico a plantear que el peso es, en promedio, idéntico para machos y hembras.
Es la estrategia que vamos a seguir en este ejercicio.
Veamos en primer lugar la gráfica de los datos proporcionados:

198
Soluciones a los ejercicios de los capítulos 8 y 9 •

10 L

60

50


40

30

• ••
2 0 t·

10.
••
10 20 30 40 50 60 70

En el eje de abscisas (eje X u horizontal de esta figura) se localiza el peso de los ma-
chos y en el de ordenadas (eje Y o vertical) el de las hembras. Podemos visualizar los 7
pares de valores numéricos de que disponemos y la línea que representa la hipótesis
nula (pendiente igual a la unidad que indicaría igual peso para machos y hembras).
El segundo problema planteado en el enunciado hace referencia a la predicción
del peso del macho a partir del peso de la hembra (regresión de X sobre Y) para el
Proconsul hese/oni y la predicción del peso de la hembra a partir del peso del ma-
cho (regresión de Y sobre X) para el Afropithecus. Esto significa que tendremos que
calcular ambas ecuaciones de regresión, la de Y sobre X así como la de X sobre Y.
CONDICIONES Y SUPUESTOS: Tenemos muy pocos datos para poder poner a
prueba los supuestos de independencia, homocedasticidad y normalidad. Pero en
vista del diagrama de dispersión, la regresión lineal parece factible por lo que asu-
miremos que estos supuestos se cumplen.
HIPÓTESIS: Si no hubiese dimorfismo sexual en los homínidos anteriores al ser
humano, se deduce que el peso debería ser el mismo entre machos y hembras. Esto
significa que la pendiente debería ser igual a la unidad. Admitimos la falta de dimor-
fismo sexual como hipótesis nula por varias razones. En primer lugar, es un punto de
referencia muy claro, del que se deriva una hipótesis nula específica. Si trabajára-
mos con la hipótesis nula de que en los homínidos anteriores SÍ EXISTÍA dimorfismo
sexual, tendríamos que establecer en qué grado existía para poder establecer un
valor específico de la pendiente en la hipótesis nula. Pero esto plantea un problema
ya que no sabríamos como escoger ese valor específico con los datos de que dis-
ponemos. Por otro lado, la hipótesis nula de que la pendiente es igual a la unidad
parece la hipótesis más apropiada o que recoge con mayor exactitud el concepto de
«hipótesis nula»: inexistencia de diferencias entre los pesos de hombres y mujeres.
199
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

La determinación del tipo de contraste, unilateral o bilateral, es más problemáti-


ca. Observando a los homínidos actuales, en donde el macho es más pesado por re-
gla general que la hembra, podríamos plantear que la pendiente debería ser inferior
a la unidad ya que evolutivamente es un rasgo heredado. Si los homínidos actuales
muestran este dimorfismo y este es heredado, parece lógico concluir que en los
homínidos extintos también debió darse. Por consiguiente, en un diagrama donde
el peso del macho se encuentre en las abscisas y el de la hembra en las ordenadas,
la pendiente favorable a la hipótesis alternativa debería ser inferior a la unidad (si se
intercambian los ejes, la pendiente sería superior a la unidad, reseñando que la di-
rección de la pendiente, superior o inferior a la unidad, es arbitraria ya que depende
de la convención que utilicemos acerca de donde ponemos el peso de machos y
hembras en la gráfica). Luego admitimos un contraste unilateral izquierdo (porque
la hipótesis alternativa se encuentra a la izquierda del valor de referencia, la unidad
en este caso) en donde la hipótesis nula será:

Ho :P1 ;::-:1
H¡ : P1 <1

ESTADÍSTICO DE CONTRASTE:
Para calcular el estadístico de contraste tendremos que realizar los cálculos pre-

--···
vios que nos facilitarán la tarea: la extracción de los estadísticos descriptivos.

Homínido

Proconsulnyanzae 35 15 525 1225 225


Dryopithecus laietanus 35 20 700 1225 400
Dryopithecus brancoi 40 25 1000 1600 625
Sivapithecus punjabicus 40 20 800 1600 400
Oreopithecus 30 15 450 900 225
Australopithecus 70 31 2170 4900 961
Sumatorio 250 126 5645 11450 2836
Media 41,67 21
Varianzas 172,22 31,67
Cuasi-varianza 206,67 38
Covarianza 65,83
Correlación 0,89

200
Soluciones a los ejercicios de los capítulos 8 y 9 •

Estos valores nos permiten calcular la recta de regresión. En primer lugar, la pen-
diente de Y sobre X:

B1 = rXY =O 89 .JnJ¡i = 0 38
Sx ' J172,22

Y el punto de corte con la ordenada es:


-
80 = Y - 81 X =21-0,38·41,67 =5,16

Luego la ecuación para predecir el peso de la hembra a partir del peso del macho
en esta muestra de homínidos extintos es:

Y'=0,38X+5,16

Para responder a la primera pregunta planteada, debemos poner a prueba que


la pendiente sea distinta de la unidad. Luego el estadístico de contraste de la pen-
diente es:

81 -PHº - 0,38-1
T- -6,34
- s, 1-rl,, - .JnJ¡i 1-0,89 2

Sx n-2 J1n,22 6-2

REGLA DE DECISIÓN: El valor crítico será la t con n - 2 = 4 grados de libertad


( a = 0,05 ya que no nos han dicho nada en el enunciado). En las tablas comproba-
mos que este valor es -2,132.
CONCLUSIÓN: Como el estadístico de contraste es más extremo que el valor crí-
tico (-6,34 < -2,13) podemos rechazar la hipótesis nula.
INTERPRETACIÓN: En los homínidos precursores de la especie humana existía
dimorfismo sexual en el peso corporal.

SITUACIÓN 8. El rendimiento en tests objetivos viene determinado por diversos


factores, algunos de ellos favorables (v.g., el número de horas dedicado al estudio)
y otros desfavorables (v.g., la ansiedad sufrida en el momento del examen). Para
evaluar el efecto de ambos factores sobre las puntuaciones escolares, se realizó un
estudio cuyos resultados pueden verse a continuación:
201
• Ejercicios y problemas resueltos y comentados. Dísef'los de ínvcstigc1cíón y análisis de datos

. . ·· ·
Horas de estudio . Ansiedad ·:
62 40 40
58 31 65
52 35 34
55 26 91
75 51 46
82 48 52
38 25 48
55 37 61
48 30 34
68 44 74

Determine la recta de regresión múltiple para predecir la puntuación en el test a


partir de las horas de estudio y la ansiedad. Determine también el grado de ajuste
global de la misma así como los ajustes parcializados.

SOLUCIÓN:
Se trata de un estudio en donde se trata de evaluar la capacidad predictiva de las
variables «Horas de estudio» y «Ansiedad» sobre el rendimiento en un test objetivo
que será la variable dependiente. Para la simplicidad de la exposición, hablaremos
de X1 y X 2 (horas de estudio y ansiedad, respectivamente) para las variables predic-
toras y de Y para la variable predicha. Se asume la normalidad de las puntuaciones
de la variable dependiente, la independencia de las puntuaciones y la homocedas-
ticidad.
Se plantea que tanto las horas de estudio como la ansiedad influyen sobre el
rendimiento en el test, la primera con pendiente positiva (a mayor horas de estudio,
mejor rendimiento en el test) y la segunda con pendiente negativa (a mayor ansie-
dad, peor rendimiento en el test).
Calcularemos el coeficiente de correlación múltiple y el coeficiente de determi-
nación, ajustados y sin ajustar, para tener una medida del porcentaje de varianza
explicado.

202
Soluciones a los ejercicios de los capítulos 8 y 9 •

Puntuación en el test Horas de estudio


(Y) (X¡ )
62 40 40
58 31 65
52 35 34
55 26 91
75 51 46
82 48 52
38 25 48
55 37 61
48 30 34
68 44 74
Sumatorio 593 367 545
Media 59,3 36,7 54,5
D. típica 12,32 8,53 17,426

Covarianzas:

¿ X 1 Y - - 22706
Syx •= - - - X i Y = - - - 2 1 7 6 , 3 1 = 9 4 , 2 9
n 10
¿ X 2 Y - - 32580
Syx ' = - - - X 2 Y = - - - 3 2 3 1 , 8 5 = 2 6 , 1 5
n 10
¿ X 1 X2 - - = -19746
Sx •x ' = X1 X2 --2000,15=-25,55
n 10

Correlaciones simples:

Syx 94,29
ryx = - - ' - = =0,897
' Sy Sx 1 12,32·8, 5 3

Syx , 26,15
ryx = - - = = 0 122
' Sy Sx 2 12,32·17,42

r Sx ,x , - 2 5 , 5 5 = - 0 172
= =
x, x ,
SX, SX1 8 5 3·17 42
I I

203
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Estos valores nos permitirán calcular los coeficientes de regresión estandariza-


dos, es decir, las pendientes expresadas en puntuaciones típicas, para X 1 y X2:

0,897-[ 0,122 · (-0,172)]


----=---- - ---=- = 0, 946
1-(-0,172) 2

n.2 = ryx 2 J yx 1 mx1x 2 = 0,12-[0,90·(-0,17)] = o 284


1-' '
1 - rX21 X 2 1 - (-O I 17) 2

Y los coeficientes sin estandarizar, en puntuaciones directas y diferenciales:

S 12,32
82 = P 2 - y = 0,28- - = o,201
Sx 2 17,42

La constante para la ecuación de regresión múltiple será:

80 = Y - 81X 1 - 8 2 X2 = 59,3-1,365·36, 7-0,201·54,5=-1, 77

En consecuencia, la ecuación de regresión, en puntuaciones directas, será:

Y'=1,36SX1 +0,201X2 - 1 , 77

Para determinar si el conjunto de las variables X1 y X2 estiman bien la variable Y,


tendremos que calcular el coeficiente de correlación múltiple:

2 2
ryx + ryx - 2 - ryx ·ryx ·rx
Ry .x x' =
1 2

2
1 2 l
x2
=
1
1 - rx x
l 2

2 2
= 0,897 +0,122 - 2 -0,897 2-0,122·(- 0, 172) =0,939
1-(-0,172)

Y su cuadrado, el coeficiente de determinación, será:

204
Soluciones a los ejercicios de los capítulos 8 y 9 •

2
Ry .x x =0,8831 2

No obstante, el estimador insesgado del coeficiente de determinación vendrá


dado por:

A2 2 n- 1 10-1
Ry .x ,x , = 1 - 1 - R y .x x ) =1-(1-0,883) =0,849
( , , n-p-1 10-2-1

Por último, los coeficientes de correlación parcial y semiparcial serán:

Semiparcial ryx - r yx ' x x ' = 0 , 8 97 - [ 0 ,122·(- 0 ,17 2)]


sr1 = 1 ' 1
=0,93
l-r1, x , 1 - ( - 0 ,17)2

sr12 = Ry2.x x - r yx2 = 0 , 8 8 3- 0 ,1222 = 0 , 8 6


1 2 2

Parcial ryx - r yx rx x 0, 8 97 - [ 0,122·(- 0,172)]


1 ' 1 '
= 0 94
2 2
(1-r?x, )(1-r;,x,l (1-0,122 )( 1 - ( - 0 ,17 2) )

2- - 2
2 -- o ' 8 8
0 ,8 6
P'1 - 2 -
l - r YX, 1-0,122

Semiparcial 0 ,122- [ 0 , 8 97 ( - 0 , 17 2)]


'rx' -ryx ' 'x •x '
sr2 = --.======- = 0 ,27
2
1-r; X
1 '
1-(-0,1 7 2)

sr22 = Ry2.x,x , - r YX
2
, =0, 8 8 3- 0, 8 97 2 =0,0 7

Parcial 'r x - r y cr ' x x 0, 8 97 - [ 0 ,122 · ( - 0,172)]


1 , 1 ' = = 0 63
( 1-r?x, )( 1-r;,x,) ( 1 - 0 ,122 2
)(1-(-0,1 7 2)
2
)
2
0 ,0 7
prz2 = = =0,4 0
1-r?x 1
1-0,89 7 2

205
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

Si disponemos los datos finales en una tabla resumen tendremos una idea más
clara de lo sucedido:

Y'=1,36X 1 +0,20X 2 - 1,77


2
Ry .x1x' = 0,883
2
RY-X,X, = 0,849

Correlaciones X1: Horas estudio X 2 : Ansiedad


. •v ¡¡
Semipardal sr1 = 0,93 sr2 = 0,27

Sfi = 0,86 sr = 0,07

Parcial prl=0,94 pr2 = 0,63

1 pri = 0,88 p = 0,40


L : : = :. -- • - = m • • - · - - - . _ : : '_- _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_

La ecuación de regresión indica que tanto el número de horas de estudio como


la ansiedad afectan positivamente al rendimiento aunque la primera tiene mayor
efecto ya que su pendiente es mayor: un cambio de una hora de estudio produce un
cambio de 1,36 unidades en la ejecución mientras que un cambio de ansiedad de
1 punto (en la escala que se haya utilizado) sólo incrementa el rendimiento en 0,20
unidades. Por otro lado, una persona que no haya estudiado nada y que no tenga
ansiedad ante el examen obtendrá en el mismo una puntuación de unidades. Esto
último es interesante ya que la ejecución en el test suele tener como valor mínimo
el O, no -1,77. Según estos resultados, una persona con Y= O no tiene un conoci-
miento nulo de la materia.
El conjunto de las dos variables independientes explican un 84,9% de la variabi-
lidad de las puntuaciones obtenidas en el rendimiento ( R -x,x, = O, 849) y deja sin
explicar un 15,1%. Esto significa que el nivel de predicción es muy alto.
Por otro lado, la variable «horas de estudio» explica un 86% de la variabilidad de
las calificaciones en el examen después de haber eliminado el influjo de la ansiedad
(sri = 0,86) mientras que la explicación de la ansiedad eliminando el influjo de las
horas de estudio es tan solo del 7% (sr = 0,07).
La proporción de la varianza de las calificaciones no asociada con la ansiedad
pero que sí está asociada con las horas de estudio es del 88% (pri = 0,88). La pro-
206
Soluciones a los ejercicios de los capítulos 8 y 9 •

porción de varianza de las calificaciones no asociada a las horas de estudio pero sí


asociada con la ansiedad es del 0,40 (pr = 0,40) obsérvese cómo, en este caso, la
correlación parcial de la ansiedad se ha incrementado notablemente en relación a
la semiparcial, desde el 7% al 40%, mientras que con las horas de estudio esto no ha
sucedido ya que ha pasado del 86% al 88%).
La capacidad predictiva de las horas de estudio y de la ansiedad como variables
predictoras de las calificaciones en un examen es muy alta con un peso positivo en
ambos casos. La principal variación con respecto a la hipótesis planteada consiste
en el signo de la relación entre ansiedad y calificaciones ya que en el planteamiento
inicial se formulaba una relación negativa entre ambas cuando los resultados indi-
can que es positiva. Esto podría ser un efecto de la ley de Yerkes-Dodson sobre la
relación entre el rendimiento y la ansiedad.

SITUACIÓN 9. Los estados de depresión en personas mayores son muy frecuen-


tes y pueden dar lugar a conductas derivadas dañinas (v.g., falta de autocuidado,
aseo o incluso suicidio). En el estudio de los factores relacionados con la depresión
en mayores se han postulado diversas variables como predictoras del mismo, entre
ellas, el número de Sucesos Vitales Estresantes (SVE) acaecidos el año previo al
diagnóstico de depresión. Como SVE se pueden citar la pérdida de relaciones de
amistad o familiares por fallecimiento, enfermedades graves, pérdida del trabajo
por jubilación, etc. Otra variable predictora importante es el Número de Amigos que
pueden proporcionar Apoyo (NAA) durante momentos estresantes. En uno de es-
tos estudios se midió el grado de depresión mediante e/ Beck Depression lnventory
(BDI) cuyas puntuaciones varían entre 1 y 40 (este último valor indicaría depresión
severa), el SVE mediante una escala de O a 10 (donde O sería ningún suceso estre-
sante y 10 el máximo) y el NAA mediante una escala de O a 5 amigos. El objetivo del
estudio es comprobar la capacidad predictiva de ambas variables con el objetivo de
poder utilizarlas como indicadores de riesgo y actuar lo más rápidamente posible.
Los datos obtenidos en una muestra de mayores de 75 años aparecen a conti-
nuación:

207
• Ejercicios y problemas resueltos y comentados. Diseí'los de investigación y análisis de datos

r
Iniciales del mayor BOi
JMR 35 8 2
AVV 10 1 5
PRM 25 5 3
JMM 32 7 1
EJM 23 6 3
PGP 5 2 5
GGP 8 2 4
MAF 17 3 3

Aplique el análisis apropiado para predecir BDI a partir de SVE y N M . Interprete


los resultados.

SOLUCIÓN:
Se espera que un incremento en los sucesos vitales estresantes incremente la
depresión (Wheaton, 1985). Por el contrario, se espera que el apoyo de los amigos
haga disminuir la depresión. Aunque esta teoría pueda parecer que ha sido deriva-
da, no tanto de una teoría cientifica sino de la intuición, no obstante es importante
evaluar estas predicciones (intuitivas u obvias) ya que este análisis nos permitirá,
además de verificar las hipótesis «intuitivas», cuantificar el grado de relación entre
la depresión y las variables SVE y NAA, aspecto esencial en cualquier ciencia y pos-
terior al descubrimiento del sentido de la relación.

El análisis apropiado en esta situación es el análisis de regresión lineal múltiple


ya que disponemos de dos variables predictoras (SVE y NAA) y una variable predi-
cha (BDI). Por consiguiente, tendremos que evaluar si las variables SVE y N M tienen
capacidad predictiva del BDI calculando el plano de regresión múltiple.

CONDICIONES Y SUPUESTOS:

1. Independencia. Podemos asumir que los sujetos se han escogido indepen-


dientemente unos de otros por lo que las puntuaciones deben ser indepen-
dientes. Este supuesto se pondría en cuestionamiento si, por ejemplo, los
mayores se hubiesen elegido del mismo centro de mayores o estuviesen re-
lacionados familiarmente.

2. Homocedasticidad. No tenemos suficientes puntuaciones para realizar un


análisis de homocedasticidad. Asumimos que este supuesto se cumple.

3. Normalidad. Asumimos el cumplimiento de este supuesto.

208
Soluciones a los ejercicios de los capítulos 8 y 9 •

HIPÓTESIS: La hipótesis nula plantea que la pendiente de regresión para SVE y


NAA es cero, es decir, que el plano de regresión es horizontal. Esto se concreta en:
Para el número de eventos vitales estresantes:

Ho :13svE =O
H1 : P s v E *º
Para el número de amigos:

Ho :l3NAA = 0
H1: ¡3NAA =t:0

En esta situación sí tendría sentido plantearse el valor del BOi cuando SVE y NAA
valen O (no tiene amigos pero tampoco ha tenido ningún evento estresante durante
el año anterior) pero no lo han planteado en el ejercicio.
ESTADÍSTICO DE CONTRASTE: Para el cálculo de los estadísticos de contraste es
conveniente disponer previamente de los estadísticos descriptivos de las tres varia-
bles, BOi, SVE y NAA, que calculamos a continuación:

Estadísticos
Media 19,37 4,25 3,25
Varianza 109,73 5,94 1,69
Desv. típica 10,47 2,44 1,30
Cuasivarianza 125,41 6,78 1,93

Estos valores nos permitirán el cálculo de las tres correlaciones necesarias para
la resolución del problema:

SBOl,SVE 24, 4 1
rBOi, SVE -- - - - - - ' - - - =0,95
S BOJ . S SVE 10, 4 7 ·2,44

r: _ SBOI, NAA -12, 4 7


BOi, NAA - =-0,92
S BOi · S NAA 10,47 ·1,30

SsvE, NAA - 2 81
r:BOi, SVE - = ' =-0,88
- SsvE ·SNAA 2I 4 4 ·1 I 30

209
• Ejerciciosy problemas resueltos y comentados Diseños de investigación y análisis de datos

En un esquema de vías (path) esa situación se reflejaría mediante la siguiente


figura (en un esquema de vías, las variables observables se representan mediante
rectángulos, las relaciones causales mediante flechas unidireccionales y las relacio-
nes correlacionales entre dos variables mediante una línea bidireccional):

- --s_v_E-- --ª-º-'--'

NM

Los coeficientes de regresión estandarizados, paso previo para el cálculo de los


coeficientes no estandarizados y la recta de regresión, vienen dados por:

A
1-'eDt,SVE -
- reo, ,SVE -(
reo, ,NAA .
rsvE ,NAA ) o , 9 s - [ ( - o , 8 8 ) ( - o , 9 2 ) ]
0,62
2 2
l-rsvE,NAA 1-(-0,88)

Obsérvese como el esquema para el cálculo del coeficiente de regresión estan-


darizada es siempre el mismo: se elimina de la correlación relacionada con el coefi-
ciente a calcular aquella parte de la misma que podría deberse a una vía indirecta.
Y esta diferencia se divide entre un factor constante: la unidad menos la correlación
al cuadrado de las variables predictoras. En este caso, la correlación entre BOi y SVE
es 0,95 (vía directa entre SVE y BDI). A este valor se le resta el producto de los coe-
ficientes de correlación que se encuentran en la vía «indirecta» (véase la siguiente
figura). Y la diferencia se divide por la unidad menos el cuadrado de la correlación
entre los predictores:

s
______ l ecta \

El segundo coeficiente estandarizado obedece a la misma lógica:

210
Soluciones a los ejercicios de los capítulos 8 y 9 •

r8 o t,NAA - J r8 o t,SVE ·rs v E,NA A J = -0,95-[(0,95)(-0,88)] = - 0


p8 0 /,NAA = _ 2 ' 37
1 r s v E ,NAA l - ( - 0 , 88)2

A continuación presentamos el cálculo de los coeficientes sin estandarizar que


se utilizan para la ecuación de regresión en puntuaciones directas y diferenciales:

58 0 / 10,47
Ba o ,'s v E = Pa o , s v E - - = 0 , 6 2 - - = 2,66
' Ss v E 2,44

58 01 10,47
B8 o t,NAA = P 8 0 1 N A A - - = - 0 , 3 7 - - = - 2 , 9 8
' SNA A 1,30

Por último solo nos queda el cálculo de la constante en puntuaciones directas:

Bo = 8 0 / - 88 0 1,SVE S VE - 8 8 0 1,NNANNA = 10,47-2,66 ·4,25-[(-2,98)·3,25] =8.85

Este cálculo nos permite disponer directamente de la ecuación de regresión en


puntuaciones directas:

BOi' = 8, 85 + 2, 66SVE - 2, 98NAA

Y en puntuaciones diferenciales:

Z B D I ' =0,62Zs v E -0,37ZNA A

En el programa de estudio de la asignatura de Diseños de Investigación y Análisis


de Datos no se ha incluido el contraste estadístico para evaluar la significatividad de
la recta de regresión múltiple por lo que no se va a desarrollar. No obstante, tenemos
dos índices (no inferencia les sino puramente descriptivos) que nos permiten conocer
el grado en el que las variables SVE y NAA permiten estimar BOi. Son los coeficientes
de correlación múltiple (R) y su derivado, el coeficiente de determinación (R 2 ) .

Ra o -s v E,NAA = Pao1, s v E r ao 1,s v E + P8 01,NAAr 801,NAA =


=-/0,62 ·0,95+(-0,37)·(-0,92) = 0,96

Y el coeficiente de determinación será: R i o ,-s vE,NAA = 0,962 = 0,92.


211
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

REGLA DE DECISIÓN Y CONCLUSIÓN: Un coeficiente de determinación tan eleva-


do debe considerarse significativo aunque no hayamos realizado el cálculo analítico
necesario. También es cierto que, como ejercicio de libro que es, el número de su-
jetos es muy pequeño y por lo tanto, padecemos una falta de potencia estadística
grave que sería inexcusable en un estudio empírico real.
INTERPRETACIÓN: Mediante la ecuación

BOi' = 8, 85 + 2, 66SVE - 2, 98NAA

podemos predecir la puntuación en depresión de personas mayores en el BOi a par-


tir del número de eventos vitales estresantes y del número de amigos que pueden
proporcionar apoyo. A mayor número de eventos vitales estresantes la depresión
aumenta, medida mediante el BOi, mientras que a mayor número de amigos que
proporcionan apoyo, la depresión disminuye. La fuerza de la relación es mayor con
el índice NAA que con el índice SVE (en valores absolutos) aunque no sabemos si
esta diferencia de peso de los coeficientes es significativa.

SITUACIÓN 10. Un mecánico ha dispuesto una barra alargada de metal, aguje-


reada y de peso despreciable, suspendida en el aire por 5 muelles idénticos sobre
una placa agujereada colocada verticalmente. Cada uno de los agujeros de la placa
se sitúa en un punto de la cuadrícula cartesiana con índices enteros (esto es, los
puntos (1,1), (1,2), (1,3), ... , (2,1), (2,1), ... ). Cada muelle dispone de dos enganches
en sus extremos. Cada uno de los muelles se dispone de tal forma que uno de los
enganches se inserta en uno de los puntos de la placa de coordenadas (X, Y) iguales
a (2, 3), (5, 2), (7, 8),(8, 6) y (10, 10) mientras que el otro enganche se sitúa sobre
el agujero de la barra que se sitúa en su vertical. Los elementos del problema se
pueden ver en la siguiente figura.
y

X
Nota: elementos que utilizará el mecánico: a) 5 muelles, b) una barra de metal
con agujeros y de peso despreciable y una placa de metal cuadrada agujerea-
da. Los elementos no están dibujados a escala (la superficie agujereada es muy
grande, la barra de metal de un tamaño intermedio y los muelles son pequeños).

212
Soluciones a los ejercicios de los capítulos 8 y 9 •

Encuentre la posición que ocupará la barra (pendiente y punto de corte con la


ordenada) cuando se la deje libre.
En un principio podría parecer que este ejercicio no tiene relación con la esta-
dística. En último término se trata de un problema mecánico. Pero podemos fá-
cilmente intuir que la situación problema del ejercicio no es más que la analogía
física más sencilla de la regresión lineal: la barra de metal es la línea recta, la placa
de metal sería el plano de ejes de coordenadas cartesianas y los muelles realizarán
físicamente la tarea de ajustar la posición de la barra de tal forma que se equilibren
las fuerzas de los mismos en una posición de máximo equilibrio. Precisamente este
máximo equilibrio es lo que se calcula mediante el método de mínimos cuadrados.
i Los muelles están realizando el mismo cálculo que nosotros sin saber matemá-
ticas! Efectivamente, los muelles están siguiendo un principio físico, no calculan
nada (de la misma forma que la luna en su movimiento alrededor de la tierra no
realiza ningún cálculo pero su movimiento puede calcularse u obedece a la fórmula
- dv
diferencial de Newton: F = m - ), pero su posición final obedece al principio de
dt
min1mos
' . cua d ra d os.
Este ejemplo es una muestra de las analogías físicas que hacen más compren-
sible los conceptos de la estadística. Otro ejemplo muy utilizado en estadística es
la media que puede representarse físicamente como el punto o fulcro de la recta
real en donde las diversas medidas realizadas se equilibrarían para mantener en
equilibrio esta recta.
En este ejemplo no tiene sentido la verificación de los supuestos, el cálculo de un
estadístico de contraste o la aplicación de una regla de decisión porque los «datos»
no son tales como tampoco la hipótesis en el sentido de que no estamos trabajando
con un conjunto de valores muestrales extraídos de una población. Este ejemplo
muestra también las diferencias entre la Física y la Psicología. En Física las predic-
ciones se realizan utilizando ecuaciones fundamentales por lo que muchas veces no
tiene sentido preguntarse por cuestiones de representatividad muestra! o población
(aunque a veces sí, por ejemplo, en el estudio de las partículas atómicas). En Psico-
logía, no tenemos (todavía) estas ecuaciones fundamentales y por tanto tenemos
que muestrear una población y realizar procedimientos inferenciales sobre la mis-
ma. Esto no significa que la Física no utilice la estadística. Ejemplos muy claros de su
utilización están en la Mecánica Estadística, la Termodinámica, la Física Cuántica o
en el simple análisis de datos experimentales ya que toda medición contiene error.
En relación a los supuestos, obsérvese como los físicos también utilizan supues-
tos (aunque no estadísticos) para facilitar su labor: en este caso, asumimos que la
barra no tiene peso o es despreciable. Si no fuese así (y nunca lo es en realidad) la
213
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

predicción no se corresponderá con la realidad ya que el peso sería otra fuerza a


considerar. Otro supuesto importante es que todos los muelles tengan la misma
constante de elasticidad ya que en caso contrario unos «tirarían» más o menos de
la barra que otros, no debido a su posición en el tablero sino a las diferencias en la
constante.

-----
Realizaremos los cálculos oportunos para calcular la pendiente y el punto de
corte con la ordenada.

2 3 6 4 9
5 2 10 25 4
7 8 56 49 64
8 6 48 64 36
10 10 100 100 100

Sumas 32 29 220 242 213


Medias 6,4 5,8 44 48,4 42,6
Varianzas 7,44 8,96 1179,2 1085,04 1283,04
Cuasi-var 9,3 11,2 1474 1356,3 1603,8

Luego:

Cov( X, Y) = ¿ (x-x)(v-Y) = 34 ,4 =6 ,8 8
n 5
Cov(X, Y)= 6, 8 8
r Y
= 0 84
1

X, Sx Sy .J7, 4 4 ..J8.96

.j8 , 9 6
B¡ =rx y -Sy = 0,84 =0, 9 2
Sx -vl, 4 4

Y el punto de corte con la ordenada es:

ªº =5, 8 + 0, 9 2 ·6 ,4 = 1 1 ,6 9

La ecuación de regresión será:

Y' = l l , 6 9 + 0, 9 2X

214
Soluciones a los ejercicios de los capítulos 8 y 9 •

Podemos predecir el grado de inclinación (pendiente) en que quedará la barra


sobre el tablero vertical independientemente del tipo de muelle que utilicemos (a
condición de que todos tengan la misma constante en la ley de Hooke) así como el
punto en que cortaría al tablero si la barra tuviese mayor longitud.

SITUACIÓN 11. En el texto Principies of Human Evolution (Lewin y Foley, 2004)


aparece la siguiente figura (la hemos adaptado al castellano):

Outlier: indica organismos que


se alejan de las reglas Distancia (por encima o debajo) de la línea
generales de regresión que proporciona el grado en que

. .
cualquier dato particular es mayor o inferior

./.,
a lo esperado

. .·· •.

..
/

Línea de mejor ajuste:

•"
oí /
-o
o
,e Á
" /

° 76
Log (tamaño del rango)= 1.2 + Log (tamaño corporal) -

Log (tamaflo corporal)

En la explicación de la misma, los autores exponen el método comparativo en


la evolución humana. El punto esencial de este método es graficar dos variables en
un gráfico y comprobar si existe correlación. Por ejemplo, el tamaño corporal está
fuertemente correlacionado con el tamaño del área que el animal necesita para
subsistir (que ellos denominan «tamaño del rango»), como se puede comprobar
en la figura: cuanto más grande es el animal, mayor es el tamaño que necesita para
forrajear o cazar. Sin embargo, este método fue criticado en la década de 1980 debi-
do a que (cito textualmente): «la base de cualquier test estadístico es que los datos
deberían ser independientes unos de otros ... en las comparaciones que se estaban
realizado no había tal independencia ya que los animales que se comparaban es-
taban relacionados unos con otros mediante ancestros comunes>> (Harvey y Pagel).
1. En el esquema usual que seguimos para analizar los datos de regresión lineal
(condiciones, hipótesis, estadístico de contraste, regla de decisión, conclu-
sión e interpretación) determine dónde se encuentra la cuestión planteada
por Harvey y Pagel.
215
• Eiercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

2. ¿La relación que se muestra en la figura es realmente una relación lineal?


¿Cuál es la pendiente?
3. ¿Cuál es la escala de los ejes X e Y utilizada en la figura?

l. Claramente Harvey y Pagel han cuestionado el método comparativo en el estu-


dio de la evolución humana basándose en el incumplimiento del supuesto de
independencia para aquellos casos que se habían presentado previamente en la
investigación. Si dos especies distintas de mamíferos compartían la relación que
se muestra en la figura, esto no tenía por qué deberse necesariamente a que es-
tuviesen sujetos a las mismas leyes adaptativas sino porque ambos compartían
un ancestro común que los hacía semejantes en tamaño corporal y en área de
forrajeo.
2. La relación que se visualiza en la figura es la siguiente (para simplificar, X = tama-
ño corporal e Y= tamaño del rango):

LogY = 1, 2 + Logx 0 •7 8

La relación no parece lineal por dos razones: en primer lugar están utilizando
no los valores originales del tamaño corporal y del área de forrajeo (X e Y, respec-
tivamente) sino sus logaritmos. En segundo lugar, han elevado a la potencia 0,78
el valor de X. Tanto el logaritmo como la potencia introducen aspectos no lineales.
A pesar de estas diferencias, la relación es lineal en coordenadas logarítmicas
(véase la siguiente cuestión de este mismo ejercicio). La razón es que si aplicamos
una de las reglas algebraicas básicas para trabajar con logaritmos, sabemos que:

LogX ª = aLog X

Luego la fórmula que plantean en la figura se puede representar como:

LogY = l , 2 + 0 , 78LogX

Que, claramente, es una relación lineal con pendiente 0,78 y punto de corte con
la ordenada de 1,2 (pero en coordenadas logarítmicas).

3. La única diferencia de la ecuación LogY = 1,2 + 0,78 LogX con respecto a la fór-
mula usual Y= 1,2 + 0, 78X a la que estaríamos «acostumbrados» es la utilización,
no de los valores X e Y, sino de sus logaritmos en las escalas de medida. Recorde-
mos que X es el «tamaño corporal» que podría medirse en metros cúbicos (m 3 )
216
Soluciones a los ejercicios de los capítulos 8 y 9 •

mientras que el «tamaño del rango», al ser un área, se mediría inicialmente en


metros cuadrados (m 2 ) . Pero no es inusual que una relación no sea lineal en las
escalas «originales» pero que sí lo sea cuando transformamos estos valores (v.g.,
a logaritmos). Además, la utilización de los logaritmos suele ser muy usual cuan-
do el rango de valores de X o de Y es extraordinariamente grande (v.g., tiempos
cosmológicos).
No hay nada «natural» en considerar las escalas en m3 o m2 como más apropia-
das que las escalas en términos del Logaritmo de los metros cúbicos o del logaritmo
de los metros cuadrados. Si la relación lineal se cumple en escalas logarítmicas (u
otras) pero no en las escalas originales, siguiendo un principio de simplicidad, es
preferible realizar todo el proceso de ajuste de regresión lineal transformando pri-
meramente las escalas X e Y a Log(X) y Log(Y) para realizar este ajuste sobre estas
puntuaciones transformadas.
HIPÓTESIS: La situación planteada no nos permite plantear ninguna hipótesis so-
bre el valor de la pendiente excepto que ésta es distinta de cero. Como, además, el
ejemplo no nos ha proporcionado directamente los valores numéricos ni nos permi-
te estimarlos a partir de la gráfica (obsérvese que ni X ni Y tienen valores concretos
en sus ejes), no podemos realizar los cálculos apropiados que, por otra parte, no
son necesarios ya que nos proporcionan la ecuación de regresión.
Por último, hay dos aspectos de la figura interesantes. En primer lugar, la presen-
cia de outliers (valores atípicos o extremos) es atribuida a especies que no siguen
la regla general. En segundo lugar, parecen señalar que la distancia de cada dato a
la recta de regresión no se realiza verticalmente sino con un ángulo de 90º con res-
pecto a esta recta (compárese la línea de puntos, no la de guiones, de la figura con
las líneas verticales de la Figura 8.2 del texto de Diseños de Investigación y Análisis
de Datos).

Chiste

(gracias a Gary Ramseyer por su estupenda colección de chistes estadísticos que


nos distraen de vez en cuando de la belleza y la complejidad de las matemáticas, de
esa forma no sufrimos el síndrome de Stendhal)

En una clase de estadística, el profesor había terminado de dar una presentación que
él pensaba soberbia sobre la regresión bi-variada cuando levantó la vista por encima
de la luz cegadora del proyector y observó a un estudiante al fondo de la clase que es-
taba casi dormido. Esto resultó excesivo para el ego del profesor y con el ceño fruncido

217
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos

se dirigió al estudiante: «Usted, joven, quiero que responda a una pregunta sobre este
problema. Para una persona con un valor en X de 45, ¿está el valor de Y por encima o
por debajo de la media de su subgrupo en Y?»
El joven estudiante, aún aturdido, miró al techo durante diez segundos y respondió
«Sí».
El profesor no podía creer lo que estaba oyendo y rápidamente dijo «Joven, ;Esta no es
una cuestión de Si/No! Diga simplemente arriba o debajo».
El estudiante respondió «;Arriba o abajo!».
El profesor remarca «¿Sí?».
El estudiante, ahora ya completamente despierto, respondió «Pero señor, esa fue mí
respuesta original»

218

También podría gustarte