Documentos de Académico
Documentos de Profesional
Documentos de Cultura
IX
• Ejercicios y problemas resueltos y comenta!'-os. Diseftos de Investigación y análisis de datos
l . CONDICIONES Y SUPUESTOS
En todo análisis inferencia! el estudiante debe identificar la hipótesis de la in-
vestigación (resultado de la derivación de una teoría) así como, las variables (in-
dependientes y dependientes) implicadas en estas hipótesis y su naturaleza. Un
aspecto esencial de este apartado son los supuestos que deben verificarse para
que podamos confiar en los resultados obtenidos. Estos supuestos son condiciones
que deben cumplirse para que el análisis tenga sentido. Además, cada análisis tiene
sus propios supuestos. En la medida de lo posible estos también debe ponerse a
prueba. Si no es posible hacerlo, deben hacerse explícitos. De alguna forma, son
como los cimientos de un edificio. El edificio puede estar bien construido pero si los
cimientos son de arena, el edificio no podrá sostenerse.
Las condiciones hacen referencia a diversos aspectos del diseño. Por ejemplo, si
los datos objeto de análisis provienen de una, dos o más de dos muestras, las cuales
a su vez pueden ser independientes o relacionadas, de la escala de las variables, etc.
Los contrastes a utilizar dependerán de estos factores.
X
_ - " las mujeres en mayor proporción a partidos de centro izquierda que
a derecha?; En el proceso de trabajo manual ¿es más eficaz verba/izar
=..Jante la tarea que hacerlas en silencio?; ¿Es más eficaz una terapia
---:es
•Nl'o:: = =,era el tratamiento de la fobia de los niños a montar en ascensores?;
:;e hombres y mujeres son iguales por un mismo trabajo?».
Ea: = 2:,teada la pregunta se formulan las hipótesis nula, Ha , y su comple-
-- .... a - 3Ótesis alternativa o H 1 que son exhaustivas y mutuamente excluyen-
-sg-r-;ica que el rechazo de una implica la aceptación de la otra.
· nula es la hipótesis que provisionalmente se acepta como verdadera
a que se somete a contrastación empírica con los datos obtenidos en
::.., (similar a la presunción de inocencia en un estado de derecho). To-
::ac_ -0s estadísticos se realizan asumiendo que Ha es correcta de tal forma
""EC"azamos, lo estaremos haciendo con un alto nivel de confianza. «En
.. ::;ótesis nula afirma que no existe diferencia entre el valor del estadís-
en la muestra y el que formulamos como parámetro poblacional o, en
, que la diferencia observada entre estos dos valores es nula. Como la
:; .., e estos valores casi nunca van a coincidir, Jo que estamos afirmando
_-=.-encia observada puede explicarse como resultado del azar» (Pág. 34).
E-do de cómo se formulen la hipótesis nula y alternativa tendremos un
-· ateral o bilateral pero, en todo caso, la hipótesis nula añadirá a la dife-
- e sentido de la diferencia y la hipótesis alternativa el sentido contrario,
.a diferencia nula. Por ejemplo, ante la pregunta ¿Votan las mujeres en
-,,x,cr-ción a partidos de centro izquierda que a los de centro derecha?, las
se.,an:
..2S '"'1Ujeres votan en la misma o menor proporción a partidos de centro
erda que de centro derecha .
..,ujeres votan en mayor proporción a partidos de centro izquierda que
...3S
OE=:e11tro derecha .
.e ;enero/ la hipótesis científica, dirigida a encontrar resultados significati-
.. -oótesis alternativa que se aceptará como verdadera si la investigación
e-J encías contra la hipótesis nula que es la que se somete a contrastación
Pag. 37). Por lo general, pero no siempre, porque como se puede com-
--- 1arios de los ejemplos desarrollados en el libro de la asignatura y en los
. . . , .se presentan es perfectamente legítimo, dependiendo del contexto y de
e . defender que hombres y mujeres tienen el mismo salario, que niños
11os tienen el mismo rendimiento en tareas de compresión lectora, que
,. diferencias en la reacción de celos de hombres y mujeres ante la infide-
XI
'= = z-. :: encias entre la nota media obtenida en las prue=-
sae::::::.::ta- .:s esrudiantes de la enseñanza pública y privada, etc. Per:
a::.:::: - ::a --:ente como verdadera y sobre cuya asunción se realizan _
a:: ,'.'"C; es .a -2• ,a evidencia de los datos obtenidos en la investigación dirás
- - - = - E o se rechaza esta afirmación de igualdad (la hipótesis nula) que puedes::
= -_:;e-.o para el que se ha desarrollado la investigación.
3. ESTADÍSTICO DE CONTRASTE
«Representa una medida de la discrepancia entre la información proporciono:.;
por los datos empíricos recogidos en la muestra y la proposición teórica planteo:.;
en la hipótesis nula. Esta medida es una variable aleatoria con una determinoc:
distribución de probabilidad (normal, t, chi-cuadrado, etc.) que va a aportar infc·
moción empírica sobre la afirmación formulada en la H0 » (Pág. 37 y que se puec=
ampliar en el epígrafe 1.4.3). Un estadístico no es más que una función numériG.
dependiente de los valores muestra les, de la hipótesis nula supuesta verdadera y C=
los supuestos. Es por ello que el cálculo que se realiza para computar el estadístic:
de contraste se ha elegido para que nos proporcione una distribución estadístic:
conocida que nos permite calcular las probabilidades de sus valores.
El estadístico de contraste se reduce, pues, a una fórmula que se recoge en e
formulario y que el estudiante no debe memorizar pero sí aplicarla correctamente
para, una vez obtenido su valor, interpretarlo de cara a tomar una decisión respecte
a la H0 : su rechazo o no con una determinada probabilidad. En definitiva, el con-
traste de hipótesis no es más que la combinación de la teoría de la probabilidad\
la teoría de la decisión.
4. REGLA DE DECISIÓN
Para tomar una decisión hay que calcular el nivel crítico p o los valores críticos
de la distribución de probabilidad del estadístico de contraste aplicado (distribución
normal, t, F, chi-cuadrado, etc). «Según Fisher, el nivel de significación, a, repre-
senta el máximo riesgo que el investigador está dispuesto a cometer al tomar lo
decisión errónea de rechazar una hipótesis nula verdadera. Por tanto, a la luz de sus
resultados y del estadístico de contraste, el investigador calcula la probabilidad de
obtener unos resultados como los observados en la muestra o más extremos. Esta
probabilidad recibe el nombre de nivel crítico p. Si el nivel crítico p es muy pequeño
en comparación con el nivel de significación, "alfa'; rechazamos la H0 y en caso con-
trario la mantenemos» (Pág. 38).
«Otra alternativa a la hora de tomar la decisión de rechazar o no la hipótesis
XII
Presentación •
=
=Je podemos admitir, por simple azar, entre el valor teórico planteado en H0
,.obtenido en la muestra. Este valor, o valores críticos, definen -en la distri-
- Jestral del estadístico de contraste- los límites entre la zona de rechazo o
- ..:0» (Pág. 38).
5i: :<:'1aza la H0 cuando el nivel crítico p (la probabilidad de obtener un valor del
:o igual o más extremo al obtenido con la muestra asumiendo que H0 es
A ;:s menor que el nivel de significación (los más utilizados en la investigación
:rscc !OgÍa son 0,05 o 0,01) o cuando el estadístico de contraste supera el o los
_rr:_:oc: ::riticos de la distribución muestra! del estadístico para el nivel de significa-
...........:....:::...-- .:ado .
..s: : : cación de la regla de decisión nos permite tomar una decisión probabilísti-
s;;:cre - 0 : aceptarla o rechazarla. Esta es la conclusión para la que se ha diseñado
::E:::o el experimento. El objetivo es que esta decisión tendrá consecuencias
_,....'"'.""'_.._ o orácticas importantes.
:. PRETACIÓN
:.:-,e usión de rechazar o no la H0, se debe interpretar en el contexto teórico
-.<E?stigación que se está realizando de tal forma que permita confirmar o
m:::ra.:::::-' a hipótesis científica que dio lugar a la hipótesis estadística. Esta interpre-
:ebe servir para formular nuevos avances o desarrollos tanto teóricos como
¡trae:C--s en el área concreta que se esté investigando.
XIII
luciones a los ejercicios
capítulos 1 y 2
a.=..=-..;c._;;los
SOWCIÓN:
_ : . Para el primer contraste de hipótesis, seguiremos los siguientes pasos:
2 n·S2 81·210 2
X = - - n2 =110 25
cro 180 2
Probabilidad
g.1.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 0,975 0,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,E-:.
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5=-:,-
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,S
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8:-.
so 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,t;.:i...
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9: ••
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 00,4252 104,2:-
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,32:
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2$'
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,3421 129,5612 135,8067 140,lE,'
4
Soluciones a los ejercicios de los capítulos l y 2 •
106,62 112,32
1110,2sl
!x.2 =
Figura 1: Representación gráfica del nivel critico del esta-
dístico chi-cuadrado =110,5.
5
•
z -- Y---µ-o - 1400-1500
=-5
(J 180
¡-¡, J8l.
REGLA DE DECISIÓN: En la tabla de la distribución normal tipificada de puntu:
ciones Z buscamos el valor crítico para un nivel de confianza del 99% para un co'
traste unilateral izquierdo, es decir, el valor de Z que deja por debajo una probabi
dad de 0,01, y es -2,33.
-·-------···--------------------------------
1¡ o 0,01 0,02 0,03 0,04 0,j)S 0,06 0,07 0,08 0,09
-3,50 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3.40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
•3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,10 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
·3,00 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
·2,90 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
,.2J,só 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
·2,70 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,60 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,50 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,40 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
0,0107 0,0104 0,010 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
·2,20 0,0139 0,0136 0,0132 0,0129 0;012s 0,0122 0,0119 0,0116 0,0113 0,0110
-2,10 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
·2,00 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
·1,90 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
·1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
·1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
1 ·1,60 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
·l,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
·1,30,. 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
6
Soluciones a los ejercicios de los capítulos 1 y 2 •
Y - µ 1 14 53,4 - 14 00 = 53, 4
Z= = = 2 67
cr 260 20
I
4 ../169
7
• Ejercicios y problemas resueltos y comentados. Díseífos de Investigación y análisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra extraída de una poblac :-
con distribución normal y varianza desconocida. Se analiza la variable «edad de -
cio del consumo de alcohol» en los jóvenes que es una variable medida con es::3
de razón. Aunque la muestra es pequeña como la variable tiene distribución no -
en la población podremos utilizar un contraste paramétrico.
HIPÓTESIS: El investigador quiere comprobar que la edad media de inicio er -
Comunidad es más tardía (por tanto, mayor) que la media de la población gen::
establecida en 13 años. Para ello, formulará un contraste unilateral izquierd::
el que la hipótesis nula que establece que no hay diferencia significativas e,.. :-=
edad media en su Comunidad y la media de la población general
8
Soluciones a los ejercicios de los capítulos 1y 2 •
p = 0,02S
T = 1,786
Probabilidad
a.L
0,550 0,600 0,650 0,700 0,7SO 0,800 0,850 0,900
(§ 0,975 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2.706 31,821 63,657
z 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
..
3 0,137
0,134
0,277
0,271
0,424
0.414
0,584
0,569
0,765
0,741
0,978
0,941
1,250
1,190
1,638
1,533
2,353
2,132
3,182
2,776
4,541
3,747
5,841
4,604
:zz 0,127 0,256 0,390 0,532 0,686 0,858 1,061 1,321 1,717 2,074 2,508 2,819
Z3 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
M 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,06 @ 2,797
•
J5 0,127
0,127
0,256
0,256
0,390
0,390
0,531
0,531
0,684
0,684
0,856
0,856
1,058
1,058
1 316
1,315
1,708
1,706
2,060
2,056
2,485
2.479
2,787
2,779
•
ff 0,127
0,127
0,256
0,256
0,389
0,389
O,S31
0,530
0,684
0,683
0,855
0,855
1,057
1,056
1,314
1,313
1,703
1,701
2,052
2,048
2,473
2.467
2,771
2,763
3: Representación gráfica del nivel crítico del estadístico t ==1,786 y su localización en la tabla
e distribución t.
9
• Ejercicios y problemas resueltos y comentados. Diseflos de investigación y análisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se utiliza una muestra de 400 personas y lavar;¿-
ble dependiente es el «apoyo que recibirá el partido X en las próximas elecciones
Es una variable dicotómica con distribución binomial. La muestra es grande por
que esta distribución se aproximará a la normal.
HIPÓTESIS: En la muestra utilizada en el sondeo encargado por el partido X,
proporción de personas que les votarían es del 32% (128/400 = 0,32). A partir e=
esta evidencia mostrada en los datos, se quiere contrastar si «el nivel de apoye_
será del 40%». Como no se marca si la diferencia será mayor o menor que ese va e
se plantea un contraste bilateral, con las siguientes hipótesis:
H0 :n=0,40
10
Soluciones a los ejercicios de los capítulos 1 y 2 •
e estadístico:
0,0005
Z=-3,27 Z = 3,27
0.0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005
0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0007 0,0007
0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
0.0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
11
• Ejercicios y problemas resuelto!> y comentados. Diseños de investigación y análisis de datos
de contraste con los valores críticos que son ± 1 ,96 y ±2 ,58 correspondientes a e
niveles de confianza del 95% o del 99%, respectivamente, para un contraste bila::-
ral.
INTERPRETACIÓN: El nivel de apoyo que recibirá el partido X en las próxirr::...
elecciones será significativamente distinto del 4 0 % (Z = -3, 2 6 6 ; p < 0 , 0 0 1).
INTERVALO DE CONFIANZA: A esta misma conclusión se llega utilizando el int
valo de confianza para estimar, a partir de la proporción observada en la muest:
la proporción poblacional de votantes que tendrá el partido.
Con un nivel de confianza del 95 %, el error máximo de estimación es:
0,3 2 · ( 1 - 0 ,32)
Em ax = Z 1_r(i \J = l ,9 6 · =0, 0 4 5 7
4 00
0 , 32 -(1- 0 ,32 )
Em ax = Z i - <(i \J 0 ,0 2 = 1 ,9 6 ·
n
12
Soluciones a los ejercicios de los c:3pftulos l y 2 •
2
21-<(i
1 962
-=p(l-p ) = 0 , 3 2 · ( 1 - 0 , 3 2 ) - -2- =2089,83 �2090 personas
Emax 0,02
_,,......,..,..ÓN:
:::"DICIONES Y SUPUESTOS: Utilizamos una muestra de sujetos en los que la
z : e de estudio «estar en posesión de estudios superiores» es de naturaleza
� " ' 1 i c a (se tienen o no se tienen estos estudios) sobre la que se determina la
C"Ción de personas que poseen dicha cualidad.
: s datos de los que partimos son:
378
. , de personas en Ia muestra con estu d.,os obl.1gatonos:
- aporc,on . p =- = O,42
900
- PÓTESIS: El investigador quiere comprobar que la proporción de adultos de su
_-,- _,idad que solo tienen los estudios obligatorios es significativamente inferior
- e indicador de España en 2008 establecido en el 49%. Las hipótesis nula y al-
�.ativa son:
13
• tjerdcios y problemas resueltos y comentados. Disef\os de investigación y análisis de datos
0, 4 2- 0, 4 9
= - 4 20
0,49·0,51
900
«alfa»= 0,05
nivel de confianza= 0,95
14
Soluciqn_es a los ejercicios <;le los capítulos 1 y 2 •
p< 0,0002
0,42 0,49
Z=-4,20
15
• Ejercicios y problemas resueltOil y comentadb$. Disefíos de investigación y análisis de '8atos
p < 0,0002
0,42 0,49
Z= -4,20
SOLUCIÓN:
De forma resumida, los datos facilitados en el enunciado son:
16
Soluciones a los ejercicios de los capítulos 1 y 2 •
H0 :µS:19,7 H1 :µ>19,7
H1: µ<21,6
17
• Ejerdi;Jos y problemas resueltos y ,::ornentados. Diseños de investigación y análisis de e::
Y-µa
sy
20 , 9 - 19 ,7
1
Z= = =2, 0 6 9 2, 0 7
,Jioo
Y-µa 0 ,9 - 2 1, 6 _1121
1
Z= =2
5
' Yi 'o
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferenc:
que puede encontrarse por simple azar (el valor crítico) es +1,64 para un contrast:,
unilateral derecho y - 1 , 6 4 para un contraste unilateral izquierdo:
Figura 7: Representación gráfica de los valores críticos para la regla de decisión dos contrastes
unilaterales.
18
Soluciones a los ejercicios de los capítulos 1 y 2 •
p = 0,1131
Por tanto, para el primer contraste y partiendo de que la hipótesis nula (que es-
..::.:>lece que la media de alumnos por clase de los alumnos de los colegios públicos
: e esa comunidad es igual o menor de 19,7) es verdadera, la probabilidad de obte-
-er una muestra de 100 aulas de colegios públicos con una media de alumnos por
=ase de 20,9 es de 0,0192 (el nivel crítico p). Esta es una probabilidad pequeña en
::J'Tlparación al nivel de significación de 0,05 pero grande en comparación al nivel
:e significación de 0,01 por lo que rechazaríamos la H0 con un nivel de confianza del
?5% pero no podríamos tomar la misma decisión con un nivel de confianza del 99%.
Para el seg�ndo contraste, la probabilidad de que siendo cierta la Ho se obtenga
_ a muestra de 100 aulas con una media de estudiantes de 20,9 es de 0,1131. Esta
: ..obabilidad es grande en comparación con los niveles de significación del 0,01 y
::: 05 por lo que no hay evidencia suficiente para rechazar la H0 con un nivel de con-
'ianza del 95% ni tampoco al 99%.
INTERPRETACIÓN: La media de alumnos por aula en los colegios públicos de la
Comunidad del investigador es significativamente mayor que la media general de
=.spaña con un nivel de confianza del 95% pero no del 99%, (Z = -2,07; p = 0,0192),
:>ero no difiere significativamente de la media de los países de la OCDE con un nivel
: e confianza del 95% y del 99% (Z = -1,21; p = 0,1131).
Por otra parte y de forma adicional el investigador podría calcular, a partir de los
datos de su estudio, el intervalo de confianza de la media de alumnos por clase en
os colegios públicos de su Comunidad. Para ello, establece un nivel de confianza del
95%. En estas circunstancias el error máximo de estimación es:
cr 5,8
fmax = z1_u/ 1 = 1, 96 r:;-;::;:; = 1, 1368
12 " n ...,,100
19
• Ejercicios y problemas resueltos y comentados. Diseflos de investigacióO y análisis de datos
Si hacemos E= 1, entonces:
5,8
l=l, 96
Despejando «n»:
SOLUCIÓN:
De forma resumida, los datos proporcionados en esta situación vienen recogidos
e'1 las siguientes tablas:
15,9 15,7
2008 15,3 15,2
21
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
0 ,0 3
Emax = Z l-'.7i - p-(l-p) = 1 9 6 · · (l - 0 , 0 3 ) = 1 9 6 · 0 0 307 = 0 , 06
n ' 37+41 ' '
I C = p ± Em ax = 0 , 0 8 ± 0 , 0 6 = (0 , 0 2; 0 ,14)
1,1
Em ax = t _1.1_a/ sn-1 =2, 0 21 ,.-:;--:; =0,35
n , 12 '\In1 '\/41-1
22
Soluciones a los ejerciciosde los capítulos 1 y 2
---->--- a
= 2,021
O, 975t
Probabilidad
0,5SO 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,462 2,756
JO 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,457 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,0SO 1,303 1,684 2.423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
liO 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
abla 5: Reproducción parcial de la tabla de la distribución t y su representación gráfica con los va/o-
_ críticos para el cálculo del intervalo de confianza.
6.3. Para comprobar si la edad media del inicio en el consumo de cocaína en los
hombres de su municipio ha disminuido respecto a los datos generales del
2004, formularemos un contraste de hipótesis, siguiendo los siguientes pa-
sos:
H1 : µ<15, 9
4 15, 9 = - 2
T = Y - µ 0 =15, - ' 31
sn 1,3
n-1 37-1
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800
.H
0,850 0,900 0,9SO o, :,s 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 2,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1.250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1.313 1,701 2,048 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750
0,126 0,255 0,388 0,529 0,681 .. 0,851 · 1 , 0 S C J - 1,303 1,684 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
24
Soluciones a los ejercicios de los capítulos l y 2 •
CONCLUSIÓN: El valor crítico representa la máxima diferencia que puede darse por
simple azar. Como el estadístico de contraste (T =-2,31; p < 0,025) supera esta máxima
diferencia (-2,021), rechazamos la hipótesis nula con un nivel de confianza del 95%.
T=-2,31
. 2
H1 .cr >1,21
2 2
2 = n·Sn - l 41-1, 3
= 1 1 2 =S7,26
x 2
ªº ,
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, la máxima diferencia quE
cabe esperar por simple azar entre el valor de la varianza obtenido en la muestra res-
pecto al valor establecido en la hipótesis nula, viene determinada por el valor crític:
de la distribución chi-cuadrado con 36 gl. El valor más aproximado lo buscamos en las
tablas con 40 gl y es 55, 7585. Como el estadístico de contraste (57,26) supera el valo·
crítico 55,7585, rechazamos la hipótesis nula con ese nivel de confianza del 95%.
Pr-Q)>�biljdád
g.l.
0,005 0,010 0,02S 0,050 0,100 0,900 0,975 0,990 0,995
1 0,0000 0,0002 0,0010 0,0039 0,0158 2.7055 1 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 1 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 13,7867 14,9535 16,7908 18,4927 20,5992 40,2560 43,7730 46,9792 50,8922 53,6720
--20,7065 22,1643 24,4330 26,5093 29,0505 51,8051 lill.ili1 59,3417 63,6907 66,7660
so 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517
26
Soluciones a los ejercicios de los capítulos 1 y 2 •
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio corresponde a un diseño de una mues-
:ra en la que la variable de estudio «Identificación ideológica» es una variable cuan-
:rtativa medida con escala de intervalo en la que se obtiene la media y la varianza
:le la muestra de 31 personas que han respondido a la encuesta. Se desconoce la
:fstribución poblacional de esta variable y su varianza por lo que la distribución
'Tluestral de la media es la t de Student.
HIPÓTESIS: El investigador sospecha que en su localidad la intención de voto es
gnificativamente «más conservadora», por lo que plantea un contraste unilateral
el que la media en su locaclidad debe ser mayor de 4,86 que es la media de la
elación española:
H1:µ>4,86
Y-µ0 5,40-4,86
T=--= = 2, 51
1,2
m
sn - 1
Fn
REGLA DE DECISIÓN: Para los niveles de confianza utilizados habitualmente (95%
o), localizamos en la tabla de la distribución t de Student con 30 grados de
oertad estos valores críticos y son 2,457 para un nivel de confianza del 99% en
27
• Ejercidos y problemas resueltos y comentados. Diseños de investigación y análisis de datos
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,462 2,756
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 2,750
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704
50 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
CONCLUSIÓN: El estadístico T = 2,51 supera ambos valores los que nos conduce
a rechazar la H0 con un nivel de confianza del 99%.
28
Soluciones a los ejercicios de los capítulos l y 2 •
t2 2
2 n-1;1-'Yi' 2 2, 042
n=Sn-l 2 =1,2 · 2 =150,11 150
Emax 0,2
29
• E:jerciclos y problemas resueltos y comentados. Diseños de lnvestigacion y análisis de dates
SOLUCIÓN:
8.1. Para responder a la primera pregunta conocemos los límites superior e infe r :
del intervalo de confianza. La diferencia entre ambos límites corresponde a la c -
plitud del intervalo y el error máximo de estimación es la mitad de esta diferenc =-
0 , 0 553- 0, 0 387
E = /5 - I¡ = =O ' 00 83
2 2
2
zii 1 96 2
n=p(l-p)+ = 0,047(1- 0, 047) ' 2 = 2 4 97, 7 3 250 0 jubilados
Em ax 0 , 0 0 83
8.2. La edad media de los jubilados es una variable cuantitativa medida con escala
de razón y de la que desconocemos su distribución poblacional y su varianza.
En estas condiciones la distribución muestral de la media es la distribución t
de Student con n - 1 grados de libertad. Con un nivel de confianza del 95%, el
intervalo de confianza de la edad media de los jubilados de su localidad se ob-
tiene sumando y restando a la media de la muestra el error máximo de estima-
ción. Al tratarse de una muestra grande (n = 362) la distribución t se aproxima a
la normal por lo que el valor de t se busca en la tabla de la distribución normal
tipificada de puntuaciones Z :
30
Soluciones a los ejen:icips de los capítulos 1 y 2 •
Sn 12,5
Ema x = t1 o./ · ¡ - - : ; = 1, 96 · -J = 1,289
- /2 " n - 1 362-1
_ _ 0,598(1-0,598) _
Emax - Z 1_u./ p ( l - p ) -2,58 -0,0665
/2 n 362
z- p-1to - 0, 3 5- 0, 1 3 3
=12,158
- no (ln- 7to) - 0,1 3 3 ( 1 - 0 , 1 3 3 )
3 62
«nada probable» y el resto «NS/NC». Imagine que usted quiere estudiar si es-
'esultados se reproducen actualmente en su localidad, para lo que realiza una
a.esta sobre una muestra de 100 personas en situación de paro con una edad
g · a de 39 años y desviación típica de 8,6 años de los cuales 25 le responden
1,2 bastante probable)), 35 responden que «poco probable)> y 20 que «nada pro-
e» mientras que el resto «no saben o no contestan,>. Con esa información se
_c-0ne realizar los siguientes análisis:
Calcular el intervalo de confianza de la varianza de la edad de las personas
en situación de paro de su localidad con un nivel de confianza del 95%.
9.2. Con los datos obtenidos en su muestra y fijando un nivel de confianza del
95%, calcular el intervalo de confianza para la proporción de personas en
situación de paro que considera «poco o nada probable>) encontrar trabajo
en los próximos doce meses.
- 3. Contrastar si la proporción de personas en paro que consideran «poco pro-
bable>) encontrar trabajo en los próximos doce meses en su localidad es
significativamente menor que el valor 0,431 (43,1%) proporcionados en el
estudio del CIS.
:::. . Contrastar si la desviación típica de la edad media de las personas en situa-
ción de paro es significativamente mayor de 7,6 años.
CIÓN:
_as datos de la encuesta del CIS, aparecen resumidos en la siguiente tabla:
--------11
Bastante Poco Nada NS/NC
431 o , _1_9 2_ _ _ 1_-_(o_,_2 2 6_ + 0 , 4 3 1 + 0, 1 9 2 ) , o, 1 5 1 1
º_, _ . _ _ _ _
=-
__ o_,_22_6_ _ _ _ _
la muestra con n = 100, media 39 y desviación típica 8,6, los resultados que
aElx'le son:
·
Bastante - , 0
Poco Nada NS/NC
0,35
ns 2 nS
2 <cr < 2
X 1 _ 0. / n - 1 Xa./ n-1
/2, /2,
0,025
74,22 129,56
Probabilidad
g.l.
0,005 0,010 0,025 1 0,050 0,100 0,900 0,950 0,97S 1 0,990 0,995
l 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
3 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
4 0,2070 0,2971 0,4844 0,7107 1,0636 7,7794 9,4877 11,1433 13,2767 14,8603
5 0,4117 0,5543 0,8312 1,1455 1,6103 9,2364 11,0705 12,8325 15,0863 16,7496
6 0,6757 0,8721 1,2373 1,6354 2,2041 10,6446 12,5916 14,4494 16,8119 18,5476
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2149
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,3211
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,2989
100 67,3276 70,0649 74,2219 I 77,9295 82,3581 118,4980 124,3421 129,5612 I 135,8067 140,1695
Figura 13: Representación de la distribución chi-cuadrado con 100 gl y los valores críticos para un ni-
ve/ de confianza del 95% y reproducción parcial de la tabla con la localización de estos valores críticos.
f. 100·8• 6 2 100·8,6 2
inf = =57 ' 085 Isup = = 9 9 ' 65
129 5612
I 74,2219
IC = p±Emax
o 5 5 ( 1 - 0 55)
Emax = Z 1-o/i' = 1 96 ' ' = O, 0975
, 100
35
• Ejercicios y problemas resueltos y comentados. Disefíos de investigación y análisis de datos
z- p-rco - g 35 -
I o 431I
= - 1 , 636 - 1 , 64
- Jn 0(1- n 0) 0,431(1-0,431)
n 100
l.:..
Z=-1,64
0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,40 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,30 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,20 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-1,80 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,70 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
8;0548--6;053'1 0,0495 0,0485 0,0475 0,0465 0,0455
-1,50 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,40 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,30 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
Figura 14: Representación del nivel crítico p para el estadístico Z = -1, 64 y reproducción parcial de lo
taba/ de la distribución N{O;l) con la localización del nivel crítico para un nivel de significación de 0,05
o·
INTERPRETACIÓN: No hay evidencia para demostrar la hipótesis del investigador
a hipótesis alternativa) de que la proporción de personas en paro que consideran
::>0co probable» encontrar trabajo en los próximos doce meses en su localidad es
s; nificativamente menor que el valor 0,431 (43,1%) (Z = -1, 6 4; p > 0,05).
9.4. Para contrastar si la desviación típica de la edad media de las personas en si-
tuación de paro es significativamente mayor de 7, 6 años, seguimos los mismos
pasos que en los anteriores contrastes.
ESTADÍSTICO DE CONTRASTE:
37
• Ejercicios y problemas resueltos y co ntados. Diseños de investigación y análisis de
Probabilidad
g.l.
0,005 0,010 0,025 0,050 0,100 0,900 0,950 1 0,975 1 0,990 0,9!1!i
70 43,2752 45,4417 48,7576 51,7393 55,3289 85,5270 90,5312 95,0232 100,4252 104,2:-;
80 51,1719 53,5401 57,1532 60,3915 64,2778 96,5782 101,8795 106,6286 112,3288 116,32:_
90 59,1963 61,7541 65,6466 69,1260 73,2911 107,5650 113,1453 118,1359 124,1163 128,29:'.:
100 67,3276 70,0649 74,2219 77,9295 82,3581 118,4980 124,34211 129,56121 135,8067 140,16;,
t
Figura 15: Representación gráfica del nivel críi ca p en una distribución t can 100 gl reproduce : -
parcial de la tabla can la localización de las valares más próximos al estadístico de contraste.
38
Soluciones a losejercicios de loscapítulos 1 y 2 •
::ma IÓN:
CONDICIONES Y SUPUESTOS. El estudio corresponde a un diseño de una muestra
el que la variable de estudio «la estimación del tiempo}) es una variable conti-
medida con escala de razón, de la que se desconoce la forma de su distribución
;:ioo acional y la varianza.
HIPÓTESIS: Dado que el psicólogo desea comprobar si el tiempo se sobre-esti-
hemos de plantear un contraste unilateral derecho, cuyas hipótesis son:
H0 :µ$45
H1: µ > 4 5
T = Y-µ0 = 51-45 =3
sn-1 2
c r =s n-- -l =.J164
---2
F,i .[tu -
REGLA DE DECISIÓN: Buscando en las tablas T de Student con 40 grados de liber-
:ad y un nivel de confianza del 95%, el valor critico es 1,684 que deja por debajo una
:Y"obabilidad de 0,95 correspondiente a un contraste unilateral derecho.
39
• Ejercicios y problemas resueltos y comentados. Oiseflos oe Investigación y ariali�is de (jatos
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,6,-
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,9:..:
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4,541 5,S.:_
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,&::-
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,7E:
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,7;:
30 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,75-:
40 0,126 0,255 0,388 0,529 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,7C-
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,6-,
Por otra parte, en la distribución t de Studente con 40 gl, el valor más alto qL::
podemos ver en la tabla es 2,704 que deja por encima una probabilidad de 0,005.
CONCLUSIÓN: El estadístico de contraste (T = 3) supera el valor crítico con u-
nivel de confianza del 95% (3 > 1,684), pero también el nivel crítico p < 0,005 e.:
menor que el nivel de significación a = 0,05. Por tanto, rechazamos H0 .
40
Soluciones a los ejercicios de los capítulos 1 y 2 •
observando que el sueldo medio en dicha muestra es igual a 1400 euros mensuales
con una cuasivarianza igual a 64000. Quiere comprobar si el sueldo medio de las
mujeres es inferior al de los hombres. Nivel de confianza 95%.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo el investigador utiliza una muestra
de 160 mujeres en el que la variable de estudio, el salario mensual, es una variable
cuantitativa que se mide con escala de razón de la que se desconoce la forma de
su distribución poblacional y su varianza. (Observe el estudiante que siendo esta
situación muy similar a la presentada en la situación 1, las condiciones y supuestos
son diferentes, lo que afecta a la elección del estadístico de contraste que hay que
aplicar)
HIPÓTESIS: Como el investigador quiere comprobar si el sueldo medio de las
-nujeres es inferior a 1500 euros, plantea un contraste unilateral izquierdo
H0 :µ;;=;:1.500 H1 :µ<1.500
Y-µ0 1400-1500
T= = =-5
v 64000
160
41
• \ Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de da te
0,0002
T=-S l1 Z = - 3 , 5 9
p <0,0002J
SOLUCIÓN:
El intervalo se obtiene sumando y restando a la media de la muestra el error
máximo de estimación:
IC=Y±Em ax
42
Soluciones a los ejercicios de los capítulos 1 y 2 •
s - 1 =t
Emax =tn-1·1- u / 0 -y =t n-1·1- u / nr __ sn _
.
n-1,0,975 r----.:1
' /2 ' /2 '1n '-,fn-J.
- 18
I C = Y ± Em a x =126±6,1 8 {132,
11 9, 8 2
Que indica que el tiempo medio que los empleados dedican a otras actividades
es un valor comprendido entre 1 19,8 2 y 1 32,18 minutos de su jornada laboral se-
...,anal con un nivel de confianza del 95%.
2,060
Linf = 119,82 - - - - - - - - - Lsup = 132,18
H1 :µ>120
126-120 = = 2
T =_Y_--' µ-' º=--
5n 15 3
.Jn-1 .J26-l
Probabilidad
g.1.
0,550 0,600 0,6$0 0,700 0,750 0,800 0,850 0,900 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12,706 31,821 63,657
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 4,303 6,965 9,925
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 3,182 4;541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2,776 3,747 4,604
23 0,127 0,256 0,390 0,532 0,685 0,858 1,060 1,319 1,714 2,069 2,500 2,807
24 0,127 0,256 0,390 0,531 0,685 0,857 1,059 1,318 1,711 2,064 2,492 2,797
25 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,316 1 708 2,060 2,485 2,787
26 0,127 0,256 0,390 0,531 0,684 0,856 1,058 1,315 1,706 2,056 2,479 2,779
27 0,127 0,256 0,389 0,531 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771
Tabla 10: Reproducción parcial de la tabla de la distribución t y representación del valor crítico y el
nivel crítico p poro el estadístico de contraste T = 2.
44
Soluciones<) los ejercicios de los capítulos 1y 2 •
SOLUCIÓN:
13.1. A partir de una muestra de 400 titulados en psicología, el intervalo de confian-
za de la proporción de mujeres tituladas en Psicología que estaban trabajando
6 meses después de finalizar sus estudios, es:
45
• Ejercicios y problemas re l,leltos y comemtados, Diseños de investiga!;ión y análisis d¡¡: datos
2
ZYi 2 58 2
n = p ( l - p ) - f = 0 ,31(1- 0,31)- '- 2 =3560 titulados
E 0 ,0 2
H0 :n=0,50;
Z -- -P- -- n0 - 0 ,5 4 - 0, 5 0
=1 6
0 ,5 0 (1- 0 , 5 0)
4 00
REGLA DE DECISIÓN: Los valores críticos para un contraste bilateral con un niv:::
de confianza del 95 % son -1,96 y +1,96 y con un nivel de confianza del 99% sc-
-2,58 y +2,58. Por otra parte, en la distribución normal la puntuación típica Z = 1 :
deja por debajo una probabilidad de 0 ,94 5 2 y por encima 1 - 0 ,954 2 = 0, 0 54 8, ce-
lo que el nivel crítico p para un contraste bilateral es 0 ,0 54 8 + 0, 0 5 4 8 = 0,1 0 96.
46
Soluciones a los ejercicios de los capitulos l y 2 •
95%
-1,96 1,96
-2,58 99% 2,58
------
z ::o=) 0,01 0,02 0,03 0,04 0,05 ºV 0,07 0,09
0,00 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,10 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
1,40 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,50 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
0,9641 0,9649 0,9656 0,9664 0,9678 0,9693 0,9699 0,9706
0,9756 0,9761 0,9767
2,00 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,10 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
uo 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,30 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,40 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9952
2,60 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9964
Tabla 11: Tabla de la distribución normal para localizar las valares críticos y nivel crítica p para un
5Wdístico Z = 1,6 en un contraste bilateral y representación gráfica de estos valores.
ada.
47
• Ejercicios y problemas resueltos y comentados. Disef'íos de investigación y análisis de datos
mite a las personas adultas participar en la vida social y económica del siglo XXI
y también las habilidades laborales básicas que exige su puesto de trabajo. En su
último estudio realizado en el año 2013 comparando los resultados de 23 países de
la OCDE muestra que los adultos españoles de entre 16 y 65 obtuvieron en matemá-
ticas el último puesto, con una media de 246 puntos, 23 por debajo de la media de
la OCDE y 22 por debajo de la media de la UE. Entre sus conclusiones destaca que
los jóvenes españoles puntúan mucho más alto que los mayores y están más cerca
de la media de la OCDE y que la tasa de paro de los españoles con competencias
matemáticas en los niveles inferiores es tres veces superior de la que están en los
niveles superiores>>. Imagine que usted aplica la misma prueba a una muestra re-
presentativa de 121 jóvenes de su localidad con edades comprendidas entre 16 y
34 años obteniendo una media de 252 puntos con una desviación típica insesgada
de 77 puntos, siendo la proporción de jóvenes desempleados del 28,5%. Y estable-
ciendo un nivel de confianza del 95%, desea conocer:
14.1. El intervalo de confianza de la media de la población de los jóvenes espa-
ñoles en competencias matemáticas.
14.2. A partir de los datos de su estudio, y con un nivel de confianza del 95%,
¿entre que valores estimaría la proporción jóvenes desempleados en SL
localidad?
14.3. El intervalo de confianza de la varianza de las puntuaciones en competen-
cias matemáticas de la población de jóvenes españoles de su localidad es
14.4. Si hubiéramos querido estimar la varianza poblacional con un error máx·-
mo de estimación que no supere los 200 puntos, ¿cuál debería haber sidc
aproximadamente, el tamaño de la muestra seleccionada?
14.5. Si su interés es comprobar que la media en la prueba de competencias ma-
temáticas de los jóvenes españoles de su localidad es significativament=
inferior que la media general de los adultos de la UE, ¿cuál sería su conclL-
sión?
SOLUCIÓN:
De los datos del enunciado extraemos la siguiente tabla resumen de los datos
48
Solµciones a los ejercicios de los capítulos 1 y 2 a
14.1. Nos encontramos ante un diseño de una muestra en la que la variable de es-
tudio: «las competencias matemáticas» es de tipo cuantitativo y medida con
escala de intervalo. Se desconoce la forma de su distribución en la población y
su varianza por lo que la distribución muestra! de la media es la t de Student.
Para obtener el intervalo de confianza de la media de la prueba en la población
de los jóvenes españoles en competencias matemáticas con un nivel de confianza
del 95%, calculamos primero el error máximo de estimación.
s n- 1 77
f m a x = t1_a/ r =1,96 r.;;;=1,96·7=13,72
72 v n v121
O 285(1-0 285)
Em az =Z1 _'Yi =1,96 ' ' =1,96·0,041=0,08
121
nf = p - E m ax =0,285-0,08=0,205
Lsup = p + E m ax =0,285+0,08=0,365
49
• Ejercicios y problemas resueltos y comentados. Diseños de investigacion y análisis de datos
2i 2 2&
o.IS
Emax=Z1-72 - = 1 , 9 6 .77 - = 2 9 2 8
n 121
Y el intervalo es:
/C = 52 ± f ma x = 77 2 ±2928 = {3301
8857
2
2
1' 96
n = 254 zi-<fi = 2. 774 . :: 6752
2
fmax 200 2
14.S. Para contrastar su hipótesis de que la media de los jóvenes españoles es signi-
ficativamente inferior que la media general de los adultos de la UE, partimos
de las mismas condiciones ya expuestos en el punto 14.1.
H1 : µ<268
-
Y - µ 0 = 252-268 = - 2 29
sn-1/
¡ .¡; 7/7/ v121
r:::::;
REGLA DE DECISIÓN: En una distribución t con 121 - 1 = 120 gl, el valor de tes
prácticamente igual al de Z de la distribución N(O;l). Y para un contraste unilateral
izquierdo esta probabilidad el nivel crítico p asociado al estadístico de contraste
obtenido es p = 0,0113.
----"'
p = 0,0113 ¡
Z=-2,28
15.1. Si con un nivel de confianza del 95% el error máximo para estimar la pro-
porción poblacional de jóvenes activos vale 0,0523 ¿Cuál era el tamaño de
la muestra utilizada en el trabajo de Esnaola y Revuelta?:
Suponiendo que el tamaño de la muestra fuera de 132 jóvenes, determine:
15.2. El intervalo de confianza de la varianza poblacional en la escala de au-
to-concepto físico para los jóvenes activos con edades comprendidas entre
12 y 24 años, con un nivel de confianza del 95%.
15.3. Si el investigador quisiera comprobar que la varianza poblacional de la es-
cala de auto-concepto físico para los sujetos inactivos es significativamen-
te distinta de 25 puntos, ¿Cuál sería su conclusión?
SOLUCIÓN:
Partimos de los siguientes datos resumidos proporcionados en el enunciado:
Escala autoconcepto
Media= 23,7
ACTIVOS (69%)
Desv. Tip. lnses = 4,83
Media= 22,41
INACTIVOS (31%)
Desv. Tip. lnses = 4,1
0,69·0,31
0,0523 = 1,96
Y despejando el valor de n:
2 0,69 ·0,31
n=l,96 =300,4L=:300jovenes
0,0523 2
15.2. Los jóvenes activos son el 69% de la muestra compuesta por 132 jóvenes. Po
tanto, el grupo de jóvenes activos está formado por n = 0,69 x 132 = 91,08 =
91 jóvenes que obtienen en la escala una desviación típica insesgada de 4,83.
Los límites del intervalo de confianza son:
52
Soluciones a los ejercicios de los capítulos 1y 2 •
(91-1)·4,8i 2 (91-1)·4,8i
- -- (J - --
118,1359 65,6466
(n-1)5 _ 1 (41-1)4,1 2
X2 = = =26 ' 9
cro2 25
de 0,995. Por tanto, ambos valores representan los valores críticos con un nivel c:
confianza del 99%.
Probabilidad
g.1.
0,010 1 0,025 1 0,050 0,100 0,900 0,950
[ 0,990 0995'
1 0,0000 0,0002 0,0010 0,0039 0,0158 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0100 0,0201 0,0506 0,1026 0,2107 4,6052 5,9915 7,3778 9,2103 10,5966
s 0,0717 0,1148 0,2158 0,3518 0,5844 6,2514 7,8147 9,3484 11,3449 12,8382
29 13,1211 14,2565 16,0471 17,7084 19,7677 39,0875 42,5570 45,7223 49,5879 52,3356
30 14,9535 16,7908 18,4927 20,5992 40,2560 43,7730 46,9792 50,8922
40 22,1643 24 4330 1 26,5093 29,0505 51,8051 55,7585 @¿fil] 63,6907
50 27,9907 29,7067 32,3574 34,7643 37,6886 63,1671 67,5048 71,4202 76,1539 79,4900
60 35,5345 37,4849 40,4817 43,1880 46,4589 74,3970 79,0819 83,2977 88,3794 91,9517
Por otra parte, para una distribución con 40 gl el valor que aparece en la tabla
más próximo al estadístico de contraste obtenido es 26,5093 que deja por debajo
una probabilidad de 0,05. Por tanto, el nivel crítico p para un contraste bilateral es
p > 0,05.
CONCLUSIÓN: Como el estadístico de contraste no supera los valores críticos (ni
por la derecha ni por la izquierda), no hay evidencia suficiente para rechazar la H0
con un nivel de confianza del 95% ni del 99%. A la misma conclusión llegamos al
comparar el nivel crítico p con el nivel de significación.
24,43 [ \....,
20, 7 .___ ?! J
NC= 99%
54
Soluciones a los ejercicios de los capítulos 1 y 2 •
SOLUCIÓN:
Se trata de un estudio con un único grupo de 32 grillos cuya tasa o frecuencia de
canto se mide Antes y Después de implementar una dieta alta en proteínas, aunque
solo nos proporcionan los datos del post-test (109 Hz) indicándonos indirectamente
que la tasa base de grillos no tratados (pre-test) es de 60 Hz. Cada grillo se mide
dos veces: antes de alimentarlo con una dieta alta en proteínas y otra después de
alimentarlo con esta dieta. Luego la tasa de canto de todos y cada uno de los grillos
se ha medido dos veces. Esto significa que las puntuaciones de antes y de después
están relacionadas. Es un diseño de dos grupos con medidas dependientes (diseño
pre-post}. No obstante, no podemos utilizar el contraste de dos muestras relaciona-
das para la media porque no se proporcionan los datos suficientes (no tenemos la
media de las diferencias y su varianza}. Pero podemos observar que tenemos datos
suficientes para realizar un contraste de una media con varianza poblacional desco-
,ccida asumiendo como hipótesis nula que la media es 60 Hz.
Los datos de que disponemos en el enunciado son:
• Tratamiento: dieta alta en proteínas durante 8 días.
• Número de grillos= 32; Desviación típica muestra! pos-tratamiento = Sn = 40.
Tasa de canto después del tratamiento 109 chirridos por segundo (es decir,
109 Hz).
• Tasa usual de canto = 60. Podemos considerar que esta es la tasa de canto
previa al tratamiento. Es decir, observamos que el estudio nos indica que se
55
• Ejercicios y ptoblemas resueltos y comentados. Diseños de investigación y ana lisis de datos
H0 :µ 60
H1 :µ>60
T = Y - µ 0 = 1 0 9 - 6 0 = =6,82
sn 40 7,18
.Jn-1 .J32-1
56
Soluciones a los ejercicios de los capítulos 1 y 2 •
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990 0,995
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 12, 06 31,821 63,657
2 0,142 0,289 0.445 0,617 0,816 1,061 1,386 1,886 2,920 4, 03 6,965 9,925
3 0,137 0,277 0.424 0,584 0,765 0,978 1,250 1,638 2,353 3, 82 4,541 5,841
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 2. 76 3,747 4,604
28 0,127 0,256 0,389 0,530 0,683 0,855 1,056 1,313 1,701 2, 48 2,467 2,763
29 0,127 0,256 0,389 0,530 0,683 0,854 1,055 1,311 2,462 2,756
30 0,127 0..256 0,389 0,530 0,683 0,854 1,055 1,310 2,457 2,750
40 2.423 2,704
so 0,126 0,255 0,388 0,528 0,679 0,849 1,047 1,299 1,676 2,009 2.403 2,678
60 0,126 0,254 0,387 0,527 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660
70 0,126 0,254 0,387 0,527 0,678 0,847 1,044 1,294 1,667 1,994 2,381 2,648
80 0,126 0,254 0,387 0,526 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639
57
Soluciones a los ejercicios
de los capítulos 3 y 4
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos
muestras independientes seleccionadas al azar. La variable independiente es el
tiempo que unos profesionales llevan trabajando y que toma dos valores: menos de
c·nco años trabajando en la empresa y cinco o más años trabajando en la empresa.
La variable dependiente es el nivel de aspiraciones profesionales que toma también
dos valores: alto o bajo, por lo que se hará un análisis de diferencias de proporcio-
nes para dos muestras independientes.
HIPÓTESIS: El investigador quiere comprobar si los profesionales que llevan me-
nos de cinco años en una empresa (Grupo 1) poseen mayores aspiraciones que las
personas que llevan cinco o más años (Grupo 2). Como el investigador está mar-
cando la dirección de la diferencia (el grupo 1 tiene mayores aspiraciones que el
grupo 2) formula un contraste unilateral derecho con las siguientes hipótesis nula
alternativa:
61
• Ejercicios y problemas resueltos y comentados. Diseflos de investigación y análisis de datos
Ha : 1t1 s 1t2
H1: 1t1 > 1t2
O bien:
siendo p
= _n=1P- =1'--+_ n- =2'---P=2
n1 +n2
Primero calculamos P
18 14
32 + 32
P= 32 32 = 18+14 = 0 5
32+3 2 3 2+ 3 2 '
Finalmente:
-18
- - 14
z = --==(P=1=-=P2==)=-=º = = 0, 5 6 2 5 - 0, 4 3 7 5
_!:_)
32 32
)(_!:_
= =1
0'1 2 5
p (1 - p + o,50(1-0,50)(2-+ 2 - )
32 32
n1 n2
Z=l
1,64
SOLUCIÓN:
2.1. Para la primera pregunta seguiremos los siguientes pasos:
Ho: µ1 s µ 2
H1: µ1 > µ2
O bien:
Ho : µ 1 - µ 2 S O
H1: µ1 - µ 2 >0
- -
(2-2-)
(Y1-Y2)-(µ1 - µ 2 ) (86-80)-0
T=---;=
= == == ============ ===== = ---;=
= == ===== ====== == == == = = 2
30 ·150 + 30 ·129
+
31+31-2 31 31
64
Soluciones a los ejercicios de los capítulos 3 y 4 a
1,671 2,39
iT=2j
2.2. EL TAMAÑO DEL EFECTO se cuantifica con el índice d de Cohen y su valor es:
jY1 -Y2I 8
186 - º ====
d = --;::=
= ==== = = = = = --===== === 1 =o, 508
2 2 30 · 150 + 30 · 129
(n 1 -1)51 +(n 2 -1)52
31+31-2
n1 +n 2 - 2
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para ana-
lizar si el tiempo de reacción (la variable dependiente) es mayor cuando las pala-
bras son de alta frecuencia léxica que cuando son de baja frecuencia (la variable
independiente). Utiliza un diseño de medidas repetidas (o muestra relacionadas
en la que la misma muestra de sujetos pasa por las dos condiciones experimentales
definidas por las dos condiciones que toma la variable independiente: palabras cor
alta y baja frecuencia léxica. La variable dependiente, el tiempo de reacción, es una
variable medida con escala de razón de la que se desconoce su distribución pobla-
cional y su varianza. Para poder aplicar un contraste paramétrico debemos asumi-
que la forma de la distribución poblacional, aunque desconocida, no se separa er
exceso de la normalidad por lo que la distribución muestra! de la diferencia de me-
dias es una distribución t de Student.
HIPÓTESIS: El investigador quiere comprobar que el tiempo de reacción es más
corto ante palabras de alta frecuencia léxica que ante palabras de baja frecuencia
66
Soluciones a los ejerciciosd e los capítulos 3 y 4 •
H o :µ1 µ 2
H1 :µ1 < µ 2
O bien:
H o : µ1 - µ 2 o
H1: µ1 - µ 2 < 0
67
• f:jercicios y ¡>roblemas resueitos y comentados. Diseños de investigación y análisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para corr-
parar la eficacia de dos terapias. Utiliza un diseño de dos grupos independiente
seleccionados al azar. La variable independiente es el tipo de terapia, A o B y 2
variable dependiente es la recuperación que es una variable dicotómica (Si/No) cor
distribución binomial. Realizará un contraste de diferencias de proporciones cor
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si las dos terapias tienen la misma
eficacia, es decir, la misma proporción de recuperaciones. Como el investigador no
está marcando la dirección de la diferencia, formula un contraste bilateral con las
siguientes hipótesis nula y alternativa:
O bien:
H0 :rc A -rea = 0
H1 : TCA - 1ta =t=-O
z =_,_(
P,=A=-=pª= )=- =( TC=
A=-=1tª )
==
P(1-P)(__!_+.2_)
nA na
68
Soluciones a los ejerticios de los capítulos 3 y 4 •
(o'86-0'74 ) - o
=3
O 8·0 2 · ( - 1 - + - 1 - )
200 200
I I
Z =-1,96 Z = +l,96
69
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y analisls d datos
Z=-3 Z=3
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación con dos
muestras independientes de igual tamaño (sujetos) seleccionadas al azar. La varia-
ble independiente es el tipo de estudios, con dos valores «ciencias» o <<letras» y la
variable dependiente es el tiempo de reacción en el reconocimiento de palabras,
que es una variable medida en una escala de razón. El análisis de datos que aplicará
es un contraste de hipótesis sobre diferencia de medias entre dos muestras inde-
pendientes, con varianzas poblacionales desconocidas pero iguales.
HIPÓTESIS: El investigador quiere comprobar que los estudiantes de carreras de
«letras» tardarán menos que los estudiantes de «ciencias» en reconocer los estí-
mulos presentados, es decir, su hipótesis es que el tiempo de reacción es menor
para los estudiantes de letras que para los de ciencias. Como el investigador está
70
Soluciones a los erclcicls de los qipítulos 3 y 4 •
Ha :µce µLL
H1: µ c e > µ u
O bien:
(Ycc-YLL ) - ( µ c c - µ L L )
T ----;:=============
A2 A2
=
(_!_+_!._)
(ncc - 1 ) 5 1 + ( n u - 1 ) 5 2
nc c + n u - 2 nc c nu
(653,2-600)-0
= - , == = = = = = ==:== = = = 2 66
30-6200+30·6200 · ( 2 - + 2 - )
31+31-2 31 31
71
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
1653,2-6001
d= - - ; = = = = = = = = = 0,6756
30 · 6200 + 30 · 6200
31+31-2
El valor de la «d» de Cohen señala que la distancia de la media 653,2 del gru-
po de Ciencias a la media 600 del grupo de Letras es, expresada en unidades de
puntuación típica Z y en valor absoluto, de 0,6756. Si buscamos en la Tabla la Z =
0,67 obtendremos que deja por debajo una proporción de 0,7486, lo que indica por
encima deja una proporción de un 1 - 0,748 = 0,2514, es decir, que hay un 74,86%
de estudiantes de Ciencias con un tiempo de reacción superior a la media de lo que
tardan los estudiantes de letras. O de otra forma, un 25,14% de estudiantes de Cien-
cias tienen un tiempo de reacción inferior a la media de los estudiantes de Ciencias.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para eva-
luar el efecto del tratamiento (la variable independiente) sobre el número de célu-
las T-4 sanguíneas (la variable dependiente) medida en la misma muestra de sujetos
72
Soluciones a los ejercicios de los capítulos 3 y 4 •
Ho :µo =µgo
H1: µo* µgo
O bien:
Ho : µo - µgo = O
H1 : µo - µgo *O
R:
Z= o-µd =
(32 4 - 334 , 4 ) - o
{iso
= - 4 ,4 1
v--:- Vv
REGLA DE DECISIÓN: En la tabla de la distribución normal buscamos los valores
críticos para un nivel de confianza del 95% que son -1,96 y +1,96. Por otra parte,
el valor más extremo que podemos encontrar en ta tabla de la distribución normal
tipificada es 3,59 que deja por encima una probabilidad de 0,0002. Esto significa que
no podemos conocer la probabilidad para una Z de - 4 ,41. No obstante, a efectos del
contraste, no se resentirá si utilizamos el nivel crítico de la Z = 3,59 como sustituto del
nivel crítico de la Z = -4, 4 1 . Como se trata de un contraste bilateral, el nivel crítico, p,
correspondiente al estadístico de contraste T = 4 ,4 1 (utilizando la aproximación indi-
cada) será menor de 0,0002 + 0,0002 = 0,000 4 . Por tanto, el nivel crítico es p < 0,000 4 .
CONCLUSIÓN: Con un nivel de confianza del 95%, estadístico de contraste (Z =
- 4 ,4 1 ) es más extremo que los valores críticos, que representan la máxima diferen-
cia que cabe esperar por simple azar. Por tanto, hay evidencia suficiente para recha-
73
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
INTERPRETACIÓN: La nueva terapia del tratamiento del SIDA produce una varia-
ción significativa (Z = -4,41: p < 0,0004) en el aumento de células T-4 sanguíneas.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com-
parar los niveles de autoestima y su variabilidad en dos grupos distintos de alum-
nos. La variable dependiente, la autoestima, es de tipo cuantitativo medida en una
escala de intervalo de la que se desconoce la forma de su distribución poblacional
y su varianzas. Se trata, por tanto, de un diseño de dos muestras independientes
y hay que realizar dos contrastes de hipótesis: uno para las varianzas y el segundo
para las medias.
74
Soluciones a los ejercicios de los capítulos 3 y 4 •
Ho : crZ,1 _:s;crZ,2
H1 : crZ,1 > crZ,2
O bien:
75
• Ejercicios y probti:!ni s resueltos y comentados. Diseños de lnvestígaci9n y análisis de datos
F = 1,606 1,841
Ho: µG l s µ G 2
H1: µGl > µ G 2
O bien:
H o :µGl - µ G 2 ::;o
H1 : µ G l - µG 2 > 0
76
Soluciones a los ejercicios de los capítulos 3 y 4 •
¡r1-r2I ¡22,16-20,011
d = ---.===== = = = = = = , = ==== = = = ==== = o, 2654
A2 A2 30· 76,42+30 ·47,58
(n 1 -1)51 +(n2 -1)52
31+31-2
n1 +n2 - 2
El valor de la «d» de Cohen señala que la diferencia entre las medias 22,16
y 20,07 expresada en unidades de puntuación típica Z, es, en valor absoluto, de
0,2654. Si buscamos en la Tabla la Z = 0,26 obtendremos que deja por debajo una
proporción de 0,6026, lo que indica un 1 - 0,6026 = 0,3974, es decir, que el nivel
60,26% de los sujetos del grupo 1 tienen un nivel de autoestima superior a la media
del grupo 2. O también que el 39, 74% de los sujetos del grupo 1 tienen un nivel de
autoestima por debajo de la media del grupo 2.
77
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis dé datos
SOLUCIÓN:
Partimos de dos muestras independientes con los siguientes datos:
- A2
Grupo l . Material Nuevo: Y Nue vo = 7 S N ue vo = 15 nN uevo = 32
- A2
Grupo 2. Material Antiguo: Y A n tiguo = 5,2 5A n tiguo = 17 nA ntig uo =32
8.1. Para someter a contrastación la hipótesis del investigador, seguimos los si-
guientes pasos:
Ha : crtuevo = CJntiguo
. 2
H1 · CJNuevo *a Antiguo
2
2
SNuevo = 15 =O
F= 2 88
17 '
5Antiguo
1
Foo2s·30·3o
' ' ' = -2,0
-= 0 ,4 8 2 Fo,975;30;30 = 2 , 0 7 4
74
Ho : µN uevo S µA nt
H1 : µN ue vo > µA n t
O bien:
Ho : µN uevo - µ A nt SO
H¡ : µN uevo - µA nt > O
ESTADÍSTICO DE CONTRASTE:
( 7 - 5 '2 ) - 0
=18
31·15+31-17(_!_+_!_)
62 32 32
NC = 0,95
p < 0,025
o 1 ,6 7 1 (7-5,2)
f--·---- ---i
T= 1,8
jrN-Y Al j7-5,2I
d= --;::=========-;=======O 45
2 2 31·15+31·17
(nN -1)5N +(nA -1)5A
62
nN +nA - 2
Este índice representa la distancia entre las medias de los dos grupos en unida-
des de puntuación típica Z.
Material 2 7 Material
Antiguo Nuevo
d= 0,45
El valor del estadístico de Cohen nos indica que el 67,36% de los estudiantes que
han utilizado el nuevo material docente han obtenido un rendimiento que supera a
la media del grupo que ha utilizado el material antiguo.
81
• EJi:!rcicios y problémas resueltos y comentados. Diseños de investigación y análisis de datos
-O 2
=(7-5,2)±2·1 (
+3,8
-2 o +2
1,8 + 2 = 3,8
--i--
1 , 8 - 2 =-0,2
(7 - 5,2) = 1,8
sentían capaces de dejar de fumar antes de la conferencia obtienen una media su-
perior después de la conferencia, siendo dicha media un punto superior a la media
antes de la conferencia y la cuasidesviación típica de las diferencias es igual a 5. Se
establece un nivel de confianza del 95%.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador utiliza una muestra de sujetos de
los que obtiene información en dos momentos distintos. La información obtenida
es la variable independiente: ANTES de asistir una conferencia y DESPUÉS de salir
de la misma. Utiliza, por tanto, un diseño de muestras relacionadas. Como variable
dependiente obtiene, por un lado, las medias obtenidas en una escala que cuan-
tifica su capacidad estimada para abandonar el hábito de fumar, antes y después
de asistir a la conferencia. Se trata de una variable cuantitativa medida con escala
de intervalo. Y por otra parte, también obtiene la proporción de sujetos dispues-
tos a someterse a la terapia antes y después de asistir a la conferencia. En estas
circunstancias tendrá que realizar dos contrastes de hipótesis dentro de un diseño
de muestras relacionadas: uno para la diferencia de proporciones y otro para la
diferencia de medias.
HIPÓTESIS: Para el contraste de la diferencia entre las proporciones el psicólogo
pretende lograr que el número de sujetos que deciden someterse a la terapia sea
mayor tras la conferencia por lo que plantea un contraste unilateral izquierdo con
las siguientes hipótesis nula y alternativa:
H o : nAntes noespués
Z = -b- - c
-./b+c
83
• Ejercicios y problemas resueltosy comentacos. Diseños d e investigación y análisis de datos
Después_de;la conferencia• !
' g - - , · . '.')- : , - t. ..,,. . . . . c.11
1':'
$1
160 40 200
Para calcular el estadístico de contraste «Z» nos fijamos en los sujetos que apor-
tan información, es decir, aquellos que han cambiado de opinión ANTES y DESPUÉS
de asistir a la conferencia (casillas b y e de la tabla):
Z = - b- -=c 20-80 = - 6
.Jb+c .J20+80
84
Soluciones a los ej rcícíos de los capítulos 3 y 4 •
O bien:
T= fil = /52
D-µd 1-0
=2
f 100
REGLA DE DECISIÓN: En la distribución t de Student con n - l = 100 - 1 = 99 gl y
para un contraste unilateral derecho buscamos el valor crítico que deja por debajo
de sí una probabilidad de 0,95. Según las tablas este valor es 1,66. Por otra parte,
para una distribución t con 100 gl (el valor más próximo a nuestra situación que tie-
ne 99 gl) el valor del estadístico de contraste t = 2 se encuentra comprendido entre
1,984 y 2,364 que dejan por debajo las probabilidades de 0,975 y 0,99, respectiva-
mente, y por encima de 0,025 y 0,01 respectivamente (los valores 0,025 y 0,01 son
los complementarios de 0,975 y 0,99 respectivamente). Por tanto el nivel crítico
asociado al estadístico de contraste t = 2 es un valor comprendido entre 0,025 < p <
0,01 como se representa en la siguiente gráfica,
85
• Ejercicios y problemas resueltos y comentados. Diseffos de investigación y análisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En este trabajo la variable independiente es el vi-
deo y se quiere analizar su influencia sobre la variable dependiente que es la inten-
ción de voto. Esta variable tomará dos valores, SÍ o NO, que constituye una variable
dicotómica. En el diseño de este estudio la fuente de información es la opinión
manifestada por una muestra de 200 personas en dos momentos distintos: ANTES y
DESPUÉS de ver el video. Se trata, por tanto, de un diseño de muestras relacionadas
en el que se analizará la influencia del video sobre la intención de voto.
86
Soluciones a los ejercicios de los capitulas 3 y 4 •
H a : 1CAntes 1toespués
O bien:
H o : ¡¡;Antes -1toespués O
b-c
Z=--
.Jb+c
Para su cálculo, completamos la siguiente tabla que recoge en negrita los datos
proporcionados en el enunciado mientras que el resto de datos han sido calculados
por simple álgebra:
Después
SI
-· .
a= 76 b=4 80
Antes
c=60 d= 60 120
136 64 200
z - - b- --c 60-4
-7
- ../b+c - ../60+4 -
87
• Ejercicios y problema resucttos y cornentados. Diseños de investigación y análisis de datos
2 = (b - e )2 = (60 - 4 )2 =49
X
b+c 60+4
SOLUCIÓN:
De los datos del enunciado extraemos la siguiente información:
1.
Problemas
Paro Clase política
económicos
2011 0,573 0,192 0,094
216 114 63
--=0,45 =0,2375 -=O 13125
480 480 480
Ho : 1t2011 �1!2012
H1 : 1t2011 < 1t2012
O bien:
Ha : 1!20 11 - 1t20 12 �O
H1 : 1t2011 - 1t2012 < O
89
• Ejercicios y problemas resueltos y comentados. Diseños de ínvestigación y análisis de datos
Y su valor, es:
63
468 ·o, 094 + 4 8 0 -
P= 48º =0,113
468+480
(0,094-0,13125)-o
Z-- - - ; = = = = = = = = = = = = = = = = - 1 , 8 1
0, 113( 1 - 0 , 113 ) ( - 1 - + - 1 - )
468 480
Z = -1,81
90
Soluciones iil los ejercicios de los capítulos 3 y 4 •
SITUACIÓN 12. Con los mismos datos del ejemplo anterior desea comprobar
si la consideración del paro como principal problema de los jóvenes no ha variado
significativamente en el 2012 respecto al 2011.
CONDICIONES Y SUPUESTOS: las mismas de la situación anterior siendo ahora la
variable dependiente la consideración del paro como principal problema.
HIPÓTESIS: El investigador quiere analizar si la consideración del paro no ha
variado de un año a otro. Formula un contraste bilateral ya que no marca el sentido
de la diferencia, siendo las hipótesis nula y alternativa las siguientes:
Ha : rc 2 a11 = rc2a12
H1 : TC2a11 ::;:. 7t2012
O bien:
Ha : 1t2a11 - 1t2a12 = O
H1 : TC2 011 - 1t2 a12 ::;:.0
468-0,573+216
P= =0,5107
468+480
(0,573-0,45)-0
Z-- -;::= = ==== = = = ==== = = = = 3, 79
0, 5107 ( 1 - O, 5 1 0 7 ) ( - 1 - + - 1 - )
468 480
91
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
SITUACIÓN 13. Siguiendo con los mismos datos del CIS, imagine por un mo-
mento que tuviera usted acceso a la muestra de los 480 jóvenes encuestados en
septiembre del 2012 para volverles a realizar la misma pregunta y analizar los cam-
bios de opinión sobre la consideración del paro como principal problema. Encuen-
tra que ahora son 233 los que siguen considerando el paro como el problema prin-
cipal y que de los 216 que en septiembre lo señalaban como el problema principal
ahora son 193 los que siguen manteniendo la misma opinión.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Ahora está utilizando la misma muestra de 480
jóvenes a los que hace la misma pregunta en dos momentos temporales distintos:
ANTES (en el 2012) y DESPÚÉS (en este momento). Utilizará un diseño de muestras
relacionadas para comparar dos proporciones.
HIPÓTESIS: El investigador quiere analizar los cambios de opinión sobre la con-
sideración del paro como principal problema pero sin marcar el sentido de este
cambio, por lo que formula un contraste bilateral con las siguientes hipótesis nula
y alternativa:
Ho : TC20 12 = reAHORA
H¡ : TC20 12 # reAHORA
O bien:
Ha : TC20 12 = reAHORA = 0
H¡ : TC20 12 # TCAHORA # 0
92
Soluciones a los ejercicios de los capítulos 3 y 4 •
" .i .
- , " •: . "'
2012-.
-,;r " .-
Otros problemas
11
193 b=40 233
Otros problemas e= 23 224 247
216 264 480
b-c 40-23
Z = r;--:- = 2, 14
v b + c .J40+23
SITUACIÓN 14. Retomando los mismos datos del Barómetro del CIS de sep-
tiembre de 2011 (véase siguiente tabla), el investigador desea ahora comprobar si
la percepción del paro como principal problema ha disminuido en 2012 respecto de
2011 en un porcentaje superior al 5%.
Problemas
_ Paro Clase política
económicos
2011 0,573 0,192 0,094
216 = 0 114 63
45 -=0,2375 =0,13125
480 480 480
93
• Ejercicios y problema$ resueltos y comentados, Diseño:; de investigación y análisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS. Son los mismos, pero considerando ahora que la
variable dependiente son los datos del paro.
HIPÓTESIS. El investigador quiere comprobar si la percepción del paro como
principal problema ha disminuido en 2 012 respecto de 2 011 en un porcentaje su-
perior al 5%. Como está marcando el sentido de la diferencia, formula las siguientes
hipótesis nula y alternativa:
Ha : 1t2011 - n2a12 O, 05
H1 : n2 011 -11:20 12 > 0,05
(p - P 2 ) - D (0,573-0,45)-0,05
Z = - . == = ==1 ===== == = = = - .== ==== = = = = == = = = = 2 , 2 6 5
P1 (1-p1) p2 (1-p2) 0,573(1-0,573) 0,45(1-0,45)
+ +
n1 n2 468 480
SOLUCIÓN:
15.1. Lo que se ha medido en ambos grupos de parejas (aquellas en las que ambos
miembros consumen sustancias tóxicas y aquellas en donde sólo las consume
el agresor) ha sido el EPV-R, que es la escala aplicada y constituye la variable
dependiente. Consideramos esta escala como cuantitativa y medida en una
escala de intervalo. Esta variable «depende» del consumo de sustancias tó-
xicas (la variable independiente, en este caso de tipo cualitativo) que nos ha
permitido clasificar las parejas en dos grupos.
95
a Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
15.2. Para comparar los resultados obtenidos por los dos grupos de parejas en los
resultados obtenidos en la Escala de Predicción del Riesgo de Violencia Gra-
ve contra la Pareja-Revisada (EPV-R) se aplica un contraste paramétrico para
muestras independientes (si en una pareja consumen ambos miembros sus-
tancias tóxicas se clasifica en un grupo y si consume solamente el agresor se
clasifican en el otro grupo, es decir, nunca pueden coincidir) y el contraste es
paramétrico ya que se trata de una <<t».
2
9,41 2
F = 512 ==8 51 2 = 1 223
1
52 '
15.4. Para analizar «el grado de riesgo de violencia grave en función del consumo
de sustancias tóxicas dentro de la pareja» se aplica un contraste bilateral de
diferencia de medias, ya que el investigador no marca «a priori» el sentido de
la diferencia que espera encontrar.
15.5. Los resultados encontrados por Amor y cols. (2012) son t = 2,30 con una p =
0,024 luego 1 - 0,024 = 0,976 que en términos porcentuales es 97,6%, lo que
significa que hay una seguridad del 97,6% de que las diferencias encontradas
sean significativas.
15.6. A partir de los resultados de Amor y cols. (2012), los límites del intervalo de
confianza para la diferencia de medias, con un nivel de confianza del 95% son:
96
Soluciones a los ejercicios de los capítulos 3 y 4 •
Ha: µ1 - µ 1 = 0
H1: µ1 - µ 2 :;t:Q
15.7. El índice «d» de Cohen es un índice de tamaño del efecto y su cálculo es:
IYN-YAl 120,86-16,191
d = --.== ===== = ===== = = = --.== = = == = = = = = = = = O, 52
2 2
(nN -l)SN +(nA -l)SA (44-1)9,41 2 ·(36-1)8,51 2
nN +nA - 2 44+36-2
97
• Ejercicios y problemas resueltosy comentados. Diseños de investigación y análisis de datos
16,19 20,86
Media del grupo en el "'- Media del grupo en el
/ " ' - que consumen los dos
que solo consume un z = 0,5178
miembro de la pareja. miembros de la pareja.
SOLUCIÓN:
Del enunciado extraemos la siguiente información:
Muestra total: n=300, Y ed ad =18,64; S e da d =3,51; PA c tivos =0,69-+P¡ noc tivos =0,31
98
Soluciones a los ejercicios de los capítulos 3 y 4 •
H0 :crA =cr,
H1: <JA:;:. cr,
O bien:
A2 2
5A 4,83
F=-=--=138
A2 4 1 12
s,
f
99
a Ejer icios y problemas resueltos y comentados. Diseños de investigación y am11isis de datos
-------
95% - - - - - - -
·-
99% - · - - - - - -
1,433 1,606
Ho : µ A = µ,
H1 :µA =t=-µ,
100
Soluciones¡¡¡ los ejercicios de los capítulos 3 y 4 •
O bien:
Ho : µ A - µ , = 0
H1: µA - µ, :;t O
(rA-Y,)-(µA-µ,) (23,7-22,41)-o
T=--¡::========================--¡::======================
A
2 A2
(nA - l ) S A +(n, - 1 ) 5 , 206·4,832 +92·4,12
(-1-+_!_)
nA +n1 - 2 207+93-2 207 93
n n
(2-+2-)
1 2
= 2,238 2: 2,24
-2,24 +2,24
101
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
IYA-Y,1
d --;:::========
123,7-22,411
= --;::::======= = 0, 279 = 0, 28
A2 A2
(n A - l ) S A +(n, - 1 ) 5 , 206·4,832 +92·4,12
nA + n 1 - 2 207 + 9 3 - 2
Esto indica que el 61,03% de los sujetos activos tienen un auto concepto que su-
pera la media de los sujetos inactivos. Un 38,97% de los sujetos activos no alcanzan
la media del nivel de auto concepto de los sujetos inactivos.
INTERPRETACIÓN: La actividad ñsica influye sobre al auto concepto que los suje-
tos tienen sobre sí mismos, de forma que los sujetos activos tienen un auto concep-
to superior que las personas inactivas (T = 2,24; p < 0,025; d = 0,2794).
Para ello, selecciona una muestra de 182 jóvenes de su localidad con edades
comprendidas entre 25 y 34 años, de los que el 33,5% están en situación de des-
empleo, y les aplica la misma prueba. La media y desviación típica insesgada de
los desempleados es de 251 y 115, respectivamente, frente a 289 y 92 de los que
tienen empleo.
A partir de los datos del enunciado, tenemos la siguiente información: Número
de sujetos 182 jóvenes, de los cuales:
=
Ha:aE ao
H1:aE=l=ao
O bien:
103
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
-----P = 0,025
"e------ p = 0,01
1,53
F= 1,562
0,01 < p < 0,025
Ha :µE s µ o
H1 : µE >µo
104
Soluciones a los ej rclcios de los capítulos 3 y 4 •
O bien:
Ho :µE-µ O :::;o
H1 :µE-µ O >0
cr- -
Y,-Y,
cr- -
Y,-Y,
=
105
a Ejercicios y problem¡¡s resueltos y comentados. Diseños de investigación y análisis de datos
- p = 0,025
·- p = 0,01
t= 2,24
106
Soluciones a los ejercicios de los capítulos 3y 4 a
- p 2 ) - D = (0,665-0,335)-0,15 = 2
Z= (P1 1 43
crp.-p2 0,074
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El investigador diseña una investigación para com-
parar si la inserción laboral difiere entre dos grupos diferentes de promociones de
estudiantes de Psicología. La variable independiente es el año de promoción y la
variable dependiente es la inserción laboral que es una variable dicotómica con
distribución binomial. Realizará un contraste de diferencias de proporciones con
muestras independientes. La distribución muestra! de la diferencia de proporciones
es una distribución binomial pero como el investigador utiliza muestras grandes, la
distribución binomial se aproxima a la normal.
HIPÓTESIS: El investigador quiere comprobar si la inserción laboral difiere entre
las tres primeras y las dos últimas promociones. Como el investigador no está mar-
107
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
Ho : 1tG1 = 1tG2
H1 : 7tG1 -=fe 7tG2
O bien:
Ho : 1tG 1 - rcG 2 = O
H1 : 1tG 1 - 1tG 2 *0
+
siendo: p = nG1P G 1 nG1 PG 2
n1 + n 2
Y su valor, es:
108
Soluciones a los ejercicios de los capítulos 3 y 4 a
Z=-1,59 Z= +l,59
109
Soluciones a los ejercicios
de los capítulos 5, 6 y 7
SITUACIÓN l. Las puntuaciones obtenidas por dos grupos de diez alumnos cada
-
grupo, en el test de inteligencia Y, son las siguientes:
46 35 17 11 22 20 31 18 22
m11120 10 20 15 18 6 12 12 6 11
SOLUCIÓN:
1.1. Tal como se pide en el enunciado del problema, vamos a calcular el estadístico
F. Para ello, previamente, elevamos al cuadrado cada una de las puntuaciones
de los grupos A y B y sumamos, por columnas, todas las puntuaciones.
113
----
• EJorcicios y problemas re!iuí;!ltos y com�mtados. Diseños de investigación y análisis de datos
40 1600 20 400
46 2116 10 100
35 1225 20 400
17 289 15 225
11 121 18 324
22 484 6 36
20 400 12 144
31 961 12 144
18 324 6 36
22 484 11 121
262 8004 130 1930
N 20
2 2
SC/nter= ¿ [ (¿Y;j )J (¿¿Y;j ) = (-262
-+--
2
130 2 392 2
) -=871,2
- -
n ¡ N 10 10 20
Con estos datos, construimos la tabla resumen del ANOVA unifactorial para ob-
tener el estadístico F.
114
--
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
YA =262/10=26,2
s = ¿,Y;}-Y!= 8004
10
-26,2 2
=113,96
nA
-2 10
Cuasi-varianza: 5A = - -nS A2 = - - 1 1 3 , 9 6 = 1 2 6 , 6 2
n-1 10-1
Ya =130/10=13
2 ¿Y;J
Sa = - - - Y
-2
a
1930
=---13
2
=24
na 10
-2 10
Cuasi-varianza: Sa = - -nS a2 = - - 2 4 = 2 6 , 6 7
n-1 1 0 -1
(26,2-13)-o
T= = 3 37
(9)(126,62)+(9)(26,67) 1 1
+
18 10 10
115
• Ejercicios y problemas resueltos y comentados. Diseflos de investigación y analisis de datos
Comparando ambos resultados, tal como nos pedía el enunciado del problema,
comprobamos que t2 = F.:
(3,37)2 = 11,36
Método A 2 4 3 8 6 7 3 5 7 5
Método B 5 6 5 9 7 10 5 7 9 7
MétodoC 2 3 4 1 4 6 2 3 5 o
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Dado que tenemos tres muestras independientes
vamos a aplicar un análisis de varianza de un solo factor. El enunciado dice que s:
cumplen los supuestos de independencia de las observaciones, normalidad de lzs
distribuciones y homogeneidad de las varianzas que son los que exige el ANO\
unifactorial.
HIPÓTESIS ESTADÍSTICAS: Como solo hay un factor, solo podemos formular ur =-
hipótesis para comprobar si la variable independiente, el método de educación, ce-
sus tres niveles (A, B y C), influye sobre los resultados. Si los métodos son igual e:
eficaces, entonces las medias serán iguales, por lo que las hipótesis nula y alterna-
tiva son:
116
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
Ho :µA = µ 8 =µe
H1 : µ A * µ8 *µe al menos para unaµ ¡
ESTADÍSTICO DE CONTRASTE:
F = MCinter
MCintra
------
Para el cálculo de las sumas de cuadrados, sumamos todas las puntuaciones y
sus cuadrados, que figuran en la siguiente tabla:
2 4 5 25 2 4
4 16 6 36 3 9
3 9 s 25 4 16
8 64 9 81 1 1
6 36 7 49 4 16
7 49 10 100 6 36
3 9 5 25 2 4
5 25 7 49 3 9
7 49 9 81 5 25
5 25 7 49 o o
so 286 70 520 30 120
SCTotal=¿¿Y¡f-
(¿¿Y--)11 2 = ( 2 8 6 + 5 2 0 + 1 2 0 ) - ( s o + 70+3o) 2
=926-750=176
N 30
2 2
'ictnter= ¿ [ (¿Y¡j
)J - (¿¿Yij )= ¿ (so 2
+ 70 2 + 30 2
) -750=80
n; N 10
ictntra = SCTotal-SC/nter = 1 7 6 - 8 0 = 9 6
117
• Ejerciciosy problemas resueltosy ca otádos. Diseños de investigación y análisis de datos
-----------------------------il
, . - . , , . , , ,• .¡,,, •
F.V.
------r! - M.C;
lnter 11,26
lntra
Total
1
1 1
2
161,448
18,513
1 2
199,ºº
19, 00
las tablas de la distribución F para 2 y 27 grados de libertad
con un nivel de confianza del 95%, no figura expresamente
en la tabla. Sólo podemos conocer dos valores entre los
3 10,128 9, 52
que se encuentra el valor buscado:
4 7,709 6, 44
5 6,608 5, 86
F2, 2 0 = 3,493
6 5,987 5, 43
1 5,591 4, 37
8 5,318 4, 59 F2,30 = 3,316
17 4,451 3, 92
18 4,414 3, 55 Si tuviéramos que optar por un valor elegiríamos el más
19 4,381
20 4,351
cercano a los grados de libertad nominales. En este caso,
30 4,171 27 grados de libertad están más cerca de 30 que de 20 por
60 4,001 3,150
120 3,920 3,072
lo que aceptaremos 3,316. El estadístico de contraste ob-
tenido, 11,26 supera ampliamente ambos valores.
CONCLUSIÓN: Rechazamos la hipótesis nula porque el valor del estadístico de
contraste (11,26) supera el valor crítico que representa la máxima diferencia que
cabe esperar por simple azar entre los dos grupos.
INTERPRETACIÓN: Con un nivel de confianza del 95% debemos considerar que
al menos dos de los tres métodos de educación compensatoria influyen de forma
distinta en los resultados obtenidos.
COMPARACIONES MÚLTIPLES: Dado que hemos rechazado la hipótesis nula,
realizaremos las comparaciones múltiples, primero entre las tres medias, para ver
entre qué métodos se encuentra la diferencia y para poder contestar a la pregunta
del investigador a quien le interesa ver la diferencia entre el método B y los demás,
dado que está especialmente interesado en ese método realizaremos la compara-
ción del método B contra los métodos A y C juntos.
118
Soluciones a los ejercicios dg los capítulos 5, 6 y 7 •
Comparaciones Coeficientes
AyB 1 -1 o
AyC 1 o -1
ByC o 1 -1
By (A+C) -1 2 -1
1
CRscheffé ( 3 - 1) ( 3 , 3 1 6 ) ( 3 , 5 5) ( ( + =(2, 5 7 5 ) ( 0, 8 4 3 ) = 2, 1 7
10 1 ))
Este valor, 2, 1 7 1, es la mínima diferencia que puede producirse entre dos me-
dias para que no sea significativa. Cualquier diferencia mayor, sería significativa al
nivel de significación establecido.
Vemos, pues, que sólo la diferencia entre el método B y el Ces significativa pero
no entre A y B o A y C que no superan la máxima diferencia de Scheffé.
Si comparamos, como quiere el investigador, el método B con los otros dos jun-
tos, el contraste tendrá que combinar los grupos B y C y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo A, de tal forma que la hipó-
tesis nula tendrá la siguiente expresión:
119
• Ejercicios y problemas tesueltos y comentados. Diseños de inve&tigación y .análisis de datos
CRscheffé (3-1)(3,316)
10
2 (-1) 2 (-1) 2
(3,55) [(2- + - - + - -
10 10
J =(2,575)(1,46)= 3, 76
l(2)Ya + ( - l ) Y A + ( - l ) Y c l = J ( 2 ) ( 7 ) + ( - 1 ) ( 5 ) + ( - 1 ) ( 3 ) J = 6 > 3, 76
120
Soluciones a los ejercicios de los capftulos 5. 6 y 7 •
3.1. Contraste la hipótesis del investigador con un nivel de confianza del 95%.
3.2. Analice nuevamente los datos con un nivel de confianza del 99%.
SOLUCIÓN:
3.1. CONDICIONES Y SUPUESTOS: Se trata de un diseño experimental en el que
se ha manipulado una variable independiente (un único factor) que, en este
caso, es la sincronía entre el movimiento de los labios y el sonido cuando se
pronuncian palabras. En la vida real vemos a las personas hablando al mismo
tiempo que las oímos. No hay asincronía entre la voz y la imagen excepto en
condiciones anómalas de mal funcionamiento de los equipos informáticos. Sin
embargo también podemos introducir estas anomalías mediante técnicas in-
formáticas para estudios como este. lnformáticamente es posible adelantar o
atrasar el sonido en relación al vídeo. La pregunta que se planteaban los inves-
tigadores es en qué medida esta asincronía afecta a la memoria de las palabras
pronunciadas. Por consiguiente, la variable dependiente es una medida de la
memoria.
Finalmente, y según el enunciado, se asume el cumplimiento de los tres supues-
tos: independencia, normalidad y homocedasticidad.
HIPÓTESIS: Las medias de recuerdo en las tres condiciones son idénticas.
este análisis. Pero las SC nos las presentan como SS, lo cual no es problemático ya
que son los términos que se utilizan en inglés (SC = Sumas de Cuadrados, SS= Sum
of Squares). Es muy habitual la utilización de la terminología SS en los módulos
informáticos al uso. De la misma forma, a veces podremos ver el resto de términos
con sus iniciales inglesas. Así, MC = Medias Cuadráticas es idéntico a MS = Mean
Squares, mientras que gl = grados de libertad es idéntico a dof = degrees of free-
dom.
- --
El diseño nos indica que tenemos un análisis factorial de un factor con tres nive-
les. La tabla del anova será:
Fuentes de variación
lnter (factor manlpulado) 233,867 1-1=3-1=2 116,934 5,895
lntra (error) s.3.S....6Q N -1 = 3 0 - 3:;: 27 19,837
Tot I 769,467 N - 1 = 30 - 1 :;: 29
233, 8 6 7 = 116
MC-mte r = SCinte r = , 934
g /in ter 2
F2 ,20 = 3,493
F2 ,30 = 3,316
122
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
Y ambos se encuentran por debajo del valor del estadístico de contraste calcula-
do (5,895) por lo que no hay incertidumbre en la decisión a tomar.
CONCLUSIÓN: Debido a que la F empírica obtenida en la tabla del Anova (5,895)
es superior a las F críticas que hemos obtenido de las tablas, podemos rechazar H0
con un nivel de confianza del 95%.
INTERPRETACIÓN: Existen, al menos, dos grupos en el experimento cuyas medias
son diferentes (F = 5,895; p < 0,05). La razón F obtenida se dice que es un estadístico
global u ómnibus ya que sólo nos indica que existen diferencias significativas pero
no nos permite determinar entre qué par de grupos se producen estas diferencias.
Sería interesante realizar comparaciones a posteriori pero en este caso descono-
cemos las medias de las muestras a comparar. No obstante, sí es interesante referir
los valores de los pesos, o coeficientes, para poner a prueba la hipótesis a poste-
riori más interesante: que el recuerdo se muestra afectado por la asincronía de los
índices auditivos y visuales, sin importar su dirección. Es por ello que en este caso,
deberíamos comparar las condiciones «asincrónicas» versus las «no sincrónicas».
Vemos que los grupos 1 y 3 son condiciones asincrónicas y el grupo 2 es sincrónica.
Por ello, el contraste tendrá que combinar los grupos 1 y 3 y compararlos de manera
conjunta, como si fueran un único grupo, con el grupo 2. Para ello, y respetando
el orden (CoeficienteGrupol' Coeficiente G ru p oi ' CoeficienteGrupo3), se pueden utilizar
que respete las condiciones de que los grupos 1 y 3 tengan pesos con el mismo sig-
no, el grupo 2 tenga el signo contrario y la suma de los coeficientes valga O.
3.2. Con un nivel de confianza del 99%, tanto los supuestos como la Tabla del Anova
son idénticas ya que el nivel de confianza sólo afecta al criterio de decisión.
t
CRITERIO DE DECISIÓN: Debemos consultar el valor de la F críi ca en la Tabla de
la F con un Nivel de Confianza del 0,99.
123
• Ejercicios y problemas resueltos y comentados. Diseí'los de investigación y análisis de datos
r--
1
P(Fn l 'nJ 5afn.,, ) 0, 9 9
Tenemos el mismo problema que hemos
discutido previamente cuando intentamos
1 '
2 3 4
encontrar el valor de la F crítica con 2 y 30
4052,181 5403,352 5624,583
2 98,503 99,166 99,249 grados de libertad para un nivel de confian-
3 34,116 29,457 28,710 za del 95%. Por consiguiente, tomaremos la
21,198 16,694 15,977
5 16,258 12,060 11,392 misma decisión: aproximar al valor más cer-
cano según los grados de libertad. En este
11 9,646 6,217 5,668
"2 12 9,330 5,953 5,412 caso elegiremos F(2, 30) = 5,390. Sabemos
13 9,074 5,739 5,205 que el verdadero valor es un poco superior
14 8,862 5,564 5,035
15 8,683 5,417 4,893
a 5,390 pero sin llegar a 5,849 (se encuentra
16 8,531 5,292 4,773 en un punto entre ambos).
17 8,400 5,185 4,669
18 8,285 5,092 4,579 Observamos que incluso en esta situa-
19 8,185 5,010 4,500
ción, con un nivel de confianza tan elevado,
20 8,096 4,938 4,431
30 7,562 4,510 4,018 seguimos rechazando H0 ya que el estadísti-
60 7,077 4,977 4,126 3,649 co de contraste, 5,895 supera el valor crítico
120 6,851 4,787 3,949 3,480
5,390 que representa la máxima diferencia
que cabe esperar por simple azar.
Tipo de ciudad
Industrial Servicios Administrativa
4,3 5,1 12,5
2,8 6,2 3,1
12,3 1,8 1,6
16,3 9,5 6,2
5,9 4,1 3,8
7,8 3,6 7,1
9,1 11,2 11,4
10,2 3,3 1,9
124
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
SOLUCIÓN:
Observamos que nos han proporcionado los datos directos de la variable depen-
diente: Tasa de criminalidad. La unidad de observación es la ciudad (cada ciudad
tiene su propia tasa de criminalidad) y cada ciudad solo puede tener una única tasa
de criminalidad en un momento determinado. Además, considerando que las ciu-
dades se han clasificado en tres categorías exhaustivas (industriales, de servicios o
administrativas) en función de su actividad comercial principal, cada valor numérico
proporcionado en la tabla solo puede pertenecer a una ciudad. Esto significa que te-
nemos un factor de medidas o muestras independientes con tres niveles. Debemos
aplicar un Anova de medidas independientes con tres niveles.
CONDICIONES Y SUPUESTOS: Asumimos que el modelo es de efectos fijos ya
que sólo nos interesan los niveles concretos de ciudades expuestos en la Tabla. Los
supuestos son los propios del Anova (independencia de las observaciones, norma-
lidad y homocedasticidad). La variable dependiente es de razón ya que es una tasa
cuyo valor O es significativo e indica ausencia de criminalidad.
HIPÓTESIS: La hipótesis nula afirma que no existen diferencias en las tasas de
criminalidad entre los tres tipos de ciudades, es decir:
2
T2 (:z:: =1A i r (6 8 , 7+44,8+47,6) 25.95 3 ,2
= =
[T] N 3 =
8 +8
+ 8
= 24 =1081, 3 8
Ii"'Pi
125
• Ejercicios y problemas resueltos y comentados. Diseños de investigacion y ana lisis de datos
3 2)
68•7 2 44•8 2 4716 2
[A]=¿ ( = + + =589,961+250,88+283,22=1124,06
i=l n; 8 8 8
[Y]= ¿ ¿ Y ; J =725,81+324,04+405,28=1455,13
Verificamos que la SCtotal es la suma de las SCin ter y la SCin tr a · Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili-
brado con 3 x 8 = 24 unidades de observación en total y 3 niveles del factor).
Hemos obtenido en la Solución una razón F empírica de 1,35. El valor crítico de
la F al 95% de confianza con 2 y 21 grados de libertad no aparece exactamente en
la tabla del formulario, pero tenemos un valor muy aproximado (F2 , 20) cuyo valor
es 3,493.
REGLA DE DECISIÓN: Rechazaremos H0 si el valor de la F empírica obtenida con
nuestros datos y que aparece en la Tabla del Anova es superior a la F crítica obteni-
da en las tablas de la F de Snedecor-Fisher para un nivel de confianza del 95%.
CONCLUSIÓN: Como el valor de la F empírica (el estadístico de contraste) es in-
ferior al valor de la F crítica (1,35 < 3,493) no hay evidencia suficiente para rechazar
la H0 .
Una consecuencia derivada de este resultado es que no es posible contestar
positivamente a la pregunta acerca de si existen diferencias entre las ciudades in-
dustriales y las de servicios. Solamente en el caso en que hubiésemos rechazado H0
tendría sentido plantearse esta pregunta realizando la prueba de Scheffé.
INTERPRETACIÓN: No existe evidencia empírica para afirmar que la tasa de cri-
minalidad depende del tipo de ciudad en que viven las personas.
del año parece afectar de forma decisiva a la gravedad de los trastornos alérgicos.
- 283, 22 ==1124, O! En un estudio se ha utilizado una muestra aleatoria de 5 pacientes alérgicos (todos
con el mismo tipo de alergia) sometidos todos ellos a condiciones de alto estrés. Un
grupo de especialistas ha evaluado la gravedad de la alergia de cada paciente (en
una escala de O a 10) en los cuatro periodos estacionales: primavera, verano, otoño
e invierno. Para analizar estos datos, el investigador utilizó un ANOVA cuyas razones
_adrados: básicas aparecen a continuación (utilice un a = 0,05):
[A X S]
s s
'-- -9_1_º -ª- _ 2_, - 9_4_º ·
Analice y extraiga las conclusiones de estos datos según el diseño apropiado.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El estudio ha utilizado solo 5 participantes proce-
dentes de una misma población caracterizada porque padecen alergia y alto estrés,
y ha medido la gravedad de la alergia (variable dependiente) en cuatro periodos
estacionales. Esto significa que para cada participante disponemos de 4 puntuacio-
nes, una en cada periodo. Por consiguiente, se trata de muestras relacionadas o de-
pendientes ya que las observaciones de cada estación pertenecen al mismo sujeto.
la variable manipulada ha sido el periodo estacional. Es un diseño de un factor de
medidas dependientes con 4 niveles: primavera, verano, otoño y verano.
las condiciones que deben cumplir los datos son los propios correspondientes
a un diseño intra-sujetos:
l . la variable dependiente se encuentra medida a un nivel mínimo de intervalo.
Debido a que los especialistas han medido la alergia en una escala (asumimos
que continua) del O al 10, podemos afirmar se cumple el supuesto. Aunque
no podemos afirmar que si un especialista ha puntuado la alergia de un suje-
to en una estación como cero significa ausencia absoluta de alergia ya que la
medición es subjetiva, al menos podemos confirmar el nivel de intervalo en
la medida de la variable dependiente.
2. las puntuaciones de alergia en cada estación son independientes entre sí.
3. las puntuaciones de alergia en cada estación deben distribuirse según la cur-
va normal.
4. las varianzas de las puntuaciones en alergia deben ser iguales entre sí.
S. las covarianzas entre cada par de niveles del factor deben ser iguales entre sí.
127
• Ejercicios y problmas resueltos y comentados. Diseños de investigación y análisis de datos
Mientras que la hipótesis alternativa afirma que, al menos para un par de esta-
ciones, sí existen diferencias. Como existen 4 estaciones, se plantea que alguna de
las 6 comparaciones posibles es significativa, es decir, que en alguna de ellas {o en
varias) existen diferencias en la magnitud de la alergia.
Estos resultados nos permiten construir la tabla del Anova considerando que
tenemos 4 niveles del factor (a= 4) y tenemos 5 sujetos (s = 5).
1
!·
[sujeto; (S) J
"J
7, 5
g.d.l.
a-1=4-1=3
s-1=5-1=4
21,667
1,875
21,67 / 1,875 = 11, 5 6
{a.s)-o-s+l=
Error (A><S) 7, 5 1,875
(4x5)- 4 _ 5 + 1 = 12
r. Total 95 N - l = 20 - 1= 19 5
l- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - '
128
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
Tras realizar todas las comprobaciones necesarias se concluyó que las observa-
ciones eran independientes, las distribuciones normales y las varianzas homogé-
neas y el investigador quiere comprobar si las estrategias de control de la atención
influyen sobre el rendimiento de los jugadores.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Disponemos de una variable independiente {la
estrategia de control ) con tres niveles o valores y se quiere estudiar su influen-
cia sobre la atención en los jugadores de ajedrez. Se forman al azar tres muestras
indpendientes de 15 sujetos cada una. Se trata, por tanto, de un diseño factorial
equilibrado en la que se cumplen los supuestos del ANOVA.
129
• Ejercicios y problemas resueltos y comentados. Dsefíos de investigación y análisis de datos
Ha :µA = µ s =µe
H 1 : µ A * µ 8 *µe¡, para algún par
[T]= TN
2
)' J s s s + S l O + 705)
jz:'.;t; 2
25953, 2
= 69620
15+15+15 45
L;=Pi
3 2
555 2 510 2 705 2
[ A ] = ¿ [ -A 1 J = - + - + - = 7 1 0 1 0
i=l n; 15 15 15
Verificamos que la SCtotal es la suma de las SC inter y la SC i ntra· Y con estos valores
podemos construir la tabla del Anova (recordando que tenemos un diseño equili-
brado con 3 x 15 = 45 jugadores de ajedrez en total repartidos a 3 niveles del factor).
130
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
SITUACIÓN 7. Para estudiar el efecto del paso del tiempo sobre la calidad del
recuerdo, se realiza un estudio en el que a un grupo de 9 personas seleccionadas de
forma aleatoria se les presenta una historia escrita que deben memorizar durante
20 minutos. Terminado el tiempo de memorización, se dejó transcurrir una hora y
se pidió a los 8 sujetos que escribieran la historia que habían intentado memorizar.
Un grupo de expertos evaluó la calidad del recuerdo de cada sujeto. Transcurrido
un día se volvió a pedir a los sujetos que realizasen la misma tarea, y lo mismo se
hizo al cabo de una semana y al cabo de un mes, obteniendo los resultados de la
siguiente tabla:
7 7 4
6 7 5
8 6 5
9 5 3
7 7 4
8 7 4
7 6 2
8 7 3
Con estos datos, compruebe el efecto del paso del tiempo sobre la calidad del
recuerdo.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: El experimento se realiza sobre una muestra de
ocho sujetos a los que se les evalúa la calidad del recuerdo {la variable dependiente)
en tres momentos distintos (pasado 1 día, 1 semana y 1 mes) que es la variable in-
131
• Ejercicios y problemas resueltos y comehtados. Diseños de investigación y análisis de dato s
Y la hipótesis alternativa, niega la anterior, para indicar que el paso del tiempo sí
influye sobre la calidad del recuerdo:
Suj 1 7 7 4 49 49 16 18 324
Suj 2 6 7 5 36 49 25 18 324
Suj 3 8 6 5 64 36 25 19 361
Suj 4 9 5 3 81 25 9 17 289
Suj 5 7 7 4 49 49 16 18 324
Suj 6 8 7 4 64 49 16 19 361
Suj7 7 6 2 49 36 4 15 225
Suj 8 8 7 3 64 49 9 18 324
A¡ 60 52 30 456 342 120 142 2532
A?1 3600 2704 900
132
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
= 602+522+302
[A]=¿A =900,5
s 8
[T]=
(¿ASij
as
t =
(60+52+30}2 =840,17
3·8
-- --
Para finalmente construir la tabla del ANOVA intrasujetos:
g.l.
[A]-[T] = Factor A 60,33 o-1 = 2 30,167 30,9
[S]-[T] = Sujetos 3,83 s-1 = 7 0,547 0,561
[AS]-[A]-[S]+[T] = A><S 13,67 (a--l){s-1) = 14 0,976
[AS]-[T] = Total 77,83 N-1= 23
133
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Contamos con dos factores, el sexo y la edad. El
primero con dos niveles, hombre y mujer y el segundo, siendo una variable cuanti-
tativa, se ha categorizado en tres grupos: jóvenes, medianos y mayores. Por tanto,
se trata de un diseño de dos factores (2x3). El número de sujetos de cada una de
134
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
H o : µHombres = µMujeres
H1 : µHombres *µMujeres
Para el factor edad, la hipótesis nula establece que la edad no afecta a la reac-
ción emocional, o dicho con otras palabras, que las medias en el cuestionario de los
tres grupos de edad son iguales. Por su parte, la hipótesis alternativa indicará que sí
afecta, al menos para un par de niveles del factor iluminación.
H o :µJOV =µMEO = µ M A Y
H1: µ10v * µ M EO * µ M A Y al menos para un par de grupos de edad
Para la interacción la hipótesis nula afirma que los efectos de la edad y del sexo
son aditivos, de tal forma que la reacción emocional entre hombres y mujeres es la
misma con independencia de la edad, o viceversa, que la reacción para los distintos
grupos de edad es la misma con independencia del sexo. En términos gráficos se
vería reflejado en que las medias de la reacción emocional entre hombres y mujeres
se situarían sobre líneas paralelas en los tres grupos de edad, por un lado, y que la
media para los distintos grupos de edad para hombres y mujeres se situarían sobre
líneas paralelas. Y veremos estas gráficas en la resolución de esta situación.
H0 : No existe interacción
H1 : Existe interacción
135
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
------
Con lo que la tabla resumen del ANOVA es:
REGLA DE DECISIÓN: Con 1 y 24 gl, para el factor A, o con 2 y 24 gl, para el factor
By la interacción, y para los niveles de confianza del 9 5% o del 9 9 %, los valores crí-
ticos que podemos encontrar en la tabla, son:
Í 2 ;20;0,99 = 5, 8 49 F = 1;20;0,99= 8 , 0 9 6
136
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
._ _ _
--.----·-·--
---¡ 35 l
::
135--
- _:_ ::1
120 ,..=,._--:-_:::- •20 - - -.....-Jov 1
-+-MUJERES MEDI
15-- ............- - - - - · - HOMBRES
----
1
15
- ......_MAY
10 110
5
Utilizando los datos de la siguiente tabla en la que figuran las sumas de los suje-
tos de cada uno de los grupos y las sumas marginales de los niveles de cada factor:
137
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
A
B al: MUJERES a2: HOMBRES
l§lt·M 18 18 36
1%13éi
,,, w-
29 21 so
33 22 55
80 61 141
50 2
[Bi]=-=-=250
an 2·5
[ SCA en b,] = [A en b i ] - ( B ] =256,4-250 =6,4
2
( 8 3 ] =Bi- = - 55
2
=302,50
an 2·5
138
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
[ s cA en b, ] = [A en b3J-[B3]=314,6-302,5=12,1
)2- - A
L (AB1 · 182 29 2 332 80 2
2
1 1
[5C8 ena' ] = [ B e n o1 ] - [Ai ] = =-+-+---=24,13
n b·n 5 5 5 3.5
-A= - + -18
2
+ - - - =212
1 222 61 2
73
b· n 5 5 5 3·5 '
Con estas sumas de cuadrados completamos la siguiente tabla, las medias cua-
------
dráticas (SC/gl) y los estadísticos F, como cociente entre la media cuadrática de cada
nivel y la media cuadrática del error o intra del ANOVA realizado anteriormente:
Í2;20;0,99 = 5, 8 4 9 F =1;20;0,99 = 8, 0 9 6
_____
_
30-
25 T
20 20.
,
5 -----'="- ===
:: .- --=-
5
F = 17,66; p < 0,01
-----
140
Soluciones a los ejercicios de los capítulos 5, 6 y 7 a
a) Averigüe si es cierto que existen diferencias entre las dos razas de ratas en los
tiempos que tardan en atravesar el corredor.
b) ¿Cómo influyen esos días de privación de comida en los tiempos que tardan
las ratas en atravesar el corredor?
e) ¿Se obtiene algún efecto cuando se combinan los dos factores?
SOLUCION:
CONDICIONES Y SUPUESTOS: En este experimento se trabaja con dos variables
independientes o factores. La raza, con dos niveles, y el tiempo de privación de
alimento, con tres niveles. La variable dependiente es el tiempo que, según el enun-
ciado del problema, cumple los supuestos de independencia de las observaciones,
normalidad de las distribuciones y homogeneidad de las varianzas. Se trata, por
tanto, de un diseño (2x3) que se resolverá analizando los datos con un ANOVA bi-
factorial con interacción de efectos fijos.
HIPÓTESIS ESTADÍSTICAS: Hipótesis para el factor A, raza: La hipótesis nula esta-
blece que no hay diferencias significativas en el tiempo que tardan en recorrer el
laberinto las dos razas de ratas, frente a la hipótesis alternativa que afirmaría que sí
existen esas diferencias. Se trata, por tanto, de un contraste bilateral.
Ha :µw =µLE
H1 : µW-:¡; µLE
Ha : µ1 = µ2 = µ3
H1 : µ1 -:¡; µ2-:¡; µ3 al menos para una µ¡
Hipótesis para la interacción: La hipótesis nula establece que el tiempo que tar-
dan las ratas en recorrer el laberinto es el mismo con independencia de la raza y
del tiempo de privación. Es decir, no existe interacción entre la raza y el tiempo de
privación sobre la ejecución de la rata para recorrer el laberinto. La hipótesis alter-
nativa indicaría que sí existe interacción.
141
• Ejercicios y problemas resue ltos y comentados. Diseños de investigación y an lisis de datos
H0 : No existe interación
H1 : Existe interacción
= MCinterocción
F
MCerror
En la siguiente tabla aparecen las sumas de las puntuaciones para cada una de
las 3x2 condiciones que nos facilitan las operaciones para obtener las sumas de
cuadrados.
142
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
Calcularemos las razones básicas para obtener las sumas de cuadrados corres-
pondientes:
[Y]= ¿Y¡j=1944
r2 1902
[r]=-=--=1504,17
abn 2·3·4
2
' ° 'A = 74 2 + l l 6 2 =1577,67
[A]=-L.._i
bn 3·4
2
'°'(A8) 18 2 +14 2 +42 2 +28 2 +26 2 +42 2
[AB]= L . ' = =1897
n 4
Con estos resultados, completamos la tabla del ANOVA para calcular los estadís-
ticos de contraste:
143
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
. . . . '
MC
73,50 37,53
..
Factor B tiempo
...
Interacción (AxB)
312,33
7,00
b-1= 2
(a-l)(b-1} = 2
156,17
3,50
79,74
1,79
Residual 47,00 ab(n-l} = 24 1,96
Total 439,83 N - l = 29
tadístico de contraste 75,2 es mayor que el valor crítico 3,316 por lo tanto, también
rechazamos la H0 del factor tiempo de privación.
INTERPRETACIÓN:
a) Dado que hemos rechazado la hipótesis nula del factor tipo de rata, podemos
contestar a la primera de las preguntas diciendo que, con un nivel de confian-
za del 95%, afirmamos que existen diferencias entre las dos razas de ratas en
su tarea de recorrer el laberinto (F = 35,38; p<0,05).
b) Dado que hemos rechazado la hipótesis nula del factor tiempo de privación,
podemos afirmar, con un nivel de confianza del 95%, que estar privadas de
comida 1,2 ó 3 días influye de forma distinta en el tiempo que tardan en re-
correr el laberinto (F = 75,2; p < 0,05). Debemos realizar las comparaciones
múltiples para comprobar exactamente entre quienes está la diferencia.
c) Respecto a la tercera de las preguntas, vimos que el modelo era aditivo al
no poder rechazar la hipótesis nula de la interacción, por lo tanto, no se da
ningún efecto significativo cuando se combinan los dos factores (F = 1, 79; p >
0,05).
La siguientes gráficas representan la situación donde se aprecia que no existe in-
teracción al no producirse un cruce o «no paralelismo» significativo entre las líneas.
r 1 0 - - - --- - - - -----
-,
1:f---=-.7 -- 60 ·'.---·---··--- ----- 1
so - - - · - - - -
_¿ - ----····-·
------
::_=7l;7-
1
4 0 -· Bl
I::¡.::_ . ·--:::;,
1
1
-- o - B21
SITUACIÓN 10. Un estudio publicado por García, M.C., Navas, M.S., Cuadra-
do, l., Y Molero, F. {2003} con el título: «Inmigración y prejuicio: Actitudes de una
muestra de adolescentes almerienses» tiene como objetivo conocer la imagen que
los adolescentes de una zona, con alta recepción de trabajadores extranjeros, tie-
nen acerca de los inmigrantes. Entre sus resultados se indica que existen diferencias
significativas en la imagen de los inmigrantes en función del sexo y de la edad de los
adolescentes, siendo más bajas para las chicas y para los de mayor edad. Imagine
que desea comprobar si estas diferencias existen también en otras zonas donde la
145
• Eiercicios y problemas resueltos y comentados. Diseños de investigación y an;ílisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: En esta situación el investigador quiere comprobar
si en la población de adolescentes de su localidad existen diferencias significativas
en la imagen de los inmigrantes en función del sexo y de la edad. Las variables inde-
pendientes son el sexo y la edad y la variable dependiente la imagen que los adoles-
centes tienen de los inmigrantes medida a través de la Escala de Racismo Moderno
de McConahay y colaboradores. Cada variable independiente tiene dos valores o
categorías y la variable dependiente es de naturaleza cuantitativa medida con esca-
la de intervalo. Se trata, por tanto, de un diseño 2x2 para muestras independientes
que se analiza con un ANOVA de dos factores con interacción. En el enunciado se
indica que se asume que se cumplen los supuestos necesarios para realizar este
análisis: independencia de las observaciones, normalidad y homocedasticidad. El
modelo del ANOVA de dos factores indica que cada puntuación es la suma de varios
componentes:
Donde «alfa» representa la influencia del factor A: sexo; «Beta» la influencia del
factor 8: edad y «alfa x beta» el efecto de la interacción entre estas dos variables
sobre la imagen de los inmigrantes.
HIPÓTESIS: Trabajando con dos factores, se plantean tres hipótesis nulas. La pri-
mera para analizar la influencia del sexo sobre la variable dependiente. La segunda
para analizar la influencia de la edad y la tercera para la interacción. Todas ellas se
pueden escribir de diferentes formas:
Para analizar si existen diferencias entre chicos y chicas, formulamos las hipótesis:
H0 : No existen diferencias significativas entre las medias obtenidas en la Escala
de Racismo Moderno obtenidas por los chicos y las chicas. O lo que es lo mismo:
todos los a ; = O que conlleva a la igualdad de las medias poblacionales.
146
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
Ho : �Lchicos = µchicas
Para analizar si existe interacción del sexo con la edad, formulamos las hipótesis:
147
• ••••
• Ejercicios y problemas resueltos y comentados. Diseftos de investigación y análisis de datos
. . : . . ..
se GL
A (SEXO) a-1 = 1
B (EDAD) b-1 = 1
AB (a-l)(b-1) = 1
ERROR 16 x 1,525 = 24,40 ab(n-1) = 16 1,525
TOTAL 70,55 n-1= 19
SCA =[A]-[T]=1240-1232,45=8,45
Y situamos todos estos resultados sobre la tabla, para obtener las MC dividiendo
su respectiva SC entre sus grados de libertad. Finalmente, calculamos los va lores del
estadístico F, dividiendo la MC de cada fuente de variación entre la MCError.
148
•••• ••
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
REGLA DE DECISIÓN: En este ejemplo concreto, los valores críticos para los nive-
les de confianza del 95% y del 99% se localizan en la tabla con 1 gl en el numerador
y 16 gl en el denominador y son 4,494 y 8,531, respectivamente.
CONCLUSIÓN: Con un nivel de confianza del 95%, todos los estadísticos de con-
traste obtenidos superan sus respectivos valores críticos, rechazaríamos las tres
hipótesis nulas formuladas. La hipótesis de no existencia de interacción se puede
rechazar, incluso con un nivel de confianza del 99%.
INTERPRETACIÓN:
• Existe interacción del sexo con la edad de los adolescentes respecto a la ima-
gen que tienen de los inmigrantes (F = 17,34; p < 0,01).
sultados cuyo resumen aparece en la tabla (en las celdillas está el sumatorio de las
puntuaciones de los sujetos de cada una de las condiciones del experimento; en las
marginales los sumatorios correspondientes a cada factor A o B, respectivamente y
también conocemos que I I I Y ; } = 1456; además SCA = 70 y SC8 = 40
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un modelo bifactorial (entrenamiento y
clima) con tres muestras independientes. Se asume que se cumplen los supuestos
de independencia de las observaciones, normalidad y homocedasticidad que re-
quiere este tipo de análisis.
HIPÓTESIS ESTADÍSTICAS: Para el factor A, tipo de entrenamiento, la hipótesis
nula y alternativa, son:
Ho :µ A l = µ A 2 = µ A 3
H1: µA l :f. µA 2 :f. µA 3, para algún µ¡ :f. µj
Para el factor B:
Ho : µ8 1 = µ8 2 = µ8 3
H1 : µ8 1 :f. µ8 2 :f. µ8 3 , para algún µ¡ :f. µj
150
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
ser =[Y]-[r]
SCError = [ Y ] - [ AB]
r2 240 2
[r]=-= =1280
abn 3·3·15
Y, por el enunciado, sabemos que [Y]= ¿¿¿}J =1456. Por lo que la seres:
s e r = [ Y ] - [ r ] = 1456-1280 = 176
151
• Ejercicios y problemas resueltos y cornentados. Diseños de investigación y análisis de datos
[AB]= L.,
""'
(AB )' = 35 2 + 25 2 + 45 2 + 30 2 + 20 2 + 25 2 + 25 2 + 15 2 + 20 2 =1410
n 15
[B]=-=
LB¡ 90 2 + 60 2 + 90 2
=1350
an 3-15
se( AxB) = [AB]-[ B]+[r] = 1410-1320-1350+ 1280 =20
O bien despejar su valor de: SCT = SCA + SCB + SC(AxB) + SCError, para llegar al
mismo resultado.
-----
Finalmente, la tabla del ANOVA queda:
40 2 20 15,65 3,26
70 2 35 27,39 3,26
20 4 5 3,91 2,63
46 36 1,28
TOTAL 176 46
REGLA DE DECISIÓN: Con un nivel de confianza del 95%, los valores críticos para
cada una de las hipótesis aparecen en la columna derecha de la tabla anterior.
t
CONCLUSIÓN: Como todos los valores de F obtenidos, superan los valores críi -
cos, se rechazarían las tres la hipótesis nula formuladas con un nivel de confianza
del 95%.
152
Soluciones a los ejercicios de los capítulos S. 6 y 7 •
- ------------
1 45
50 - -- - - -- --
40
-
-----
35
l
1 2s
3 0 r · --- -- . - -- -- ,-._;:__
20
15 ----·
10
s t
O+-- - ,- o
------------
81: COOPCRATIVO 82: COMPETITIVO 83: INDIVIDUAL
---'
Al: INSTRUMENTAL A2: ATRIBUC!ONAL A3: CONTROL
El análisis de los efectos simples nos permite analizar el factor A, tipo de en-
trenamiento, en cada una de las tres condiciones del factor B, clima de clase. Para
ello, a partir de la suma de las puntuaciones de cada condición que aparecen en la
siguiente tabla, se calculan las sumas de cuadrados en cada uno de los niveles del
otro factor:
A2: ATRIBUCIONAL 30 20 25 75
A3:CONTROL 25 15 20 60
Sumas 90 60 90
A} 30 2 20 2 25 2 75 2
= + + - =10
b-n 5 5 5 3-5
A 2 25 2 15 2 20 2 60 2
2 = + + - =10
b-n 5 5 5 3-5
-----
Con estas sumas de cuadrados completamos la siguiente tabla:
10 2 5 3,91 <0,05
10 2 5 3,91 <0,05
70 2 35 27,39 <0,01
40 2 20 15,65 <0,01
10 2 5 3,91 <0,05
10 2 5 3,91 <0,05
46 36 1,278
t'\2: ATRlBUCIONAL _...,_ Al: CONTROL . . . , _ 81: COOPERATIVO 82: COMPCTITrvo '
_ . _ 83; INDIVIDUAL 1
SITUACIÓN 12. En una investigación sobre el efecto que tiene el fumar sobre el
rendimiento laboral en diferentes condiciones de iluminación en una gran empresa,
se seleccionaron al azar 9 trabajadores de tres grupos (27 trabajadores en total): no
fumadores, fumadores moderados y fumadores extremos (factor Grupo). Tres suje-
tos de cada grupo anterior se asignaron a un ambiente de trabajo con tres niveles
de iluminación distintos (factor Iluminación). Se registró el tiempo en completar
una tarea de ensamblado en minutos. Conocemos las sumas de cuadrados que se
muestran a continuación (nivel de significación: 0,05).
5CG ru p o =84,90; 5C11u minación =298,07; 5CEr ror =59,25; 5Crotal =445,03
Analice el estudio según el diseño apropiado. ¿Qué podemos decir de los efectos
simples?
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Nos indican claramente que han manipulado expe-
rimentalmente dos factores o variables independientes: Grupo e Iluminación para
ver su efecto sobre el rendimiento laboral (la variable dependiente). Cada factor
tiene 3 niveles. Por consiguiente, se trata de un diseño de dos factores intersujetos
o de muestras independientes 3x3. El número de sujetos en cada combinación de
los factores es de 3. Para aplicar un ANOVA bifactorial la variable dependiente tiene
que estar medida, al menos, con escala de intervalo (variable cuantitativa), con dis-
tribución normal y varianza constante para cada grupo (homocedasticidad).
HIPÓTESIS: Para el factor Grupo, establecemos que el fumar no afecta al rendi-
miento laboral de los trabajadores, o lo que es lo mismo, que las medias del ren-
dimiento laboral de los tres grupos son iguales. La hipótesis alternativa indica que
las medias sí afectan al rendimiento laboral, o lo que es lo mismo, que al menos las
medias de dos grupos son distintas:
155
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
tratamientos
Para el factor Iluminación sólo sabemos que hay tres niveles pero no nos han
indicado sus valores, así que los representaremos con los subíndices 1, 2 y 3. E igual-
mente, la hipótesis nula establece que las condiciones de iluminación no afecta al
rendimiento laboral, frente a la hipótesis alternativa que sí afecta, al menos para un
par de niveles del factor iluminación.
Ho : µ1 = µ2 = µ3
H1: µ1 :f. µ2 :f. µ3 al menos para un par de tratamientos
Para la interacción la hipótesis nula afirma que los efectos del Grupo y de la Ilu-
minación son aditivos, de tal forma que el patrón de resultados que se observa para
el tabaquismo (Grupo) es el mismo en los tres diferentes niveles de iluminación. En
términos gráficos se vería reflejado en que las medias de rendimiento en función
del nivel de tabaquismo serían paralelas en los tres grupos de Iluminación y la hipó-
tesis nula y alternativa son:
156
---
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
s e A x B = SC r -(
se A + s e B + S es /A B) = 445,03-(84,90+298,07 +59,25) = 2,81
En la tabla del Anova hemos incluido una nueva columna que indica el valor de
la F crítica para cada factor o interacción al 95%. Estos valores de la F crítica sólo de-
pende de los grados de libertad correspondientes a cada comparación y, por tanto,
coincide en el caso de los factores A y B (ambos con 2 y 18 grados de libertad) pero
difiere para el contraste de la interacción {con 4 y 18 grados de libertad).
REGLA DE DECISIÓN: Rechazaremos H0 siempre que el estadístico de contraste F
obtenido en el Anova supere el valor crítico de la tabla de la distribución F. Observa-
mos que esto se ha producido para el factor A y el factor B como factores principales
(12,895 > 3,555 y 45,272 > 3,5555, respectivamente) pero no así para la interacción
entre A y B (0,123 < 2,928).
CONCLUSIÓN: La primera hipótesis que hay que contrastar es sobre la interac-
ción. El estadístico obtenido no supera el valor crítico por lo que la interacción no
es significativa y su variabilidad hay que sumarla al error para volver a recalcular los
estadísticos de contraste de cada uno de los factores:
157
-----
• Ejercicios y problemas resueltos y comentados. Disef1os de investigación y analisis de datos
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de un experimento en donde se han ma-
nipulado, según el enunciado, dos variables: el tratamiento recibido y la planta de
trabajo de la que proceden las mujeres que se van a someter al mismo. La prime-
ra variable (tratamiento) adopta 3 niveles: dieta, ejercicio o dieta+ejercicio. La se-
158
Soluciones a los ejercicios de los capítulos 5, 6 y 7 •
M1 xl_antes-xl_después
Mz x2_antes-x2_después
Manufacturado M3 x3_antes-x3_después
M4 x4_antes-x4_después
Ms Xs_antes-XS_después
Dieta
M6 x6_antes-x6_después
M7 X ¡ _antes-X?_después
Secretaría Mg Xs_antes-XS_después
M9 x9_antes-x9_después
M10 X1o_antes-X1o_después
Manufacturado
Ejercicio
Secretaría
Manufacturado
159
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
= Y Control - Y Experimento/
d
Sy
Observamos que nos enfrentaríamos al problema de decidir cuál de los tres gru-
pos (dieta, tratamiento o dieta+tratamiento) debería considerarse como grupo de
control (no consideramos la planta de tratamiento porque, como hemos dicho, se
puede considerar una variable moderadora más que una variable independiente en
el sentido propio del término). Pero si utilizáramos un análisis 3x2 mixto podríamos
disponer de las puntuaciones pre-test como punto de partida, o control, con las que
comparar las puntuaciones experimentales.
CONDICIONES Y SUPUESTOS: Al tratarse de un Anova, los supuestos que deben
cumplirse son: normalidad, homocedasticidad e independencia. En el propio enun-
ciado se nos indica que asumamos que estos supuestos se cumplen.
HIPÓTESIS: La hipótesis que se pone a prueba (Ha) es que la media de las tres
condiciones experimentales es la misma, es decir, que los tres tratamientos de pér-
dida de peso tienen el mismo efecto.
La hipótesis alternativa plantea que existen, al menos, dos grupos cuyas medias
en pérdida de peso difieren.
H o : µManufacturado = µSecretaría
H1 : µMonufocturado i= µSecretaría
Decimos que tendría poco sentido ya que, considerada como factor principal, no
involucre al verdadero tratamiento, aquel que podemos introducir en un programa
de reducción de la obesidad.
Por último, tendríamos que poner a prueba la interacción entre la planta de
trabajo y el tratamiento.
H0 : No existe interacción
H 1 : Existe interacción
162
BLOQUE IV
Análisis de regresión
Soluciones a los ejercicios
de los capítulos 8 y 9
SOLUCIÓN:
Se trata de un problema de regresión lineal simple en donde pretendemos eva-
luar la capacidad predictora del número de años de amaestramiento de monos en
relación al número de tareas que pueden realizar para las personas discapacitadas.
La variable dependiente será el número de tareas que puede realizar el mono y la
variable independiente será el número de años. Para no repetirnos con los largos
nombres de las variables, llamaremos X a la variable independiente e Y a la variable
dependiente.
CONDICIONES Y SUPUESTOS: Los supuestos son de independencia entre las ob-
servaciones, homocedasticidad y normalidad. Con respecto a la independencia, no
parece lógico dudar de la misma si los monos han sido extraídos de distintos labo-
ratorios o zoológicos e incluso de distintos países. No podemos evaluar la homo-
cedasticidad y la normalidad porque necesitaríamos disponer de una muestra de
datos en la variable Y (número de tareas), para cada uno de los valores de la variable
independiente X (número de años). En este sentido, solo Cleo y Jeep tienen el mis-
mo valor en la variable «años de trabajo» y distinto valor en el «número de tareas».
En todo caso, no tenemos razones para suponer que se incumplan estos supuestos
según el enunciado.
Lo que sí es interesante notar es el incumplimiento del supuesto de la conti-
nuidad de las variables. En concreto, la variable Y es discreta ya que el número de
tareas sólo puede adoptar valores del conjunto de los números naturales( = {O, 1,
2, ... }). Aunque es una variable medida en una escala de razón, este incumplimiento
podría cuestionar el análisis de regresión.
HIPÓTESIS: El investigador ha planteado el contraste de la bondad del ajuste de
la regresión para lo que tenemos que evaluar el contraste del coeficiente de regre-
sión B mediante un Anova. En el mismo, la hipótesis nula es que el número de años
de trabajo del mono no predice el número de tareas que éste puede realizar, lo que
expresado simplemente indica que los monos no aprenden nuevas tareas con la
experiencia.
Ho: P1 = 0
H1 :P1 :¡tQ
Tareas
35
30
• • • •
25
• •
20
15 •
10
5
•
Años de trabajo
o 2 4 6 8 10
Al final del ejercicio se comentará lo que sugiere la gráfica ya que es muy inte-
resante.
167
-----
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
¿XY - - 10112
Sxy = - - - X · Y = ' 4,267·22,444=16,587=16,59
n 9
16,587
----=0,688=0,69
3,437 · 7,010
Estos valores nos permiten calcular la pendiente y el punto de corte con la or-
denada.
_ n ¿ X Y - ¿ X ¿ Y _9·1011,2-38,4·202_ -
-1,405=1,40
81 - 2 - 2
n¿x2-(¿x) 9·270,16-38,4
Aunque también podríamos haberlo realizado mediante la fórmula (que nos ser-
virá también de verificación}:
Sy 7,010
81 = r x y - = 0 , 6 8 8 - - = 1 , 4 0 3 = 1 , 4 0
Sx 3,437
168
Soluciones a los ejercicios de los capítulos 8 y 9 •
Y' =16,45+1,40X¡
Esta ecuación nos permitirá construir las sumas de cuadrados que necesitamos
para la tabla del Anova, aplicándosela a todos los valores de X (años de entrena-
miento). Como ejemplo, para X = 10, el valor pronosticado será Y'= 16,449 + 1,405
· 10 = 30,499.
Sumas de Cuadrados
SCT= SCReg= SCError=
X y Y' ( Y - Y)2 ( Y ' - Y) 2 ( Y - Y1 2
10 28 30,499 30,864 64,876 6,245
8 24 27,689 2,419 27,505 13,609
6,5 28 25,581 30,864 9,841 5,849
6 28 24,879 30,864 5,927 9,741
5 27 23,474 20,753 1,060 12,433
1,5 23 18,556 0,309 15,116 19,745
0,5 15 17,151 55,420 28.015 4,629
0,5 6 17,151 270,420 28,015 124,356
0,4 23 17,011 0,309 29,522 35,868
Sumatorio 38,4 202 201,993 442,222 209,878 232,474
Obsérvese que los valores predichos (Y') se han obtenido aplicando la ecuación
Y'= 16,452 + 1,405X; a cada valor de X. Con los cálculos anteriores podemos cons-
truir la tabla del ANOVA y evaluar la hipótesis sobre la significación de la regresión:
Fuentes de
g.l. M.C.
Variación
209,878 1 209,878 6,319
232,474 n-2=9-2=7 33,211
Total 442,222 n-1=9-1=8
169
• Ejercicios y problen1as resueltos y comentados. Diseños de investigación y análisis de datos
Estas sumas de cuadrados también se pueden obtener con las siguientes expre-
--
siones, que conducen a los mismos resultados, salvo errores de arrastre del redon-
deo a dos o tres decimales:
28 784
- 2 2 -2
24 576 SCrotol = ¿ ( Y - Y ) = ¿ Y - n · Y =
28 784 22
4976- 9 -( r = 442, 22
28 784
27 729 SCError = ¿ ( Y - Y ' ) 2 = ( 1 - r : y )·SCrotal =
23 529 = ( 1-0,6892 )·442,22 = 232,474
15 225
SCRegresión =
I(Y ,- Y-)2 = 'xy2 ·SCrotal =
6 36
= 0,6892 -442,22 =209, 748
23 529
sumas 202 4976
a= ,
8-0 140-0
=2,502
T= Sy 7,010 1-0,688 2
sx 3,437 9-2
que comparado con el valor crítico (t 7 = 2,365 < 2,502) en un contraste bilateral a
un a = 0,05.
REGLA DE DECISIÓN: La bondad de ajuste de la regresión, considerada global-
mente, será considerada significativa si el valor del estadístico obtenido (F9 11= 1,912
= 7 = 6,319) supera el valor crítico que en este caso es 5,591, para un a = 0,05, o
12,246 para un a = 0,01, podemos concluir que la regresión es significativa con un
t
nivel de confianza del 95%. El nivel críi co p, calculado con un software estadístico,
es 0,0403, mayor que 0,01, pero menor que 0,05.
CONCLUSIÓN: Rechazamos la hipótesis nula a un nivel de significación del 005.
170
Soluciones a los ejercicios de los capítulos 8 y 9 •
171
• Ejercicios y problemas resueltos y comentados. Disel'los de investigación y análisis de datos
1
10 S y = 1,936
y
8 ' x y = 0,816
a = 0,05
1 1 1 1
6 8 10 12 14
X
El análisis de la regresión para los datos de la figura nos indicó que la regresión
fue significativa [F(l, 9) = 17,972, MCRe g resión = 1,528, p = 0,002).
Calcule la pendiente de la recta de regresión, el error máximo de su intervalo de
confianza y ponga a prueba la significación de la correlación entre X e Y.
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: nos indican explícitamente que se trata de una rec-
ta de regresión como, además, puede deducirse inspeccionando la figura. En ella,
tenemos 11 puntos que representan los pares de datos en las variables X e Y. Pode-
mos observar visualmente que 10 de estos puntos siguen una línea recta perfecta
mientras que el punto con abscisa X= 13 se desvía notablemente de la misma. Es un
dato atípico. La línea oblicua representa el ajuste por mínimos cuadrados obtenido
en la regresión. Resulta directo observar visualmente que si no hubiese sido por el
dato atípico, la recta de regresión (línea oblicua) debería haber pasado por todos
y cada uno de los puntos sin desviación alguna, es decir, sin error. Ha sido el valor
atípico el que ha «tirado» de la recta de regresión calculada hacía sí, desviándola del
resto de puntos que sí se ajustan a una línea recta.
Recordemos que Anscombe presentó otros tres conjuntos de datos -que vere-
mos más adelante en otros gráficos- cuya recta de regresión y estadísticos descrip-
tivos eran idénticos a los presentados aquí, pero que variaban notablemente al gra-
ficarlos. Su objetivo fue mostrar que en toda investigación, y antes de embarcarse
en la tarea de realizar cálculos ciegamente, es conveniente inspeccionar los datos
gráficamente para comprenderlos.
Aunque no lo indican explícitamente en el enunciado, la observación de los ejes
X e Y nos indica que, como mínimo, ambas variables se encuentran en una escala
de intervalo. Dada esta condición, son tres los supuestos que deben cumplirse para
que las inferencias que puedan extraerse del análisis de regresión sean apropiadas:
172
)O luciones a los ejercicios de los capítulos 8 y 9 •
rx y .Jn - 2 0,816.Jll-2
T= = 4 235
J1-r;y 1-0,816 2
17
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
-4 -2 O
Región de aceptación
la hipótesis nula
T= 4,235
Podemos, por tanto, aceptar que existe relación entre X e Y. Como nos propor-
cionan la estimación puntual de la misma (rxy = 0,816), no es necesario su cálculo.
El anterior contraste nos permite rechazar una relación entre X e Y, pero no su
tipo y tendencia. Para ello tendremos que realizar el contraste de la pendiente plan-
teando el siguiente contraste:
Ha : 1 = 0
H1 :P1 :;t:O
S 1,936
81 = r x y - y= 0 , 8 1 6 - - = 0 , 4 9 9 6 1 2 9 0 , S O
Sx 3,162
174
Sofudones a los ejercicios de íos capítulos 8 y 9 •
B-0 0,50
1,936 1-0,816 2 =3,738 3,74
T = Sx e = 3,162 9-2
El valor crítico para este contraste será el mismo que hemos utilizado para el
contraste de la correlación (t = ±2,262) ya que éste solo depende del número de
grados de libertad y del nivel de confianza. Podemos verificar que también en este
caso podemos rechazar la hipótesis nula de que la pendiente era O y, por consi-
guiente, no tenía capacidad predictora ya que el estadístico de contraste supera el
valor crítico: 3,738 > 2,262.
Una verificación poco precisa del valor de la pendiente sería dibujar en la figura
del enunciado un cuadrado. La diagonal positiva de este cuadrado tendría pendien-
te 1 y, por consiguiente, la pendiente obtenida sería justo la mitad de este valor
(véase la siguiente figura). En esta figura el cuadrado se ha dibujado desde los valo-
res 6 al 8 en ambos ejes (se utilizan exactamente los mismos valores para obtener
el cuadrado y porque si las escalas del eje X e Y no son iguales, sería la única forma
de obtener una figura cuya pendiente positiva fuese de 45º y, por tanto, pendiente
igual a la unidad). A continuación se dibuja su diagonal positiva (véase la recta en
rojo del cuadrado) que tendría pendiente igual a la unidad. Observamos que, efec-
tivamente, la recta de regresión obtenida tiene un ángulo que es la mitad (0,5) de
la línea roja en relación al eje X.
10
4 6 8 10
X
2
S Jg-r
Emax -- t n-2·1-u/ · a B -- t n-2·1-u/ ._r_
5
, 12 · 12 x n -2
175
• Ejercicios y problemas resueltos y comentados. DíseNos de investigación y análisis de datos
Para el nivel de confianza planteado, el estadístico t vale (con a/2 porque el con-
traste es bilateral) 2 ,2 6 2 y como conocemos el número de casos (n = 11) podemos
realizar el cálculo con la primera igualdad de más arriba:
=
' n/2 = t11-2;1- O'O/2
tn - 2'1- ' '975 2 , 2 6 2
S / = tgi)
= Ji-r:y
= 1 , 9 3 6 J l - 0 , 8 1 6 = 011 18
2
<Js
Sx n- 2 3 ,16 2 9
0,7 6 6
I C = B1 ± Em ax = 0 , 4 9 9 ± 0, 2 6 7 = (
0, 2 3 2
176
Soluciones a los ejercicios de los capítulos 8 y 9 •
SOLUCIÓN:
CONDICIONES Y SUPUESTOS: Se trata de cuatro rectas de regresión con 11 pares
de datos cada una. Los diagramas de dispersión de cada conjunto de datos nos indi-
can claramente las diferencias entre las mismas.
• •
y y
1 ••• •
••
10 10\
sÍ
• •
• • • g'
61 • • 61
•
• •
4[ 4·
t •
2r 2¡
+---··-·· ·- · · -
2 4 6 8
.-
10 12 14 X
- 2- 4
- ·- -·-·
6 8 - 10-- 12 -14 X
177
• Ejercicios y problC!mas resueltos y comentados. Diseños de investigación y análisis de datos
• •
10
••
• • ••• • • • 8
6 ••
X - - X
2 4 6 8 10 12 14 5 10 15
178
Soluciones a los ejercicios de los capítulos By 9 •
--
Primer conjunto de datos:
10
8
8,04
6,95
¿ X ; = 1 0 + 8 + ... + 7 + 5 = 99
-
X = -¿-X= ¡- = 99
n
9
11
13 7,58
2
9 8,81
11 8,33 2 I ( x ; - x . ) = -¿-X- ¡X - 2 = -1-0-0 91 2= 10
Sx =
14 9,96 n n 11
6 7,24 ¿Y¡=8, 04+ 6,95 + ... +4,82+ 5 , 68 = 82, 5 1
4 4,26
12 10,84 - " Y · 82 5 1
7 4,82 Y=-¿_, = - ' - = 7 '5 0
n 11
5 5,68
2
Sumatorio 99 82,51 s : = ¿ ( Y ; - Y ) =-¿_Y_/ - Y 2 = 6 6 0 , 1 1 7 50 2 = 3 76
Media 9 7,50
n n 11 ' '
Varianza 10 3,76
55, 0 1 =
Cov(X,Y)=¿(x-x)(Y-Y) 5 '0 0
n 11
Cov(X, Y) 5 ,0 0
--
=O ' 81
�y=
SxS y M ·..j3,76
Segundo conjunto de datos:
¿ X ; = 1 0 + 8 + ... + 7 + 5 = 99
10 9,14
8 8,14 X= ¿X; =99 = 9
n 11
13 8,74
I(X¡ -x.)
2
9 8,77
= -¿-X- X
¡
2 -2 1001 2= 10
11 9,26 Sx = =---9
n n 11
14 8,10
6
4
6,13
3,10
¿Y¡=9, 14 + 8, 1 4 + ... + 7,26+4, 74 =82, 5 1
12 9,13
¿ Y ; = 82, 5 1 = 7 5 0
7 7,26 Y= n 11 '
5 4,74
2
2
Sumatorio 99 82,51 s: = ¿ ( Y ; - Y ) = ¿Y; _y2 = 66 0 , 1 1 - 7 5 0 2 = 3 76
Media 9 7,50 ' '
n n 11
Varianza 10 3,76
179
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
( X - x ) ( Y Y) 55
Cov(X, Y ) = ¿ : - = =5, 0 0
n 11
rx y = Cov(X, Y) 5, 0 0
=O 81
Sx S y .flo-,J3,76 '
¡Observamos que, aunque los valores de Y2 son diferentes, tienen los mismos
estadísticos resumen que Y1 ! Si realizamos el cálculo del resto de conjuntos nos
--
encontraremos exactamente en la misma situación. Comprobémoslo.
¿ X ; = 1 0 + 8 + ... + 7 + 5 = 9 9
10 7,46
X = ¿ X; = 9 9 = 9
8 6,77 n 11
13 12,74
9 7,11
2=
¿( X¡ - x) 2 = -¿-X- ¡X -2 10 0 1 2 =1
11 7,81 Sx =---9 0
14 8,84 n n 11
6 6,08 ¿ Y ; = 7,46+6, 77 + ... +6,42+5, 73 =82, 5 1
4 5,39
12 8,15 y
=
¿ Y ; = 82, 5 1 = 715
7 6,42 0
n 11
5 5,73
2
Sumatorio 99 82,51 2
Sy = L.,
'°'(Y; -Y) '°'Y,-
__
=-L.,
2
-2
y =
66 0 17
' - 7 , 5 0 2 =3,76
Med;a 9 7,50
n n 11
L Varianza 10 3,76
I,(x-x)( Y - Y) 54 97
Cov(X, Y ) = =-' -=5, 00
n 11
rx y = Cov (X , Y ) = 4, 9 9
= 0 1 81
S x Sy .flo-,J3,76
180
Soluciones a los ejercicios de los capítulos 8 y 9 •
--
Cuarto conjunto de datos:
Por consiguiente, si los estadísticos resumen son idénticos entre los cuatro con-
juntos de datos, es obvio que los parámetros de la regresión lineal serán los mismos.
1. Independencia. Por las razones indicadas en el ejercicio anterior (situación
2), podemos aceptar que los datos son independientes entre sí en todos los
conjuntos de datos.
2. Homocedasticidad. Este supuesto resulta interesantísimo ya que podemos
ver que ni siquiera se cumple en el cuarto grupo aunque tenga varias pun-
tuaciones de Y condicionadas a X= 8. La razón en este caso es que podemos
calcular una varianza para los valores de Y condicionados a X= 8, pero este
supuesto exige disponer de grupos de puntuaciones de Y condicionadas a X.
Lo que evalúa este supuesto es la igualdad de estas diferentes varianzas para
los diferentes valores de X. Y en el cuarto grupo de puntuaciones tenemos
un segundo grupo (puntuaciones de Y condicionadas a X= 19) con un único
valor. Y de un único valor no podemos calcular una varianza o desviación típi-
ca. Por consiguiente, no podemos verificar este supuesto en ninguno de los
181
• Ejercicios y problemas resueltos y comentacos. Disel'los de investigación y análisis de datos
Ho :P1 =0
H1 : �1 ;t: O
Sy 76
81 = rx y - = 0,81 �3, =0,50
Sx �
-vlO
80 = Y - B X = 7 , 5 - 0 , 5 · 9 =3
8-0 O' 5 - 0
T= = =4,17139�4,171
2
Sy �3, 76 1-0,81
Jl-r; y
Sx � M 11-2
182
Soluciones a los ejercicios de los capítulos 8 y 9 •
obtenido (T = 4,171) supera por arriba este rango de valores compatibles con H0 ,
rechazamos H0 en todos los conjuntos. Podemos, por tanto, aceptar que existe re-
lación lineal entre X e Y en los cuatro conjuntos.
CONCLUSIÓN: Aún con estadísticos descriptivos idénticos entre distintos conjun-
tos de datos, esto no significa que puedan interpretarse todos de la misma forma.
Es fundamental un análisis visual y exploratorio (EDA o Exploratory Data Analysis)
que nos confirme la adecuación de la técnica estadística a utilizar (regresión lineal)
a los datos concretos disponibles.
INTERPRETACIÓN: Aunque la recta de regresión es idéntica en los cuatro conjun-
tos de datos, solamente el primero de estos conjuntos puede resumirse apropiada-
mente mediante la misma. Los otros tres conjuntos muestran situaciones en donde
no es apropiado el cálculo de la regresión lineal. El segundo conjunto porque habría
que utilizar regresión polinómica. El tercero porque hemos detectado la existencia
de un valor atípico (outlier) que nos falsifica el resumen estadístico obtenido. El
cuarto porque todos los datos, excepto uno, están condicionados a un único valor
del predictor.
-----
de estudiantes, la prueba para determinar la significación del modelo de regresión
ajustado es la siguiente:
SOLUCIÓN:
Este ejemplo muestra un tipo de estudio usual en Psicología: evaluar algún as-
pecto de la conducta en su evolución temporal. Y muestra de manera simplificada
también uno de los resultados más usuales, a saber, el mejor predictor estadístico
183
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
-----
mayúsculas, qué valores numéricos faltan en la tabla del Anova. Si la reconstruimos
podremos determinar esos valores.
184
Soluciones a los ejercicios de los capítulos B y 9 •
R2 ( N - 2 )
F -- - -R2 - ---'-----'--
1-R2 - 1-R2
N-2
R2 ( 8 - 2 )
7,089 =
1 - R2
7,089( 1 - R 2 ) = 6R 2
7,089
-----
R2
6 1 - R2
R2
1,1815=--2
1-R
1, 1815-1, 1815R 2 - R 2 = O
1, 1815-2, 1815R 2 = O
-11815
R2 = ' = 0 5416
-2,1815
5 1, 8 75 = 5Cr = n s ; =85;
s; = 51, 8 7 5 = 6 48 4
8
2 2
2 = -Sy, = - -Sy,
0,5416=rxy
Sy2 6,484
Ho :P1 = 0
H1: P1 :;t 0
186
Soluciones a los ejercicios de los capítulos 8 y 9 •
1 1 1
1-0,95=0,05
1-0,975 =0,025
Esto significa que es inferior a 0,05 pero superior a 0,025. Si trabajamos a un ni-
vel a de 0,05 el resultado, al ser la p inferior a 0,05, será significativo. Sin embargo,
si trabajamos a un nivel de a de 0,01 el resultado será no significativo.
CONCLUSIÓN: Como el valor de la F empírica obtenida como estadístico de con-
traste, (7,089) supera el valor crítico (5,987 = W de la tabla), podemos rechazar la
H0 de falta de relación lineal significativa, lo que implica que la pendiente es distinta
de O.
INTERPRETACION: Recordemos que el contraste era bilateral, es decir, la hipóte-
sis alternativa admitía la posibilidad de que la pendiente en la población, �, fuese
positiva o negativa. El hecho de que el cálculo matemático nos permita conocer sólo
el valor absoluto de la correlación (no su signo), resulta que sólo podemos determi-
nar que la relación es significativa. Pero debido a que la experiencia nos indica que
la relación entre las calificaciones debe ser positiva, y aunque matemáticamente
no podamos afirmarlo, podemos concluir que la correlación será positiva. Por con-
187
• Ejerciciosy problemas resueltos y comentados. Díseflos de investigacióny análisisde datos
------
consumidos (X) con el número de radicales libres (Y) localizados en los pulmones
de 8 individuos.
1 o o o 8836
2 10 144 1440 100 20736
3 14 182 2548 196 33124
4 5 120 600 25 14400
5 18 240 4320 324 57600
6 20 234 4680 400 54756
7 30 321 9630 900 103041
8 40 400 16000 1600 160000
Sumatorio 137 1735 39218 3545 452493
Des. Típica 12,242 97,605
l rxy = 0,9945
SOLUCIÓN:
5.1. Para la primera pregunta seguiremos los siguientes pasos:
500
"' 400
300
200
100
o
o 10 20 30 40 50
Número de cigarrillos
Como ya hemos visto, siempre es conveniente graficar los datos para tener una
impresión, aunque solo sea visual, de la linealidad de la relación, y como se puede
observar, la figura nos sugiere muy claramente que la relación es lineal y positiva,
como plantea efectivamente la hipótesis alternativa.
Los datos de las columnas restantes en la tabla del enunciado se proporcionan
ya que nos permitirán realizar los cálculos de la recta de regresión de manera rápi-
da. Si no nos los hubiesen proporcionado habría que haberlos calculado antes de
proseguir. Observemos también que las columnas X e Y indican también los sumato-
rios (ino las medias!) así como las desviaciones típicas. Por último, también nos han
proporcionado la correlación entre X e Y. Con todos estos datos es fácil deducir que
debemos realizar un contraste de regresión lineal sobre la pendiente.
189
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
Sy 97,605
81 = r x y - = 0 , 9 9 4 5 =7,929
Sx 12,242
- - 2J ¿X
80 = Y - 81 X = - - 8 1 - = - - -
1735 137
7 , 9 2 9 - = 8 1 , 0 9 0 9 �81,09
n n 8 8
Z ' ¡ = fx y Z x =0,9945Zx
I I
b} Homocedasticidad.
e) Normalidad de las distribuciones condicionadas.
d} Independencia entre los valores pronosticados, Y', y los errores de estima-
ción.
190
Soluciones a los ejercicios de los capítulos 8 y 9 •
Ho :P1 =O
H1: P1 :;t: 0
En este contexto no tiene sentido realizar un contraste del punto de corte con la
ordenada (8 0 ) ya que no nos han indicado nada sobre el número de radicales libres
esperados en no fumadores.
ESTADÍSTICO DE CONTRASTE: Para evaluar la hipótesis nula planteada utilizare-
mos la t de Student con n - 2 grados de libertad:
T --
81 - P i _ 81 - P i _ 7,929-0 = 7,929 = 7,929 =23,259
cr - s __
,
9_7_6-05---;
=
Adviértase que los cálculos dependen mucho de la precisión con que los reali-
cemos (utilizar dos dígitos decimales o tres puede alterar notablemente el valor del
estadístico de contraste, n. No obstante, teniendo en cuenta que en la tabla de la
distribución t de Student, con 6 gl, figuran como valor máximo superior: 3,143, es
fácil observar que un valor tan elevado como el hallado (23,259), queda notable-
mente fuera de los valores críticos (-3,143 y +3,143) en el que se encontraría el
estadístico de contraste si la H0 fuese cierta.
REGLA DE DECISIÓN: El valor de la t crítica con 8 - 2 = 6 grados de libertad y
191
• Ejercicios y problemas resueltos y comentados. Disef1os de investigación y análisis de datos
Probabilidad
g.l.
0,550 0,600 0,650 0,700 0,750 0,800 0,850 0,900 0,950 0,975 0,990
1 0,158 0,325 0,510 0,727 1,000 1,376 1,963 3,078 6,314 31,821
2 0,142 0,289 0,445 0,617 0,816 1,061 1,386 1,886 2,920 6,965
3 0,137 0,277 0,424 0,584 0,765 0,978 1,250 1,638 2,353 4,541
4 0,134 0,271 0,414 0,569 0,741 0,941 1,190 1,533 2,132 3,747
5 0,132 0,267 0,408 0,559 0,727 0,920 1,156 1,476 3,365
6 -6;B1 o, 04 9,553 1-8-6,906 - 1 , 4 3 4 - - - - 4 ; 4 4 0 - 1, 3,143
7 0,130 0,263 0,402 0,549 0,711 0,896 1,119 1,415 1,895 2,998
8 0,130 0,262 0,399 0,546 0,706 0,889 1,108 1,397 1,860 2,896
9 0,129 0,261 0,398 0,543 0,703 0,883 1,100 1,383 1,833 2,262 2,821
2 -2 1735
SCr otol = ¿ Y - n · Y =452493-8· - 8 -
( )2 =76214,9
2
SCError = ( 1 - r ; y )·SCr o to l =(1-0,9945 ) · 76214,87 = 836, 058
---
2 2
SCRe g resión = rx y ·SCro tol =0,9945 · 76214,9=75378,8
o 8836
10 144 20736
14 182 33124
5 120 14400
18 240 57600
20 234 54756
30 321 103041
40 400 160000
Sumas 137 1735 452493
192
-
Soluciones a los ejercicios de los capítulos 8 y 9 a
t =Fin 23,2 59
2 = 5 4 0,981 ::: 5 39 ,669
Esta F también podría haberse obtenido sin necesidad de realizar los cálculos
de las S.C. utilizando la fórmula (que, exceptuando los errores de redondeo, nos
proporciona un valor muy similar a la F de la tabla del Anova):
2
0, 9 9 4 5 2
F = - r - =2 = 54 0 959
1-r 1 - 0 , 99 4 5 2
n-2 8-2
La diferencia entre estos valores (5 39 ,669 y 5 40,9 59) sólo puede deberse a los
problemas de redondeo, tal y como ha quedado indicado más arriba.
REGLA DE DECISIÓN: El valor de la F crítica con 1 y 6 grados de libertad es 5 ,9 87
con un nivel de significación de 0,0 5 y 13,7 4 5 con un nivel de significación de 0,01.
CONCLUSIÓN: Luego, como el estadístico de contraste obtenido es mayor que
cualquiera de estos valores críticos, es decir, 5 4 0 > 5 ,9 87 así como 54 0 > 13,7 4 5 ,
concluimos lo mismo que ya hemos visto intuitivamente, la regresión es significa-
tiva.
INTERPRETACIÓN: La pendiente poblacional que relaciona el número de ciga-
rrillos consumidos con el número de radicales libres es superior a O (F = O 5 39 ; p
< 0,01). Por consiguiente, a mayor índice de tabaquismo se espera encontrar un
número de radicales libres superior.
SOLUCIÓN:
El enunciado nos indica que han realizado un análisis de regresión entre la tem-
peratura (X) y el pH de la leche obtenida en una granja. El estudio fue experimen-
tal ya que manipularon la temperatura a la que se encontraban los animales de la
granja pero el análisis realizado fue una regresión (no un Anova). Esto es importante
para separar el diseño del análisis. Aunque diseño y análisis están fuertemente re-
lacionados, es el carácter de las hipótesis que ponemos a prueba lo que determina,
en última instancia, el tipo de análisis a realizar. Por eso, un diseño que inicialmente
podría haberse analizado mediante Anova ya que era un estudio experimental se ha
analizado mediante Regresión.
Nos proporcionan la ecuación de regresión obtenida en donde podemos ver que
la pendiente es positiva {81 = 0,22), lo cual nos indica que cada grado centígrado
en que se incremente la temperatura de la granja, se incrementa el pH en 0,22
unidades. Recordemos brevemente que el pH de un líquido nos indica su grado de
alcalinidad-acidez, siendo 7 el valor neutro por ser el pH del agua pura, la cual se
toma como punto de referencia en esta medida.
Ho : 1 = 0
H1 : 1 :;t: O
81 - O
T=
J1-r;y
Sx n-2
Observamos que en el enunciado nos han proporcionado todos los datos para
realizar este cálculo (tenemos 81' Sx y S y ) excepto el valor del coeficiente de corre-
lación. Es por ello que debemos buscar la forma de obtener primero el coeficiente
de correlación. Esto es fácil con los datos que tenemos si aplicamos la fórmula:
Sy
81 = r x y -
Sx
1' 8 7
O1 2 2 = rXY
7 90
I
_ 0,22x7,90
rxy - -- O 9 2 9
1, 8 7
T =--ª 1 --0=
J1-r;y
--====
1, 8 7
0,22-0
1-0,929
2
=
= 4, 34984 4, 35
de libertad al 95% bilateral como nivel de confianza ( O, 975 = 1 - ' J i ) vale 3,182.
Obsérvese que, en este caso, el número de valores se corresponde con el número
de temperaturas utilizadas en el estudio, no con el número de vacas (que no nos lo
han indicado). La unidad de observación ha sido el par Temperatura-pH.
REGLA DE DECISIÓN: Rechazamos la hipótesis nula si el estadístico T se encuen-
tra fuera del intervalo definido por los valores críticos: -3,182y + 3,182.
CONCLUSIÓN: El valor 4,350 supera el estadístico de contraste por la derecha, es
decir, 4,350 > 3,182. Luego rechazamos H0 .
INTERPRETACIÓN: La pendiente de regresión en la población es superior a O, lo
cual indica que SÍ podemos predecir el pH a partir de la temperatura del establo.
rx y = 0,929
T= 4,34792 4,350
" r1:--rT} y J i - 0 , 9 2 92
Para responder a esta pregunta solo tenemos que aplicar la ecuación Y'= 0,65 +
0,22X de regresión para pronosticar el pH que tendría la leche a partir de una tem-
peratura de X= 29QC en el establo:
197
• Ejercicios y problemas resueltos y comentados. Diseños de Investigación y análisis de datos
La pregunta planteada es doble: por un lado queremos conocer con estos da-
tos si en estos homínidos existe una diferencia de peso corporal entre el macho y
la hembra significativa que indique un dimorfismo sexual acusado. Por otro lado,
disponemos de especímenes para los que solo tenemos estimaciones del peso para
los machos o para las hembras, pero no para ambos. En concreto, para el Proconsu/
heseloni solo tenemos estimaciones del peso corporal para las hembras (10 Kg)
pero no para el macho. Por el contrario, en el Afropithecus tenemos estimaciones
del peso corporal en el macho (35 Kg) pero no en la hembra. Determine con estos
datos si es factible admitir que nuestros antepasados homínidos eran dimórficos en
el peso corporal. Determine, además, la estimación del peso corporal del macho en
el Proconsul heseloni y de la hembra en el Afropithecus.
SOLUCIÓN:
No existe una solución única al primer problema ya que podemos abordarlo,
como mínimo, de dos formas complementarias. En primer lugar, podríamos com-
parar las medias del peso en un diseño de medidas repetidas siendo la especie la
unidad de observación. Si no hay dimorfismo sexual en nuestros antecesores, las
medias de peso no deberían diferir estadísticamente. No obstante, a la vista de los
datos obtenidos parece lógico concluir que este análisis resultará significativo ya
que las diferencias «saltan a la vista» (revise de nuevo los valores del peso estimado
para machos y hembras). Otra forma de abordar este problema consiste en realizar
una regresión lineal con la hipótesis nula de que la pendiente es 1, lo que resulta
idéntico a plantear que el peso es, en promedio, idéntico para machos y hembras.
Es la estrategia que vamos a seguir en este ejercicio.
Veamos en primer lugar la gráfica de los datos proporcionados:
198
Soluciones a los ejercicios de los capítulos 8 y 9 •
10 L
60
50
•
40
30
• ••
2 0 t·
10.
••
10 20 30 40 50 60 70
En el eje de abscisas (eje X u horizontal de esta figura) se localiza el peso de los ma-
chos y en el de ordenadas (eje Y o vertical) el de las hembras. Podemos visualizar los 7
pares de valores numéricos de que disponemos y la línea que representa la hipótesis
nula (pendiente igual a la unidad que indicaría igual peso para machos y hembras).
El segundo problema planteado en el enunciado hace referencia a la predicción
del peso del macho a partir del peso de la hembra (regresión de X sobre Y) para el
Proconsul hese/oni y la predicción del peso de la hembra a partir del peso del ma-
cho (regresión de Y sobre X) para el Afropithecus. Esto significa que tendremos que
calcular ambas ecuaciones de regresión, la de Y sobre X así como la de X sobre Y.
CONDICIONES Y SUPUESTOS: Tenemos muy pocos datos para poder poner a
prueba los supuestos de independencia, homocedasticidad y normalidad. Pero en
vista del diagrama de dispersión, la regresión lineal parece factible por lo que asu-
miremos que estos supuestos se cumplen.
HIPÓTESIS: Si no hubiese dimorfismo sexual en los homínidos anteriores al ser
humano, se deduce que el peso debería ser el mismo entre machos y hembras. Esto
significa que la pendiente debería ser igual a la unidad. Admitimos la falta de dimor-
fismo sexual como hipótesis nula por varias razones. En primer lugar, es un punto de
referencia muy claro, del que se deriva una hipótesis nula específica. Si trabajára-
mos con la hipótesis nula de que en los homínidos anteriores SÍ EXISTÍA dimorfismo
sexual, tendríamos que establecer en qué grado existía para poder establecer un
valor específico de la pendiente en la hipótesis nula. Pero esto plantea un problema
ya que no sabríamos como escoger ese valor específico con los datos de que dis-
ponemos. Por otro lado, la hipótesis nula de que la pendiente es igual a la unidad
parece la hipótesis más apropiada o que recoge con mayor exactitud el concepto de
«hipótesis nula»: inexistencia de diferencias entre los pesos de hombres y mujeres.
199
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
Ho :P1 ;::-:1
H¡ : P1 <1
ESTADÍSTICO DE CONTRASTE:
Para calcular el estadístico de contraste tendremos que realizar los cálculos pre-
--···
vios que nos facilitarán la tarea: la extracción de los estadísticos descriptivos.
Homínido
200
Soluciones a los ejercicios de los capítulos 8 y 9 •
Estos valores nos permiten calcular la recta de regresión. En primer lugar, la pen-
diente de Y sobre X:
B1 = rXY =O 89 .JnJ¡i = 0 38
Sx ' J172,22
Luego la ecuación para predecir el peso de la hembra a partir del peso del macho
en esta muestra de homínidos extintos es:
Y'=0,38X+5,16
81 -PHº - 0,38-1
T- -6,34
- s, 1-rl,, - .JnJ¡i 1-0,89 2
. . ·· ·
Horas de estudio . Ansiedad ·:
62 40 40
58 31 65
52 35 34
55 26 91
75 51 46
82 48 52
38 25 48
55 37 61
48 30 34
68 44 74
SOLUCIÓN:
Se trata de un estudio en donde se trata de evaluar la capacidad predictiva de las
variables «Horas de estudio» y «Ansiedad» sobre el rendimiento en un test objetivo
que será la variable dependiente. Para la simplicidad de la exposición, hablaremos
de X1 y X 2 (horas de estudio y ansiedad, respectivamente) para las variables predic-
toras y de Y para la variable predicha. Se asume la normalidad de las puntuaciones
de la variable dependiente, la independencia de las puntuaciones y la homocedas-
ticidad.
Se plantea que tanto las horas de estudio como la ansiedad influyen sobre el
rendimiento en el test, la primera con pendiente positiva (a mayor horas de estudio,
mejor rendimiento en el test) y la segunda con pendiente negativa (a mayor ansie-
dad, peor rendimiento en el test).
Calcularemos el coeficiente de correlación múltiple y el coeficiente de determi-
nación, ajustados y sin ajustar, para tener una medida del porcentaje de varianza
explicado.
202
Soluciones a los ejercicios de los capítulos 8 y 9 •
Covarianzas:
¿ X 1 Y - - 22706
Syx •= - - - X i Y = - - - 2 1 7 6 , 3 1 = 9 4 , 2 9
n 10
¿ X 2 Y - - 32580
Syx ' = - - - X 2 Y = - - - 3 2 3 1 , 8 5 = 2 6 , 1 5
n 10
¿ X 1 X2 - - = -19746
Sx •x ' = X1 X2 --2000,15=-25,55
n 10
Correlaciones simples:
Syx 94,29
ryx = - - ' - = =0,897
' Sy Sx 1 12,32·8, 5 3
Syx , 26,15
ryx = - - = = 0 122
' Sy Sx 2 12,32·17,42
r Sx ,x , - 2 5 , 5 5 = - 0 172
= =
x, x ,
SX, SX1 8 5 3·17 42
I I
203
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
S 12,32
82 = P 2 - y = 0,28- - = o,201
Sx 2 17,42
Y'=1,36SX1 +0,201X2 - 1 , 77
2 2
ryx + ryx - 2 - ryx ·ryx ·rx
Ry .x x' =
1 2
2
1 2 l
x2
=
1
1 - rx x
l 2
2 2
= 0,897 +0,122 - 2 -0,897 2-0,122·(- 0, 172) =0,939
1-(-0,172)
204
Soluciones a los ejercicios de los capítulos 8 y 9 •
2
Ry .x x =0,8831 2
A2 2 n- 1 10-1
Ry .x ,x , = 1 - 1 - R y .x x ) =1-(1-0,883) =0,849
( , , n-p-1 10-2-1
2- - 2
2 -- o ' 8 8
0 ,8 6
P'1 - 2 -
l - r YX, 1-0,122
sr22 = Ry2.x,x , - r YX
2
, =0, 8 8 3- 0, 8 97 2 =0,0 7
205
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
Si disponemos los datos finales en una tabla resumen tendremos una idea más
clara de lo sucedido:
207
• Ejercicios y problemas resueltos y comentados. Diseí'los de investigación y análisis de datos
r
Iniciales del mayor BOi
JMR 35 8 2
AVV 10 1 5
PRM 25 5 3
JMM 32 7 1
EJM 23 6 3
PGP 5 2 5
GGP 8 2 4
MAF 17 3 3
SOLUCIÓN:
Se espera que un incremento en los sucesos vitales estresantes incremente la
depresión (Wheaton, 1985). Por el contrario, se espera que el apoyo de los amigos
haga disminuir la depresión. Aunque esta teoría pueda parecer que ha sido deriva-
da, no tanto de una teoría cientifica sino de la intuición, no obstante es importante
evaluar estas predicciones (intuitivas u obvias) ya que este análisis nos permitirá,
además de verificar las hipótesis «intuitivas», cuantificar el grado de relación entre
la depresión y las variables SVE y NAA, aspecto esencial en cualquier ciencia y pos-
terior al descubrimiento del sentido de la relación.
CONDICIONES Y SUPUESTOS:
208
Soluciones a los ejercicios de los capítulos 8 y 9 •
Ho :13svE =O
H1 : P s v E *º
Para el número de amigos:
Ho :l3NAA = 0
H1: ¡3NAA =t:0
En esta situación sí tendría sentido plantearse el valor del BOi cuando SVE y NAA
valen O (no tiene amigos pero tampoco ha tenido ningún evento estresante durante
el año anterior) pero no lo han planteado en el ejercicio.
ESTADÍSTICO DE CONTRASTE: Para el cálculo de los estadísticos de contraste es
conveniente disponer previamente de los estadísticos descriptivos de las tres varia-
bles, BOi, SVE y NAA, que calculamos a continuación:
Estadísticos
Media 19,37 4,25 3,25
Varianza 109,73 5,94 1,69
Desv. típica 10,47 2,44 1,30
Cuasivarianza 125,41 6,78 1,93
Estos valores nos permitirán el cálculo de las tres correlaciones necesarias para
la resolución del problema:
SBOl,SVE 24, 4 1
rBOi, SVE -- - - - - - ' - - - =0,95
S BOJ . S SVE 10, 4 7 ·2,44
SsvE, NAA - 2 81
r:BOi, SVE - = ' =-0,88
- SsvE ·SNAA 2I 4 4 ·1 I 30
209
• Ejerciciosy problemas resueltos y comentados Diseños de investigación y análisis de datos
- --s_v_E-- --ª-º-'--'
NM
A
1-'eDt,SVE -
- reo, ,SVE -(
reo, ,NAA .
rsvE ,NAA ) o , 9 s - [ ( - o , 8 8 ) ( - o , 9 2 ) ]
0,62
2 2
l-rsvE,NAA 1-(-0,88)
s
______ l ecta \
210
Soluciones a los ejercicios de los capítulos 8 y 9 •
58 0 / 10,47
Ba o ,'s v E = Pa o , s v E - - = 0 , 6 2 - - = 2,66
' Ss v E 2,44
58 01 10,47
B8 o t,NAA = P 8 0 1 N A A - - = - 0 , 3 7 - - = - 2 , 9 8
' SNA A 1,30
Y en puntuaciones diferenciales:
X
Nota: elementos que utilizará el mecánico: a) 5 muelles, b) una barra de metal
con agujeros y de peso despreciable y una placa de metal cuadrada agujerea-
da. Los elementos no están dibujados a escala (la superficie agujereada es muy
grande, la barra de metal de un tamaño intermedio y los muelles son pequeños).
212
Soluciones a los ejercicios de los capítulos 8 y 9 •
-----
Realizaremos los cálculos oportunos para calcular la pendiente y el punto de
corte con la ordenada.
2 3 6 4 9
5 2 10 25 4
7 8 56 49 64
8 6 48 64 36
10 10 100 100 100
Luego:
Cov( X, Y) = ¿ (x-x)(v-Y) = 34 ,4 =6 ,8 8
n 5
Cov(X, Y)= 6, 8 8
r Y
= 0 84
1
X, Sx Sy .J7, 4 4 ..J8.96
.j8 , 9 6
B¡ =rx y -Sy = 0,84 =0, 9 2
Sx -vl, 4 4
ªº =5, 8 + 0, 9 2 ·6 ,4 = 1 1 ,6 9
Y' = l l , 6 9 + 0, 9 2X
214
Soluciones a los ejercicios de los capítulos 8 y 9 •
. .
cualquier dato particular es mayor o inferior
./.,
a lo esperado
. .·· •.
..
/
•"
oí /
-o
o
,e Á
" /
° 76
Log (tamaño del rango)= 1.2 + Log (tamaño corporal) -
LogY = 1, 2 + Logx 0 •7 8
La relación no parece lineal por dos razones: en primer lugar están utilizando
no los valores originales del tamaño corporal y del área de forrajeo (X e Y, respec-
tivamente) sino sus logaritmos. En segundo lugar, han elevado a la potencia 0,78
el valor de X. Tanto el logaritmo como la potencia introducen aspectos no lineales.
A pesar de estas diferencias, la relación es lineal en coordenadas logarítmicas
(véase la siguiente cuestión de este mismo ejercicio). La razón es que si aplicamos
una de las reglas algebraicas básicas para trabajar con logaritmos, sabemos que:
LogX ª = aLog X
LogY = l , 2 + 0 , 78LogX
Que, claramente, es una relación lineal con pendiente 0,78 y punto de corte con
la ordenada de 1,2 (pero en coordenadas logarítmicas).
3. La única diferencia de la ecuación LogY = 1,2 + 0,78 LogX con respecto a la fór-
mula usual Y= 1,2 + 0, 78X a la que estaríamos «acostumbrados» es la utilización,
no de los valores X e Y, sino de sus logaritmos en las escalas de medida. Recorde-
mos que X es el «tamaño corporal» que podría medirse en metros cúbicos (m 3 )
216
Soluciones a los ejercicios de los capítulos 8 y 9 •
Chiste
En una clase de estadística, el profesor había terminado de dar una presentación que
él pensaba soberbia sobre la regresión bi-variada cuando levantó la vista por encima
de la luz cegadora del proyector y observó a un estudiante al fondo de la clase que es-
taba casi dormido. Esto resultó excesivo para el ego del profesor y con el ceño fruncido
217
• Ejercicios y problemas resueltos y comentados. Diseños de investigación y análisis de datos
se dirigió al estudiante: «Usted, joven, quiero que responda a una pregunta sobre este
problema. Para una persona con un valor en X de 45, ¿está el valor de Y por encima o
por debajo de la media de su subgrupo en Y?»
El joven estudiante, aún aturdido, miró al techo durante diez segundos y respondió
«Sí».
El profesor no podía creer lo que estaba oyendo y rápidamente dijo «Joven, ;Esta no es
una cuestión de Si/No! Diga simplemente arriba o debajo».
El estudiante respondió «;Arriba o abajo!».
El profesor remarca «¿Sí?».
El estudiante, ahora ya completamente despierto, respondió «Pero señor, esa fue mí
respuesta original»
218