Está en la página 1de 41

Tema 1. Probabilidad.

Problemas Resueltos del Tema 1

1- Un estudiante responde al azar a dos preguntas de verdadero o falso. Escriba el


espacio muestral de este experimento aleatorio.

Solución.

El espacio muestral es el conjunto de todos los sucesos elementales. Los sucesos


elementales son cada uno de los resultados posibles del experimento aleatorio,
indescomponibles en otros más simples. Como el experimento consiste en responder al
azar a dos preguntas, cada uno de los posibles patrones de respuesta constituirá un
suceso elemental. Un patrón de respuesta sería contestar verdadero a la primera
pregunta y verdadero a la segunda, lo representamos (V, V). Con esta representación
podemos escribir el espacio muestral como:

E = {(V, V) (V, F) (F, V) (F, F)}

2- Otro estudiante responde al azar a 4 preguntas del mismo tipo anterior.


a) Escriba el espacio muestral.
b) Escriba el suceso responder “falso” a una sola pregunta.
c) Escriba el suceso responder “verdadero” al menos a 3 preguntas.
d) Escriba la unión de estos dos sucesos, la intersección y la diferencia del 2º y el 1º.
e) La colección formada por estos 5 sucesos, más el suceso seguro y el suceso
imposible ¿Constituyen un sigma-álgebra?

Solución

a) Con la misma convención del problema anterior, los sucesos elementales serían:

(V, V, V, V) (V, V, V, F) (V, V, F, V) (V, F, V, V)


(F, V, V, V) (V, V, F, F) (V, F, V, F) (V, F, F, V)
(F, V, V, F) (F, V, F, V) (F, F, V, V) (V, F, F, F)
(F, V, F, F) (F, F, V, F) (F, F, F, V) (F, F, F, F)

b) El Suceso responder falso a una sola pregunta será el subconjunto del espacio
muestral formado por todos los sucesos elementales en que solo hay una respuesta
falso, lo llamaremos A y será:

A = {(V, V, V, F) ∪ (V, V, F, V) ∪ (V, F, V, V) ∪ (F, V, V, V)}

c) El suceso responder verdadero al menos a 3 preguntas, lo llamaremos B y será:

B = {(V, V, V, F) ∪ (V, V, F, V) ∪ (V, F, V, V) ∪ (F, V, V, V) ∪ (V, V, V, V)}

d) Observando los sucesos elementales que los componen se deducen inmediatamente


los siguientes resultados:

A∪B=B A∩B=A B- A = {(V, V, V, V)}


2 Problemas de Análisis de Datos. José M. Salinas

e) La colección formada por el suceso A, el B, la unión de ambos, su intersección, y su


diferencia, más el suceso seguro y el suceso imposible, no constituye un sigma-álgebra.
Para demostrarlo basta comprobar que se incumple una de las dos condiciones. Por
ejemplo, el suceso A incumple la segunda porque su contrario no pertenece a la
colección.

3- Una rata es colocada en una caja con tres pulsadores de colores rojo, azul y blanco. Si
pulsa dos veces las palancas al azar:
a) ¿Cuál es la probabilidad de que las dos veces pulse la roja?
b) ¿Cuál es la probabilidad de que pulse la primera vez o la segunda o ambas la tecla
azul?

Solución

a) Para que las dos veces pulse la roja tiene que ocurrir que la primera vez pulse la roja
y la segunda también pulse la roja, es decir que se verifique el suceso (R1 ∩ R2).
Ahora bien , como ambos sucesos son independientes, la probabilidad de la
intersección es igual al producto de las probabilidades de ambos sucesos. La
probabilidad de estos sucesos se determina mediante la regla de Laplace de casos
favorables (uno), partido por casos posibles (tres)

P(R1 ∩ R2) = P(R1) · P(R2) = 1/3 · 1/3 = 1/9

b) En este apartado, claramente, nos piden la probabilidad de la unión de los sucesos


pulsar azul la primera vez y pulsar azul la segunda. Ahora bien, estos dos sucesos no
son incompatibles, luego la probabilidad de la unión será igual a la suma de las
probabilidades menos la probabilidad de la intersección. La probabilidad de la
intersección, al igual que en el apartado anterior, se calcula basándonos en el hecho
de que son independientes.

P(A1 ∪ A2) = P(A1) + P(A2) – P(A1 ∩ A2) = 1/3 + 1/3 – 1/9 = 5/9

4- Como todo el mundo sabe, la probabilidad de que en una ruleta salga 10 veces
seguidas el color rojo es muy pequeña. Habiendo salido 9 veces seguidas el rojo, un
jugador apuesta al negro ¿Qué probabilidad tiene de ganar?

Solución

Para que el jugador gane tiene que ocurrir la secuencia R1, R2, ..., R9, N10. Como
sabemos ya se ha producido R1, R2, ..., R9. La probabilidad que buscamos será la
probabilidad de que salga negro en el décimo lanzamiento, condicionada por que haya
salido rojo en las nueve anteriores. Por la definición de probabilidad condicionada:

P (N 10 I R1 I R 2 I ... I R9 ) 0,510
P( N10 / R1 I R 2 I ... I R9 ) = = = 0,5
P(R1 I R2 I ... I R9 ) 0,59
Como vemos el hecho de que previamente haya salido nueve veces rojo no cambia la
probabilidad de que salga la décima vez. Esto es así porque cada lanzamiento es
independiente de los restantes. (Nota. En realidad la probabilidad de que salga rojo o negro en una
ruleta no es exactamente 0,5, sino 18/37 ya que además de los 18 números rojos y los 18 negros, existe el
Tema 1. Probabilidad. 3

cero que no tiene asignado color, pero este dato no cambia el razonamiento hecho y el resultado sería
18/37)

5- En una asignatura se ha decidido aprobar a aquellos que superen uno de los dos
parciales. Con este criterio aprobó el 80%, sabiendo que el primer parcial lo superó el
60% y el segundo el 50% ¿Cuál hubiese sido el porcentaje de aprobados, si se hubiese
exigido superar ambos parciales?

Solución

Sea A1 el suceso aprobar el primer parcial y A2 aprobar el segundo. Los datos del
problema nos dicen que:

P(A1 ∪ A2) = 0,8 P(A1) = 0,6 P(A2) = 0,5

Y se pide la probabilidad de la intersección de ambos sucesos. Como A1 y A2 no son


incompatibles, la probabilidad de la unión será:

P(A1 ∪ A2) = P(A1) + P(A2) – P(A1 ∩ A2)

Despejando tenemos:

P(A1 ∩ A2) = P(A1) + P(A2) – P(A1 ∪ A2)

Sustituyendo los valores numéricos:

P(A1 ∩ A2) = 0,6 + 0,5 – 0,8 = 0,3

La conclusión es que si se hubiese exigido aprobar los dos parciales el porcentaje de


aprobados hubiese sido del 30%.

6- La probabilidad de resolver correctamente alguna de las dos versiones de la tarea de


Martens es 0,45. La de resolver la 1ª es 0,40 y la de la 2ª 0,30 ¿La resolución de las dos
versiones es independiente?

Solución

Sea V1 el suceso de resolver la primera versión y V2 resolver la segunda. Los datos del
problema nos indican que:

P(V1 ∪ V2) = 0,45 P(V1) = 0,4 P(V2) = 0,3

Para determinar si los sucesos son independiente, calcularemos la probabilidad se su


intersección, de forma análoga al problema anterior, y comprobaremos si el valor
obtenido es igual al producto de las probabilidades de estos dos sucesos.

P(V1 ∩ V2) = P(V1) + P(V2) – P(V1 ∪ V2)

Sustituyendo
4 Problemas de Análisis de Datos. José M. Salinas

P(V1 ∩ V2) = 0,4 + 0,3 – 0,45 = 0,25

Por otra parte

P(V1) · P(V2) = 0,4 · 0,3 = 0,12 ≠ 0,25 = P(V1 ∩ V2)


Luego, no son independientes.

7- La prevalencia de la diabetes es del 4%. La glucemia basal diagnóstica correctamente


el 95% de los diabéticos, pero da un 2% de falsos positivos. Diagnosticada una persona
¿Cuál es la probabilidad de que realmente sea diabética?

Solución

Sea D el suceso de tener diabetes, ∼D el suceso de no tenerla y Gl+ el suceso de dar


positivo en la prueba de la glucemia basal. Los datos del problema nos dicen que:

P(D) = 0,04 P(∼D) = 0,96 P(Gl+ / D) = 0,95 P(Gl+ / ∼D) = 0,02

Entonces el teorema de Bayes, escrito en los términos de este problema nos dice que:

P( Gl + / D) ⋅ P( D)
P( D / Gl +) = ~ ~
P(Gl + / D ) ⋅ P( D ) + P (Gl + / D) ⋅ P ( D)

sustituyendo por los valores numéricos

0,95 ⋅ 0,04 0,038


P( D / Gl +) = = = 0,664
0,95 ⋅ 0,04 + 0,02 ⋅ 0,96 0,038 + 0,0192
Tema 2. Variables aleatorias. 5

Problemas resueltos del Tema 2

2.1- Calcule y escriba en una tabla la distribución de la variable aleatoria suma de los números
que aparecen al lanzar dos dados.

Solución.

A continuación presentamos todos los sucesos que pueden ocurrir al lanzar dos dados
y el valor que para cada uno de estos sucesos tiene la variable suma:

(1,1) 2 (2,1) 3 (3,1) 4 (4,1) 5 (5,1) 6 (6,1) 7


(1,2) 3 (2,2) 4 (3,2) 5 (4,2) 6 (5,2) 7 (6,2) 8
(1,3) 4 (2,3) 5 (3,3) 6 (4,3) 7 (5,3) 8 (6,3) 9
(1,4) 5 (2,4) 6 (3,4) 7 (4,4) 8 (5,4) 9 (6,4) 10
(1,5) 6 (2,5) 7 (3,5) 8 (4,5) 9 (5,5) 10 (6,5) 11
(1,6)) 7 (2,6) 8 (3,6) 9 (4,6) 10 (5,6) 11 (6,6) 12

Como todos estos sucesos tienen la misma probabilidad 1/36, la distribución de la


suma será:

X 2 3 4 5 6 7 8 9 10 11 12
P 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36

2.2- Un jugador afirma que al lanzar dos dados es igual de probable obtener un seis que un
siete, ya que hay el mismo número de resultados a favor de un resultado que de otro. Cinco y
uno, cuatro y dos, tres y tres, para el seis y seis y uno, cinco y dos, cuatro y tres, para el siete.
¿Es cierta esta afirmación? Razone la respuesta.

Solución.

No, en realidad los sucesos que dan origen a que la suma valga 6 son: (1,5) (2,4)
(3,3) (4,2) (5,1) por tanto la probabilidad será 5/36, mientras que los sucesos que hacen que
la suma sea 7 son (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) y en consecuencia esta probabilidad
será 6/36.

2.3- Para estudiar si las ratas tienen visión cromática, en una caja que cuenta con tres
palancas se marca en rojo aquella que al pulsarla proporciona alimento. En cada prueba la
posición de este pulsador se cambia aleatoriamente. Se somete una rata a cuatro pruebas.
¿Cual sería la distribución de la variable aleatoria número de pulsaciones que consiguen
alimento, si la rata no distinguiera el rojo y pulsase al azar?

Solución.

La variable aleatoria número de pulsaciones puede tomar los valores 0, 1, 2, 3 y 4. El


suceso que da origen a que la variable valga 0 sería:
6 Problemas de Análisis de Datos. José M. Salinas

(R , R , R , R ) cuya probabilidad sería 2/3 · 2/3 · 2/3 · 2/3 = 16/81

El suceso que da origen a que la variable valga 1 sería:

( R , R , R , R ) U( R , R, R , R ) U( R , R , R, R ) U( R , R , R , R)

y su probabilidad sería 4 · 1/3 · 2/3 · 2/3 · 2/3 = 32/81

El suceso que es la imagen inversa de 2 es:

( R , R , R , R ) U( R, R , R , R ) U( R, R , R , R ) U( R , R, R, R ) U( R , R, R , R) U( R , R , R, R)

y su probabilidad 6 · 1/3 · 1/3 · 2/3 · 2/3 = 24/81

La imagen inversa de 3 es:

( R , R, R, R ) U( R, R, R , R) U( R, R , R, R) U( R , R , R , R)

y su probabilidad 4 · 1/3 · 1/3 · 1/3 · 2/3 = 8/81

La imagen inversa de 4 es el suceso:

( R , R, R, R) y su probabilidad es 1/3 · 1/3 · 1/3 · 1/3 = 1/81

Resumiendo la distribución del número de aciertos es:

X 0 1 2 3 4
P 16/81 32/81 24/81 8/81 1/81

2.4- Un jugador de Rol, en una partida de Dungeons and Dragons, para salvarse de un
conjuro de Raistlin, necesita sacar un 18 en el lanzamiento de los dados. El Dungeon Master
le ofrece lanzar tres dados de seis caras o uno de diez junto con uno de ocho. ¿En cual de
estas dos alternativas es más probable obtener un 18 y salvarse del conjuro? Explique su
respuesta ¿Sería la respuesta la misma si hubiese que sacar 17 o más para evitar el conjuro?

Solución.

Para sacar 18 con tres dados de seis caras tiene que ocurrir el suceso (6, 6, 6) que
tiene una probabilidad 1/6 · 1/6 · 1/6 = 1/216.

Para obtener 18 con un dado de diez caras y otro de ocho tiene que ocurrir el suceso
(10, 8) cuya probabilidad es 1/10 · 1/8 = 1/80. Obviamente esta probabilidad es mayor que
la anterior.

Para obtener 17 o más con los tres dados tiene que ocurrir el suceso:
Tema 2. Variables aleatorias. 7

(5, 6, 6) ∪ (6, 5, 6) ∪ (6, 6, 5) ∪ (6, 6, 6) cuya probabilidad es 4/216.

Para conseguir el mismo resultado con los dos dados tiene que ocurrir:
(10, 7) ∪ (9, 8) ∪ (10, 8) que tiene una probabilidad de 3/80 que también sería mayor que
con los tres dados.

2.5- Tenemos una urna con dos bolas blancas, tres verdes y cinco rojas. Extraemos al azar
dos bolas simultáneamente. Recibimos 200 pesetas si las dos bolas son blancas, 100 si las
dos son verdes y 10 si una es roja y la otra verde, en los demás casos no recibimos nada.
¿Cual es el valor esperado de los premios?

Solución.

P(B1 ∩ B2) = P(B1) · P(B2 / B1) = 2/10 · 1/9 = 2/90 = 1/45

P(V1 ∩ V2) = P(V1) · P(V2 / V1) = 3/10 · 2/9 = 6/90 = 1/15

P((R1 ∩ V2) ∪ (V1 ∩ R2)) = P(R1 ∩ V2) + P(V1 ∩ R2) = 5/10 · 3/9 + 3/10 · 5/9 =
15/90 + 15/90 = 1/3

Por consiguiente el premio esperado sería:

E[premio] = 200 · 1/45 + 100 · 1/15 + 10 · 1/3 + 0 · 26/45 = 14,4

2.6- En el punto de partida de un laberinto hay tres orificios iguales A, B y C. Si la rata elige
A vuelve al punto de partida después de recorrer dos metros. Si elige B recorre cinco metros
y vuelve al mismo punto. Si elige C sale al exterior recorriendo un metro. ¿Por término medio
que distancia recorre una rata antes de salir, si siempre elige un orificio distinto de los
seleccionados en veces anteriores?

Solución.

Los itinerarios que pueden darse con las distancias recorridas en cada caso, son (A,
B, C) 8, (B, A, C) 8, (A, C) 3, (B, C) 6, (C) 1, y sus probabilidades serían:

P(A, B, C) = P(A) · P(B/A) · P(C/A∩B) = 1/3 · 1/2 · 1 = 1/6


P(B, A, C) = P(B) · P(A/B) · P(C/B∩A) = 1/3 · 1/2 · 1 = 1/6
P(A, C) = P(A) · P(C/A) = 1/3 · 1/2 = 1/6
P(B, C) = P(B) · P(C/B) = 1/3 · 1/2 = 1/6
P(C) = 1/3

En consecuencia la distancia media recorrida será:

E[D] = 8 · 1/3 + 6 · 1/6 + 3 · 1/6 + 1 · 1/3 = 4,5


Terma 3. Distribuciones. 9

Problemas resueltos del Tema 3.

3.1- Si un estudiante responde al azar a un examen de 8 preguntas de verdadero o falso ¿Cual


es la probabilidad de que acierte 4? ¿Cual es la probabilidad de que acierte dos o menos?
¿Cual es la probabilidad de que acierte cinco o más? ¿Cuanto valen la media y la varianza del
número de preguntas acertadas?

Solución.

La distribución del número de aciertos será una distribución Binomial de parámetros n


= 8 y p = 1/2, en consecuencia:

 8
Pr(ξ = 4 ) =   ⋅ 0,54 ⋅ 0,5 4 =
70
= 0,273
 4 256

Para resolver los dos apartados siguientes calculamos previamente

 8
Pr(ξ = 0) =   ⋅ 0,50 ⋅ 0,58 =
1
= 0,004
 0 256

 8
Pr( ξ = 1) =   ⋅ 0,51 ⋅ 0,57 =
8
= 0,031
 1 256

 8
Pr(ξ = 2 ) =   ⋅ 0,52 ⋅ 0,5 6 =
28
= 0,109
 2 256

 8
Pr( ξ = 3) =   ⋅ 0,53 ⋅ 0,55 =
56
= 0,219
 3 256
en consecuencia

Pr( ξ ≤ 2) = Pr (ξ = 0) + Pr (ξ = 1) + Pr (ξ = 2) = 0,004 + 0,031 + 0,109 = 0,144

Pr(ξ ≥ 5) = 1 − Pr (ξ ≤ 4) = 1 − (0,004 + 0,031 + 0,109 + 0,219 + 0,273) = 0,364

La media y la varianza se obtienen aplicando la expresión obtenida de forma general


para la media y la varianza de una distribución Binomial:

E[ξ] = n · p = 8 · 0,5 = 4 y Var[ξ] = n · p · q = 8 · 0,5 · 0,5 = 2

3.2- En una población en la que hay un 40% de hombres y un 60% de mujeres seleccionamos
4 individuos ¿Cual es la probabilidad de que haya 2 hombres y 2 mujeres? ¿Cual es la
probabilidad de que haya más mujeres que hombres?
10 Problemas de Análisis de Datos. José M. Salinas

Solución.

El número de hombres en la muestra sigue una distribución Binomial de parámetros n


= 4 y p = 0,4. Entonces para calcular la probabilidad de que haya 2 hombres y 2 mujeres en
la muestra, basta calcular la probabilidad de que haya dos hombres en la misma.

 4
Pr( ξ = 2) =   ⋅ 0,4 2 ⋅ 0,62 = 6 ⋅ 0,16 ⋅ 0,36 = 0,3456
 2

Para que haya más mujeres que hombres en la muestra, el número de estos tiene que
ser menor que 2, luego la probabilidad será:

 4  4
Pr( ξ < 2) = Pr (ξ = 0) + Pr (ξ = 1) =   ⋅ 0,4 0 ⋅ 0,6 4 +   ⋅ 0,4 1 ⋅ 0,6 3 = 0,4752
 0  1

3.3- Sabiendo que la variable Z sigue una distribución Normal cero, uno, calcule las siguientes
Probabilidades:
P(Z ≤ 0,93) P(Z ≤ 1,68) P(Z ≤ -2,27) P(Z ≤ -0,27)
P(Z > 0,62) P(Z > 2,05) P(Z > -1,07) P(Z > -3,39)
P(0,56 < Z ≤ 2,80) P(-2,81 < Z ≤ -0,33) P(-0,85 < Z ≤ 0,72)

Solución.

Los ejercicios de la primera fila se resuelven buscando directamente en las tablas de la


distribución Normal, donde se obtienen los siguientes valores:

P(Z ≤ 0,93) = 0,8238 P(Z ≤ 1,68) = 0,9535 P(Z ≤ -2,27) = 0,0116


P(Z ≤ -0,27) = 0,3936

Para resolver los ejercicios de la segunda fila se recurre a calcular la probabilidad del
suceso contrario:

P(Z > 0,62) = 1 - P(Z ≤ 0,62) = 1 - 0,7324 = 0,2676

y de forma análoga se obtiene:

P(Z > 2,05) = 0,0202 P(Z > -1,07) = 0,8577 P(Z > -3,39) = 0,9996

En la tercera fila se pide calcular la probabilidad de una serie de intervalos, para ello
debe recordarse que la probabilidad de un intervalo es igual al valor de la Función de
Distribución para el extremo superior menos el valor de la Función de Distribución para el
extremo inferior, es decir:

P(0,56 < Z ≤ 2,80) = P(Z ≤ 2,80) - P(Z ≤ 0,56) = 0,9974 - 0,7123 = 0,2851
Terma 3. Distribuciones. 11

y para los otros dos intervalos sería:

P(-2,81 < Z ≤ -0,33) = 0,3707 - 0,0025 = 0,3682 P(-0,85 < Z ≤ 0,72) = 0,5665

3.4- Siendo Z una N(0,1), calcule los valores de la variable que verifican las siguientes
condiciones:
P(Z ≤ z) = 0,70 P(Z ≤ z) = 0,90 P(Z ≤ z) = 0,35 P(Z ≤ z) = 0,05
P(Z > z) = 0,25 P(Z > z) = 0,05 P(Z > z) = 0,85 P(Z > z) = 0,69
P(-z < Z ≤ z) = 0,90 P(-z < Z ≤ z) = 0,60

Solución.

Los ejercicios de la primera fila se resuelven buscando en las tablas de la Normal el


valor más próximo a la probabilidad pedida y viendo a que valor de la variable corresponde:

P(Z ≤ z) = 0,70 ⇒ z ≈ 0,52 P(Z ≤ z) = 0,90 ⇒ z ≈ 1,28


P(Z ≤ z) = 0,35 ⇒ z ≈ -0,39 P(Z ≤ z) = 0,05 ⇒ z ≈ -1,64

La resolución de los ejercicios de la segunda fila utiliza las propiedades de la


probabilidad del suceso contrario:

P(Z > z) = 0,25 ⇒ P(Z ≤ z) = 1- 0,25 = 0,75 ⇒ z ≈ 0,67


análogamente:

P(Z > z) = 0,05 ⇒ z ≈ 1,64 P(Z > z) = 0,85 ⇒ z ≈ -1,04 P(Z > z) = 0,69 ⇒ z ≈ -0,5

Para resolver los ejercicios de la tercera fila se aplica la simetría de la Normal

P(-z < Z ≤ z) = 0,90 ⇒ P(Z ≤ -z) = 0,05 y P(Z ≤ z) = 0,95 ⇒ z ≈ 1,64

P(-z < Z ≤ z) = 0,60 ⇒ z ≈ 0,84

3.5- Partiendo de que X es una variable que sigue una distribución Normal de media 50 y
desviación típica 4, calcule las siguientes probabilidades:
P(X ≤ 55) P(X ≤ 59) P(X ≤ 47,5) P(X ≤ 45,6)
P(X > 60,4) P(X > 58,64) P(X > 48,2) P(X > 46,26)
P(52 < X ≤ 54) P(44,5 < X ≤ 49) P(47,25 < X ≤ 53,48)

Solución.

Estos ejercicios se resuelven merced a la propiedad de que al tipificar una variable


Normal la variable resultante sigue una distribución Normal cero, uno.

 55 − 50
P( X ≤ 55) = P Z ≤  = P( Z ≤ 1,25) = 0,8944
 4 
análogamente:
12 Problemas de Análisis de Datos. José M. Salinas

P(X ≤ 59) = 0,9878 P(X ≤ 47,5) = 0,2676 P(X ≤ 45,6) = 0,1357

Para los ejercicios de la segunda fila vuelve a utilizarse las propiedades del suceso
contrario:

 60,4 − 50
P( X > 60,4) = P Z >  = P( Z > 2,6) = 1 − P( Z ≤ 2,6) = 0,0047
 4 

de forma semejante:

P(X > 58,64) = 0,0154 P(X > 48,2) = 0,6736 P(X > 46,26) = 0,8264

Los intervalos de la tercera fila se resuelven en la forma siguiente:

 54 − 50   52 − 50
P( 52 < X ≤ 54) = P( X ≤ 54) − P( X ≤ 52) = P Z ≤  − P Z ≤ 
 4   4 

= P( Z ≤ 1) − P( Z ≤ 0,5) = 0,8413 − 0,6915 = 0,1498

similarmente

P(44,5 < X ≤ 49) = 0,3175 P(47,25 < X ≤ 53,48) = 0,5627

3.6- La variable aleatoria Y sigue una distribución Normal de media 2,55 y desviación típica
0,36. Halle los valores de la variable que cumplen las siguientes condiciones:
P(Y ≤ y) = 0,54 P(Y ≤ y) = 0,95 P(Y ≤ y) = 0,42 P(Y ≤ y) = 0,1
P(Y > y) = 0,38 P(Y > y) = 0,05 P(Y > y) = 0,54 P(Y > y) = 0,01
P(a < Y ≤ b) = 0,80 P(a < Y ≤ b) = 0,95

Solución.

 y − 2 ,55
P(Y ≤ y ) = 0,54 ⇒ P Z ≤  = 0,54
 0,36 

buscando en las tablas de la Normal:

y − 2,55
P( Z ≤ 0,1) ≈ 0,54 ⇒ = 0,1 ⇒ y = 2 ,55 + 0,36 ⋅ 0,1 = 2 ,586
0,36

de manera semejante:

P(Y ≤ y) = 0,95 ⇒ y = 3,1404 P(Y ≤ y) = 0,42 ⇒ y = 2,478


P(Y ≤ y) = 0,1 ⇒ y = 2,0892
Terma 3. Distribuciones. 13

 y − 2,55 
P(Y > y ) = 0,38 ⇒ P(Y ≤ y ) = 0,62 ⇒ P Z ≤  = 0,62
 0,36 

buscando en las tablas de la Normal cero, uno:

y − 2,55
P( Z ≤ 0,31) ≈ 0,62 ⇒ = 0,31 ⇒ y = 2,55 + 0,36 ⋅ 0,31 = 2,6616
0,36

análogamente:

P(Y > y) = 0,05 ⇒ y =3,1404 P(Y > y) = 0,54 ⇒ y = 2,514


P(Y > y) = 0,01 ⇒ y = 3,3888

P( a < Y ≤ b) = 0,80 ⇒ P( Y ≤ a) = 0,1 P( Y ≤ b) = 0,9

 a − 2,55 a − 2,55
P Z ≤  = 0,1 P( Z ≤ −1,28) = 0,1 ⇒ = −1,28 ⇒ a = 2 ,0892
 0,36  0,36

 b − 2,55 b − 2 ,55
P Z ≤  = 0,9 P( Z ≤ 1,28) = 0,9 ⇒ = 1,28 ⇒ b = 3,0108
 0,36  0,36

y para el otro intervalo:


P(a < Y ≤ b) = 0,95 ⇒ a = 1,8444 y b = 3,2556

3.7- Las calificaciones en un examen siguen una distribución Normal de media 5,6 y
desviación típica 0,8.
a) ¿Qué proporción de alumnos tendrá puntuaciones inferiores o iguales a 4?
b) ¿Qué proporción de alumnos aprobará?
c) ¿Qué proporción de alumnos obtendrá Notable o Sobresaliente?

Solución.
 4 − 5,6 
a) Pr( X ≤ 4) = Pr  Z ≤  = Pr ( Z ≤ −2) = 0,0228
 0,8 
 5 − 5,6 
b) Pr( X > 5) = Pr  Z >  = 1 − Pr( Z ≤ −0,75) = 1 − 0,2266 = 0,7734
 0,8 
 7 − 5,6
c) Pr( X > 7) = Pr  Z >  = 1 − Pr ( Z ≤ 1,75) = 1 − 0,9599 = 0,0401
 0,8 

3.8- Las puntuaciones en un test de ansiedad-rasgo siguen, en una población de mujeres, una
distribución Normal de media 25 y desviación Típica 10. Si queremos clasificar la población
en cuatro grupos de igual tamaño ¿Cuales serán las puntuaciones que delimiten estos grupos?

Solución.
14 Problemas de Análisis de Datos. José M. Salinas

Las puntuaciones que delimitan estos cuatro grupos serán el primer, segundo y tercer
cuartil de la distribución

 Q − 25
Pr( X ≤ Q1 ) = 0,25 ⇒ Pr  Z ≤ 1  = 0,25
 10 

buscando en las tablas de la Normal cero, uno el valor de la variable que deja por debajo de
si una probabilidad de 0,25 tenemos:

Q1 − 25
Pr( Z ≤ −0,67) = 0,25 luego = −0 ,67
10

y despejando Q1 = 25 − 10 ⋅ 0 ,67 = 18, 3

Como en la distribución Normal Media y Mediana son iguales tendremos que:

Q2 = 25

 Q − 25
Pr( X ≤ Q3 ) = 0,75 ⇒ Pr  Z ≤ 3  = 0,75
 10 
buscando en las tablas
Q3 − 25
Pr( Z ≤ 0,67) = 0,75 luego = 0 ,67
10
despejando
Q3 = 25 + 10 ⋅ 0 ,67 = 31,7

Por consiguiente el primer grupo serían los individuos con puntuaciones inferiores o
iguales a 18,3, el segundo aquellos con puntuaciones entre 18,3 y 25, el tercero los sujetos
con puntuaciones entre 25 y 31,7 y el cuarto aquellos que tengan puntuaciones superiores a
31,7.

3.9- Una prueba consta de 200 preguntas de verdadero o falso, para un sujeto que
respondiese al azar ¿Cual sería la probabilidad de que acertase?
a) 50 preguntas o menos.
b) Más de 50 y menos de 100.
c) Más de 120 preguntas.

Solución.

El número de preguntas acertadas seguirá una distribución Binomial con n = 200 y p


= 0,5. Ahora bien, como el número de pruebas es elevado esta distribución se puede
aproximar por una Normal de media 200·0,5 = 100 y de varianza 200·0,5·0,5 = 50 o lo que
es lo mismo con desviación típica 7,07, luego:
Terma 3. Distribuciones. 15

 50,5 − 100 
Pr(ξ ≤ 50) ≈ Pr ( X ≤ 50,5) = Pr  Z ≤  = Pr ( Z ≤ −7) ≈ 0
 7,07 

 99,5 − 100  50,5 − 100 


Pr(50 < ξ < 100) = Pr(ξ ≤ 99) − Pr (ξ ≤ 51) = Pr  Z ≤  − Pr  Z ≤ 
 7,07   7,07 

= Pr ( Z ≤ −0,07 ) − Pr( Z ≤ −7 ) = 0,4721 − 0 = 0,4721

 120,5 − 100 
Pr( ξ > 120) ≈ Pr  Z >  = 1 − Pr( Z ≤ 2 ,9 ) = 1 − 0,9981 = 0,0019
 7 ,07 

3.10- En una distribución Binomial con n = 10 y P = 0,8 ¿Qué error se comete al calcular la
probabilidad de que la variable sea igual a 6, mediante la aproximación Normal?

Solución.

10
Pr( ξ = 6) =   0,8 6 ⋅ 0,2 4 = 0,0881
 6

Esta distribución Binomial se aproxima por una Normal de media 8 y desviación típica
1,265, luego:

Pr( ξ = 6) ≈ Pr (5,5 < X ≤ 6,5) = Pr ( X ≤ 6,5) − Pr( X ≤ 5,5)

 6,5 − 8   5,5 − 8 
= Pr  Z ≤  − Pr  Z ≤  = Pr( Z ≤ −1,18) − Pr( Z ≤ −1,98)
 1,265   1,265 

= 0,1190 - 0,0238 = 0,0952

y el error que cometeríamos sería:

0,0952 - 0,0881 = 0,0071


Tema 6. Descripción de la distribución de frecuencias

Problemas resueltos del Tema 6

1.- Los datos siguientes corresponden a los tiempos de reacción de una muestra de 33
sujetos, medidos en centésimas de segundo:

55, 51, 60, 56, 64, 56, 63, 63, 61, 57, 62, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74,
65, 58, 61, 62, 59, 64, 57, 63, 52, 67.

Calcule la media, mediana, el primer y el tercer cuartil, directamente a partir de los


datos.

Solución:
a) Para calcular la media simplemente sumamos todos los valores, lo cual da como
resultado 1963, y dividimos entre el número de observaciones que es 33, con lo cual
obtenemos:
1963
x = = 59,48
33
b) Para calcular la mediana, el primer paso es escribir los valores en orden creciente:

45, 48, 49, 50, 51, 52, 53, 54, 55, 56, 56, 57, 57, 58, 58, 59, 60, 61, 61, 62, 62, 63, 63,
63, 64, 64, 65, 66, 67, 68, 70, 72, 74

Como el número de observaciones es impar el valor central, es decir el decimosexto, es


la mediana, por consiguiente la Mediana de esta distribución es 60.

El cálculo del primer cuartil es análogo, es la observación que deja una cuarta parte de
las observaciones por debajo y tres cuartas partes por encima, luego en este caso es la
novena observación y por consiguiente el valor del primer cuartil es 55.

Análogamente el tercer cuartil es el valor que ocupa en la anterior ordenación la


posición vigesimoquinta y es 64.

2.- Con los datos del problema anterior, construya una tabla estadística de estos datos,
agrupados en 5 intervalos de igual amplitud, calcule la media, y la mediana, compare
estos resultados con los obtenidos en el problema anterior.

Solución:

Tiempos Nº sujetos
45 a 51 4
51 a 57 6
57 a 63 11
63 a 69 9
69 a 75 3

Para llegar a la anterior tabla se ha calculado en primer lugar el rango de la distribución


que es el mayor valor 74 menos el menor 45, lo que nos da 29. Como 29 no es divisible
entre 5 redondeamos hasta el valor más próximo por exceso que es 30, dividiendo este
rango entre el número de intervalos que deseamos, cinco, obtenemos la amplitud que
deben tener los intervalos, seis. A partir del primer valor, 45 se han calculado los
Problemas de Análisis de Datos. José M. Salinas

restantes extremos sumando 6, sucesivas veces. Posteriormente se ha contado el número


de observaciones comprendidas dentro de cada intervalo, recuérdese que los intervalos
se toman abiertos a la derecha, y de esta forma se han obtenido las frecuencias que
aparecen en la tabla.

Tiempos ni ci ci ·n i Ni
45 a 51 4 48 192 4
51 a 57 6 54 324 10
57 a 63 11 60 660 21
63 a 69 9 66 594 30
69 a 75 3 72 216 33
33 1986

La media es: 1986/33 = 60,18

Mediana:
Comenzamos calculando la mitad del tamaño de la muestra 33/2 = 16,5. A continuación
observamos cuál es la primera frecuencia acumulada que es mayor que 16,5 que resulta
ser 21. Esto nos indica que la Mediana se encuentra en el intervalo de 57 a 63, aplicando
entonces la fórmula que determina la mediana, obtenemos:

(16,5 − 10) ⋅ 6
Me = 57 + = 60,5
11

Las diferencias existentes entre los valores anteriores (exactos) y los valores actuales
(aproximados) son debidas al efecto del agrupamiento de los valores en clases. En este
último caso los cálculos hacen la suposición de que las observaciones están
uniformemente distribuidas dentro de los intervalos, si este supuesto se cumple
exactamente ambos valores coincidirán. Conforme los datos reales se aparten de este
supuesto mayor será la discrepancia entre ambos procedimientos. Como en este caso los
datos se distribuyen de forma bastante uniforme, las discrepancias entre los valores
obtenidos por ambos procedimientos son pequeñas.

3.- La distribución de las puntuaciones en una escala de hostilidad, de 160 sujetos de


una muestra, ha sido la siguiente:

Xi ni
0 a 10 8
10 a 20 22
20 a 30 32
30 a 40 44
40 a 50 28
50 a 60 20
60 a 70 6

a) ¿Entre que valores se encuentra el 50% central de los individuos?


b) Calcule el percentil 27.
c) ¿A partir de que puntuación se encuentra el 12% de los sujetos más hostiles?
d) Si descontamos el 15 % de los individuos menos hostiles y el 15% de los más
hostiles ¿En qué intervalo de puntuación se encuentran los restantes?
Tema 6. Descripción de la distribución de frecuencias

Solución:
Antes de comenzar a responder los distintos apartados, debemos en primer lugar
calcular las frecuencias acumuladas

Xi ni Ni
0 a 10 8 8
10 a 20 22 30
20 a 30 32 62
30 a 40 44 106
40 a 50 28 134
50 a 60 20 154
60 a 70 6 160

a) Se trata de calcular el primer cuartil que dejará por debajo el 25% inferior, y el
tercer cuartil que dejará por encima el 25% superior. De esta forma entre ambos
valores se encontrará el 50% central. Para calcular el primer cuartil determinamos la
cuata parte del tamaño de la muestra 160/4 = 40. La primera frecuencia acumulada
que supera este valor es 62, por consiguiente el primer cuartil se encuentra en el
intervalo de 20 a 30, aplicamos la fórmula para su determinación:

( 40 − 30) ⋅ 10
Q1 = 20 + = 23,125
32

Las tres cuartas partes del tamaño de la muestra son 120, por tanto el tercer cuartil se
encuentra en el intervalo de 40 a 50 y su valor es:

(120 − 106) ⋅ 10
Q3 = 40 + = 45
28

b) El 27% del tamaño de la muestra es 43,2, luego el percentil 27 está en el intervalo


de 20 a 30 y su valor es:

( 43,2 − 30) ⋅10


P27 = 20 + = 24,125
32

c) El valor que deja por encima el 12% de los sujetos más hostiles, es el mismo que
deja por debajo el 88% con menores puntuaciones, por tanto debemos calcular el
percentil 88. El 88% del tamaño de la muestra vale 140,8. Aplicando la formula
tenemos:

(140,8 − 134) ⋅ 10
P88 = 50 + = 53,4
20

d) Se trata de calcular el percentil 15 y el percentil 85. El 15% del tamaño de la


muestra es 24. El 85% del tamaño es 136 y por tanto:

( 24 − 8) ⋅ 10
P15 = 10 + = 17, 27
22
(136 − 134) ⋅ 10
P85 = 50 + = 51
20
Problemas de Análisis de Datos. José M. Salinas

4.- Hemos medido la variable neuroticismo en un grupo de sujetos obteniendo los


siguientes resultados:

3, 5, 3, 6, 4, 2, 8, 3, 7, 5, 8, 9, 4, 5, 5, 3

Calcule la desviación media y la desviación típica.

Solución:

Comenzamos calculando la media de la muestra, para ello sumamos los valores de las
observaciones obteniendo 80. Dividiendo por el número de observaciones, 16, tenemos
el valor de la media, 5.

A continuación calculamos las desviaciones a la media:

2, 0, 2, 1, 1, 3, 3, 2, 2, 0, 3, 4, 1, 0, 0, 2

Sumando estas desviaciones, obtenemos 26 y dividiendo por el tamaño de la muestra,


16, obtenemos la Desviación media:

26
Dm = = 1,625
16

Para calcular la desviación típica, empezamos calculando los cuadrados de los valores:

9, 25, 9, 36, 16, 4, 64, 9, 49, 25, 64, 81, 16, 25, 25, 9

Sumando obtenemos 466, por consiguiente la varianza valdrá:

466
S2 = − 52 = 4,125
16

calculando su raíz cuadrada obtenemos el valor de la desviación típica:

S = 2,03
Temas 7 y8. Estimadores y sus distribuciones. 1

Problemas resueltos Temas 7 y 8.

1- En una población se presenta una alteración leve en una cierta proporción P de los
individuos que la componen. Definimos una variable aleatoria X que vale 1 para los individuos
alterados y 0 para los no alterados.
a) Escriba la distribución poblacional de esta variable aleatoria
b) Si p es la proporción de veces que aparece el valor 1 en muestras aleatorias simples de
tamaño 3. Calcule la distribución en el muestreo de p, suponiendo que P es igual a 0,2.
c) Demuestre que en este caso p es un estimador insesgado de P.
d) Repita los pasos b) y c) de forma general para un valor cualquiera de P.

Solución:
La solución del apartado a) aparece en la siguiente tabla:

xi pi
0 0,8
1 0,2

Para resolver el apartado b) comenzamos con una tabla donde aparecen todas las
posibles muestras de tamaño 3, la probabilidad de estas muestras y el valor de la proporción
muestral en cada una de ellas

Muestra Prob. p Distribución de p:


(0,0,0) 0,512 0
(1,0,0) 0,128 1/3 p Prob.
(0,1,0) 0,128 1/3 0 0,512
(0,0,1) 0,128 1/3 1/3 0,384
(1,1,0) 0,032 2/3 2/3 0,096
(1,0,1) 0,032 2/3 1 0,008
(0,1,1) 0,032 2/3
(1,1,1) 0,008 1

por consiguiente la esperanza matemática será:

E[p] = 0 · 0,512 + 1/3 · 0,384 + 2/3 · 0,096 + 1 · 0,008 = 0,2

y queda resuelto el apartado c). Para el apartado d) escribimos la distribución de p en el caso


genérico que será:

p Prob.
0 Q3
1/3 3PQ2
2/3 3P2Q
1 P3

y la esperanza matemática de p será:


2 Problemas de Análisis de Datos. José M. Salinas

E [ p] = PQ2 + 2 P 2 Q + P 3 = P(Q 2 + 2 PQ + P 2 ) = P( Q + P ) = P
2

2- Una variable aleatoria puede tomar los valores 1, 2 y 3 con probabilidades 0,25 0,5 y 0,25
respectivamente. Si para estimar la media de esta variable aleatoria extraemos muestras
aleatorias simples de tamaño 3 y utilizamos como estimadores la media muestral y la semisuma
de los valores extremos. Queremos confirmar que:
a) Los dos estimadores son insesgados y b) La media muestral es más eficiente
Realice los cálculos necesarios para verificar estos dos puntos.

Solución:
En la siguiente tabla damos todas las muestras posibles de tamaño 3, sus
probabilidades y los valores que tomarían ambos estimadores en esas muestras:

Muestra Prob. Media Semisum.


(1,1,1) 0,015625 1 1
(2,1,1) 0,03125 4/3 1,5
(1,2,1) 0,03125 4/3 1,5
(1,1,2) 0,03125 4/3 1,5
(3,1,1) 0,015625 5/3 2
(1,3,1) 0,015625 5/3 2
(1,1,3) 0,015625 5/3 2
(2,2,2) 0,125 2 2
(3,2,2) 0,0625 7/3 2,5
(2,3,2) 0,0625 7/3 2,5
(2,2,3) 0,0625 7/3 2,5
(1,2,2) 0,0625 5/3 1,5
(2,1,2) 0,0625 5/3 1,5
(2,2,1) 0,0625 5/3 1,5
(3,3,3) 0,015625 3 3
(2,3,3) 0,03125 8/3 2,5
(3,2,3) 0,03125 8/3 2,5
(3,3,2) 0,03125 8/3 2,5
(1,3,3) 0,015625 7/3 2
(3,1,3) 0,015625 7/3 2
(3,3,1) 0,015625 7/3 2
(1,2,3) 0,03125 2 2
(1,3,2) 0,03125 2 2
(2,3,1) 0,03125 2 2
(2,1,3) 0,03125 2 2
(3,1,2) 0,03125 2 2
(3,2,1) 0,03125 2 2

Por consiguiente la distribución de la media muestral será:


Temas 7 y8. Estimadores y sus distribuciones. 3

Media 1 4/3 5/3 2 7/3 8/3 3


Prob. 0,015625 0,09375 0,234375 0,3125 0,234375 0,09375 0,015625

y la distribución de la semisuma de los valores extremos será:

Semisuma 1 1,5 2 2,5 3


Prob. 0,015625 0,28125 0,40625 0,28125 0,015625

por consiguiente las esperanzas de estos dos estimadores serían:

E[Media] = 1 · 0,015625 + 4/3 · 0,09375 + 5/3 · 0,234375 + 2 · 0,3125 +


7/3 · 0,234375 + 8/3 · 0,09375 + 3 · 0,015625 = 2

E[Semisuma] = 1 · 0,015625 + 1,5 · 0,28125 + 2 · 0,40625 + 2,5 · 0,28125 +


3 · 0,015625 = 2

luego ambos estimadores son insesgados. Las varianzas respectivas serían:

Var[Media] = 1 · 0,015625 + 16/9 · 0,09375 + 25/9 · 0,234375 + 4 · 0,3125 +


49/9 · 0,234375 + 64/9 · 0,09375 + 9 · 0,015625 - 4 = 0,167

Var[Semisuma] = 1 · 0,015625 + 2,25 · 0,28125 + 4 · 0,40625 + 6,25 · 0,28125 +


9 · 0,015625 - 4 = 0,172

por consiguiente la media es en este caso un estimador más eficiente que la semisuma de los
valores extremos.

3- Las puntuaciones en la Escala de Inteligencia para Adultos de Wechsler (WAIS) siguen en


una población una distribución Normal de media 100 y desviación típica 16. Si extraemos de
esa población una muestra aleatoria simple de 25 individuos
a) ¿Cual es la probabilidad de que la media de esos 25 individuos sea inferior a 95?
b) ¿Cual es la probabilidad de que esa misma media esté comprendida entre 98 y 102?

Solución:
De acuerdo con el teorema de Fisher:

 σ
x → N  µ, 
 n

Por lo que en nuestro caso:

 16 
x → N  100,,  = N (100,, 3,2)
 25 
4 Problemas de Análisis de Datos. José M. Salinas

Entonces el apartado a) se resuelve en la forma siguiente:

 95 − 100 
Pr( x ≤ 95) = Pr  Z ≤  = Pr( Z ≤ −1,56) = 0,0594
 3,2 

y el apartado b) quedará resuelto de la siguiente forma:

 102 − 100  98 − 100


Pr( 98 < x ≤ 102) = Pr ( x ≤ 102) − Pr ( x ≤ 98) = Pr Z ≤  − Pr Z ≤ 
 3,2   3,2 

= Pr ( Z ≤ 0,62 ) − Pr ( Z ≤ −0,62) = 0,7324 − 0,2676 = 0,4648

4- Las puntuaciones obtenidas en la escala de Locus de Control de James por los sujetos
depresivos, siguen una distribución Normal de media 90 y desviación típica 12. Si se extraen
muestras aleatorias simples de 30 sujetos depresivos ¿ Por debajo de que cantidad se
encontrará el 90% de las veces el valor de la varianza de la muestra?

Solución:
En virtud del teorema de Fisher sabemos que:

nS 2
→ χ2n −1
σ2

Por tanto en el problema que nos ocupa se verificará:

30 S 2
→ χ229
144

De las tablas de la Ji-cuadrado obtenemos:

Pr( χ292 ≤ x ) = 0,9 ⇒ x = 39,09

Por consiguiente:

 30 S 2   39,09 ⋅ 144 
Pr  ≤ 39,09 = 0,9 ⇒ Pr  S 2 ≤  = 0,9 ⇒ Pr ( S 2 ≤ 187,63) = 0,9
 144   30 

Por tanto, el valor pedido es 187,63.


Tema 9. Intervalos de confianza 1

Problemas resueltos. Tema 9

1- Los tiempos de reacción, en mili segundos, de 17 sujetos frente a una matriz de 15


estímulos fueron los siguientes: 448, 460, 514, 488, 592, 490, 507, 513, 492, 534,
523, 452, 464, 562, 584, 507, 461
Suponiendo que el tiempo de reacción se distribuye Normalmente, determine un intervalo de
confianza para la media a un nivel de confianza del 95%.

Solución:

Mediante los cálculos básicos obtenemos que la media muestral vale 505,35 y la desviación
típica 42,54.

Buscando en las tablas de la t de Student con 16 grados de libertad, obtenemos que el valor
que deja por debajo una probabilidad de 0,975 es 2,12

Sustituyendo estos valores en la expresión del intervalo de confianza de la media tenemos:


(505,35 - 2,12 · 42,54 / 4 ,, 505,35 + 2,12 · 42,54 / 4)

operando
( 482,80 ,, 527,90 )

2- En una muestra de 65 sujetos las puntuaciones en una escala de extroversión tienen una
media de 32,7 puntos y una desviación típica de 12,64.
a) Calcule a partir de estos datos el correspondiente intervalo de confianza, a un nivel del
90%, para la media de la población.
b) Indique, con un nivel de confianza del 95%, cual sería el máximo error que podríamos
cometer al tomar como media de la población el valor obtenido en la estimación puntual.

Solución:

a) Buscando en las tablas de la t de Student obtenemos que el valor que deja por debajo una
probabilidad del 95% es 1,671 (aproximadamente). Sustituyendo los valores de esta muestra
en la expresión del intervalo de confianza obtenemos:

( 32,7 - 1,671 · 12,64 / 8 ,, 32,7 + 1,671 · 12,64 / 8 )


operando
( 30,06 ,, 35,34 )

b) En las tablas de la t de Student encontramos que el valor de la variable que deja por
debajo una probabilidad de 0,975 es 2. En consecuencia a un nivel de confianza del 95% la
media de la población puede valer

32,7 ± 2 · 12,64 / 8

luego el máximo error que se puede cometer, a este nivel de confianza, es: 3,16
2 Problemas de Análisis de Datos. José M. Salinas

3- Con los datos del problema 1, calcule a un nivel de confianza del 90% un intervalo de
confianza para la varianza e indique cual sería el máximo error por exceso y por defecto que
podría cometerse utilizando el estimador insesgado de la varianza.

Solución:

Mediante cálculos básicos obtenemos que la varianza de la muestra vale 1809,29 y la


cuasivarianza 1922,37

En las tablas de la Ji-cuadrado encontramos que el valor que deja por debajo una
probabilidad de 0,05 es 7,96 y que 26,30 deja por debajo una probabilidad de 0,95.

Sustituyendo en la expresión del intervalo de confianza para la varianza tenemos:

( 17 · 1809,29 / 26,30 ,, 17 · 1809,29 / 7,96 )


operando
( 1169,50 ,, 3864,06 )

Por tanto el error por defecto sería 1922,37 - 3864,06 = -1941,69


y el error por exceso 1922,37 – 1169,50 = 752,87

4- En una muestra de 300 universitarios el 80% ha respondido que asiste semanalmente al


cine. Entre que valores se encuentra, con un nivel de confianza del 95%, la proporción de
universitarios que acude todas las semanas al cine.

Solución:

En las tablas de la Normal encontramos que el valor de la variable que deja por debajo una
probabilidad de 0,975 es 1,96.

Sustituyendo en la expresión del intervalo de confianza para una proporción:

 0,8 • 0,2 0,8 • 0,2 


 0,8 − 1,96 ,, 0,8 + 1,96 
 300 300 

operando
( 0,755 ,, 0,845 )
Temas 10 y 11. Contrastes paramétricos de hipótesis. 1

Problemas resueltos. Temas 10 y 11

1- las puntuaciones en un test que mide la variable creatividad siguen, en la población general
de adolescentes, una distribución Normal de media 11,5. En un centro escolar que ha
implantado un programa de estimulación de la creatividad una muestra de 30 alumnos ha
proporcionado las siguientes puntuaciones:

11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8,
23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.

A un nivel de confianza del 95% ¿Puede afirmarse que el programa es efectivo?

Solución:

1º Ho µ = 11,5

2º H1 µ > 11,5
x − µ0
3º El estadístico de contraste en este caso es: t =
S
n −1

4º La media muestral es 12,47 y la desviación típica de la muestra es 5,22, sustituyendo


en el estadístico estos valores se obtiene:

12 , 47 − 11,5
t= = 1, 00
5,22
29

5º Como el contraste es unilateral, buscamos en las tablas de la t de Student, con 29


grados de libertad, el valor que deja por debajo de sí una probabilidad de 0,95, que resulta
ser 1,699

6º El valor del estadístico es menor que el valor crítico, por consiguiente se acepta la
hipótesis nula.

7º La interpretación sería que no hay evidencia de que el programa sea efectivo.

2- En una muestra de 1000 nacimientos el número de varones ha sido 542 ¿Puede


considerarse, con un nivel de significación del 10%, que en general nacen más niños que
niñas?

Solución:

1º La hipótesis nula sería que nacen igual número de niños que de niñas, o lo que es lo
mismo que la proporción de niños nacidos es igual 1/2.
2 Problemas de Análisis de datos. José M. Salinas

Por consiguiente: Ho P = 0,5

2º H1 P > 0,5

p − P0
3º El estadístico de contraste es :
P0 ⋅ Q0
n

4º Como la proporción muestral es 542/1000 = 0,542, sustituyendo se obtiene el valor


del estadístico:
0 ,542 − 0 ,5
= 2 , 66
0,5 ⋅ 0,5
1000

5º Como el contraste es unilateral, buscamos en las tablas de la Normal el valor de la


variable que deja por debajo de sí una probabilidad de 0,9, este valor es 1,282.

6º El valor del estadístico 2,66 es mayor que el valor crítico 1,282 por consiguiente, se
rechaza la hipótesis nula.

7º Efectivamente, nacen en mayor proporción iños que niñas.

3- En una muestra de 66 alumnos se ha calculado el coeficiente de correlación de Pearson


entre sus puntuaciones en el primer parcial de Análisis de Datos y el tiempo que se emplea en
desplazarse desde su domicilio hasta la Facultad, obteniéndose que r vale 0,24. Podemos
mantener, con un nivel de confianza del 95%, la idea de que estas variables son incorreladas,
o por el contrario debemos rechazarla.

Solución:

1º Ho ρ = 0

2º H1 ρ ≠ 0

r n−2
3º El estadístico de contraste es: t=
1− r2

4º Sustituyendo tenemos:
0, 24 64
= 1, 98
1 − 0, 0576

5º El contraste es bilateral, por ello buscamos en las tablas de la t de Student, con 60


grados de libertad (el valor más próximo a 64 que figura en nuestras tablas), el valor que deja
Temas 10 y 11. Contrastes paramétricos de hipótesis. 3

por debajo una probabilidad de 0,975 que es 2. Por tanto la región de aceptación será el
intervalo (-2 ,, 2).

6º El valor del estadístico pertenece a la región de aceptación, por consiguiente se acepta


la hipótesis nula.

7º No existe correlación entre ambas variables, de donde se deduce que el tiempo


empleado no influye en la calificación.

4- Las puntuaciones en un test de razonamiento abstracto siguen una distribución Normal de


media 35 y varianza 60. Para evaluar un programa de mejora de las capacidades intelectuales,
a 101 individuos que están realizando este programa se les pasa el test, obteniéndose una
media de 50 puntos y una varianza de 80 ¿Puede asegurarse, a un nivel de confianza del 90%,
que el programa incrementa las diferencias individuales en esta variable?

Solución:

1º H0 σ2 = 60

2º H1 σ2 > 60

3º El estadístico de contraste es:


nS 2
σ20

4º Sustituyendo en el estadístico obtenemos:

101 ⋅ 80
= 134 ,7
60

5º Como el contraste es unilateral buscamos en las tablas de la Ji-cuadrado, con 100


grados de libertad, el valor de la variable que deja por debajo de sí una probabilidad de 0,9,
este valor es 118,5.

6º El valor del estadístico es mayor que el valor crítico, por consiguiente se rechaza la
hipótesis nula.

7º En efecto, la varianza es significativamente mayor lo que indica que ha aumentado la


dispersión de la puntuaciones lo que indica que se han incrementado las diferencias entre los
individuos.

5- Las notas obtenidas en Análisis de Datos de 5 individuos elegidos al azar del grupo T1 y
de 6 individuos, elegidos también al azar, del grupo T2 son las siguientes:
4 Problemas de Análisis de datos. José M. Salinas

T1 10 6 4 5 4
T2 4 8 6 6 2 3

¿Puede concluirse a un nivel de confianza del 95% que las puntuaciones medias de ambos
grupos son iguales? o por el contrario que hay diferencia entre ambas.

Solución:

1º Ho µ1 = µ2

2º H1 µ1 ≠ µ2

3º El estadístico de contraste en este caso es:

x1 − x 2
t=
n1 S12 + n2 S 22  1 1
 + 
n1 + n 2 − 2  n1 n2 

4º La muestra del grupo T1 tiene una media de 5,8 y una varianza de 4,96. En la muestra
del grupo T2 la media es 4,83 y la varianza 4,14 sustituyendo en el estadístico estos valores
se obtiene:

5,8 − 4,83
t= = 0,68
5 ⋅ 4,96 + 6 ⋅ 4,14  1 1 
 + 
5+6−2  5 6

5º Como el contraste es bilateral, buscamos en las tablas de la t de Student, con 9


grados de libertad, el valor que deja por debajo de sí una probabilidad de 0,975, que resulta
ser 2,262

6º El valor del estadístico es menor que el valor crítico, por consiguiente se acepta la
hipótesis nula.

7º La interpretación sería que no hay evidencia de diferencias significativas entre ambos


grupos.

6- Para comprobar la utilidad de una técnica de enriquecimiento motivacional un investigador


pasa una prueba de rendimiento académico a una muestra de 16 sujetos. Después aplica su
técnica de enriquecimiento y tras ello, vuelve a pasar la prueba de rendimiento. Los resultados
fueron los siguientes:

1º 2º 3º 4º 5º 6º 7º 8º 9º 10º 11º 12º 13º 14º 15º 16º


Temas 10 y 11. Contrastes paramétricos de hipótesis. 5

8 12 14 11 16 6 11 9 10 10 19 12 17 8 13 12
9 16 23 21 17 10 14 8 11 12 19 16 16 13 17 11

A un nivel de confianza del 95%, ¿Podemos rechazar que los rendimientos académicos son
iguales antes que después frente a la alternativa de que se produce una mejora?

Teniendo en cuenta que los sujetos son los mismos en ambas muestras se trata de un contraste
de igualdad de medias con datos emparejados, por consiguiente:

Solución:

1º Ho µd = 0

2º H1 µd > 0

3º El estadístico de contraste en este caso es:

xd
t=
Sd
n −1

4º En primer lugar calculamos las diferencias muestrales

Pre 8 12 14 11 16 6 11 9 10 10 19 12 17 8 13 12
Pos 9 16 23 21 17 10 14 8 11 12 19 16 16 13 17 11
Dif. 1 4 9 10 1 4 3 -1 1 2 0 4 -1 5 4 -1

La media de las diferencias es 2,81 y la desviación típica 3,19, sustituyendo en el estadístico


estos valores se obtiene:

2 , 81
t= = 3, 41
3,19
15

5º Como el contraste es unilateral, buscamos en las tablas de la t de Student, con 15


grados de libertad, el valor que deja por debajo de sí una probabilidad de 0,95, que resulta
ser 1,753

6º El valor del estadístico es mayor que el valor crítico, por consiguiente se rechaza la
hipótesis nula.

7º La interpretación sería que que el programa es efectivo e incrementa el rendimiento


académico.
Tema 12. Contrastes No Paramétricos. 1

Problemas resueltos. Tema 12

1.- En una partida de Rol se lanza 200 veces un dado de cuatro caras obteniéndose 60
veces el número 1, 45 veces el número 2, 38 veces el número 3 y 57 veces el número 4.
Se puede aceptar, a un nivel de confianza del 95%, que estos resultados corresponden a
un dado homogéneo.

Solución:

1º La hipótesis nula será que el dado es homogéneo, esto implica que la distribución de
los números es uniforme, es decir que los cuatro números tienen una probabilidad de
aparecer de 0,25.

2º La hipótesis alternativa será que la distribución no es uniforme.

3º Como la variable es discreta utilizaremos el test Ji-cuadrado de bondad de ajuste a


una distribución.

4º En la tabla siguiente se han realizado todos los cálculos necesarios, obteniéndose el


valor 4,36 para el estadístico de contraste.

xi ni pi Npi ni-np i (ni-np i)2 (ni-np i)2 /np i


1 60 0,25 50 10 100 2
2 45 0,25 50 -5 25 0,5
3 38 0,25 50 -12 144 2,88
4 57 0,25 50 7 49 0,98
200 4,36

5º Como el estadístico tenía 4 sumandos, buscamos en las tablas de la Ji-cuadrado con 3


grados de libertad el valor que deja por debajo una probabilidad de 0,95 y obtenemos
que el valor crítico es 7,81.

6º Como el valor del estadístico es inferior al valor crítico, aceptamos la hipótesis nula.

7º Estos resultados son compatibles con el hecho de que el dado sea homogéneo.

2.- En una encuesta preelectoral realizada a 500 personas se obtuvo la siguiente


distribución en función de sus edades y de su intención de voto:

Edad
Partido 18 – 35 35 – 50 50 o más
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15

A un nivel de confianza del 90% ¿Puede afirmarse que la intención de voto es


independiente de la edad?
2 Problemas de Análisis de datos. José M. Salinas

Solución:

1º La hipótesis nula es que las dos variables son independientes.

2º La hipótesis alternativa es que hay relación entre ambas variables.

3º Se trata de un contraste de independencia entre dos variables, por consiguiente el


estadístico de contraste a utilizar es el estadístico Ji-cuadrado para tablas de
contingencia.

4º Las tablas siguientes presentan los cálculos del estadístico:

Edad
Partido 18 – 35 35 – 50 50 o más
A 10 40 60 110
B 15 70 90 175
C 45 60 35 140
D 30 30 15 75
100 200 200 500

A partir de las frecuencias marginales de la tabla anterior, se obtienen las frecuencias


esperadas que aparecen a continuación:

Edad
Partido 18 – 35 35 – 50 50 o más
A 22 44 44
B 35 70 70
C 28 56 56
D 15 30 30

Por consiguiente las discrepancias entre frecuencias empíricas y frecuencias esperadas


son:

Edad
Partido 18 – 35 35 – 50 50 o más
A -12 -4 16
B -20 0 20
C 17 4 -21
D 15 0 -15

Los cuadrados de las discrepancias son:

Edad
Partido 18 – 35 35 – 50 50 o más
A 144 16 256
B 400 0 400
C 289 16 441
D 225 0 225

Dividiendo por las frecuencias esperadas se obtiene:


Tema 12. Contrastes No Paramétricos. 3

Edad
Partido 18 – 35 35 – 50 50 o más
A 6,55 0,36 5,82
B 11,43 0 5,71
C 10,32 0,29 7,88
D 15 0 7,5
43,30 0,65 26,91 70,86

Sumando, se obtiene el valor del estadístico 70,86.

5º Como la edad presenta tres intervalos y los partidos son cuatro, el estadístico tendrá
(3 - 1)·(4 -1 ) = 6. Buscamos en las tablas de la distribución Ji-cuadrado con 6 grados
de libertad el valor de la variable que deja por debajo una probabilidad de 0,9
encontramos que el valor crítico es 10,64.

6º Como el valor del estadístico es mayor que el valor crítico rechazamos la hipótesis
nula de que ambas variables son independientes.

7º La edad cambia la intención de voto.

3.- Los tiempos de respuesta de 9 sujetos en una tarea de reconocimiento de palabras,


previamente presentadas, han sido los siguientes:

115, 98, 123, 109, 112, 87, 118, 104, 116

A un nivel de confianza del 95% ¿Son compatibles estos resultados con la hipótesis de
que el tiempo de reacción en esta tarea sigue una distribución Normal de media 110 y
desviación típica 10?

Solución:

1º La hipótesis nula es que los datos proceden de una Normal (110, 10).

2º La hipótesis alternativa es que no siguen esa distribución Normal.

3º Como la variable es continua, y la hipótesis nula especifica totalmente la distribución


utilizaremos el test de Kolmogoroff-Smirnoff, cuyo estadístico de contraste es:
max | Fn (xi ) - Mn (xi) |

4º los cálculos del estadístico se especifican en la siguiente tabla:

xi 87 98 104 109 112 115 116 118 123


zi -2,3 -1,2 -0,6 -0,1 0,2 0,5 0,6 0,8 1,3
Fn 0,0107 0,1151 0,2743 0,4602 0,5793 0,6915 0,7257 0,7881 0,9032
Mn 0,1111 0,2222 0,3333 0,4444 0,5556 0,6667 0,7778 0,8889 1
|Fn -Mn | 0,1004 0,1071 0,059 0,0158 0,0237 0,0248 0,0521 0,1008 0,0968

5º Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor crítico para
un nivel de confianza del 95% se obtiene 0,43001.
4 Problemas de Análisis de datos. José M. Salinas

6º Como el valor del estadístico 0,1071 es menor que el valor crítico se acepta la
hipótesis nula.

7º A un nivel de confianza del 95% no hay evidencia en contra de que el tiempo de


reacción siga una distribución N(110, 10).

4.- En la encuesta telefónica realizada el pasado curso por los alumnos los resultados
fueron muy dispares, mientras algunos realizaron las cuatro entrevistas programadas
otros no consiguieron cumplimentar ninguna de ellas. La distribución del número de
entrevistas conseguidas por los 57 alumnos que participaron en el proyecto fue la
siguiente:

Nº entrevistas Nº alumnos
0 6
1 16
2 24
3 9
4 2
Total 57

A un nivel de confianza del 90% ¿Puede afirmarse que estas diferencias han sido
debidas al azar? O por el contrario están motivadas por alguna otra causa.

1º La hipótesis nula de que los resultados obtenidos son debidos al azar implica que en
todas las llamadas hay la misma probabilidad de conseguir respuesta y que el resultado
de cada llamada es independiente de las restantes. Entonces el número de entrevistas
conseguidas por cada alumno es la suma de cuatro variables de Bernouilli y por
consiguiente, la distribución sería una Binomial con n = 4 y P desconocida.

2º La hipótesis alternativa es que no siguen esa distribución Binomial.

3º Como la variable es discreta y además la hipótesis nula no especifica totalmente la


distribución utilizaremos el test Ji-cuadrado de bondad de ajuste.

4º Para calcular el valor del estadístico necesitamos las probabilidades de los valores,
para ello es preciso estimar previamente el valor de P a partir de los datos de la muestra.

El total de llamadas ha sido 57·4 = 228.


Las llamadas con éxito han sido 1·16 + 2·24 + 3·9 + 4·2 = 99.
La proporción es 99/228 = 0,4342.
Las probabilidades aplicando la función de probabilidad de la distribución Binomial
serán:

 4
Pr( x = 0) =   0,4342 0 ·0,56584 = 0,1025
 0

 4
Pr( x = 1) =   0,43421 ·0,56583 = 0,3146
1 
Tema 12. Contrastes No Paramétricos. 5

4
Pr( x = 2) =   0,4342 2 ·0,5658 2 = 0,3621
2

4
Pr( x = 3) =   0,4342 3 ·0,56581 = 0,1853
3

4
Pr( x = 4) =   0,4342 4 ·0,56580 = 0,0355
4
El resto de los cálculos necesarios para obtener el valor del estadístico aparecen
ordenados en la tabla siguiente:

xi ni pi npi ni-np i (ni-np i)2 (ni-np i)2 /np i


0 6 0,1025 5,84 0,16 0,03 0,005
1 16 0,3146 17,93 -1,93 3,72 0,207
2 24 0,3621 20,64 3,36 11,29 0,547
3 9 0,1853 10,56 -1,56 2,43 0,230
4 2 0,0355 2,02 -0,02 0 0
57 0,989

5º El estadístico tiene 5 sumandos, pero como hemos estimado un parámetro, debemos


buscar en las tablas de la Ji-cuadrado con 3 grados de libertad. El valor de la variable
que deja por debajo una probabilidad de 0,9 es 6,25.

6º Como el valor del estadístico 0,989 es menor que el valor crítico, 6,25 se acepta la
hipótesis nula.

7º Los resultados obtenidos por los alumnos pueden ser fruto del azar.
Tema13. Regresión. 1

Problemas resueltos. Tema 13

1- En una tarea de clasificación de patrones que constaba de 10 láminas se obtuvieron los


siguientes datos de las diferencias de las distancias logarítmicas del estímulo a clasificar con
respecto a los prototipos de las dos clases en que podía ser encuadrado y del número de
errores cometidos por los sujetos:

Lámina 1 2 3 4 5 6 7 8 9 10
Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95
Nº errores 12 10 4 2 6 5 16 3 4 8

a) Calcule el coeficiente de correlación de Pearson e interprete el resultado.


b) Determine la recta de regresión que permite predecir el número de errores en función de la
diferencia entre las distancias.
c) De acuerdo con el modelo anterior, indique cual tiene que ser la diferencia para que no
haya errores.

Solución:

a) Comenzamos calculando media, varianza y desviación típica de ambas variables

Dl = 1,082 SDl = 0 ,256 S Dl = 0,506


2

E = 7 S E = 18 S E = 4 ,243
2

Calculamos la covarianza

S EDl = ∑ E ⋅ Dl − E ⋅ Dl = 5, 794 − 7 ,574 = −1, 78


n

El coeficiente de correlación será:

S EDl −1,78
r = = = −0 ,829
S E ⋅ S Dl 4 , 243 ⋅ 0 ,506

El signo negativo del coeficiente de correlación nos indica que la relación entre ambas
variables es inversa, es decir que al aumentar la distancia disminuye el número de errores. El
valor absoluto nos indica que la relación lineal entre distancia y número de errores es bastante
alta, por consiguiente las variaciones en el número de errores en esta tarea se pueden explicar
y predecir en gran medida, por la diferencia de las distancias de los estímulos a clasificar.

b) Para determinar la recta de regresión E = a·Dl + b calculamos los valores de los


coeficientes a y b mediante las expresiones obtenidas por el método de mínimos cuadrados:
SEDl −1, 78
a = 2
= = −6 ,953
S Dl 0, 256
2 Problemas de Análisis de datos. José M. Salinas

b = E − aDl = 7 + 6, 953 ⋅1,082 = 14 ,523

Luego la recta será E = -6,953·Dl + 14,253

c) Haciendo cero el número de errores en la expresión anterior tenemos:


0 = -6,953·Dl + 14,503, despejando obtenemos Dl = -14,503/-6,953 = 2,089
Téngase en cuenta que no se trata de predecir la distancia en función del número de errores,
sino de buscar en que punto corta la recta de regresión el eje de abscisas. Es decir para que
valor de la distancia se hace cero E.

2- En el mismo trabajo del problema anterior, se calculó también la diferencia de las distancias
euclídeas del patrón a clasificar con respecto a los prototipos de ambas clases, obteniéndose
el siguiente resultado:

Lámina 1 2 3 4 5 6 7 8 9 10
Diferencia 9,98 9,97 9,93 9,92 9,99 9,99 9,93 9,93 9,97 8,00

Indique que distancia le parece mas adecuada para expresar la dificultad de la tarea y porqué.

Solución:

Calculamos la media, varianza y desviación típica de las diferencias de distancias euclídeas:


De = 9 , 761 S De
2
= 0, 345 S De = 0,588

Calculamos la covarianza entre el número de errores y esta distancia

S EDe = ∑ E ⋅ De − E ⋅ De = 68 ,146 − 68, 327 = −0 ,181


n

Por consiguiente el coeficiente de correlación de Pearson entre el número de errores y la


diferencia de las distancias euclídeas valdrá:

SEDe −0,181
r = = = −0 ,073
S E ⋅ S De 4 , 243 ⋅ 0 ,588

Comparando ambos coeficientes de correlación se ve que la diferencia de distancias


logarítmicas explica mucho mejor el número de errores que la diferencia de distancias
euclídeas.
Tema13. Regresión. 3

3- Se ha medido la motivación ante el estudio a 38 sujetos, antes y después de participar en


un programa de innovación didáctica. Obteniéndose los siguientes datos:

Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13
Pre-prueba 55 49 37 40 50 45 35 38 28 56 41 44 44
Post-prueba 65 53 57 51 66 60 51 53 62 57 58 51 48

Sujeto 14 15 16 17 18 19 20 21 22 23 24 25 26
Pre-prueba 38 56 58 38 46 57 45 58 57 62 63 46 60
Post-prueba 48 48 64 67 48 61 59 69 64 69 62 60 61

Sujeto 27 28 29 30 31 32 33 34 35 36 37 38
Pre-prueba 54 56 66 48 46 60 55 57 51 43 56 52
Post-prueba 68 61 55 56 58 65 68 58 49 66 62 65

a) Calcule la recta de regresión que permite predecir los resultados de la post-prueba en


función de las puntuaciones en la pre-prueba y descomponga la varianza total de las
puntuaciones en la post-prueba en dos componentes.
b) Calcule para cada individuo la diferencia entre el valor pronosticado por la recta obtenida
en el apartado a y el valor observado.
c) Calcule la media y varianza de las diferencias obtenidas en el apartado anterior y compare
los resultados con lo obtenido en el apartado a.
d) Calcule la recta de regresión que permite deducir las puntuaciones en la pre-prueba a partir
del resultado obtenido por los sujetos en la post-prueba.

Solución:

a) Calculamos los estadísticos básicos de ambas puntuaciones:

Pr = 49 , 737 S Pr
2
= 78 ,194 S Pr = 8 ,843
Po = 59 , 026 S Po = 42 , 289 S Po = 6 ,503
2

S Pr Po = ∑ Pr⋅ Po − Pr ⋅ Po = 2956 ,71 − 2935, 776 = 20, 934


n

Por consiguiente los coeficientes de la recta Po = a·Pr + b valdrán:

20 ,934
a = = 0, 268 b = 59 ,026 − 0 ,268 ⋅ 49 , 737 = 45, 696
78,194

Por consiguiente la recta de regresión pedida, tendrá de ecuación:

Po = 0,268·Pr + 45,696

y la varianza de las predicciones será:


4 Problemas de Análisis de datos. José M. Salinas

S P2ˆo = a 2 ⋅ S P2 r = 0,268 2 ⋅ 78,194 = 5,616

Por consiguiente, la varianza de los residuos será:

S r2 = − S P2ˆ o = 42,289 − 5,616 = 36,673


2
S Po

b) Sustituyendo las puntuaciones Pre en la recta de regresión, obtenida en el apartado


anterior, calculamos las predicciones para las puntuaciones Post. La diferencia entre la
puntuación Post y esta predicción constituye el residuo. Repitiendo esta operación para todos
los sujetos obtenemos los siguientes datos:

Sujeto 1 2 3 4 5 6 7 8
Predicción 60,436 58,828 55,612 56,416 59,096 57,756 55,076 55,88
Residuo 4,564 -5,828 1,388 -5,416 6,904 2,244 -4,076 -2,88

Sujeto 9 10 11 12 13 14 15 16
Predicción 53,2 60,704 56,684 57,488 57,488 55,88 60,704 61,24
Residuo 8,8 -3,704 1,316 -6,488 -9,488 -7,88 -12,704 2,76

Sujeto 17 18 19 20 21 22 23 24
Predicción 55,88 58,024 60,972 57,756 61,24 60,972 62,312 62,58
Residuo 11,12 -10,024 0,028 1,244 7,76 3,028 6,688 -0,58

Sujeto 25 26 27 28 29 30 31 32
Predicción 58,024 61,776 60,168 60,704 63,384 58,56 58,024 61,776
Residuo 1,976 -0,776 7,832 0,296 -8,384 -2,56 -0,024 3,224

Sujeto 33 34 35 36 37 38
Predicción 60,436 60,972 59,364 57,22 60,704 59,632
Residuo 7,564 -2,972 -10,364 8,78 1.296 5,368

c) Calculando la media y varianza de los residuos obtenemos que la media es 0,0008 y la


varianza 36,687. Como vemos la media de los residuos es prácticamente nula y la varianza
coincide con la que habíamos deducido teóricamente.

d) Tenemos que calcular los coeficientes de la ecuación Pre = a'·Post + b que serán:

S Pr Po 20 ,934
a′ = 2
= = 0, 495
S Po 42 ,289

b′ = Pr − a ′ ⋅ Po = 49 ,737 − 0, 495 ⋅ 59 ,026 = 20 ,519

Con lo cual la ecuación resulta ser Pre = 0,495·Post + 20,519


Tema 14 Análisis de Varianza. 1

Problemas resueltos. Tema 14 Análisis de Varianza

1.- Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan
con métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el
segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio
con pesas y se ejercita en el pedaleo de alta frecuencia. Después de un mes de
entrenamiento se realiza un test de rendimiento consistente en un recorrido
cronometrado de 9 Km. Los tiempos empleados fueron los siguientes:

Método I Método II Método III


15 14 13
16 13 12
14 15 11
15 16 14
17 14 11

A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen
resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:

Metd. I Metd. II Metd. III Total Sum2 /n


Suma 77 72 61 210 2940
Sum2 /n 1185,8 1036,8 744,2 2966,8

A continuación calculamos los cuadrados de las observaciones y su total:

Metd. I Metd. II Metd. III


225 196 169
256 169 144
196 225 121
225 256 196
289 196 121
1191 1042 751 2984

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:

SC(total) = 2984 - 2940 = 44


SC(intra) = 2984 – 2966,8 = 17,2
SC(entre) = 2966,8 – 2940 = 26,8

Los cuadrados medios serán:

CM(entre) = 26,8/2 = 13,4


CM(intra) = 17,2/12 = 1,43

Por consiguiente el estadístico de contraste vale:


2 Problemas de Análisis de Datos. José María Salinas

F = 13,4/ 1,43 = 9,37

El valor de la F teórica con 2 y 12 grados de libertad, a un nivel de confianza del 95% es


3,89. Por consiguiente se rechaza la hipótesis nula y se concluye que los tres métodos de
entrenamiento producen diferencias significativas.

2.- Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatro
procedimientos diferentes, asignados al azar a un grupo de sujetos. Posteriormente se
les realiza una prueba de recuerdo de dichas palabras, obteniéndose los siguientes
resultados:

Procdmt. I Procdmt. II Procdmt. III Procdmt. IV


5 9 8 1
7 11 6 3
6 8 9 4
3 7 5 5
9 7 7 1
7 4 4
4 4
2

¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación, con un
nivel de significación del 5%?

Solución:

Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:

Proc. I Proc. II Proc. III Proc. IV Total Sum2 /n


Suma 43 42 43 18 146 819,8
Sum2 /n 231,1 352,8 264,1 54 902

A continuación calculamos los cuadrados de las observaciones y su total:

Procdmt. I Procdmt. II Procdmt. III Procdmt. IV


25 81 64 1
49 121 36 9
36 64 81 16
9 49 25 25
81 49 49 1
49 16 16
16 16
4
269 364 287 68 988

A partir de estas cantidades básicas calculamos las Sumas de Cuadrados:


Tema 14 Análisis de Varianza. 3

SC(total) = 988 – 819,8 = 168,2


SC(intra) = 988 – 902 = 86
SC(entre) = 902 – 819,8 = 82,2

Los cuadrados medios serán:

CM(entre) = 82,2/3 = 27,4


CM(intra) = 86/22 = 3,9

Por consiguiente el estadístico de contraste vale:

F = 27,4/ 3,9 = 7,03

El valor de la F teórica con 3 y 22 grados de libertad, a un nivel de confianza del 95% es


3,05. Por consiguiente se rechaza la hipótesis nula y se concluye que los cuatro
procedimientos de presentación producen diferencias significativas.

También podría gustarte