Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Documents - MX Problemas de Analisis de Datos Salinas Jose M
Documents - MX Problemas de Analisis de Datos Salinas Jose M
Solución.
Solución
a) Con la misma convención del problema anterior, los sucesos elementales serían:
b) El Suceso responder falso a una sola pregunta será el subconjunto del espacio
muestral formado por todos los sucesos elementales en que solo hay una respuesta
falso, lo llamaremos A y será:
3- Una rata es colocada en una caja con tres pulsadores de colores rojo, azul y blanco. Si
pulsa dos veces las palancas al azar:
a) ¿Cuál es la probabilidad de que las dos veces pulse la roja?
b) ¿Cuál es la probabilidad de que pulse la primera vez o la segunda o ambas la tecla
azul?
Solución
a) Para que las dos veces pulse la roja tiene que ocurrir que la primera vez pulse la roja
y la segunda también pulse la roja, es decir que se verifique el suceso (R1 ∩ R2).
Ahora bien , como ambos sucesos son independientes, la probabilidad de la
intersección es igual al producto de las probabilidades de ambos sucesos. La
probabilidad de estos sucesos se determina mediante la regla de Laplace de casos
favorables (uno), partido por casos posibles (tres)
P(A1 ∪ A2) = P(A1) + P(A2) – P(A1 ∩ A2) = 1/3 + 1/3 – 1/9 = 5/9
4- Como todo el mundo sabe, la probabilidad de que en una ruleta salga 10 veces
seguidas el color rojo es muy pequeña. Habiendo salido 9 veces seguidas el rojo, un
jugador apuesta al negro ¿Qué probabilidad tiene de ganar?
Solución
Para que el jugador gane tiene que ocurrir la secuencia R1, R2, ..., R9, N10. Como
sabemos ya se ha producido R1, R2, ..., R9. La probabilidad que buscamos será la
probabilidad de que salga negro en el décimo lanzamiento, condicionada por que haya
salido rojo en las nueve anteriores. Por la definición de probabilidad condicionada:
P (N 10 I R1 I R 2 I ... I R9 ) 0,510
P( N10 / R1 I R 2 I ... I R9 ) = = = 0,5
P(R1 I R2 I ... I R9 ) 0,59
Como vemos el hecho de que previamente haya salido nueve veces rojo no cambia la
probabilidad de que salga la décima vez. Esto es así porque cada lanzamiento es
independiente de los restantes. (Nota. En realidad la probabilidad de que salga rojo o negro en una
ruleta no es exactamente 0,5, sino 18/37 ya que además de los 18 números rojos y los 18 negros, existe el
Tema 1. Probabilidad. 3
cero que no tiene asignado color, pero este dato no cambia el razonamiento hecho y el resultado sería
18/37)
5- En una asignatura se ha decidido aprobar a aquellos que superen uno de los dos
parciales. Con este criterio aprobó el 80%, sabiendo que el primer parcial lo superó el
60% y el segundo el 50% ¿Cuál hubiese sido el porcentaje de aprobados, si se hubiese
exigido superar ambos parciales?
Solución
Sea A1 el suceso aprobar el primer parcial y A2 aprobar el segundo. Los datos del
problema nos dicen que:
Despejando tenemos:
Solución
Sea V1 el suceso de resolver la primera versión y V2 resolver la segunda. Los datos del
problema nos indican que:
Sustituyendo
4 Problemas de Análisis de Datos. José M. Salinas
Solución
Entonces el teorema de Bayes, escrito en los términos de este problema nos dice que:
P( Gl + / D) ⋅ P( D)
P( D / Gl +) = ~ ~
P(Gl + / D ) ⋅ P( D ) + P (Gl + / D) ⋅ P ( D)
2.1- Calcule y escriba en una tabla la distribución de la variable aleatoria suma de los números
que aparecen al lanzar dos dados.
Solución.
A continuación presentamos todos los sucesos que pueden ocurrir al lanzar dos dados
y el valor que para cada uno de estos sucesos tiene la variable suma:
X 2 3 4 5 6 7 8 9 10 11 12
P 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36
2.2- Un jugador afirma que al lanzar dos dados es igual de probable obtener un seis que un
siete, ya que hay el mismo número de resultados a favor de un resultado que de otro. Cinco y
uno, cuatro y dos, tres y tres, para el seis y seis y uno, cinco y dos, cuatro y tres, para el siete.
¿Es cierta esta afirmación? Razone la respuesta.
Solución.
No, en realidad los sucesos que dan origen a que la suma valga 6 son: (1,5) (2,4)
(3,3) (4,2) (5,1) por tanto la probabilidad será 5/36, mientras que los sucesos que hacen que
la suma sea 7 son (1,6) (2,5) (3,4) (4,3) (5,2) (6,1) y en consecuencia esta probabilidad
será 6/36.
2.3- Para estudiar si las ratas tienen visión cromática, en una caja que cuenta con tres
palancas se marca en rojo aquella que al pulsarla proporciona alimento. En cada prueba la
posición de este pulsador se cambia aleatoriamente. Se somete una rata a cuatro pruebas.
¿Cual sería la distribución de la variable aleatoria número de pulsaciones que consiguen
alimento, si la rata no distinguiera el rojo y pulsase al azar?
Solución.
( R , R , R , R ) U( R , R, R , R ) U( R , R , R, R ) U( R , R , R , R)
( R , R , R , R ) U( R, R , R , R ) U( R, R , R , R ) U( R , R, R, R ) U( R , R, R , R) U( R , R , R, R)
( R , R, R, R ) U( R, R, R , R) U( R, R , R, R) U( R , R , R , R)
X 0 1 2 3 4
P 16/81 32/81 24/81 8/81 1/81
2.4- Un jugador de Rol, en una partida de Dungeons and Dragons, para salvarse de un
conjuro de Raistlin, necesita sacar un 18 en el lanzamiento de los dados. El Dungeon Master
le ofrece lanzar tres dados de seis caras o uno de diez junto con uno de ocho. ¿En cual de
estas dos alternativas es más probable obtener un 18 y salvarse del conjuro? Explique su
respuesta ¿Sería la respuesta la misma si hubiese que sacar 17 o más para evitar el conjuro?
Solución.
Para sacar 18 con tres dados de seis caras tiene que ocurrir el suceso (6, 6, 6) que
tiene una probabilidad 1/6 · 1/6 · 1/6 = 1/216.
Para obtener 18 con un dado de diez caras y otro de ocho tiene que ocurrir el suceso
(10, 8) cuya probabilidad es 1/10 · 1/8 = 1/80. Obviamente esta probabilidad es mayor que
la anterior.
Para obtener 17 o más con los tres dados tiene que ocurrir el suceso:
Tema 2. Variables aleatorias. 7
Para conseguir el mismo resultado con los dos dados tiene que ocurrir:
(10, 7) ∪ (9, 8) ∪ (10, 8) que tiene una probabilidad de 3/80 que también sería mayor que
con los tres dados.
2.5- Tenemos una urna con dos bolas blancas, tres verdes y cinco rojas. Extraemos al azar
dos bolas simultáneamente. Recibimos 200 pesetas si las dos bolas son blancas, 100 si las
dos son verdes y 10 si una es roja y la otra verde, en los demás casos no recibimos nada.
¿Cual es el valor esperado de los premios?
Solución.
P((R1 ∩ V2) ∪ (V1 ∩ R2)) = P(R1 ∩ V2) + P(V1 ∩ R2) = 5/10 · 3/9 + 3/10 · 5/9 =
15/90 + 15/90 = 1/3
2.6- En el punto de partida de un laberinto hay tres orificios iguales A, B y C. Si la rata elige
A vuelve al punto de partida después de recorrer dos metros. Si elige B recorre cinco metros
y vuelve al mismo punto. Si elige C sale al exterior recorriendo un metro. ¿Por término medio
que distancia recorre una rata antes de salir, si siempre elige un orificio distinto de los
seleccionados en veces anteriores?
Solución.
Los itinerarios que pueden darse con las distancias recorridas en cada caso, son (A,
B, C) 8, (B, A, C) 8, (A, C) 3, (B, C) 6, (C) 1, y sus probabilidades serían:
Solución.
8
Pr(ξ = 4 ) = ⋅ 0,54 ⋅ 0,5 4 =
70
= 0,273
4 256
8
Pr(ξ = 0) = ⋅ 0,50 ⋅ 0,58 =
1
= 0,004
0 256
8
Pr( ξ = 1) = ⋅ 0,51 ⋅ 0,57 =
8
= 0,031
1 256
8
Pr(ξ = 2 ) = ⋅ 0,52 ⋅ 0,5 6 =
28
= 0,109
2 256
8
Pr( ξ = 3) = ⋅ 0,53 ⋅ 0,55 =
56
= 0,219
3 256
en consecuencia
3.2- En una población en la que hay un 40% de hombres y un 60% de mujeres seleccionamos
4 individuos ¿Cual es la probabilidad de que haya 2 hombres y 2 mujeres? ¿Cual es la
probabilidad de que haya más mujeres que hombres?
10 Problemas de Análisis de Datos. José M. Salinas
Solución.
4
Pr( ξ = 2) = ⋅ 0,4 2 ⋅ 0,62 = 6 ⋅ 0,16 ⋅ 0,36 = 0,3456
2
Para que haya más mujeres que hombres en la muestra, el número de estos tiene que
ser menor que 2, luego la probabilidad será:
4 4
Pr( ξ < 2) = Pr (ξ = 0) + Pr (ξ = 1) = ⋅ 0,4 0 ⋅ 0,6 4 + ⋅ 0,4 1 ⋅ 0,6 3 = 0,4752
0 1
3.3- Sabiendo que la variable Z sigue una distribución Normal cero, uno, calcule las siguientes
Probabilidades:
P(Z ≤ 0,93) P(Z ≤ 1,68) P(Z ≤ -2,27) P(Z ≤ -0,27)
P(Z > 0,62) P(Z > 2,05) P(Z > -1,07) P(Z > -3,39)
P(0,56 < Z ≤ 2,80) P(-2,81 < Z ≤ -0,33) P(-0,85 < Z ≤ 0,72)
Solución.
Para resolver los ejercicios de la segunda fila se recurre a calcular la probabilidad del
suceso contrario:
P(Z > 2,05) = 0,0202 P(Z > -1,07) = 0,8577 P(Z > -3,39) = 0,9996
En la tercera fila se pide calcular la probabilidad de una serie de intervalos, para ello
debe recordarse que la probabilidad de un intervalo es igual al valor de la Función de
Distribución para el extremo superior menos el valor de la Función de Distribución para el
extremo inferior, es decir:
P(0,56 < Z ≤ 2,80) = P(Z ≤ 2,80) - P(Z ≤ 0,56) = 0,9974 - 0,7123 = 0,2851
Terma 3. Distribuciones. 11
P(-2,81 < Z ≤ -0,33) = 0,3707 - 0,0025 = 0,3682 P(-0,85 < Z ≤ 0,72) = 0,5665
3.4- Siendo Z una N(0,1), calcule los valores de la variable que verifican las siguientes
condiciones:
P(Z ≤ z) = 0,70 P(Z ≤ z) = 0,90 P(Z ≤ z) = 0,35 P(Z ≤ z) = 0,05
P(Z > z) = 0,25 P(Z > z) = 0,05 P(Z > z) = 0,85 P(Z > z) = 0,69
P(-z < Z ≤ z) = 0,90 P(-z < Z ≤ z) = 0,60
Solución.
P(Z > z) = 0,05 ⇒ z ≈ 1,64 P(Z > z) = 0,85 ⇒ z ≈ -1,04 P(Z > z) = 0,69 ⇒ z ≈ -0,5
3.5- Partiendo de que X es una variable que sigue una distribución Normal de media 50 y
desviación típica 4, calcule las siguientes probabilidades:
P(X ≤ 55) P(X ≤ 59) P(X ≤ 47,5) P(X ≤ 45,6)
P(X > 60,4) P(X > 58,64) P(X > 48,2) P(X > 46,26)
P(52 < X ≤ 54) P(44,5 < X ≤ 49) P(47,25 < X ≤ 53,48)
Solución.
55 − 50
P( X ≤ 55) = P Z ≤ = P( Z ≤ 1,25) = 0,8944
4
análogamente:
12 Problemas de Análisis de Datos. José M. Salinas
Para los ejercicios de la segunda fila vuelve a utilizarse las propiedades del suceso
contrario:
60,4 − 50
P( X > 60,4) = P Z > = P( Z > 2,6) = 1 − P( Z ≤ 2,6) = 0,0047
4
de forma semejante:
P(X > 58,64) = 0,0154 P(X > 48,2) = 0,6736 P(X > 46,26) = 0,8264
54 − 50 52 − 50
P( 52 < X ≤ 54) = P( X ≤ 54) − P( X ≤ 52) = P Z ≤ − P Z ≤
4 4
similarmente
3.6- La variable aleatoria Y sigue una distribución Normal de media 2,55 y desviación típica
0,36. Halle los valores de la variable que cumplen las siguientes condiciones:
P(Y ≤ y) = 0,54 P(Y ≤ y) = 0,95 P(Y ≤ y) = 0,42 P(Y ≤ y) = 0,1
P(Y > y) = 0,38 P(Y > y) = 0,05 P(Y > y) = 0,54 P(Y > y) = 0,01
P(a < Y ≤ b) = 0,80 P(a < Y ≤ b) = 0,95
Solución.
y − 2 ,55
P(Y ≤ y ) = 0,54 ⇒ P Z ≤ = 0,54
0,36
y − 2,55
P( Z ≤ 0,1) ≈ 0,54 ⇒ = 0,1 ⇒ y = 2 ,55 + 0,36 ⋅ 0,1 = 2 ,586
0,36
de manera semejante:
y − 2,55
P(Y > y ) = 0,38 ⇒ P(Y ≤ y ) = 0,62 ⇒ P Z ≤ = 0,62
0,36
y − 2,55
P( Z ≤ 0,31) ≈ 0,62 ⇒ = 0,31 ⇒ y = 2,55 + 0,36 ⋅ 0,31 = 2,6616
0,36
análogamente:
a − 2,55 a − 2,55
P Z ≤ = 0,1 P( Z ≤ −1,28) = 0,1 ⇒ = −1,28 ⇒ a = 2 ,0892
0,36 0,36
b − 2,55 b − 2 ,55
P Z ≤ = 0,9 P( Z ≤ 1,28) = 0,9 ⇒ = 1,28 ⇒ b = 3,0108
0,36 0,36
3.7- Las calificaciones en un examen siguen una distribución Normal de media 5,6 y
desviación típica 0,8.
a) ¿Qué proporción de alumnos tendrá puntuaciones inferiores o iguales a 4?
b) ¿Qué proporción de alumnos aprobará?
c) ¿Qué proporción de alumnos obtendrá Notable o Sobresaliente?
Solución.
4 − 5,6
a) Pr( X ≤ 4) = Pr Z ≤ = Pr ( Z ≤ −2) = 0,0228
0,8
5 − 5,6
b) Pr( X > 5) = Pr Z > = 1 − Pr( Z ≤ −0,75) = 1 − 0,2266 = 0,7734
0,8
7 − 5,6
c) Pr( X > 7) = Pr Z > = 1 − Pr ( Z ≤ 1,75) = 1 − 0,9599 = 0,0401
0,8
3.8- Las puntuaciones en un test de ansiedad-rasgo siguen, en una población de mujeres, una
distribución Normal de media 25 y desviación Típica 10. Si queremos clasificar la población
en cuatro grupos de igual tamaño ¿Cuales serán las puntuaciones que delimiten estos grupos?
Solución.
14 Problemas de Análisis de Datos. José M. Salinas
Las puntuaciones que delimitan estos cuatro grupos serán el primer, segundo y tercer
cuartil de la distribución
Q − 25
Pr( X ≤ Q1 ) = 0,25 ⇒ Pr Z ≤ 1 = 0,25
10
buscando en las tablas de la Normal cero, uno el valor de la variable que deja por debajo de
si una probabilidad de 0,25 tenemos:
Q1 − 25
Pr( Z ≤ −0,67) = 0,25 luego = −0 ,67
10
Q2 = 25
Q − 25
Pr( X ≤ Q3 ) = 0,75 ⇒ Pr Z ≤ 3 = 0,75
10
buscando en las tablas
Q3 − 25
Pr( Z ≤ 0,67) = 0,75 luego = 0 ,67
10
despejando
Q3 = 25 + 10 ⋅ 0 ,67 = 31,7
Por consiguiente el primer grupo serían los individuos con puntuaciones inferiores o
iguales a 18,3, el segundo aquellos con puntuaciones entre 18,3 y 25, el tercero los sujetos
con puntuaciones entre 25 y 31,7 y el cuarto aquellos que tengan puntuaciones superiores a
31,7.
3.9- Una prueba consta de 200 preguntas de verdadero o falso, para un sujeto que
respondiese al azar ¿Cual sería la probabilidad de que acertase?
a) 50 preguntas o menos.
b) Más de 50 y menos de 100.
c) Más de 120 preguntas.
Solución.
50,5 − 100
Pr(ξ ≤ 50) ≈ Pr ( X ≤ 50,5) = Pr Z ≤ = Pr ( Z ≤ −7) ≈ 0
7,07
120,5 − 100
Pr( ξ > 120) ≈ Pr Z > = 1 − Pr( Z ≤ 2 ,9 ) = 1 − 0,9981 = 0,0019
7 ,07
3.10- En una distribución Binomial con n = 10 y P = 0,8 ¿Qué error se comete al calcular la
probabilidad de que la variable sea igual a 6, mediante la aproximación Normal?
Solución.
10
Pr( ξ = 6) = 0,8 6 ⋅ 0,2 4 = 0,0881
6
Esta distribución Binomial se aproxima por una Normal de media 8 y desviación típica
1,265, luego:
6,5 − 8 5,5 − 8
= Pr Z ≤ − Pr Z ≤ = Pr( Z ≤ −1,18) − Pr( Z ≤ −1,98)
1,265 1,265
1.- Los datos siguientes corresponden a los tiempos de reacción de una muestra de 33
sujetos, medidos en centésimas de segundo:
55, 51, 60, 56, 64, 56, 63, 63, 61, 57, 62, 50, 49, 70, 72, 54, 48, 53, 58, 66, 68, 45, 74,
65, 58, 61, 62, 59, 64, 57, 63, 52, 67.
Solución:
a) Para calcular la media simplemente sumamos todos los valores, lo cual da como
resultado 1963, y dividimos entre el número de observaciones que es 33, con lo cual
obtenemos:
1963
x = = 59,48
33
b) Para calcular la mediana, el primer paso es escribir los valores en orden creciente:
45, 48, 49, 50, 51, 52, 53, 54, 55, 56, 56, 57, 57, 58, 58, 59, 60, 61, 61, 62, 62, 63, 63,
63, 64, 64, 65, 66, 67, 68, 70, 72, 74
El cálculo del primer cuartil es análogo, es la observación que deja una cuarta parte de
las observaciones por debajo y tres cuartas partes por encima, luego en este caso es la
novena observación y por consiguiente el valor del primer cuartil es 55.
2.- Con los datos del problema anterior, construya una tabla estadística de estos datos,
agrupados en 5 intervalos de igual amplitud, calcule la media, y la mediana, compare
estos resultados con los obtenidos en el problema anterior.
Solución:
Tiempos Nº sujetos
45 a 51 4
51 a 57 6
57 a 63 11
63 a 69 9
69 a 75 3
Tiempos ni ci ci ·n i Ni
45 a 51 4 48 192 4
51 a 57 6 54 324 10
57 a 63 11 60 660 21
63 a 69 9 66 594 30
69 a 75 3 72 216 33
33 1986
Mediana:
Comenzamos calculando la mitad del tamaño de la muestra 33/2 = 16,5. A continuación
observamos cuál es la primera frecuencia acumulada que es mayor que 16,5 que resulta
ser 21. Esto nos indica que la Mediana se encuentra en el intervalo de 57 a 63, aplicando
entonces la fórmula que determina la mediana, obtenemos:
(16,5 − 10) ⋅ 6
Me = 57 + = 60,5
11
Las diferencias existentes entre los valores anteriores (exactos) y los valores actuales
(aproximados) son debidas al efecto del agrupamiento de los valores en clases. En este
último caso los cálculos hacen la suposición de que las observaciones están
uniformemente distribuidas dentro de los intervalos, si este supuesto se cumple
exactamente ambos valores coincidirán. Conforme los datos reales se aparten de este
supuesto mayor será la discrepancia entre ambos procedimientos. Como en este caso los
datos se distribuyen de forma bastante uniforme, las discrepancias entre los valores
obtenidos por ambos procedimientos son pequeñas.
Xi ni
0 a 10 8
10 a 20 22
20 a 30 32
30 a 40 44
40 a 50 28
50 a 60 20
60 a 70 6
Solución:
Antes de comenzar a responder los distintos apartados, debemos en primer lugar
calcular las frecuencias acumuladas
Xi ni Ni
0 a 10 8 8
10 a 20 22 30
20 a 30 32 62
30 a 40 44 106
40 a 50 28 134
50 a 60 20 154
60 a 70 6 160
a) Se trata de calcular el primer cuartil que dejará por debajo el 25% inferior, y el
tercer cuartil que dejará por encima el 25% superior. De esta forma entre ambos
valores se encontrará el 50% central. Para calcular el primer cuartil determinamos la
cuata parte del tamaño de la muestra 160/4 = 40. La primera frecuencia acumulada
que supera este valor es 62, por consiguiente el primer cuartil se encuentra en el
intervalo de 20 a 30, aplicamos la fórmula para su determinación:
( 40 − 30) ⋅ 10
Q1 = 20 + = 23,125
32
Las tres cuartas partes del tamaño de la muestra son 120, por tanto el tercer cuartil se
encuentra en el intervalo de 40 a 50 y su valor es:
(120 − 106) ⋅ 10
Q3 = 40 + = 45
28
c) El valor que deja por encima el 12% de los sujetos más hostiles, es el mismo que
deja por debajo el 88% con menores puntuaciones, por tanto debemos calcular el
percentil 88. El 88% del tamaño de la muestra vale 140,8. Aplicando la formula
tenemos:
(140,8 − 134) ⋅ 10
P88 = 50 + = 53,4
20
( 24 − 8) ⋅ 10
P15 = 10 + = 17, 27
22
(136 − 134) ⋅ 10
P85 = 50 + = 51
20
Problemas de Análisis de Datos. José M. Salinas
3, 5, 3, 6, 4, 2, 8, 3, 7, 5, 8, 9, 4, 5, 5, 3
Solución:
Comenzamos calculando la media de la muestra, para ello sumamos los valores de las
observaciones obteniendo 80. Dividiendo por el número de observaciones, 16, tenemos
el valor de la media, 5.
2, 0, 2, 1, 1, 3, 3, 2, 2, 0, 3, 4, 1, 0, 0, 2
26
Dm = = 1,625
16
Para calcular la desviación típica, empezamos calculando los cuadrados de los valores:
9, 25, 9, 36, 16, 4, 64, 9, 49, 25, 64, 81, 16, 25, 25, 9
466
S2 = − 52 = 4,125
16
S = 2,03
Temas 7 y8. Estimadores y sus distribuciones. 1
1- En una población se presenta una alteración leve en una cierta proporción P de los
individuos que la componen. Definimos una variable aleatoria X que vale 1 para los individuos
alterados y 0 para los no alterados.
a) Escriba la distribución poblacional de esta variable aleatoria
b) Si p es la proporción de veces que aparece el valor 1 en muestras aleatorias simples de
tamaño 3. Calcule la distribución en el muestreo de p, suponiendo que P es igual a 0,2.
c) Demuestre que en este caso p es un estimador insesgado de P.
d) Repita los pasos b) y c) de forma general para un valor cualquiera de P.
Solución:
La solución del apartado a) aparece en la siguiente tabla:
xi pi
0 0,8
1 0,2
Para resolver el apartado b) comenzamos con una tabla donde aparecen todas las
posibles muestras de tamaño 3, la probabilidad de estas muestras y el valor de la proporción
muestral en cada una de ellas
p Prob.
0 Q3
1/3 3PQ2
2/3 3P2Q
1 P3
E [ p] = PQ2 + 2 P 2 Q + P 3 = P(Q 2 + 2 PQ + P 2 ) = P( Q + P ) = P
2
2- Una variable aleatoria puede tomar los valores 1, 2 y 3 con probabilidades 0,25 0,5 y 0,25
respectivamente. Si para estimar la media de esta variable aleatoria extraemos muestras
aleatorias simples de tamaño 3 y utilizamos como estimadores la media muestral y la semisuma
de los valores extremos. Queremos confirmar que:
a) Los dos estimadores son insesgados y b) La media muestral es más eficiente
Realice los cálculos necesarios para verificar estos dos puntos.
Solución:
En la siguiente tabla damos todas las muestras posibles de tamaño 3, sus
probabilidades y los valores que tomarían ambos estimadores en esas muestras:
por consiguiente la media es en este caso un estimador más eficiente que la semisuma de los
valores extremos.
Solución:
De acuerdo con el teorema de Fisher:
σ
x → N µ,
n
16
x → N 100,, = N (100,, 3,2)
25
4 Problemas de Análisis de Datos. José M. Salinas
95 − 100
Pr( x ≤ 95) = Pr Z ≤ = Pr( Z ≤ −1,56) = 0,0594
3,2
4- Las puntuaciones obtenidas en la escala de Locus de Control de James por los sujetos
depresivos, siguen una distribución Normal de media 90 y desviación típica 12. Si se extraen
muestras aleatorias simples de 30 sujetos depresivos ¿ Por debajo de que cantidad se
encontrará el 90% de las veces el valor de la varianza de la muestra?
Solución:
En virtud del teorema de Fisher sabemos que:
nS 2
→ χ2n −1
σ2
30 S 2
→ χ229
144
Por consiguiente:
30 S 2 39,09 ⋅ 144
Pr ≤ 39,09 = 0,9 ⇒ Pr S 2 ≤ = 0,9 ⇒ Pr ( S 2 ≤ 187,63) = 0,9
144 30
Solución:
Mediante los cálculos básicos obtenemos que la media muestral vale 505,35 y la desviación
típica 42,54.
Buscando en las tablas de la t de Student con 16 grados de libertad, obtenemos que el valor
que deja por debajo una probabilidad de 0,975 es 2,12
operando
( 482,80 ,, 527,90 )
2- En una muestra de 65 sujetos las puntuaciones en una escala de extroversión tienen una
media de 32,7 puntos y una desviación típica de 12,64.
a) Calcule a partir de estos datos el correspondiente intervalo de confianza, a un nivel del
90%, para la media de la población.
b) Indique, con un nivel de confianza del 95%, cual sería el máximo error que podríamos
cometer al tomar como media de la población el valor obtenido en la estimación puntual.
Solución:
a) Buscando en las tablas de la t de Student obtenemos que el valor que deja por debajo una
probabilidad del 95% es 1,671 (aproximadamente). Sustituyendo los valores de esta muestra
en la expresión del intervalo de confianza obtenemos:
b) En las tablas de la t de Student encontramos que el valor de la variable que deja por
debajo una probabilidad de 0,975 es 2. En consecuencia a un nivel de confianza del 95% la
media de la población puede valer
32,7 ± 2 · 12,64 / 8
luego el máximo error que se puede cometer, a este nivel de confianza, es: 3,16
2 Problemas de Análisis de Datos. José M. Salinas
3- Con los datos del problema 1, calcule a un nivel de confianza del 90% un intervalo de
confianza para la varianza e indique cual sería el máximo error por exceso y por defecto que
podría cometerse utilizando el estimador insesgado de la varianza.
Solución:
En las tablas de la Ji-cuadrado encontramos que el valor que deja por debajo una
probabilidad de 0,05 es 7,96 y que 26,30 deja por debajo una probabilidad de 0,95.
Solución:
En las tablas de la Normal encontramos que el valor de la variable que deja por debajo una
probabilidad de 0,975 es 1,96.
operando
( 0,755 ,, 0,845 )
Temas 10 y 11. Contrastes paramétricos de hipótesis. 1
1- las puntuaciones en un test que mide la variable creatividad siguen, en la población general
de adolescentes, una distribución Normal de media 11,5. En un centro escolar que ha
implantado un programa de estimulación de la creatividad una muestra de 30 alumnos ha
proporcionado las siguientes puntuaciones:
11, 9, 12, 17, 8, 11, 9, 4, 5, 9, 14, 9, 17, 24, 19, 10, 17, 17, 8,
23, 8, 6, 14, 16, 6, 7, 15, 20, 14, 15.
Solución:
1º Ho µ = 11,5
2º H1 µ > 11,5
x − µ0
3º El estadístico de contraste en este caso es: t =
S
n −1
12 , 47 − 11,5
t= = 1, 00
5,22
29
6º El valor del estadístico es menor que el valor crítico, por consiguiente se acepta la
hipótesis nula.
Solución:
1º La hipótesis nula sería que nacen igual número de niños que de niñas, o lo que es lo
mismo que la proporción de niños nacidos es igual 1/2.
2 Problemas de Análisis de datos. José M. Salinas
2º H1 P > 0,5
p − P0
3º El estadístico de contraste es :
P0 ⋅ Q0
n
6º El valor del estadístico 2,66 es mayor que el valor crítico 1,282 por consiguiente, se
rechaza la hipótesis nula.
Solución:
1º Ho ρ = 0
2º H1 ρ ≠ 0
r n−2
3º El estadístico de contraste es: t=
1− r2
4º Sustituyendo tenemos:
0, 24 64
= 1, 98
1 − 0, 0576
por debajo una probabilidad de 0,975 que es 2. Por tanto la región de aceptación será el
intervalo (-2 ,, 2).
Solución:
1º H0 σ2 = 60
2º H1 σ2 > 60
101 ⋅ 80
= 134 ,7
60
6º El valor del estadístico es mayor que el valor crítico, por consiguiente se rechaza la
hipótesis nula.
5- Las notas obtenidas en Análisis de Datos de 5 individuos elegidos al azar del grupo T1 y
de 6 individuos, elegidos también al azar, del grupo T2 son las siguientes:
4 Problemas de Análisis de datos. José M. Salinas
T1 10 6 4 5 4
T2 4 8 6 6 2 3
¿Puede concluirse a un nivel de confianza del 95% que las puntuaciones medias de ambos
grupos son iguales? o por el contrario que hay diferencia entre ambas.
Solución:
1º Ho µ1 = µ2
2º H1 µ1 ≠ µ2
x1 − x 2
t=
n1 S12 + n2 S 22 1 1
+
n1 + n 2 − 2 n1 n2
4º La muestra del grupo T1 tiene una media de 5,8 y una varianza de 4,96. En la muestra
del grupo T2 la media es 4,83 y la varianza 4,14 sustituyendo en el estadístico estos valores
se obtiene:
5,8 − 4,83
t= = 0,68
5 ⋅ 4,96 + 6 ⋅ 4,14 1 1
+
5+6−2 5 6
6º El valor del estadístico es menor que el valor crítico, por consiguiente se acepta la
hipótesis nula.
8 12 14 11 16 6 11 9 10 10 19 12 17 8 13 12
9 16 23 21 17 10 14 8 11 12 19 16 16 13 17 11
A un nivel de confianza del 95%, ¿Podemos rechazar que los rendimientos académicos son
iguales antes que después frente a la alternativa de que se produce una mejora?
Teniendo en cuenta que los sujetos son los mismos en ambas muestras se trata de un contraste
de igualdad de medias con datos emparejados, por consiguiente:
Solución:
1º Ho µd = 0
2º H1 µd > 0
xd
t=
Sd
n −1
Pre 8 12 14 11 16 6 11 9 10 10 19 12 17 8 13 12
Pos 9 16 23 21 17 10 14 8 11 12 19 16 16 13 17 11
Dif. 1 4 9 10 1 4 3 -1 1 2 0 4 -1 5 4 -1
2 , 81
t= = 3, 41
3,19
15
6º El valor del estadístico es mayor que el valor crítico, por consiguiente se rechaza la
hipótesis nula.
1.- En una partida de Rol se lanza 200 veces un dado de cuatro caras obteniéndose 60
veces el número 1, 45 veces el número 2, 38 veces el número 3 y 57 veces el número 4.
Se puede aceptar, a un nivel de confianza del 95%, que estos resultados corresponden a
un dado homogéneo.
Solución:
1º La hipótesis nula será que el dado es homogéneo, esto implica que la distribución de
los números es uniforme, es decir que los cuatro números tienen una probabilidad de
aparecer de 0,25.
6º Como el valor del estadístico es inferior al valor crítico, aceptamos la hipótesis nula.
7º Estos resultados son compatibles con el hecho de que el dado sea homogéneo.
Edad
Partido 18 – 35 35 – 50 50 o más
A 10 40 60
B 15 70 90
C 45 60 35
D 30 30 15
Solución:
Edad
Partido 18 – 35 35 – 50 50 o más
A 10 40 60 110
B 15 70 90 175
C 45 60 35 140
D 30 30 15 75
100 200 200 500
Edad
Partido 18 – 35 35 – 50 50 o más
A 22 44 44
B 35 70 70
C 28 56 56
D 15 30 30
Edad
Partido 18 – 35 35 – 50 50 o más
A -12 -4 16
B -20 0 20
C 17 4 -21
D 15 0 -15
Edad
Partido 18 – 35 35 – 50 50 o más
A 144 16 256
B 400 0 400
C 289 16 441
D 225 0 225
Edad
Partido 18 – 35 35 – 50 50 o más
A 6,55 0,36 5,82
B 11,43 0 5,71
C 10,32 0,29 7,88
D 15 0 7,5
43,30 0,65 26,91 70,86
5º Como la edad presenta tres intervalos y los partidos son cuatro, el estadístico tendrá
(3 - 1)·(4 -1 ) = 6. Buscamos en las tablas de la distribución Ji-cuadrado con 6 grados
de libertad el valor de la variable que deja por debajo una probabilidad de 0,9
encontramos que el valor crítico es 10,64.
6º Como el valor del estadístico es mayor que el valor crítico rechazamos la hipótesis
nula de que ambas variables son independientes.
A un nivel de confianza del 95% ¿Son compatibles estos resultados con la hipótesis de
que el tiempo de reacción en esta tarea sigue una distribución Normal de media 110 y
desviación típica 10?
Solución:
1º La hipótesis nula es que los datos proceden de una Normal (110, 10).
5º Buscando en las tablas del test Kolmogoroff-Smirnoff para n = 9 el valor crítico para
un nivel de confianza del 95% se obtiene 0,43001.
4 Problemas de Análisis de datos. José M. Salinas
6º Como el valor del estadístico 0,1071 es menor que el valor crítico se acepta la
hipótesis nula.
4.- En la encuesta telefónica realizada el pasado curso por los alumnos los resultados
fueron muy dispares, mientras algunos realizaron las cuatro entrevistas programadas
otros no consiguieron cumplimentar ninguna de ellas. La distribución del número de
entrevistas conseguidas por los 57 alumnos que participaron en el proyecto fue la
siguiente:
Nº entrevistas Nº alumnos
0 6
1 16
2 24
3 9
4 2
Total 57
A un nivel de confianza del 90% ¿Puede afirmarse que estas diferencias han sido
debidas al azar? O por el contrario están motivadas por alguna otra causa.
1º La hipótesis nula de que los resultados obtenidos son debidos al azar implica que en
todas las llamadas hay la misma probabilidad de conseguir respuesta y que el resultado
de cada llamada es independiente de las restantes. Entonces el número de entrevistas
conseguidas por cada alumno es la suma de cuatro variables de Bernouilli y por
consiguiente, la distribución sería una Binomial con n = 4 y P desconocida.
4º Para calcular el valor del estadístico necesitamos las probabilidades de los valores,
para ello es preciso estimar previamente el valor de P a partir de los datos de la muestra.
4
Pr( x = 0) = 0,4342 0 ·0,56584 = 0,1025
0
4
Pr( x = 1) = 0,43421 ·0,56583 = 0,3146
1
Tema 12. Contrastes No Paramétricos. 5
4
Pr( x = 2) = 0,4342 2 ·0,5658 2 = 0,3621
2
4
Pr( x = 3) = 0,4342 3 ·0,56581 = 0,1853
3
4
Pr( x = 4) = 0,4342 4 ·0,56580 = 0,0355
4
El resto de los cálculos necesarios para obtener el valor del estadístico aparecen
ordenados en la tabla siguiente:
6º Como el valor del estadístico 0,989 es menor que el valor crítico, 6,25 se acepta la
hipótesis nula.
7º Los resultados obtenidos por los alumnos pueden ser fruto del azar.
Tema13. Regresión. 1
Lámina 1 2 3 4 5 6 7 8 9 10
Diferencia 0,71 0,67 1,98 1,61 0,67 1,48 0,25 1,44 1,06 0,95
Nº errores 12 10 4 2 6 5 16 3 4 8
Solución:
E = 7 S E = 18 S E = 4 ,243
2
Calculamos la covarianza
S EDl −1,78
r = = = −0 ,829
S E ⋅ S Dl 4 , 243 ⋅ 0 ,506
El signo negativo del coeficiente de correlación nos indica que la relación entre ambas
variables es inversa, es decir que al aumentar la distancia disminuye el número de errores. El
valor absoluto nos indica que la relación lineal entre distancia y número de errores es bastante
alta, por consiguiente las variaciones en el número de errores en esta tarea se pueden explicar
y predecir en gran medida, por la diferencia de las distancias de los estímulos a clasificar.
2- En el mismo trabajo del problema anterior, se calculó también la diferencia de las distancias
euclídeas del patrón a clasificar con respecto a los prototipos de ambas clases, obteniéndose
el siguiente resultado:
Lámina 1 2 3 4 5 6 7 8 9 10
Diferencia 9,98 9,97 9,93 9,92 9,99 9,99 9,93 9,93 9,97 8,00
Indique que distancia le parece mas adecuada para expresar la dificultad de la tarea y porqué.
Solución:
SEDe −0,181
r = = = −0 ,073
S E ⋅ S De 4 , 243 ⋅ 0 ,588
Sujeto 1 2 3 4 5 6 7 8 9 10 11 12 13
Pre-prueba 55 49 37 40 50 45 35 38 28 56 41 44 44
Post-prueba 65 53 57 51 66 60 51 53 62 57 58 51 48
Sujeto 14 15 16 17 18 19 20 21 22 23 24 25 26
Pre-prueba 38 56 58 38 46 57 45 58 57 62 63 46 60
Post-prueba 48 48 64 67 48 61 59 69 64 69 62 60 61
Sujeto 27 28 29 30 31 32 33 34 35 36 37 38
Pre-prueba 54 56 66 48 46 60 55 57 51 43 56 52
Post-prueba 68 61 55 56 58 65 68 58 49 66 62 65
Solución:
Pr = 49 , 737 S Pr
2
= 78 ,194 S Pr = 8 ,843
Po = 59 , 026 S Po = 42 , 289 S Po = 6 ,503
2
20 ,934
a = = 0, 268 b = 59 ,026 − 0 ,268 ⋅ 49 , 737 = 45, 696
78,194
Po = 0,268·Pr + 45,696
Sujeto 1 2 3 4 5 6 7 8
Predicción 60,436 58,828 55,612 56,416 59,096 57,756 55,076 55,88
Residuo 4,564 -5,828 1,388 -5,416 6,904 2,244 -4,076 -2,88
Sujeto 9 10 11 12 13 14 15 16
Predicción 53,2 60,704 56,684 57,488 57,488 55,88 60,704 61,24
Residuo 8,8 -3,704 1,316 -6,488 -9,488 -7,88 -12,704 2,76
Sujeto 17 18 19 20 21 22 23 24
Predicción 55,88 58,024 60,972 57,756 61,24 60,972 62,312 62,58
Residuo 11,12 -10,024 0,028 1,244 7,76 3,028 6,688 -0,58
Sujeto 25 26 27 28 29 30 31 32
Predicción 58,024 61,776 60,168 60,704 63,384 58,56 58,024 61,776
Residuo 1,976 -0,776 7,832 0,296 -8,384 -2,56 -0,024 3,224
Sujeto 33 34 35 36 37 38
Predicción 60,436 60,972 59,364 57,22 60,704 59,632
Residuo 7,564 -2,972 -10,364 8,78 1.296 5,368
d) Tenemos que calcular los coeficientes de la ecuación Pre = a'·Post + b que serán:
S Pr Po 20 ,934
a′ = 2
= = 0, 495
S Po 42 ,289
1.- Los miembros de un equipo ciclista se dividen al azar en tres grupos que entrenan
con métodos diferentes. El primer grupo realiza largos recorridos a ritmo pausado, el
segundo grupo realiza series cortas de alta intensidad y el tercero trabaja en el gimnasio
con pesas y se ejercita en el pedaleo de alta frecuencia. Después de un mes de
entrenamiento se realiza un test de rendimiento consistente en un recorrido
cronometrado de 9 Km. Los tiempos empleados fueron los siguientes:
A un nivel de confianza del 95% ¿Puede considerarse que los tres métodos producen
resultados equivalentes? O por el contrario ¿Hay algún método superior a los demás?
Solución:
Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones:
2.- Una lista de palabras sin sentido se presenta en la pantalla del ordenador con cuatro
procedimientos diferentes, asignados al azar a un grupo de sujetos. Posteriormente se
les realiza una prueba de recuerdo de dichas palabras, obteniéndose los siguientes
resultados:
¿Qué conclusiones pueden sacarse acerca de las cuatro formas de presentación, con un
nivel de significación del 5%?
Solución:
Comenzamos calculando los totales y los cuadrados de los totales divididos por el
número de observaciones: