Está en la página 1de 10

Captulo 1

Prcticas y problemas bsicos de


Inferencia Estadstica.
En este captulo se proponen diferentes prcticas y problemas con el objetivo de repasar
la estadstica descriptiva de una variable unidimensional, los principales modelos de probabilidad univariante, y los intervalos de conanza y test de hiptesis relativos a una y
dos muestras. Para el desarrollo de las prcticas y resolucin de los problemas es necesario
utilizar un programa estadstico. La teora correspondiente a los problemas de este captulo
puede verse en el Captulo 1 del texto de teora y un estudio ms detallado de los conceptos
y tcnicas estadsticas utilizados puede consultarse en Cao, R. y otros (2001) u otro texto
de estadstica general bsica.

1.1.

Estadstica descriptiva de una variable.


Objetivo de la prctica: Se genera una muestra aleatoria con dos variables,
la primera es la variable de inters que sigue una distribucin normal y la
segunda es una variable de clasicacin. Se hace el estudio descriptivo (analtico
y grco) de la variable de inters.

Desarrollo:
1. Generar una muestra de 500 observaciones de una variable X que sigue una distribucin N 100; 102 : (Comando rnormal).
2. Calcular los estadsticos bsicos. Utilizar el anlisis
descripcion > datos numericos > analisis unidimensional
3. Estudiar los estadsticos bsicos de esta muestra y comprobar si son adecuados para
el modelo simulado.
4. Estudiar la tabla de frecuencias y el diagrama de representacin de tallo y hojas:
(diagrama de tallo y hojas).
1

Modelos estadsticos aplicados. Juan Vilar


5. Calcular e interpretar los siguientes grcos que permiten conocer la distribucin de
la muestra:
- Grco de puntos (graficos de dispersion).
- Grco de cajas (grafico de cajas y bigotes).
- Histograma.
- Grco de quantiles.
- Suavizado de la densidad (densidad suavizada).
- Grco de simetra.
- Grco de la serie en funcin del ndice, sto es, xt frente a t: Utilizar el anlisis
graficos > graficos de dispersion > grafico unidimensional
6. Generar una variable de clasicacin C de forma que los 100 primeros valores formen
la clase 1, los 100 siguientes la 2, los 100 siguientes la 3, los 100 siguientes la
4 y los 100 ltimos la 5. Utilizar el comando (rep: repeat).
7. Calcular los estadsticos bsicos de la muestra segn la clase C. Utilizar el anlisis
descripcion > datos numericos > analisis de subgrupo
Fijarse en la tabla que compara las medias de la variable X segn la clase C a la
que pertenecen los valores muestrales.
8. Este anlisis proporciona diferentes grcos que permiten comparar la variable X
segn la clase C : comparar medidas de centralizacin (media y mediana), medidas
de dispersin (desviacin tpica y rango) y la distribucin de X segn la clase C:
Son los siguientes:
- Plot de puntos (graficos de dispersion).
- Grco de medias.
- Grco de medianas.
- Grco de desviaciones tpicas.
- Grco de rangos.
- Grco de cajas mltiple.
Algunos de estos grcos y otros de menor inters se encuentran en el apartado:
graficos exploratorios.
Repetir la prctica anterior con las siguientes variaciones:
La muestra X proviene de una distribucin no normal, por ejemplo, una exponencial
(comando rexponential) o de una distribucin gamma (rgamma).

Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar.

Utilizando los datos del chero coches ( chero problema-2-2 que contiene datos
de coches que proporciona el paquete Statgraphics), estudiar la variable mpg (miles
per galon, inversa del consumo) y/o la variable price (precio de los coches),
utilizando como variable de clasicacin origin (origen de los cochesque toma los
valores: Japan, U.S.A. y Europe).

1.2.

Modelos de probabilidad.
Objetivo de la prctica: Con la ayuda del paquete estadstico se revisan los
principales modelos de distribucin, su funcin de probabilidad o de densidad
y su funcin de distribucin, as como la generacin de muestras aleatorias.

Desarrollo:
En el apartado de Statgraphics
descripcion > distribuciones > distribuciones de probabilidad
se pueden estudiar 24 funciones de distribucin muy utilizadas.
El apartado ofrece las siguientes posibilidades:
- Trabajar con cinco modelos de probabilidad del mismo tipo.
- Calcular la funcin de distribucin de los modelos seleccionados.
- Calcular la inversa de la funcin de distribucin de los modelos seleccionados.
(En estos dos ltimos apartados se puede obtener la misma informacin que proporcionan las tablas estadsticas de funciones de distribucin).
- Calcular muestras aleatorias de los modelos seleccionados sin necesidad de utilizar
comandos.
- Obtener grcas de las funciones de densidad, distribucin y razn de fallo, entre
otras, de los modelos seleccionados.
En este texto se utilizan bsicamente los siguientes modelos de probabilidad relacionados con las tcnicas clsicas de inferencia estadstica:
- Normal.
- Chi-cuadrado.
- t de Student.
- F de Fisher.
Conviene tener un conocimiento bsico de estas distribuciones. Para ello, utilizando
este mdulo, desarrollar la siguiente prctica
1. Dibujar en un mismo grco las funciones de densidad de las siguientes variables
normales: N (0; 12 ); N (0; 10 52 ); N (0; 00 82 ) y N (2; 12 ):
2.

Dibujar en un mismo grco las funciones de densidad de las siguientes variables


chi-cuadrado: 1 ; 5 ; 10 ; y 30:

Modelos estadsticos aplicados. Juan Vilar


3. Dibujar en un mismo grco las funciones de densidad de las siguientes variables t
de Student: t1 ; t5 ; t10 ; y t30:
4.

Dibujar en un mismo grco las funciones de densidad de las siguientes variables F


de Fisher: F20;20 ; F50;50 ; F100;100 ; F80;4 y F4;80 :
Qu conclusiones se deducen de estos grcos?

5. Para algunos de los modelo anteriores calcular F ( 2); F (0) y F (10 5); siendo F la
funcin de distribucin.
6. Para algunos de los modelo anteriores calcular F 1 (00 05); F
siendo F 1 la inversa de la funcin de distribucin.

1.3.

1 (00 90)

yF

1 (00 95);

Test de hiptesis e intervalos de conanza de una y dos


muestras.
Objetivo de la prctica: A partir de una muestra de una poblacin calcular
intervalos de conanza de la media y de la desviacin tpica de la poblacin,
bajo la hiptesis de normalidad o no.
A partir de dos muestras (pareadas o no) calcular intervalos de conanza de
la diferencia de medias y del cociente de varianzas.

Desarrollo:
1. Considrese la variable price del chero de datos coches (chero problema-2-2).
Calcular intervalos de conanza al 90 % para la media y la desviacin tpica de esta
variable. Utilizar el anlisis
descripcion > datos numericos > analisis unidimensional
Este anlisis proporciona dos tipos de intervalos de conanza: el primero bajo la
hiptesis de normalidad de las observaciones y el segundo se basa en tcnicas de
remuestreo (bootstrap).
2. Contrastar la hiptesis estadstica H0 : E(price) = 4;500; frente a diferentes
alternativas. Trabajar con un nivel de signicacin = 00 10:
El anlisis anterior proporciona tres contrastes acerca de la media de la poblacin:
uno bajo la hiptesis de normalidad y dos no paramtricos basados en los rangos
acerca de la mediana. Los test basados en rangos son menos potentes pero son
menos sensibles a la presencia de datos atpicos (outliers).
3. Calcular la curva de potencia del test sobre la media de una poblacin normal. sto
se puede hacer con el siguiente anlisis de Statgraphics:
descripcion > contraste de hipotesis

Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar.

En este apartado se puede estudiar la funcin de potencia de otros contrastes (sobre


la desviacin tpica de una normal, la proporcin de una binomial o la razn de una
de Poisson).
4. Se est interesado en comparar los precios de los coches de USA (origin=1) y japoneses (origin=3). En particular se quiere:
- Calcular un intervalo de conanza al 90 % para el cociente de varianzas.
- Calcular un intervalo de conanza al 90 % para la diferencia de medias.
- Contrastar la hiptesis de que los precios medios de los coches de ambas poblaciones
son iguales.
Estos estudios pueden hacerse en el mdulo
comparacion > dos muestras > comparacion de dos muestras
En este caso cubrir los campos de introduccin de datos como sigue: poner datos y
cdigos en columnas, data=price, code=origin, select=origin<>2.
Analizar los diferentes resultados sobre la comparacin de dos muestras que proporciona este completo mdulo del programa.
5. Calcular la curva de potencia del test sobre la diferencia de medias de dos poblaciones. Para ello utilizar el mdulo
comparacion > dos muestras > contraste de hipotesis

1.4.

Problemas de intervalos de conanza y test de hiptesis.

Problema 1.1.
Se ha observado una muestra de 41 datos del tiempo de respuesta de un sistema
informticoa las doce horas de un da laborable. Los datos obtenidos son los de la tabla
adjunta,
220 56
230 10
180 89
150 76
210 53
140 35

220 33
210 53
270 48
300 77
240 99
110 14

240 58
90 06
100 44
210 16
190 81
90 93

230 14
160 75
260 86
240 26
110 88
200 22

190 03
230 29
270 27
220 90
240 01
170 73

260 76
220 14
180 74
270 14
220 11
190 05

180 33
160 28
190 88
180 02
210 91

En base a esta muestra, calcular:


1.

Intervalos de conanza al 90 % y 95 % del tiempo medio de respuesta.

2.

Es razonable mantener la hiptesis de que la varianza del tiempo medio de respuesta


es 25 con un nivel de signicacin del 5 %?

Modelos estadsticos aplicados. Juan Vilar


3. Resolver el contraste H0 :

= 20 frente H1 :

> 20 en base al nivel crtico.

Problema 1.2.
Una empresa de software est investigando la utilidad de dos lenguajes diferentes
para mejorar la rapidez de programacin. A doce programadores, familiarizados con ambos
lenguajes, se les pide que programen un cierto algoritmo en ambos lenguajes, se anota el
tiempo que tardan. Los resultados, en minutos, son los de la tabla adjunta.
Lenguaje 1:
Lenguaje 2:

17,
18,

16,
14,

21,
19,

14,
11,

18,
23,

24,
21,

16,
10,

14,
13,

21,
19,

23,
24,

13,
15,

18.
20.

En base a estos datos calcular:


1. Un intervalo de conanza al 95 % para la diferencia de medias en el tiempo de programacin.
2. Puede considerarse que uno de los lenguajes es preferible al otro?
3. En relacin con la pregunta anterior est bien diseado el experimento? Considerar
y discutir algn diseo alternativo.
Problema 1.3.
Un profesor realiz el siguiente experimento: le pregunt a 44 alumnos que calculasen
de forma aproximada, en metros, el ancho de la clase. Obtuvo las siguientes respuestas:

8
11
14
15
18

9
11
14
16
20

10
11
15
16
22

Grupo
10 10
12 12
15 15
16 17
25 27

1
10
13
15
17
35

10
13
15
17
38

10
13
15
17
40

11
14
15
18

A otro grupo de 69 alumnos les hizo la misma pregunta, pero ahora les pidi la respuesta
en pies (30 28 pies = 1 metro). En este caso las respuestas fueron:

24
32
36
40
42
45
50
60

25
32
36
40
43
45
50
63

27
33
37
40
43
45
51
70

Grupo 2
30 30 30
34 34 34
37 40 40
40 41 41
44 44 44
46 46 47
54 54 54
75 80 94

30
35
40
42
45
48
55

30
35
40
42
45
48
55

30
36
40
42
45
50
60

Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar.

El ancho del aula es 130 1 metros (430 0 pies). En base a estos datos,
1. Hacer un estudio descriptivo de estas dos muestras.
2. Calcular intervalos de conanza al 95 % para la media y la varianza de la primera
muestra.
3. Calcular intervalos de conanza al 95 % para la diferencia de medias y el cociente de
varianzas de las dos muestras.
4. Puede armarse que el error en la aproximacin es igual si se hace en metros que
en pies?
Problema 1.4.
Una empresa constructora est interesada en estudiar la tensin de ruptura de las
barras de acero que utiliza en las estructuras de hormign armado. Para ello, selecciona de
forma aleatoria cincuentas barras y las prueba para determinar sus tensiones de ruptura.
Los resultados de la prueba, en kilogramos por centmetro cuadrado, son los de la tabla
adjunta
2244
1800
2185
2070
1869
2073
2009

2147
1995
1792
1917
2278
2282
2412

2240
2033
2033
2015
1846
1889
1746

2342
2208
2112
2150
1950
1897
2304

1951
1699
2001
1960
2027
2322
2015

2345
2037
2490
2086
1699
1964
2035

2001
2087
2132
1824
1972
1809
1974

2191

En base a estos datos,


1.

Hacer un estudio descriptivo de la muestra.

2.

Calcular intervalos de conanza al 95 % y 99 % para la media de la tensin de ruptura


de las barras de acero.

3.

Calcular intervalos de conanza al 95 % y 99 % para la varianza de la tensin de


ruptura de las barras de acero.

4.

Qu tamao muestral es necesario para obtener el intervalo de conanza al 95 %


para la media de la tensin de ruptura de las barras de acero con una longitud
inferior a 50 unidades? Y, si el intervalo de conanza fuese al 99 %?

Modelos estadsticos aplicados. Juan Vilar

1.5.

Problemas propuestos.

Problema 1.5.
El gobierno francs est interesado en analizar los datos obtenidos en experimentos
atmicos. En particular est interesado en el estudio de la potencia desarrollada por una
determinada bomba nuclear. Los resultados de 15 explosiones de estas bombas, realizadas
entre marzo de 1994 y enero de 1996, son los siguientes (en kilotones): 724, 718, 776, 760,
745, 759, 795, 756, 742, 740, 761, 749, 739, 747, 742.
1. Calcular intervalos de conanza al 90, 95 y 99 % para la media de la potencia.
2. Calcular tres intervalos de conanza distintos al 95 % para la varianza de la potencia.
3. Contrastar la hiptesis de que la media de la potencia es 750.
4. Dibujar la curva de potencia de este contraste.
5. Qu hiptesis se han supuesto en el desarrollo del problema.
Problema 1.6. (se puede hacer con calculadora)
El nivel de colesterol es un factor de alto riesgo en el desarrollo de la enfermedad de
artoesclerosis cardaca y de la enfermedad de arteria coronaria, por tanto, es importante
determinar los niveles que se esperan en los diferentes grupos de edad y sexo. Para comparar el nivel de colesterol en varones de entre 20 y 29 aos de edad frente a mujeres del
mismo grupo de edad se realiz un estudio cuyos estadsticos bsicos son los de la tabla
adjunta.
Hombres

Mujeres

nH = 96
xH = 170;81 mg/dl
s^H = 30;55 mg/dl

nM = 85
xM = 181;08 mg/dl
s^M = 30;79 mg/dl

En base a estos datos:


1. Calcular intervalos de conanza al 90, 95 y 99 % para la diferencia de medias del
nivel de colesterol entre hombres y mujeres.
2. Calcular un intervalo de conanza al 90 % para el cociente de varianzas del nivel de
colesterol entre hombres y mujeres.
3. Puede suponerse que el nivel de colesterol en los hombres es igual al de las mujeres?
Problema 1.7.
A una empresa le ofrecen impartir un curso de capacitacin para aumentar el rendimiento de sus trabajadores. La empresa decide enviar a quince de sus trabajadores elegidos al
azar de toda la plantilla. Para comprobar si el curso es benecioso, se controla el tiempo
que tardan estos trabajadores en realizar un trabajo antes de realizar el curso y despus
de realizar el curso. Los resultados se reejan en la tabla adjunta.

Prcticas y problemas bsicos de Inferencia Estadstica. Juan Vilar.


Trabajador
Antes
Despus
Trabajador
Antes
Despus

1
230 5
170 4
9
180 3
160 5

2
120 0
200 4
10
210 6
180 0

3
210 0
200 0
11
230 3
160 3

4
220 0
200 0
12
210 0
180 0

5
190 1
180 4
13
220 1
120 8

6
210 5
180 6
14
230 0
150 5

7
220 1
180 6
15
120 0
180 0

9
8
200 4
150 3

Puede armarse que la realizacin del curso mejora el rendimiento del trabajo? Se
ha diseado bien el experimento?
Problema 1.8.
En cincuenta das lectivos consecutivos y a la misma hora se ha observado el nmero
de terminales de una universidad conectados a internet. Los resultados son los de la tabla
adjunta.
1027
821
1063
501
696
1089
1096

1023
882
1307
565
820
936
1183

1369
942
1212
1039
1092
568
1409

950
904
1045
1000
934
1056
1200

1436
984
1047
1227
968
1006
1197

957
1067
1178
1118
1191
749
985

634
570
633
843
996
812
848

1281

En base a estos datos.


1. Hacer un estudio descriptivo de la muestra.
2. Calcular intervalos de conanza al 90 % y 95 % para el nmero medio de terminales
conectados a internet.
3. Calcular intervalos de conanza al 90 % y 95 % para la varianza del nmero de
terminales conectados a internet.
4. Qu tamao muestral es necesario para obtener el intervalo de conanza al 90 %
para que el nmero medio de terminales conectados a internet tenga una longitud
inferior a 30 unidades? Y, si el intervalo de conanza fuese al 95 %?
Problema 1.9.
Se ha realizado un estudio para investigar el efecto del ejercicio fsico en el nivel de
colesterol en suero. Veinte individuos tomaron parte en el estudio de los que se tomaron
muestras de sangre para determinar el nivel de colesterol de cada sujeto. Despus los
individuos fueron sometidos a un programa de ejercicios que se centraba diariamente en
realizar carreras y marchas. Al nal del perodo de ejercicios se tomaron nuevas muestras
de sangre y se obtuvo una segunda lectura del nivel de colesterol en suero. Los datos
obtenidos son los de la tabla adjunta. Puede armarse que el ejercicio fsico disminuye el
nivel de colesterol en suero?

10

Modelos estadsticos aplicados. Juan Vilar


Sujeto
Nivel previo (x), mg/dl
Nivel posterior (y), mg/dl

1
182
198

2
232
210

3
191
194

4
200
220

5
148
138

6
249
220

7
276
249

Sujeto
Nivel previo (x), mg/dl
Nivel posterior (y), mg/dl

8
213
161

9
241
210

10
480
313

11
262
270

12
242
235

13
185
164

14
205
207

Sujeto
Nivel previo (x), mg/dl
Nivel posterior (y), mg/dl

15
175
156

16
217
200

17
236
219

18
243
201

19
252
232

20
375
335

Problema 1.10. (se puede hacer con calculadora)


Se ha realizado un estudio de igualacin transversal preoperatoria en ciruga electiva. La operacin elegida es la histerectoma abdominal electiva. La variable de inters
X=el nmero de unidades sanguneas contrastadas transversalmente inmediatamente
disponibles. El objetivo del estudio es comparar el nmero medio de unidades disponibles
en 1.990 con el nmero medio de unidades disponibles en la actualidad. Los estadsticos
bsicos de la muestra del estudio son los de la tabla adjunta. En base a este estudio Hay
evidencia de que se produce un descenso en el nmero medio de unidades disponibles desde
1.990 hasta la actualidad?
En 1.990

Actualidad

nP = 120
xP = 2;67 unid.
s^P = 0;69

nA = 137
xA = 2;21 unid.
s^A = 0;87

Problema 1.11.
Se pens que un programa de ejercicios regulares moderadamente activos podra beneciar a los pacientes que haban sufrido un infarto de miocardio. Catorce individuos
participaron en un estudio para comprobar este argumento. Antes de empezar el programa,
se determino la capacidad de trabajo de cada persona midiendo el tiempo que tard en
alcanzar una tasa de 160 latidos por minuto mientras caminaba sobre una rueda de andar.
Despus de 25 semanas de ejercicio controlado se repitieron las medidas en la rueda de
andar y se registr la diferencia en tiempo para cada sujeto. Los datos obtenidos son los
de la tabla adjunta. Sostienen estos datos los argumentos de los investigadores?
Sujeto
Antes (x), en sgs
Despus (y), en sgs.

1
70 6
140 7

2
90 9
140 1

3
80 6
110 8

4
90 5
160 1

5
80 4
140 7

6
90 2
140 1

7
60 4
130 2

Sujeto
Antes (x), en sgs
Despus (y), en sgs.

8
90 9
120 7

9
80 7
130 5

10
100 3
120 1

11
80 3
130 4

12
80 8
110 5

13
80 2
150 2

14
90 3
110 9

También podría gustarte