Está en la página 1de 8

Universidad Carlos III de Madrid

Departamento de Estadística

Cuaderno de prácticas de Estadística

Nombre …………………………………………………………………………………………. Grupo………………….

Titulación……………………………………………………………………………………………………………………….

Instrucciones (borre este recuadro antes de la entrega)

* Este cuaderno de prácticas es personal y deberá entregarse completo


y en formato pdf, a través del entregador que se dará de alta en el
correspondiente grupo pequeño de Aula Global.

* Su entrega es imprescindible para poder acceder al examen de


prácticas.

* Límite de entrega: 7 de mayo a las 13:00 horas.

* Algunos de los ejercicios pueden irse realizando en las clases en aula


informática cuando el profesor lo determine.
Primera parte. Estadística Descriptiva.

Ficheros “altsexo.sf3” y “paises95.sf3”

Fichero “altsexo.sf3”. Contiene datos de peso, altura y sexo de 117 estudiantes. Se pide:

1. Realizar un histograma para las variables Peso y Altura.


2. Realizar un histograma para la variable altura únicamente para hombres. Seleccionar
los hombres (Sexo=0)
3. Realizar un Box-plot simple para Altura
4. Realizar un Box-plot simple para Peso
5. Realizar un Box-plot simple para Altura sólo para hombres.
6. Realizar un Box-plot simple para Peso sólo para mujeres.
7. Realizar un Box-plot múltiple para Altura separando por sexo
8. Calcular la media, mediana, rangos, desviación típica, varianza, máximo y mínimo de
las variables Altura y Peso.
9. Calcular la media, mediana, rangos, desviación típica, varianza, máximo y mínimo de
las variables Altura y Peso para hombres y para mujeres por separado
10. Gráfico de dispersión del Peso frente a la Altura.
11. Coeficiente de correlación entre las dos variables.

Fichero “países95”.

12. Box-plot múltiple de Esperanza de Vida masculina por religiones


13. Gráfico de barras de Religiones
14. Gráfico de sectores (pie chart) de Religiones.
15. Gráfico de dispersión de Esperanza de vida Femenina y masculina.
16. Correlación entre Esperanza de vida Femenina y masculina.
17. Creación de la variable DIFESP=Esperanza de vida Femenina-Esp Vida Masculina
18. Media, mediana, desviación típica y rango de DIFESP
19. Box-plot múltiple de DIFESP por religiones.
20. Gráfico de dispersión de Esperanza de vida Femenina y masculina para países
católicos. Seleccionar Religión=Católicos.
21. Matriz de correlaciones para las variables PIB, DIFESP, hijos promedio, natalidad,
mortalidad.
22. Crear una nueva variable “Cristianos” que valga 1 si el país es Católico, Protestante u
Ortodoxo y 0 en otro caso.
23. Correlación entre Esperanza de vida Femenina y Esp Vida Masculina para países
cristianos.
Segunda Parte. Probabilidad

24. Dibuje la función de densidad de una N(2,10) y una N(3,4).


25. Dibuje la función de densidad de una Exponencial con media 5.
26. Dibuje tres funciones de densidad diferentes indicando las que ha elegido.
27. Dibuje la función de masa de probabilidad para una binomial de n=15 p=0,1
28. Calcule las siguientes probabilidades:
a. X es N(3,4):
i. P(X<5) =
ii. P(X=0)=
iii. P(X>6)=
iv. P(5<X<6)=
b. X es exponencial de media 5
i. P(X<4)=
ii. P(X=0)=
iii. P(X>5)=
iv. P(x<4<5)=
c. X es binomial n=10 p=0.06
i. P(X=1)=
ii. P(X=0)=
iii. P(X=<2)=
iv. P(X>1)=
d. Elija una distribución de probabilidad continua y calcule tres probabilidades.
29. Genere 100 números aleatorios de una N(170,10) y calcule la media, mediana,
desviación típica, mínimo y máximo. Dibuja el histograma de los números aleatorios.

Tercera Parte. Inferencia.

Fichero “altsexo.sf3”
30. Para la variable PESO.
a. Haga el histograma
b. Ajuste una distribución Normal. Valor de la Normal estimada.
c. Contraste de Bondad de ajuste Chi cuadrado. P-valor del contraste. ¿Es
adecuada una distribución normal?
d. Calcule la probabilidad de que una persona pese más de 50kg
e. Calcule la probabilidad de que una persona pese más de 90kg
f. Calcule la probabilidad de que una persona pese entre 50 y 80kg
g. Ajuste a la variable PESO una distribución exponencial e indique ¿Por qué
sabemos que no es adecuada?
31. Calcule un intervalo de confianza para la media del peso que has estimado en el
apartado anterior.
32. Una empresa ha puesto en marcha un procedimiento de mejora de calidad ya que
recibía reclamaciones en el 10% de los servicios prestados. Después de la actuación
han recibido 2 reclamaciones en los 40 servicios prestados. ¿Ha disminuido la
proporción de reclamaciones? Indique el tipo de contraste que ha utilizado, el p-valor
obtenido y las conclusiones

33. Se diseña un experimento para aumentar la tasa de filtración de un compuesto en una


planta química que es de 5 litros por segundo. Tras las modificaciones tomamos una
muestra de 10 filtrados obteniéndose una velocidad media de 5.8 litros por segundo y
una desviación típica estimada de 1 ¿Hemos conseguido aumentar la tasa de
filtración? Indique el tipo de contraste que ha utilizado, el p-valor obtenido y las
conclusiones

34. En dos plantas una misma empresa se emplean técnicas diferentes para producir un
compuesto químico. Estamos interesados en la cantidad de impurezas que se generan
por ambas técnicas. En la primera planta se toman 30 muestras con una media de
4,5gr/l de impurezas y una desviación estimada de 2. En la otra, con 30 muestras se
obtiene un promedio de 3.8 y una desviación estimada de 1.3. ¿Son equivalentes los
procesos? Indique el tipo de contraste que ha utilizado, el p-valor obtenido y las
conclusiones

35. En una encuesta sobre la energía nuclear realizada a 500 personas el 60% dice estar en
contra. Se realiza esa misma encuesta a 200 estudiantes de ingeniería industrial
obteniéndose un 40% de personas en contra. ¿Están más a favor de la energía nuclear
los ingenieros industriales que el resto de la población? Indique el tipo de contraste
que ha utilizado, el p-valor obtenido y las conclusiones

36. El gasto promedio de las compras en un gran almacén era de 89 Euros antes de la
crisis. Se toma una muestra de 200 carritos y se obtiene una media de 65 euros con
una desviación típica de 10,6 euros. ¿Se nota el efecto de la crisis?. Indique el tipo de
contraste que has utilizado, el p-valor obtenido y las conclusiones

37. En la sucursal de Majadahonda de esos grandes almacenes se toma una muestra de


100 carritos con un gasto medio de 70,8 euros y desviación típica de 10,6. En la de
Villaverde la muestra es de 150 carritos y el gasto medio resulta ser de 61,1 con una
desviación típica de 8 euros. ¿Hay diferencias entre ambos supermercados?. Indique el
tipo de contraste que ha utilizado, el p-valor obtenido y las conclusiones

38. El peso ideal de los hombres de 1.80 es de 75 kg. Tomamos una muestra de hombres
de 135 de 1.80 en España y el peso medio resulta ser 80.5 kg con una desviación
típica de 5kg. ¿Podemos decir que los españoles están más gordos de la cuenta?
Indique el tipo de contraste que ha utilizado, el p-valor obtenido y las conclusiones.

39. Con los datos del fichero “altsexo.sf3”, Contraste si hay diferencia de altura media
entre hombres y mujeres. Indica el tipo de contraste que has utilizado, el p-valor
obtenido y las conclusiones.

40. Lo mismo para PESO


Cuarta parte. Control de Calidad

Ficheros “practica_graficos.sf3”, “practica_graficos_atributos.sf3”

41. Datos del fichero “practica_graficos sf3”. La variable llenado contiene el nivel de
llenado de envases en una factoría. Se han tomado 20 muestras de tamaño 5 cada una.
Un total de 100 observaciones. Calcule la capacidad del proceso mediante gráficos X
media y R. Para ello:

41.1. Indique las muestras fuera de control en cada una de las


iteraciones y exclúyelas.

41.2. Indique el valor final estimado de la distribución Normal que


sigue una observación cuando el proceso está bajo control.

41.3. Calcule la capacidad del proceso.

41.4. Haga los tres apartados anteriores con un gráfico X media y s.

42. La variable llenado en línea contiene 50 muestras de tamaño 4 (200


observaciones) del llenado de envases. Realice la monitorización del proceso
SABIENDO QUE LAS CONDICIONES DEL PROCESO BAJO CONTROL SON LAS
OBTENIDAS EN 41.2

43. Fichero “practica_graficos_atributos.sf3”. Las variables Chips defectuosos y


número de chips. Indican el número de chips defectuosos en muestras de
tamaño 50. Realice un gráfico de control de calidad por atributos para la
proporción de defectuosos en cada muestra. Indique el valor estimado del
número de defectuosos y la capacidad del proceso.

44. Lo mismo para el número de defectos.

45. Las variables Bujías def y numBujias son la cantidad de bujías defectuosas en
muestras de tamaño número de bujías. Realice un gráfico de control para el
número de defectos normalizando por tamaño de grupo y sin normalizar por
tamaño de grupo. Calcule la capacidad del proceso.
Quinta parte. Regresión.

Ficheros “practica regresion1.sf3”, “practica


regresión2.sf3”, “practica regresión 3.sf3”, “practica
regresión 4.sf3”, “practica regresión 5.sf3”,”altsexo.sf3”
46. Con los datos del fichero “practica regresión1.sf3” rellene la siguiente tabla

Variable Variable Transformación Transformación Ecuación estimada de regresión


necesaria para necesaria para
X Y
X1 Y1

X2 Y2

X3 Y3

X4 Y4

X5 Y5

X6 Y6

47. Datos “practica regresión2.sf3”. Explicar Peso en función de Altura. Se pide

1. Escribir la ecuación de regresión. Indicar si es preciso transformar o no,

2. Construir un intervalo de confianza al 95% para la pendiente.

3. ¿Es significativa la altura para determinar el peso de una persona?

4. Cuantificar el efecto de un incremento de la altura sobre el peso.

5. Diagnosis del modelo. El gráfico de residuos ¿Es adecuado?

6. ¿Qué peso estimado tendrá una persona de 180cm?

48. El mismo ejercicio para explicar el peso del cerebro de mamíferos en función
del peso del cuerpo. Preguntas 1 a 5 idénticas.

6. ¿Qué tamaño de cerebro previsto tendrá un mamífero de 80Kg?


49. Regresión Múltiple. Datos “practica regresión3.sf3”. Se va a explicar Y en
función de las variables X. Se pide:

1. Gráfico de dispersión múltiple. ¿Hay que transformar?


2. Escribir la ecuación de regresión de Y explicada por las cuatro variables X.
3. Construir un intervalo de confianza para los coeficientes de las variables X1
y X2
4. ¿Son significativas estas variables? ¿Por qué?
5. ¿Cuánto se incrementa la variable Y cuando cada una de estas dos
variables (manteniendo constantes todas las demás) se incrementan en un
1%?
6. Calcular el valor de Y cuando cada uno de los regresores X´s toma un valor
de 15.000.

Regresión Múltiple. Datos “practica regresión 4.sf3”.


El fichero contiene dos conjuntos de datos. El primero de cata de quesos
(Variables Sabor, Acético, Láctico yH2S) está analizado en el enunciado de la
práctica de Multicolinealidad. Para el segundo se va explicar el Ratio Global de
funcionamiento de sucursales de una empresa en función de Beneficios,
Cartera de Clientes y Tasa de Inversión. Se pide:

1. Gráfico de los datos para comprobar las hipótesis.


2. Ajuste de las regresiones simples para ver si las variables son
significativas.
3. Ajuste de las regresiones dobles para ver si hay variables colineales.
4. Ajuste de la regresión triple.
6. Ajuste de la regresión múltiple utilizando Stepwise en versión Forward
7. Elección del modelo adecuado.

50. Variables cualitativas dicotómicas Fichero de datos “altsexo.sf3”. El fichero


contiene datos de pesos alturas y sexo de 117 estudiantes.

1. Ajuste una regresión para explicar el peso en función de altura y el


sexo. Esta variable vale 1 para las mujeres y 0 para los hombres.
Escriba la regresión y analice el efecto de la variable sexo sobre el
peso.
2. Analice la significatividad de la variable sexo. ¿Hay diferencias de peso
para un hombre y una mujer de la misma altura? Cuantifíquela.
51. Variables cualitativas politómicas. Fichero de datos “practica regresión 5.sf3”
El fichero contiene las variables
 coste de producción: coste por unidad producida
 salarios: coste por hora trabajada
 energías: costes energéticos
 materia prima: coste de las materias primas
 maquinaria: coste de depreciación de la maquinaria utilizada en la
producción.

Se va a explicar el coste de producción en función de las demás variables.

Se pide:

1. Ajuste un modelo de regresión múltiple para explicar coste de producción


en función de salarios, energías, materia prima y maquinaria. Indique si ha
habido que transformar y aspecto del gráfico de residuos.

2. Indique si hay multicolinealidad en el modelo.

La empresa trata de situar sus factorías en emplazamientos preferenciales


en función de la disponibilidad y coste de la materia prima utilizada en la
producción. Las factorías se dividen en tres grupos (estrella, base, neutra)
dependiendo de su emplazamiento. Estos tres grupos aparecen en la
variable situación del fichero de datos.

3. Creación de variables dummies para modelizar la variable politómica. Debe


crear 3 variables dummies -llámelas Estrella, Base y Neutra- que tomen el
valor 1 en caso de que la ubicación sea del tipo correspondiente al nombre
y cero en otro caso.

4. Introduzca las 3 variables dummies en el modelo ajustado en el apartado


1. el programa dará error porque ese modelo no se puede estimar por
tener multicolinealidad perfecta. Introduzca únicamente 2 variables
dummies y escriba y analice la regresión. Quite la variable Neutra.

También podría gustarte