Está en la página 1de 32

PRÁCTICAS

DE
ESTADÍSTICA

3º Ingeniería de Caminos, Canales y Puertos

Curso 2009-2010
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

INTRODUCCIÓN AL PROGRAMA STATGRAPHICS

Esta introducción nos servirá para tomar un primer contacto con el programa STATGRAPHICS Versión
4.0 para WINDOWS que utilizaremos como ayuda a las prácticas.
En cualquier caso disponemos de la posibilidad de acudir al comando “Ayuda” que, como su propio
nombre indica, nos ilustrará sobre las muchas posibilidades del programa.
La modularidad de Statgraphics bajo Windows hace especialmente manejables los análisis estadísticos.
En todo momento podemos dejar un estudio para retomarlo después tal y como estaba.
Cuando entremos en STATGRAPHICS veremos la siguiente pantalla:

En esta ventana, tenemos una barra de menú donde podemos optar por las opciones que nos ofrece el
programa (File, Edit, Plot,). Más abajo se dispone de una barra de herramientas cuyos iconos nos
permiten ir de una forma rápida a las opciones de la barra de menú más utilizadas (Abrir StatFolio,
Guardar StatFolio, etc). En la parte inferior de la ventana se presentan los iconos, que son sub-ventanas
que utilizaremos durante el manejo del programa. (<Untitled> es Ventana de Hoja de Cálculo donde van
los datos, StadAdvisor es Ventana del Intérprete Estadístico, StatGallery es Ventana de Gráficos y
Untitled Co… es Ventana de Comentarios). En la zona “gris” desplegaremos las sub-ventanas para
detenernos en su manejo.
Opciones más importantes del menú principal:

♦ File (Fichero)
° Open StatFolio (Abrir StatFolio)
° Open Data File (Abrir fichero de datos)
° Open StatGallery (Abrir StatGallery)
° Close … (Cerrar)
° Save … (Guardar)
° Save As … (Guardar como)
° Print Preview (Presentación preliminar a la impresión)
° Print (Imprimir)

ESTADÍSTICA 3 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

♦ Edit (Edición)
° Undo (Deshacer)
° Cut (Cortar)
° Copy (Copiar)
° Paste (Pegar)
° Change Analysis Title (Cambiar Título de Análisis)
♦ Plot (Gráficos)
° Scatterplots (Gráficos de dispersión)
− Univariate Plot (Una variable)
− X-Y Plot (Dos variables)
− X-Y-Z Plot (Tres variables)
− etc.
° Exploratory Plots (Gráficos de exploración)
− Box-and-Wiisker Plot (Diagramas de caja y bigotes)
− Multiple Box-and-Wiisker Plot (Diagramas múltiples de caja y bigotes)
− Probability Plot (Diagramas de probabilidad)
− Frecuency Histogram (Histograma de frecuencias)
− etc.
° Business Charts (Gráficos de negocios)
− Barchart (Diagrama de barras)
− Multiple Barchart (Diagrama múltiple de barras)
− Piechart (Diagrama de sectores)
° Probability Distributions (Distribuciones de probabilidad)
♦ Describe (Estadística Descriptiva)
° Numeric data (Datos numéricos o variable cuantitativas)
− One-variable Analysis (Análisis de una variable)
− Multiple-variable Analysis (Análisis de varias variables)
− Subset Analysis (Análisis de subconjuntos)
− etc.
° Categorical data (Datos categóricos o variables cualitativas)
− Tabulation (Tablas de frecuencias, gráficos de barras y de sectores)
− Crosstabulation (Tabulación cruzada, gráficos de barras y de sectores)
− Contingency Tables (Tablas de contingencia)
° Distributions (Distribuciones teóricas)
− Probability Distributions (distribuciones de probabilidad teóricas)
− Probability Plots (contrastes gráficos de distribuciones)
− Distributions Fitting (contrastes con distribuciones teóricas)
− Uncensored Data (datos no censurados)

ESTADÍSTICA 4 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

− Censored Data (datos censurados)


° Life Data (Tablas de vida por intervalos)
− Analysis Weibull (Análisis de Weibull)
° Hypothesis Tests (Contrastes de Hipótesis)
° Sample Size Determination (Determinación del tamaño de la muestra)
♦ Compare (Comparación de muestras y Análisis de Varianza)
° Two-Samples (dos muestras)
− Two-Samples comparison (comparación para dos muestras)
− Hypothesis Test (contrastes de hipótesis)
° Multiple-Samples (varias muestras)
° Analysis of Variance (Análisis de Varianza)
− One-Way-ANOVA (Análisis de Varianza simple)
− Multifactor ANOVA (Análisis de Varianza multifactiorial)
− Variance components (Componentes de la Varianza)
° Sample Size Determination (Determinación del tamaño de la muestra)
♦ Relate (Relacionando datos mediante regresión)
° Simple Regression (Regresión Simple)
♦ etc.

Ventana de Hoja de Cálculo o Fichero de Datos: Fichero de datos (Data File) con extensión .sf. En él
guardamos los datos objeto de nuestro estudio y su manejo es parecido al de una hoja de cálculo de un
libro de Excel. Contiene las variables en las columnas y sus valores en las celdas.
Las variables pueden ser cualitativas, cuantitativas discretas y cuantitativas continuas y podemos
modificar una variable seleccionándola y elegir la opción Modify Column del menú Edit. Los formatos
pueden ser:
Numeric: Coma flotante. Máximo 20 dígitos
Character: Hasta 70 caracteres alfanuméricos.
Integer: Número entero hasta 20 dígitos.
Date: mm/dd/yy (según el panel de control de
Windows)
Fixed Decimal: nº fijo de cifras decimales hasta 9.
Máximo de 20 dígitos incluido el punto decimal.
Formula: Se puede generar una variable como
resultado de una fórmula de otras variables existentes.
Se pueden combinar ficheros de datos con la opción Combine del menú File.
Una forma de introducir los datos menos utilizada, es utilizando una columna para los distintos posibles
valores de la variable y otra columna para sus frecuencias (a éstas, Statgraphics las llamará counts y a los
valores labels).
Recodificación de datos: Muchas veces nos puede interesar cambiar el rango de los datos de una variable
para hacer más cómodo su análisis. Por ejemplo, queremos agrupar los datos en rangos diferentes a los
actuales o bien queremos asignar códigos de variables.
Previamente, para no perder los antiguos valores, debemos guardar
nuestra variable en otra columna, marcándola y copiándola con la
opción Copy del menú Edit y la opción Paste en una columna nueva. A

ESTADÍSTICA 5 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

continuación, marcamos la variable que queremos recodificar y abrimos la opción Recode Data del menú
Edit. Completamos entonces el cuadro de diálogo.
StatFolio: Fichero con extensión .sgp. El StatFolio es una herramienta que permite almacenar trabajos.
Éstos pueden contener ficheros de datos, gráficos, análisis específicos y comentarios. Es semejante a una
macro y en él guardamos todos los análisis referentes al fichero de datos asociado. Su gran ventaja es que
si modificamos los datos, rehace automáticamente los análisis. La ventana Untitled Co… (Ventana de
Comentarios) tomará el nombre del StatFolio.
Cuando guardemos el StatFolio, nos preguntará si queremos guardar también el fichero de datos en caso
de que haya tenido modificaciones.
StatAdvisor: Es el intérprete estadístico, y nos va a dar en todo momento una breve explicación (in
english) de la ventana que estamos tratando. Analiza las salidas obtenidas y nos avisa de las anomalías
percibidas.
StatGallery: El StatGallery es un panel de resultados. En
él podemos plasmar nuestros análisis y gráficos
particularizados, donde quedarán inamovibles.
StatGallery es como un fichero de diapositivas donde
podemos ir guardando los resultados que nos interesen
para una posterior salida ya sea por impresora o por
presentación en pantalla. El fichero StatGallery tiene
extensión .sgg.
Pulsando en cualquier ventana el botón derecho (en
adelante BD), nos ofrece la opción Copy to Gallery y en
StatGallery elegimos paste con el BD.
StatReporter: Es una página que tiene el cometido del StatGallery, pero con la ventaja de que podemos
exportar el análisis a un procesador de texto y presentar nuestro trabajo tal como sale en Statgraphics.
Para no utilizar demasiada memoria en el archivo del procesador de textos, es aconsejable poner los
gráficos a blanco y negro para llevarlos a StatReport. Para hacerlo, pinchar BD en el gráfico Graphics
Options . Profile y marcar System (Black-and-White), finalmente Load y si queremos dejarlo
permanentemente Make Default.
Ventana de Análisis: Cada vez que ejecutemos un procedimiento estadístico con STATGRAPHICS, el
programa nos presenta una ventana como marco de trabajo para ese procedimiento.
En la ventana de análisis se localizan dos zonas:
La barra de herramientas: Input dialog, donde elegimos
las variables, Tabular Options, opciones de resultados
analíticos, Graphics Options, opciones gráficas, Save
Results, guarda los resultados numéricos en variables. Las
demás herramientas se utilizan para gráficos.
Salida de resultados: La pantalla de salidas, se divide en
la zona analítica a la izquierda y la zona gráfica a la
derecha. Haciendo doble click con el ratón en una sub-
ventana, ésta se maximizará y podremos trabajar con esa
sub-opción.
Control de Gráficos: Cuando queramos trabajar con un
gráfico, primero lo maximizamos y STATGRAPHICS
nos dará por defecto los parámetros de escala de ejes,
colores, textos, etc. Si lo deseamos, podemos modificar
esos parámetros y obtener nuestro propio gráfico para
mandarlo al StatGallery y guardarlo así con el perfil que
le hemos dado.
Las opciones de trabajo en un gráfico son:
- Opciones relacionadas con los elementos gráficos
(en la figura: la recta y los puntos). Pinchando BD,
opción Pane Options.

ESTADÍSTICA 6 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

- Opciones relacionadas con el tipo de análisis. Pinchando BD, opción Analysis Options.
- Opciones de composición de los ejes: Pinchando BD, Graphics Options . Layout.
- Para modificar la escala de los ejes, pinchando BD, Graphics Options . Axis.. El campo Hold sirve
para que se mantengan los valores dados aunque varíen los datos y el campo.
- Opciones de composición del mallado, fondo y bordes (colores, fuentes y demás): Pinchando BD,
Graphics Options . Layout o Grid o Lines.
- Opciones de modificación de texto: Pinchando BI en el texto y luego BD.
- Añadir texto: Pulsar la herramienta Add Text: y después de introducir el texto, lo situaremos en su
sitio arrastrándolo con el ratón.
- Para identificar puntos en un gráfico, utilizaremos la herramienta
introduciendo el “número de la fila” de la hoja de cálculo a la que pertenece el dato.
- Para identificar el número de fila a la que pertenece un dato procederemos al revés.
- Para rotar un gráfico en tres dimensiones utilizaremos la herramienta Smooth/Rotate.
- Los gráficos se pueden guardar como fichero independiente (fichero imagen .wmf) o como ya hemos
indicado en el StatGallery.

ESTADÍSTICA 7 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

ESTADÍSTICA 8 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

PRÁCTICAS TEMA 1

ESTADÍSTICA DESCRIPTIVA

REPRESENTACIÓN DE DATOS:

Para tener una primera visión de los datos mediante los distintos tipos de diagramas y gráficos que hemos
visto en teoría, STATGRAPHICS nos los ofrece en las opciones siguientes:
- Para variables cuantitativas: Describe . Numeric Data . One-Variable-Analysis . (Herramientas
Tabular Options y Graphics Options)
- Resumen estadístico: Summary Statistics Para obtener los parámetros requeridos, BD Pane
Options.
- Tabla de frecuencias: Frecuency Tabulation
- Diagrama de Tallos y Hojas: Stem-and-Leaf Display.
- Percentiles: Percentiles
- Histogramas y Polígonos de frecuencias absolutas y relativas, normales o acumulativas:
Frecuency Histogram . Para las distintas opciones, dentro del gráfico BD.
- Diagrama de Caja y Bigotes: Box-and-Whisker Plot. Permite detectar la asimetría de los datos y
detecta los valores atípicos (outliers). Divide los datos en cuatro áreas de igual frecuencia. La
caja central tiene el 50% de los datos, y cada bigote el 25%. La mediana es la línea central que
divide la caja y los lados de la caja son el primer y tercer cuartil (Q1 y Q3.). El extremo izquierdo
del bigote izquierdo es el dato más a la izquierda hasta Q1 menos 1’5 veces el rango
intercuartílico: Q1 − 1'5 * (Q3 − Q1 ) . El extremo derecho del bigote derecho es el dato más a la
derecha hasta Q3 + 1'5 * (Q3 − Q1 ) . Consideramos valores atípicos a los datos que estén fuera de
los bigotes.
- Traza de densidad o curva de distribución: Density Trace
- Para variables cualitativas: Describe . Categorical Data . Tabulation . (Herramientas Tabular
Options y Graphics Options)
- Diagramas de barras y de sectores: Barchart y Piechart.
- Cuando los datos estén agrupados en clases y su presentación en la tabla de datos sea mediante
etiqueta y número de ocurrencias, utilizamos el menú plot . Business Charts. Counts contiene las
frecuencias y labels el nombre de la variable.
- Cuando se desee agrupar los datos de una variable categórica, haremos Describe . Categorical Data .
Tabulation . y en la herramienta save results podremos crear dos nuevas variables: una para las
frecuencias y otra para las marcas de clase.
- Para seleccionar los datos de una variable cumpliendo ciertas condiciones, a la hora de elegir la
variable en Data ir a la opción Select e introducir la condición (Ej. Sexo=1, Grupo=”A” ó first (50)).
O también se puede ir a Describe – Numeric Data – Subset Análisis y observar los datos agrupados
por condiciones.
- Tablas cruzadas (Tablas de contingencia):
- Datos no agrupados: Describe . Categorical Data . Crosstabulation . (Herramientas Tabular
Options y Graphics Options)
- Datos agrupados: Describe . Categorical Data . Contingency Tables . (Herramientas Tabular
Options y Graphics Options)

ESTADÍSTICA 9 PRÁCTICAS TEMA 1


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

En Frecuency Table, con BD, en Pane Options podemos obtener los porcentajes por filas y por
columnas (distribución de frecuencias condicionadas).

REGRESIÓN LINEAL:

Podemos obtener las correlaciones y covarianzas entre las variables en la opción Describe . Numeric Data
. Multiple-Variable Analysis y en la opción tabular options. En la ventana de correlaciones, el StatAdvisor
nos da los pares de variables con alguna relación lineal. Los pares de variables que no aparezcan se
suponen independientes entre sí.
Para la regresión lineal, tenemos que ir a Relate . Simple regression.
- Predicciones: Forecast y con BD Pane Options.
- Recta de regresión: Plot of Fitted Model

1.- Se realiza una encuesta a 30 personas en las que se les pregunta el número de personas
que conviven en el domicilio habitualmente y se obtuvieron las siguientes respuestas:
4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcular la distribución de frecuencias de la variable obteniendo las frecuencias
absolutas, relativas y sus correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesta por tres o menos personas? ¿Qué
proporción de individuos vive en hogares con tres o menos miembros?
c) Dibujar el diagrama de barras y el de sectores.
d) Agrupar por intervalos de amplitud dos los valores de la variable, calcular su
distribución de frecuencias, representar el histograma acumulado y sin acumular
y el polígono de frecuencias acumulado y sin acumular.
2.- Los siguientes datos corresponden al gasto de hormigón en 79 obras de una
constructora:
6880 2620 1000 7980 8080 43100 19976 9414 60940 63600
18832 28400 31141 49760 15076 15220 0 18360 0 9301
8144 19941 24072 11804 28236 18160 5900 17972 3760 20224
5600 11980 128640 0 7000 1200 3040 30392 12172 21336
46600 27480 408 2220 61000 6480 10080 3840 24527 2040
9660 11080 10000 24656 0 8000 22400 10400 0 3480
4476 0 8000 22400 4476 6000 16480 42280 13500 1200
9780 728 9200 22840 6360 14360 39868 113200 78161
a) Ayudándose del diagrama de tallos y hojas y del de caja y bigotes, agrupar la
muestra en intervalos de amplitud de 5000 euros, redondeando el recorrido si es
necesario (obtener los extremos y las marcas de clase). Construir la tabla de
frecuencias de la muestra agrupada.

ESTADÍSTICA 10 PRÁCTICAS TEMA 1


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

b) Obtener conclusiones a partir de las medidas de posición, dispersión, simetría y


apuntamiento vistas en teoría.
c) Construir el histograma de frecuencias y el polígono acumulativo de frecuencias
(absolutas y relativas).
d) Señalar en el histograma el área correspondiente a valores del gasto inferiores a
30000 euros. ¿Qué porcentaje del total de las observaciones corresponde a estos
datos? Hallar el tanto por ciento de las obras de la muestra que tienen un gasto
comprendido entre 20000 y 60000 euros.
e) Hallar el valor de la variable gasto para el cual el 30% de las obras de la muestra
tienen un gasto menor que él. Lo mismo para el 70% y el 50% mediana.
f) Recodificar los datos dando cinco marcas de clase: “menos de 5000”, “de 5000 a
10000”, “de 10000 a 20000”, de “20000 a 30000” y “más de 30000”. Construir
los diagramas de barras y de sectores para la nueva variable recodificada.
3.- Una fábrica midió las emisiones diarias de monóxido de carbono de una de sus
chimeneas durante los días del mes de marzo: 30, 30, 34, 36, 37, 38, 40, 42, 43, 43, 45,
52, 55, 58, 58, 58, 59, 63, 63, 71, 75, 85, 86, 86, 99, 102, 102, 141, 153, 161 y 21. Por
otro lado, durante nueve días del mes de septiembre, Medio Ambiente midió las
emisiones de la misma chimenea con los siguientes resultados: 4, 12’5, 15, 15, 20, 20,
20, 170 y 25.
a) Estudiar el coeficiente de variación de los datos.
b) Calcular la media, la mediana y la moda de la variable Nivel de CO para cada
uno de los dos grupos de medidas y compararlas.
c) Comparar la asimetría y curtosis de ambos grupos.
d) Comparar los diagramas de caja y bigotes de los dos grupos.
4.- El servicio de fotocopias funciona con cuatro máquinas y tres personas. Dados los
siguientes resultados de número de fallos, obtener la tabla de contingencia en
Statgraphics y dar también la distribución de porcentajes condicionados a las máquinas
y al personal.
A B C D
1 21 30 20 16
2 41 21 9 14
3 15 17 12 10
5.- Se quiere estudiar si la edad en que un niño empieza a hablar predice su inteligencia
posterior. En un estudio a 21 niños se registraron la edad (en meses) en que empiezan a

ESTADÍSTICA 11 PRÁCTICAS TEMA 1


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

hablar y la puntuación obtenida en una prueba de aptitud hecha más adelante. Los datos
son los siguientes:
Edad: 15 26 10 9 15 20 18 11 8 20 7 9 10 11 11 10 12 42 17 11 10

Puntos: 95 71 83 91 102 87 93 100 104 94 113 96 83 84 102 100 105 57 121 86 100

a) Hacer un gráfico de dispersión y a la vista de este dar una opinión sobre si la


asociación entre las variables. ¿Es lineal? ¿Es positiva?
b) Calcular la recta de regresión de la puntuación respecto de la edad y valorar el
ajuste de la regresión.
c) Hacer una predicción de la puntuación de la prueba para un niño que ha
empezado a hablar a los 15 meses.
d) Que podemos deducir a la vista de los resultados si quitamos el dato (42,57).
6.- Las notas de 40 alumnos obtenidas en Cálculo I y Estadística han sido las siguientes:
C E C E C E C E
4 3 8 9 8 7 2 0
5 8 0 3 9 6 5 3
1 3 2 3 9 10 4 6
6 3 10 10 8 7 7 5
1 0 4 8 5 3 6 7
2 1 8 7 3 2 5 7
2 0 2 0 4 1 6 4
4 2 6 3 3 2 3 0
5 6 6 6 0 0 9 8
6 5 5 3 2 1 0 10
a) Obtener los diagramas de sectores y de barras de la variable Nota de Cálculo I y
Estadística.
b) Obtener la recta de regresión entre las dos variables e indicar la varianza residual
calculada.
c) Hacer el apartado (a) construyendo una nueva tabla de datos. La primera
columna ha de ser la variable Asignatura (C ó E) y la segunda columna la
variable Nota.
d) Construir la tabla de doble entrada.

ESTADÍSTICA 12 PRÁCTICAS TEMA 1


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

PRÁCTICAS TEMA 3

DISTRIBUCIONES DE PROBABILIDAD

COMANDO ÚTILES DE MAPLE

> restart: para reiniciar todos los valores de las variables y funciones.
> f:=x->función; para definir una función.
Para definir una función a trozos: > PIECEWISE([función,condición], [función,condición],…) o bien
> piecewise(condición,función, condición,función,…,otro caso).
> plot(función,x=a..b); para dibujar la gráfica de f.
> k:=solve(ecuación,k); resuelve en k.

GENERACIÓN DE NÚMEROS ALEATORIOS:

Podemos obtener por métodos aleatorios, valores para una variable que sigan una distribución
determinada.
Primero accedemos a las distribuciones de probabilidad conocidas. Plot . Probability Distribution .
Tabular Options . Random Numbers. En la ventana de Números Aleatorios pulsamos BD y en Analisys
Options modificamos los parámetros para nuestra distribución y otra vez BD, en Pane Options, elegimos
la cantidad de números a generar. Llegados a este punto, pinchamos en la 4ª herramienta de la ventana de
análisis Save Results y marcamos Random Numbers for Dist. 1 y OK.

CONTRASTE GRÁFICO DE LA DISTRIBUCIÓN DE UNOS DATOS CON UNA


DISTRIBUCIÓN TEÓRICA:

Para ver si los datos de una variable se ajustan a una distribución conocida, utilizaremos la opción:
Describe . Distributions . Distribution Fiting (Uncensored Data). En la ventana de análisis con el BD
pulsamos la opción Analysis Options y elegimos la distribución teórica deseada. En Graphics Options
tomamos la opción Frequency Histogram.
La opción Goodness-of Fit Tests de Tabular Options nos da un estudio estadístico de aproximación.
Veremos en el tema 6 este forma de actuar. (Leer el StatAdvisor).

DISTRIBUCIONES CONOCIDAS. CÁLCULO DE PROBABILIDADES.

Para calcular la probabilidad o el área que deja a la izquierda o a la derecha una distribución,
procederemos así:
Plot . Probability Distributions y elegimos la distribución deseada.
En Tabular Options elegimos Cumulative Distribution y en esa ventana con el BD en Pane Options
damos los valores de la variable de los que queremos calcular su probabilidad acumulada.

CÁLCULO DE VALORES DADA UNA PROBABILIDAD:

Para calcular el valor de una variable dada una distribución de probabilidad conocida, procederemos de la
misma forma que antes, pero utilizando la función de distribución inversa. En Tabular Options elegimos
Inverse CDF.

ESTADÍSTICA 13 PRÁCTICAS TEMA 3


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

1.- (Práctica con MAPLE) Sean X 1 y X 2 variables aleatorias con funciones de distribución:

⎧0 si x < −4
⎛0 si x < −3 ⎪x
⎜ ⎪ +1 si −4 ≤ x < −2
⎜1 ⎪4
si −3 ≤ x < 0 ⎪⎪ 1
F1 ( x) = ⎜⎜ F2 ( x) = ⎨ si −2 ≤ x < 1
5
y

3
si 0 ≤ x < 2 ⎪2
⎜ 10 ⎪ x2
⎜1 ⎪ − x +1 si 1 ≤ x < 2
⎝ si x≥2
⎪2
⎪⎩1 si x≥2

a) Representarlas gráficamente y estudiar la continuidad.


b) Calcular: P ( X 1 ≤ −3) , P( X 1 ≤ 1) , P( X 1 = −1) , P( X 1 = 1) , P ( X 1 = 2) ,
P ( X 1 ≤ 5) .
c) Obtener la función de densidad de X 2 , dibujarla y comprobar que es densidad.
d) Calcular: P ( X 2 = 1) , P ( X 2 ≤ 1) , P ( X 2 > 1) y P (−2 ≤ X 2 ≤ 0) .
2.- (Práctica con MAPLE) Sean X 1 y X 2 variables aleatorias con funciones de densidad:

⎧0 si x≤0
⎧k1 ( x − 2)(4 − x) si x ∈ [ 2, 4] ⎪
f1 ( x) = ⎨ y f 2 ( x) = ⎨ 4 ⎛ 2 ⎞ 1 ⎛ x⎞
⎩ 0 resto ⎪k2 9 exp ⎜⎝ − 3 x ⎟⎠ ⋅ 9 exp ⎜⎝ − 3 ⎟⎠ si x>0

a) Hallar los valores de k1 y k2 .
b) Calcular y representar las funciones de distribución de X 1 y X 2 .
c) Calcular la esperanza y la varianza de las dos variables.
3.- (Práctica con MAPLE) Una máquina fabrica piezas cilíndricas cuyos radios (en metros) se
⎧k ( x − 1)(3 − x) si x ∈ [1,3]
distribuyen según la función de densidad: f ( x) = ⎨
⎩0 resto
a) Calcular k para que f sea función de densidad y representarla gráficamente.
b) Calcular la función de distribución y representarla gráficamente.
c) Calcular la probabilidad de que el radio de una pieza esté entre 1’8 y 2’4.
d) Calcular la probabilidad de que el radio de una pieza sea mayor que 2’4.
e) Calcular la función de densidad de los diámetros.
f) Calcular la función de densidad de las áreas de las secciones circulares.
4.- (Práctica con MAPLE) Un disco metálico circular de radio R, puede presentar una picadura
en su superficie con igual probabilidad en cualquiera de sus puntos. Llamando X a la
distancia de la picadura al centro del disco, hallar:
a) Las funciones de distribución y densidad de la variable aleatoria X.

ESTADÍSTICA 14 PRÁCTICAS TEMA 3


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

b) La media, varianza y mediana de X.


5.- Generar 500 números aleatorios que se distribuyan según B(10,0’5), B(150,0’3),
B(400000,0’001), P(5), P(45) y P(400).
Observar gráficamente a qué otras distribuciones se aproximan estas distribuciones.
¿Cuál es la mejor aproximación?
6.- Dada una distribución normal de media 20 y varianza 9, obtener el área bajo la curva
que está a la izquierda de 25, a la derecha de 14 y entre 15 y 18.
7.- Dada una distribución normal estándar, determinar el valor de k de modo que:
P ( Z < k ) = 0 '72 , P( Z > k ) = 0'0427 y P (−0'39 < Z < k ) = 0'3572 .
8.- En un surtidor de gasolina, el promedio de coches que repostan combustible es 6. ¿Cuál
es la probabilidad de que en una estación de servicio con 4 surtidores reposten 30 o más
coches?
9.- Una máquina produce componentes que son defectuosas en un 15 por 100. Se elige al
azar una muestra de 14 componentes. Calcular la probabilidad de que 1, 2 y menos de 4
componentes sean defectuosas en la muestra, utilizando
a) la distribución binomial
b) la aproximación de Poisson
c) la aproximación normal.
d) Comparar los resultados.

ESTADÍSTICA 15 PRÁCTICAS TEMA 3


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

ESTADÍSTICA 16 PRÁCTICAS TEMA 3


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

PRÁCTICAS TEMA 4

DISTRIBUCIONES DE MUESTREO

1.- Hallar las siguientes probabilidades y valores de una variable que obedece a la χ 2 de

Pearson: a) P ( χ 2 (10) > 5'031) b) P ( 6'821 < χ 2 (15) < 15'13) c) P ( χ 2 (150) > 128 ) y d)

χ 02'95 (10) , χ 02' 975 (8) , χ 02' 05 (14) .


2.- Hallar las siguientes probabilidades de una variable que obedece a una distribución t de
Student: a) P ( t (5) < 1'239 ) , b) P ( t (18) < 2 ) , c) P ( t (14) < −1'5 ) d) P ( −1 ≤ t (17) ≤ 2 ) .

3.- Calcular las siguientes probabilidades y valores de una variable que obedece a una
distribución F de Snedecor: a) P ( F (6,8) > 10 ) , b) P ( F (10,15) < 3'60 ) y c)

F0 ' 01 (10,15) , F0 ' 025 (4,5) , F0 ' 05 (13,14) , F0 '99 (15,10) .

( Si ) 2
4.- En el fichero ESTIMA (pedir al profesor), crear las variables X i = (n − 1) y
σ2
(Xi − µ)
Ti = n donde
Si

- X 1 = media1 y S1 son las 100 medias y desviaciones típicas muestrales de


100 muestras de tamaño 10 a partir de una N (2,1) .

- X 2 = media2 y S 2 son las 100 medias y desviaciones típicas muestrales de


100 muestras de tamaño 15 a partir de una exponencial λ = 0 '1 .
- X 3 = media3 y S3 son las 100 medias y desviaciones típicas muestrales de

100 muestras de tamaño 100 a partir de una exponencial λ = 0 '1 .


(Todas las variables necesarias se encuentran en el fichero ESTIMA)
a) ¿A qué modelo de distribución teórica se ajustan las variables creadas? ¿Con qué
parámetros?
b) Contrastar gráficamente la distribución de los datos con la distribución teórica.

ESTADÍSTICA 17 PRÁCTICAS TEMA 4


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

c) ¿Se puede concluir que la distribución en el muestreo de S 2 , varianza muestral,


se aproxima al resultado del teorema de Fisher para tamaños grandes de la
muestra?
5.- Sean las variables X e Y independientes e uniformes en el intervalo [0,1] . Generar
10.000 pares de números aleatorios donde ( xi , yi ) es una muestra de la distribución
uniforme bidimensional.
a) Con MAPLE, hallar y representar las funciones de densidad de las variables
W = X + Y y Z = XY .
b) Contrastar gráficamente el histograma de las muestras de W y de Z con la
densidad teórica normal y observar el resultado.
c) Contrastar gráficamente el histograma de las muestras de W y de Z con las
densidades fW y f Z .

ESTADÍSTICA 18 PRÁCTICAS TEMA 4


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

PRÁCTICAS TEMA 5

ESTIMACIÓN

INTERVALOS DE CONFIANZA:

El intervalo de confianza para la media y la desviación típica de una muestra de una variable estadística,
teniendo la muestra en la tabla de datos, se calcula accediendo a: Describe . Numeric Data . One
Variable Analysis . Tabular Options . Confidence Intervals. Con BD en Pane Options cambiamos el nivel
de confianza. Si no tenemos los datos, pero nos dan la media y la desviación típica, accedemos mediante
Describe . Hypothesis test.
El intervalo de confianza para una proporción, se calcula accediendo a: Describe . Hypothesis test .
Binomnial proportion. Con BD en Analysis Options cambiamos el nivel de confianza.
El intervalo de confianza para la diferencia de medias y la razón de desviaciones, se calcula accediendo a:
Compare . Two Simples . Two-Simple Comparison . Tabular Options. Con BD en Pane Options
cambiamos el nivel de confianza.

DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA:

Para determinar el tamaño de la muestra necesario controlando el error, acceder a: Describe . Sample Size
Determination. Para la media de una población normal, Normal Mean; para la desviación de una
población normal, Normal Sigma; para la proporción de una población binomial, Binomial Proportion; y
para la tasa de una población de Poisson, Poisson Rate.
Si queremos determinar el tamaño de dos muestras, ir a Compare – Two Simples – Simple-Size
Determination.

1.- Se han observado, para tres rutinas diferentes (A, B y C) de un software, los tiempos de
ejecución siguientes (en segundos):

A 34 45 48 29 36 28 33 56 37 44 40 52 30 48

B 23 35 41 52 47 33 44 55 36 27 28 34 37 41 52 48 33

C 37 48 38 52 43 50 51 46 62 39 48 55 57

Obtener estimaciones e intervalos de confianza al 95% para la media y para la varianza


de cada población y para las diferencias de medias y cocientes de varianzas entre pares
de poblaciones (suponer normalidad en los datos).
2.- Se extrae una muestra de tamaño n = 21 aleatoriamente de una población normal con
media µ y desviación típica σ , se registran la media y desviación típica muestrales
x = 7 , sc = 3'6 . Calcular el intervalo de confianza para µ y σ con una probabilidad de

contenerlo de 0’97.

ESTADÍSTICA 19 PRÁCTICAS TEMA 5


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

3.- De 295 fallos en una máquina, 118 se debieron a errores humanos.


a) Estimar la proporción de fallos por error humano y comparar los intervalos de
confianza al 95% y al 99% para dicha proporción.
b) ¿Qué tamaño muestral se necesita como mínimo para que la amplitud del
intervalo al 95% no supere 0’04?¿Y para el intervalo al 99%?. Explicar los
resultados.
4.- Se sospecha que existe cierta diferencia entre las proporciones de artículos defectuosos
producidos por dos máquinas distintas. Por experiencia, esa diferencia es del orden de
0’03. Si queremos estimar la diferencia entre esas dos proporciones con una exactitud
de 0’005 y una probabilidad de 0’98 de que sea correcta, sabiendo que una de las
máquinas produce el doble que la otra, ¿cuántos artículos deberemos muestrear
aleatoriamente?
5.- Las presiones sistólicas de dos grupos independientes de niños, para el primero de los
cuales sus padres son hipertensos y para el segundo normales, dan los siguientes
valores:

Grupo 1 100 102 96 106 110 110 120 112 112 90

Grupo 2 104 88 100 98 102 92 96 100 96 96


a) Suponiendo que las dos poblaciones son normales y de varianzas iguales y
desconocidas, calcular un intervalo de confianza del 95% para la diferencia de
medias.
b) ¿Qué tamaños de muestras se necesitan para que al nivel de confianza del 99%
el intervalo de confianza para la diferencia de medias sea el obtenido en el
apartado anterior, suponiendo que las desviaciones típicas poblacionales valen
ambas 7 y que la diferencia de medias vale 5?
6.- Cierto metal se produce mediante un proceso estándar. Se desarrolla un nuevo proceso
en el que se añade una aleación durante la producción del metal. El fabricante quiere
saber si el nuevo método proporciona al metal mayor resistencia a la ruptura. Se toman
12 piezas de metal de cada proceso de fabricación y se someten a tensión hasta que se
rompen. Se adjuntan las tensiones de ruptura de cada pieza en kilogramos por
centímetro cuadrado. Se supone que las observaciones son normales con la misma
varianza. Obtener intervalos de confianza al 95% y al 99% para la diferencia de medias
entre los dos procesos. ¿Es razonable suponer que el nuevo proceso proporciona mayor
resistencia?

ESTADÍSTICA 20 PRÁCTICAS TEMA 5


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

Estándar 428 419 458 439 441 456 463 429 438 445 441 463

Nuevo 462 448 435 465 429 472 453 459 427 468 452 447

7.- Para predecir la resistencia al corte de vigas de placa de acero, se compararon dos de los
métodos existentes. Se aplicaron los procedimientos de Karlsruhe y de Lehigh a nueve
vigas específicas. Obtener intervalos de confianza al 95% y al 99% para la diferencia de
medias entre los dos métodos.
Procedimiento Karlsruhe 1’186 1’151 1’322 1’339 1’200 1’402 1’365 1’537 1’559

Procedimiento Lehigh 1’061 0’992 1’063 1’062 1’065 1’178 1’037 1’086 1’052

ESTADÍSTICA 21 PRÁCTICAS TEMA 5


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

ESTADÍSTICA 22 PRÁCTICAS TEMA 5


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

PRÁCTICAS TEMA 6

CONTRASTES DE HIPÓTESIS

CONTRASTES PARAMÉTRICOS Y NO PARAMÉTRICOS:

Para hacer contrastes paramétricos conociendo las estimaciones sin tener los datos de la muestra,
Describe . Hypothesis test. Tenemos los contrastes de la media con varianza conocida, de la χ para
2

la varianza, para una proporción binomial y para el parámetro de Poissson. También se obtiene la
curva de potencia.
Sin embargo, cuando tenemos los datos de la muestra, en Describe . Numeric Data . One Variable
Analysis . Tabular Options . Hypothesis Tests, tenemos los contrastes para la media con varianza
desconocida, de los signos para la mediana, de los rangos con signo de Wilcoxon. Con BD en Pane
Options cambiamos el nivel de confianza, la hipótesis nula y elegimos el tipo de hipótesis alternativa.
Para dos variables, conociendo las estimaciones de los parámetros, sin los datos de las muestras, en
Compare . Two Samples . Hypothesis test, tenemos el contraste para la diferencia de medias con
varianzas conocidas, para el cociente de varianzas cuando no tenemos la muestra y para la diferencia
de dos proporciones.
Para dos muestra dadas, en Compare . Two Samples . Two-Sample Comparison. Tenemos los contrastes
para la diferencia de medias con muestras independientes con varianza desconocida, contraste de la
F para el cociente de varianzas, contraste de la suma de rangos (Man-Whitney-Wilcoxon) para la
diferencia de medianas.
Para dos muestra dadas, en Compare . Two Samples . Paired-Sample Comparison, tenemos el contraste
para la diferencia de medias con muestras pareadas.
En Describe . Numeric Data . Multiple-Variable Analysis con BD Rank Correlations obtenemos la
correlación de rangos de Spearman.
Para una tabla de contingencia con datos no agrupados, Describe . Categorical Data . Crosstabulation.
Contraste de la χ2 de independencia para tablas de contingencia.

Para una tabla de contingencia con datos agrupados, Describe . Categorical Data . Contingency Tables.
Contraste de la χ2 de independencia para tablas de contingencia.

Para los contrastes de bondad de ajuste, Describe . Ditributions . Distribution Fitting. Tenemos test de
normalidad y test de la χ y de Kolmogorov-Smirnov en Goodness-of-fit. Para ajustar a un modelo
2

teórico, BD y Analysis Options.


También en esta opción de Tests for Normality tenemos contrastes de simetría y curtosis.

1.- Para la instalación de aerogeneradores, se estudia la velocidad del viento. Se supone que
la varianza de la velocidad del viento es menor o igual a 2 metros por segundo.
Llevadas a cabo 25 mediciones de la velocidad, se obtiene una varianza de 3’2. Si la
distribución de la variable velocidad se supone normal, se pregunta:
a) ¿Es lógico aceptar la suposición con un nivel de significación de 0’01?

ESTADÍSTICA 23 PRÁCTICAS TEMA 6


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

b) ¿Cuántas mediciones serían necesarias para que la potencia del contraste sea del
90%, suponiendo una diferencia de 0’2 entre el valor hipotético de σ y su valor
real?
2.- La longitud de una pieza se distribuye normalmente y se desconoce su desviación típica.
Se quiere contrastar la hipótesis de que la media µ = 1'5 cm. frente a la alternativa
µ ≠ 1'5 cm., para lo cual se dispone de una muestra aleatoria de tamaño 16, con media
x = 1' 4 cm. y desviación típica s = 2 mm. Contraste dicha hipótesis con un nivel de
significación del 5% y determine el p-valor de la hipótesis nula.
3.- Una fábrica recibe cola de dos proveedores X e Y y se desea estudiar su calidad
extrayendo una muestra de cada proveedor. Se obtienen lo siguientes resultados
atendiendo a la cantidad de impurezas de la cola.
X: 0’32, 0’29, 0’30, 0’28, 0’33, 0’31, 0’30, 0’29, 0’33, 0’32, 0’30, 0’29
Y: 0’28, 0’30, 0’32, 0’29, 0’31, 0’29, 0’33, 0’32, 0’29, 0’32, 0’31, 0’29, 0’32, 0’31, 0’32, 0’33.
a) Al nivel de confianza del 99% determinar un intervalo de confianza para la
desviación típica de X, la desviación típica de Y, y para la razón de varianzas
suponiendo normal la variable estudiada en ambas poblaciones independientes.
b) Realizar el contraste de hipótesis de igualdad de varianzas para α = 0 '01 .
c) Realizar el contraste de igualdad de medianas para α = 0'05 .
d) ¿Se puede aceptar la hipótesis de que las dos muestras provienen de la misma
población al 95% de confianza?
4.- Se ignora la proporción alumnos pertenecientes a familia numerosa que se matriculan en
la Universidad de Burgos. Con el fin de determinar dicha proporción, se toma una
muestra de 50 alumnos siendo la proporción observada de 0’02. Formulamos la
hipótesis nula H 0 : p = 0 '10 frente a H1 : p ≠ 0 '10 y queremos contrastarla para un

nivel de significación α = 0'05 . Se pide además el intervalo de confianza para p y la


curva de potencia del contraste. ¿Cuál sería el tamaño de la muestra necesario para ese
contraste con α = 0'01 ?
5.- Una persona se chulea de que puede distinguir entre dos vinos blancos del mismo
bodeguero de dos añadas distintas. Se le dan a catar 12 muestras en orden aleatorio y
acierta 9 de las 12 veces. ¿Prueba esto su afirmación? ¿Y si hubiera acertado 10 veces?
6.- Para predecir la resistencia al corte de vigas de placa de acero, se compararon dos de los
métodos existentes. Se aplicaron los procedimientos de Karlsruhe y de Lehigh a nueve
vigas específicas.

ESTADÍSTICA 24 PRÁCTICAS TEMA 6


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

Procedimiento Karlsruhe 57 49 60 55 57 48 50 61 52 56

Procedimiento Lehigh 55 48 58 56 54 48 52 56 50 58
a) ¿Podemos aceptar que la resistencia en ambos procedimientos es la misma con
un nivel α = 0'05 suponiendo una distribución normal bivariante?
b) Hallar intervalos de confianza para la media y la desviación típica de las
diferencias de resistencia entre los dos procedimientos.
7.- Para estudiar el efecto de las bridas reforzadas sobre la capacidad torsional de vigas T
de hormigón armado, se utilizaron dos tipos de vigas T. Ocho vigas con ancho de
plancha de 70 cm. y ocho vigas con ancho de plancha de 100 cm. Sometidas a pruebas
de torsión y flexión, se midió el tiempo de torsión de agrietamiento en la parte superior
de la brida de la viga T.
Ancho de Plancha de 70 cm 6 ’00 7 ’ 2 0 10’20 13’20 11’40 13’60 9 ’ 2 0 11’20

Ancho de Plancha de 100 cm 6 ’ 8 0 9 ’ 2 0 8 ’ 8 0 13’20 11’20 14’90 10’20 11’80

a) Al nivel de confianza del 99% determinar un intervalo de confianza para las


desviaciones típicas de los dos tipos de vigas y para la razón de varianzas,
suponiendo normal la variable tratada en las dos poblaciones independientes.
b) ¿Hay pruebas de una diferencia en la variación de los momentos de torsión de
agrietamiento de los dos tipos de vigas T? α = 0 '10 .
c) Contrastar la hipótesis de igualdad de medianas para α = 0 '05 .
d) ¿Se puede aceptar la hipótesis de que las dos muestras provienen de la misma
población con α = 0 '05 ? Interpretar este resultado.
8.- Un fabricante de tejidos decide estudiar la distribución del número de imperfecciones en
las piezas de tela que produce. Selecciona al azar 50 piezas del mismo tipo y tamaño y
cuenta al número de imperfecciones en cada una de ellas. Contrastar la hipótesis de que
este número sigue una distribución de Poisson de media 1’5. Los datos son: 2 3 1 5 0 1
0 3 2 1 0 1 4 6 1 1 1 0 2 0 1 2 0 4 3 2 0 1 1 2 0 1 1 5 0 5 1 4 1 2 1 0 1 2 3 1 0 2 2 3.
9.- Generar 80 números aleatorios que sigan una distribución exponencial de parámetro 5 y
comprobar que la suposición de que la muestra es exponencial es acertada.
10.- Doce ingenieros de caminos concurren a un concurso con su proyecto para un construir
un puente. Cuatro jueces distintos califican por méritos los doce proyectos de la
siguiente forma:
A: 5 8 6 1 2 11 10 9 7 4 3 12

ESTADÍSTICA 25 PRÁCTICAS TEMA 6


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

B: 5 11 6 1 2 10 9 8 7 3 4 11
C: 5 8 6 1 2 10 9 8 7 4 3 12
D: 5 11 6 1 2 11 9 9 7 4 3 11
Discutir el grado de concordancia entre los cuatro jueces.
11.- ¿Se puede asegurar que la siguiente muestra procede de una distribución simétrica?
170 171 171 172 173 174 175 176 177 177 179 181 185 188 190 195 202 213 264 352 440

ESTADÍSTICA 26 PRÁCTICAS TEMA 6


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

PRÁCTICAS TEMA 7.

FIABILIDAD

TABLAS DE VIDA:

Las tablas de vida para el número de fallos en un conjunto de intervalos: Describe . Life Data . Life
Tables (Intervals)
Las tablas de vida para ocurrencias de fallo: Describe . Life Data . Life Tables (Times). Este método
estima la función de supervivencia mediante el método del límite-producto de Kaplan-Meier que se basa
en la función de supervivencia empírica, calculada por la función de distribución empírica.
Para observar gráficamente el ajuste a un modelo de Weibull, tenemos la utilidad: Describe . Life Data .
Weibull Analisys.
Si queremos saber si hay diferencia significativa entre varios grupos de datos, en Life Tables (Times),
introducimos la variable de agrupación en (Group) y en Tabular Options, accedemos a Group
Comparisons. Este procedimiento crea una tabla de vida separada para cada grupo.

ESTIMACIÓN DE LA FUNCIÓN DE SUPERVIVENCIA:

La estimación no paramétrica de Kaplan-Meier se hace como se ha visto en el apartado anterior.


Los percentiles que nos da la opción Describe . Life Data . Life Tables (Times), marcan el tiempo mínimo
de supervivencia del porcentaje marcado.
Las gráficas de la función de supervivencia y de la función de riesgo acumulado estimadas, se obtienen en
Graphics Options.
Para comparar las funciones de supervivencia, en Tabular Options, usamos Group Comparisons. Si son
dos grupos, nos fijamos en Logrank test y si son tres o más, en Wilcoxon test.
La estimación paramétrica parte de una distribución de probabilidad para los tiempos de supervivencia.
Las más utilizadas son la exponencial, la de Weibull y la log-logística.
La herramienta que hace estimación paramétrica de la forma y la escala de una distribución de Weibull es
Describe . Life Data .Weibull Analysis. Hay que tener en cuenta que el parámetro de escala que da
Statgraphics es el inverso al utilizado por nosotros. Las funciones de supervivencia y de riesgo se
obtienen en Graphics Options.

1.- Utilizar los datos del fichero MIELOMA (pedir al profesor) para hacer una tabla de vida
de la variable l_tiempo (en meses), agrupando los pacientes por edades hasta 45 años,
de 46 a 60 años y de 61 en adelante. La variable w_status=0 es muerte y w_status=1 es
censura.
a) Estudiar con que variable de agrupación hay diferencia estadística significativa
entre grupos con un 95% de nivel de confianza.
b) Construir la tabla de vida de los pacientes y decir qué tiempo mínimo de
supervivencia se estima para el 65% de los pacientes.

ESTADÍSTICA 27 PRÁCTICAS TEMA 7


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

c) Realizar una estimación no paramétrica de Kaplan-Meier de la función de


supervivencia y la función de riesgo acumulado y dibujarlas.
d) Realizar una estimación paramétrica de ajuste a la distribución de Weibull y
representar las funciones de supervivencia y riesgo.
2.- Se han sometido a una prueba de 100 minutos, 33 piezas industriales de dos tipos
distintos (las 17 primeras del tipo 1 y el resto del tipo 2). Los datos obtenidos para los
tiempos de resistencia son los siguientes, suponiendo que los de valor 100 no han
fallado (censuras): 65, 100, 100, 100, 16, 100, 100, 4, 39, 100, 56, 26, 22, 1, 1, 5, 65, 56,
65, 17, 7, 16, 22, 3, 4, 2, 3, 8, 4, 3, 30, 4, 43.
a) Hallar la estimación de los percentiles 75, 50 y 40 de la resistencia a fallos para
cada tipo de piezas. ¿Cómo se interpreta el resultado? ¿Qué grupo tiene más
resistencia?
b) Representar las funciones de supervivencia y riesgo acumulado para los dos
tipos de piezas.
3.- Sean los tiempos de remisión de una enfermedad (en semanas) de 42 pacientes, 12 de
ellos censurados (signo +): 1, 10, 22, 7, 3, 32+, 12, 23, 8, 22, 17, 6, 2, 16, 11, 34+, 8,
32+, 12, 25+, 2, 11+, 5, 20+, 4, 19+, 15, 6, 8, 17+, 23, 35+, 5, 6, 11, 13, 4, 9+, 1, 6+, 8 y
10+.
a) Ajustar los datos a un modelo exponencial y valorar la calidad del ajuste. Hallar
las funciones de supervivencia y riesgo para este modelo.
b) Realizar el ajuste a un modelo de Weibull y medir su calidad, representando
además el histograma de frecuencias y las funciones de supervivencia y riesgo.
c) Realizar la estimación no paramétrica de la función de supervivencia y
representarla.
d) Construir la tabla de vida y estimar los percentiles 60, 50 y 40.
e) Construir la tabla de vida para intervalos agrupados de anchura 5. Representar
las funciones de supervivencia y riesgo.
4.- Cien artefactos se sometieron a pruebas de ciclo de vida y los tiempos de fallo (en
horas) de los primeros 10 fallos fueron: 7’0, 14’1, 18’9, 31’6, 52’8, 80’0, 164’5, 355’4,
451’0 y 795’1.
a) Estimar gráficamente si se evidencia un modelo de Weibull.
b) Si se supone una distribución de tiempo de fallo de Weibull, estimar los
parámetros de forma y escala y la tasa de fallo a las 1.000 horas. ¿Cómo se

ESTADÍSTICA 28 PRÁCTICAS TEMA 7


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

compara este valor con el que se obtendría si supusiéramos un modelo


exponencial?
c) Con lo anterior, estimar la probabilidad de que un artefacto funcione
satisfactoriamente por lo menos durante 150 horas.
5.- Comparar las funciones de supervivencia para los siguientes datos de tiempos de fallo
extraídos de dos muestras correspondientes a dos tipos distintos de bombilla.
Tratamiento A: 10, 13, 15+, 17, 19+ y 20+
Tratamiento B: 8, 10, 11, 11+, 12, 15+
6.- Comparar las funciones de supervivencia para los siguientes datos de tiempos de fallo
extraídos de tres muestras correspondientes a tres lugares diferentes.
Lugar A: 1, 3, 7, 8+, 12, 12, 15+
Lugar B: 2, 2, 3, 8, 10, 10, 12+, 15
Lugar C: 1, 1, 3, 7, 10+, 12, 12, 14, 15+

ESTADÍSTICA 29 PRÁCTICAS TEMA 7


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

ESTADÍSTICA 30 PRÁCTICAS TEMA 7


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

PRÁCTICAS TEMA 8.

MODELO DE REGRESIÓN SIMPLE

REGRESIÓN SIMPLE:

Para la regresión lineal simple, tenemos que ir a Relate . Simple regression.


Predicciones: Forecast y con BD Pane Options.
Recta de regresión: Plot of Fitted Model

1.- Con los datos siguientes, construir las rectas de regresión de Y1 , Y2 , Y3 sobre X 1 y la de

Y4 sobre X 2 . Exponer las conclusiones pertinentes a la vista de los resultados.

X1 Y1 Y2 Y3 X 2 Y4
10 8,04 9,14 7,46 8 6,58
8 6,95 8,14 6,77 8 5,76
13 7,58 8,74 12,74 8 7,71
9 8,81 8,77 7,11 8 8,84
11 8,33 9,26 7,81 8 8,47
14 9,96 8,1 8,84 8 7,04
6 7,24 6,13 6,08 8 5,25
4 4,26 3,1 5,39 19 12,5
12 10,84 9,13 8,15 8 5,56
7 4,82 7,26 6,42 8 7,91
5 5,68 4,74 5,73 8 6,89
2.- Los datos de la tabla adjunta muestran el tiempo de impresión Y de trabajos que se han
imprimido en impresoras de la marca PR. Se está interesado en estudiar la relación
existente entre la variable de interés “tiempo de impresión de un trabajo” y la variable
explicativa X “número de páginas del trabajo”.

ESTADÍSTICA 31 PRÁCTICAS TEMA 8


ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010

a) Hacer el estudio en base a los datos obtenidos en el muestreo.


b) Calcular el intervalo de confianza al 90% para el tiempo medio de impresión de
los trabajos de 6 hojas y calcular también el intervalo de predicción al 90% para
el tiempo de impresión de un trabajo de 6 hojas.
3.- Los neumáticos inflados por defecto o por exceso pueden acelerar su desgaste y
aumentar el gasto de combustible. Un fabricante comprobó este hecho con los
siguientes datos, siendo X la presión e Y el consumo (litros a los 100 km. o rendimiento
del combustible). Calcular el coeficiente de correlación e interpretar el resultado. Qué
tipo de regresión sugiere el diagrama de dispersión.
X 1’92 1’92 1’97 1’97 2’02 2’02 2’07 2’07 2’13 2’13 2’18 2’18 2’23 2’23

Y 7’84 7’78 7’59 7’38 7’23 7’34 7’07 7’12 7’11 7’24 7’46 7’41 8’12 8’06

4.- Una compañía de energía eléctrica seleccionó una vivienda para obtener un modelo
sobre el consumo (variable Y, kilovatios por día) en función de la temperatura promedio
diaria (variable X) durante el invierno. A lo largo de 15 días se obtuvieron los siguientes
datos:
X 0 8 7’5 13’5 14 8’5 4’5 -11 -7’5 -8’5 1’5 0’5 2 -6 -4

Y 70 57 60 63 57 66 67 107 96 88 80 64 79 82 97
a) Hacer el gráfico de dispersión.
b) Obtener el coeficiente de regresión y dibujar la recta correspondiente.
c) Calcular los residuos.
d) Obtener estimadores para las desviaciones de los parámetros.
e) Obtener un intervalo de confianza al 95% para el valor de la pendiente.
f) ¿Es significativa al 95% la relación lineal entre el consumo y la temperatura?
g) Para cada temperatura, obtener intervalos de confianza al 95% estimados para el
consumo de energía. Dibujarlos sobre la recta de regresión.
h) Hacer lo mismo que en el apartado anterior para las predicciones de los
consumos dados en la tabla.

ESTADÍSTICA 32 PRÁCTICAS TEMA 8

También podría gustarte