Documentos de Académico
Documentos de Profesional
Documentos de Cultura
DE
ESTADÍSTICA
Curso 2009-2010
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010
Esta introducción nos servirá para tomar un primer contacto con el programa STATGRAPHICS Versión
4.0 para WINDOWS que utilizaremos como ayuda a las prácticas.
En cualquier caso disponemos de la posibilidad de acudir al comando “Ayuda” que, como su propio
nombre indica, nos ilustrará sobre las muchas posibilidades del programa.
La modularidad de Statgraphics bajo Windows hace especialmente manejables los análisis estadísticos.
En todo momento podemos dejar un estudio para retomarlo después tal y como estaba.
Cuando entremos en STATGRAPHICS veremos la siguiente pantalla:
En esta ventana, tenemos una barra de menú donde podemos optar por las opciones que nos ofrece el
programa (File, Edit, Plot,). Más abajo se dispone de una barra de herramientas cuyos iconos nos
permiten ir de una forma rápida a las opciones de la barra de menú más utilizadas (Abrir StatFolio,
Guardar StatFolio, etc). En la parte inferior de la ventana se presentan los iconos, que son sub-ventanas
que utilizaremos durante el manejo del programa. (<Untitled> es Ventana de Hoja de Cálculo donde van
los datos, StadAdvisor es Ventana del Intérprete Estadístico, StatGallery es Ventana de Gráficos y
Untitled Co… es Ventana de Comentarios). En la zona “gris” desplegaremos las sub-ventanas para
detenernos en su manejo.
Opciones más importantes del menú principal:
♦ File (Fichero)
° Open StatFolio (Abrir StatFolio)
° Open Data File (Abrir fichero de datos)
° Open StatGallery (Abrir StatGallery)
° Close … (Cerrar)
° Save … (Guardar)
° Save As … (Guardar como)
° Print Preview (Presentación preliminar a la impresión)
° Print (Imprimir)
ESTADÍSTICA 3 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010
♦ Edit (Edición)
° Undo (Deshacer)
° Cut (Cortar)
° Copy (Copiar)
° Paste (Pegar)
° Change Analysis Title (Cambiar Título de Análisis)
♦ Plot (Gráficos)
° Scatterplots (Gráficos de dispersión)
− Univariate Plot (Una variable)
− X-Y Plot (Dos variables)
− X-Y-Z Plot (Tres variables)
− etc.
° Exploratory Plots (Gráficos de exploración)
− Box-and-Wiisker Plot (Diagramas de caja y bigotes)
− Multiple Box-and-Wiisker Plot (Diagramas múltiples de caja y bigotes)
− Probability Plot (Diagramas de probabilidad)
− Frecuency Histogram (Histograma de frecuencias)
− etc.
° Business Charts (Gráficos de negocios)
− Barchart (Diagrama de barras)
− Multiple Barchart (Diagrama múltiple de barras)
− Piechart (Diagrama de sectores)
° Probability Distributions (Distribuciones de probabilidad)
♦ Describe (Estadística Descriptiva)
° Numeric data (Datos numéricos o variable cuantitativas)
− One-variable Analysis (Análisis de una variable)
− Multiple-variable Analysis (Análisis de varias variables)
− Subset Analysis (Análisis de subconjuntos)
− etc.
° Categorical data (Datos categóricos o variables cualitativas)
− Tabulation (Tablas de frecuencias, gráficos de barras y de sectores)
− Crosstabulation (Tabulación cruzada, gráficos de barras y de sectores)
− Contingency Tables (Tablas de contingencia)
° Distributions (Distribuciones teóricas)
− Probability Distributions (distribuciones de probabilidad teóricas)
− Probability Plots (contrastes gráficos de distribuciones)
− Distributions Fitting (contrastes con distribuciones teóricas)
− Uncensored Data (datos no censurados)
ESTADÍSTICA 4 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010
Ventana de Hoja de Cálculo o Fichero de Datos: Fichero de datos (Data File) con extensión .sf. En él
guardamos los datos objeto de nuestro estudio y su manejo es parecido al de una hoja de cálculo de un
libro de Excel. Contiene las variables en las columnas y sus valores en las celdas.
Las variables pueden ser cualitativas, cuantitativas discretas y cuantitativas continuas y podemos
modificar una variable seleccionándola y elegir la opción Modify Column del menú Edit. Los formatos
pueden ser:
Numeric: Coma flotante. Máximo 20 dígitos
Character: Hasta 70 caracteres alfanuméricos.
Integer: Número entero hasta 20 dígitos.
Date: mm/dd/yy (según el panel de control de
Windows)
Fixed Decimal: nº fijo de cifras decimales hasta 9.
Máximo de 20 dígitos incluido el punto decimal.
Formula: Se puede generar una variable como
resultado de una fórmula de otras variables existentes.
Se pueden combinar ficheros de datos con la opción Combine del menú File.
Una forma de introducir los datos menos utilizada, es utilizando una columna para los distintos posibles
valores de la variable y otra columna para sus frecuencias (a éstas, Statgraphics las llamará counts y a los
valores labels).
Recodificación de datos: Muchas veces nos puede interesar cambiar el rango de los datos de una variable
para hacer más cómodo su análisis. Por ejemplo, queremos agrupar los datos en rangos diferentes a los
actuales o bien queremos asignar códigos de variables.
Previamente, para no perder los antiguos valores, debemos guardar
nuestra variable en otra columna, marcándola y copiándola con la
opción Copy del menú Edit y la opción Paste en una columna nueva. A
ESTADÍSTICA 5 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010
continuación, marcamos la variable que queremos recodificar y abrimos la opción Recode Data del menú
Edit. Completamos entonces el cuadro de diálogo.
StatFolio: Fichero con extensión .sgp. El StatFolio es una herramienta que permite almacenar trabajos.
Éstos pueden contener ficheros de datos, gráficos, análisis específicos y comentarios. Es semejante a una
macro y en él guardamos todos los análisis referentes al fichero de datos asociado. Su gran ventaja es que
si modificamos los datos, rehace automáticamente los análisis. La ventana Untitled Co… (Ventana de
Comentarios) tomará el nombre del StatFolio.
Cuando guardemos el StatFolio, nos preguntará si queremos guardar también el fichero de datos en caso
de que haya tenido modificaciones.
StatAdvisor: Es el intérprete estadístico, y nos va a dar en todo momento una breve explicación (in
english) de la ventana que estamos tratando. Analiza las salidas obtenidas y nos avisa de las anomalías
percibidas.
StatGallery: El StatGallery es un panel de resultados. En
él podemos plasmar nuestros análisis y gráficos
particularizados, donde quedarán inamovibles.
StatGallery es como un fichero de diapositivas donde
podemos ir guardando los resultados que nos interesen
para una posterior salida ya sea por impresora o por
presentación en pantalla. El fichero StatGallery tiene
extensión .sgg.
Pulsando en cualquier ventana el botón derecho (en
adelante BD), nos ofrece la opción Copy to Gallery y en
StatGallery elegimos paste con el BD.
StatReporter: Es una página que tiene el cometido del StatGallery, pero con la ventaja de que podemos
exportar el análisis a un procesador de texto y presentar nuestro trabajo tal como sale en Statgraphics.
Para no utilizar demasiada memoria en el archivo del procesador de textos, es aconsejable poner los
gráficos a blanco y negro para llevarlos a StatReport. Para hacerlo, pinchar BD en el gráfico Graphics
Options . Profile y marcar System (Black-and-White), finalmente Load y si queremos dejarlo
permanentemente Make Default.
Ventana de Análisis: Cada vez que ejecutemos un procedimiento estadístico con STATGRAPHICS, el
programa nos presenta una ventana como marco de trabajo para ese procedimiento.
En la ventana de análisis se localizan dos zonas:
La barra de herramientas: Input dialog, donde elegimos
las variables, Tabular Options, opciones de resultados
analíticos, Graphics Options, opciones gráficas, Save
Results, guarda los resultados numéricos en variables. Las
demás herramientas se utilizan para gráficos.
Salida de resultados: La pantalla de salidas, se divide en
la zona analítica a la izquierda y la zona gráfica a la
derecha. Haciendo doble click con el ratón en una sub-
ventana, ésta se maximizará y podremos trabajar con esa
sub-opción.
Control de Gráficos: Cuando queramos trabajar con un
gráfico, primero lo maximizamos y STATGRAPHICS
nos dará por defecto los parámetros de escala de ejes,
colores, textos, etc. Si lo deseamos, podemos modificar
esos parámetros y obtener nuestro propio gráfico para
mandarlo al StatGallery y guardarlo así con el perfil que
le hemos dado.
Las opciones de trabajo en un gráfico son:
- Opciones relacionadas con los elementos gráficos
(en la figura: la recta y los puntos). Pinchando BD,
opción Pane Options.
ESTADÍSTICA 6 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010
- Opciones relacionadas con el tipo de análisis. Pinchando BD, opción Analysis Options.
- Opciones de composición de los ejes: Pinchando BD, Graphics Options . Layout.
- Para modificar la escala de los ejes, pinchando BD, Graphics Options . Axis.. El campo Hold sirve
para que se mantengan los valores dados aunque varíen los datos y el campo.
- Opciones de composición del mallado, fondo y bordes (colores, fuentes y demás): Pinchando BD,
Graphics Options . Layout o Grid o Lines.
- Opciones de modificación de texto: Pinchando BI en el texto y luego BD.
- Añadir texto: Pulsar la herramienta Add Text: y después de introducir el texto, lo situaremos en su
sitio arrastrándolo con el ratón.
- Para identificar puntos en un gráfico, utilizaremos la herramienta
introduciendo el “número de la fila” de la hoja de cálculo a la que pertenece el dato.
- Para identificar el número de fila a la que pertenece un dato procederemos al revés.
- Para rotar un gráfico en tres dimensiones utilizaremos la herramienta Smooth/Rotate.
- Los gráficos se pueden guardar como fichero independiente (fichero imagen .wmf) o como ya hemos
indicado en el StatGallery.
ESTADÍSTICA 7 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010
ESTADÍSTICA 8 PRÁCTICA 0
ESCUELA POLITÉCNICA SUPERIOR DE BURGOS 3º I.C.C.P.
DEPARTAMENTO DE MATEMÁTICAS Y COMPUTACIÓN CURSO 2009-2010
PRÁCTICAS TEMA 1
ESTADÍSTICA DESCRIPTIVA
REPRESENTACIÓN DE DATOS:
Para tener una primera visión de los datos mediante los distintos tipos de diagramas y gráficos que hemos
visto en teoría, STATGRAPHICS nos los ofrece en las opciones siguientes:
- Para variables cuantitativas: Describe . Numeric Data . One-Variable-Analysis . (Herramientas
Tabular Options y Graphics Options)
- Resumen estadístico: Summary Statistics Para obtener los parámetros requeridos, BD Pane
Options.
- Tabla de frecuencias: Frecuency Tabulation
- Diagrama de Tallos y Hojas: Stem-and-Leaf Display.
- Percentiles: Percentiles
- Histogramas y Polígonos de frecuencias absolutas y relativas, normales o acumulativas:
Frecuency Histogram . Para las distintas opciones, dentro del gráfico BD.
- Diagrama de Caja y Bigotes: Box-and-Whisker Plot. Permite detectar la asimetría de los datos y
detecta los valores atípicos (outliers). Divide los datos en cuatro áreas de igual frecuencia. La
caja central tiene el 50% de los datos, y cada bigote el 25%. La mediana es la línea central que
divide la caja y los lados de la caja son el primer y tercer cuartil (Q1 y Q3.). El extremo izquierdo
del bigote izquierdo es el dato más a la izquierda hasta Q1 menos 1’5 veces el rango
intercuartílico: Q1 − 1'5 * (Q3 − Q1 ) . El extremo derecho del bigote derecho es el dato más a la
derecha hasta Q3 + 1'5 * (Q3 − Q1 ) . Consideramos valores atípicos a los datos que estén fuera de
los bigotes.
- Traza de densidad o curva de distribución: Density Trace
- Para variables cualitativas: Describe . Categorical Data . Tabulation . (Herramientas Tabular
Options y Graphics Options)
- Diagramas de barras y de sectores: Barchart y Piechart.
- Cuando los datos estén agrupados en clases y su presentación en la tabla de datos sea mediante
etiqueta y número de ocurrencias, utilizamos el menú plot . Business Charts. Counts contiene las
frecuencias y labels el nombre de la variable.
- Cuando se desee agrupar los datos de una variable categórica, haremos Describe . Categorical Data .
Tabulation . y en la herramienta save results podremos crear dos nuevas variables: una para las
frecuencias y otra para las marcas de clase.
- Para seleccionar los datos de una variable cumpliendo ciertas condiciones, a la hora de elegir la
variable en Data ir a la opción Select e introducir la condición (Ej. Sexo=1, Grupo=”A” ó first (50)).
O también se puede ir a Describe – Numeric Data – Subset Análisis y observar los datos agrupados
por condiciones.
- Tablas cruzadas (Tablas de contingencia):
- Datos no agrupados: Describe . Categorical Data . Crosstabulation . (Herramientas Tabular
Options y Graphics Options)
- Datos agrupados: Describe . Categorical Data . Contingency Tables . (Herramientas Tabular
Options y Graphics Options)
En Frecuency Table, con BD, en Pane Options podemos obtener los porcentajes por filas y por
columnas (distribución de frecuencias condicionadas).
REGRESIÓN LINEAL:
Podemos obtener las correlaciones y covarianzas entre las variables en la opción Describe . Numeric Data
. Multiple-Variable Analysis y en la opción tabular options. En la ventana de correlaciones, el StatAdvisor
nos da los pares de variables con alguna relación lineal. Los pares de variables que no aparezcan se
suponen independientes entre sí.
Para la regresión lineal, tenemos que ir a Relate . Simple regression.
- Predicciones: Forecast y con BD Pane Options.
- Recta de regresión: Plot of Fitted Model
1.- Se realiza una encuesta a 30 personas en las que se les pregunta el número de personas
que conviven en el domicilio habitualmente y se obtuvieron las siguientes respuestas:
4, 4, 1, 3, 5, 3, 2, 4, 1, 6, 2, 3, 4, 5, 5, 6, 2, 3, 3, 2, 2, 1, 8, 3, 5, 3, 4, 7, 2, 3.
a) Calcular la distribución de frecuencias de la variable obteniendo las frecuencias
absolutas, relativas y sus correspondientes acumuladas.
b) ¿Qué proporción de hogares está compuesta por tres o menos personas? ¿Qué
proporción de individuos vive en hogares con tres o menos miembros?
c) Dibujar el diagrama de barras y el de sectores.
d) Agrupar por intervalos de amplitud dos los valores de la variable, calcular su
distribución de frecuencias, representar el histograma acumulado y sin acumular
y el polígono de frecuencias acumulado y sin acumular.
2.- Los siguientes datos corresponden al gasto de hormigón en 79 obras de una
constructora:
6880 2620 1000 7980 8080 43100 19976 9414 60940 63600
18832 28400 31141 49760 15076 15220 0 18360 0 9301
8144 19941 24072 11804 28236 18160 5900 17972 3760 20224
5600 11980 128640 0 7000 1200 3040 30392 12172 21336
46600 27480 408 2220 61000 6480 10080 3840 24527 2040
9660 11080 10000 24656 0 8000 22400 10400 0 3480
4476 0 8000 22400 4476 6000 16480 42280 13500 1200
9780 728 9200 22840 6360 14360 39868 113200 78161
a) Ayudándose del diagrama de tallos y hojas y del de caja y bigotes, agrupar la
muestra en intervalos de amplitud de 5000 euros, redondeando el recorrido si es
necesario (obtener los extremos y las marcas de clase). Construir la tabla de
frecuencias de la muestra agrupada.
hablar y la puntuación obtenida en una prueba de aptitud hecha más adelante. Los datos
son los siguientes:
Edad: 15 26 10 9 15 20 18 11 8 20 7 9 10 11 11 10 12 42 17 11 10
Puntos: 95 71 83 91 102 87 93 100 104 94 113 96 83 84 102 100 105 57 121 86 100
PRÁCTICAS TEMA 3
DISTRIBUCIONES DE PROBABILIDAD
> restart: para reiniciar todos los valores de las variables y funciones.
> f:=x->función; para definir una función.
Para definir una función a trozos: > PIECEWISE([función,condición], [función,condición],…) o bien
> piecewise(condición,función, condición,función,…,otro caso).
> plot(función,x=a..b); para dibujar la gráfica de f.
> k:=solve(ecuación,k); resuelve en k.
Podemos obtener por métodos aleatorios, valores para una variable que sigan una distribución
determinada.
Primero accedemos a las distribuciones de probabilidad conocidas. Plot . Probability Distribution .
Tabular Options . Random Numbers. En la ventana de Números Aleatorios pulsamos BD y en Analisys
Options modificamos los parámetros para nuestra distribución y otra vez BD, en Pane Options, elegimos
la cantidad de números a generar. Llegados a este punto, pinchamos en la 4ª herramienta de la ventana de
análisis Save Results y marcamos Random Numbers for Dist. 1 y OK.
Para ver si los datos de una variable se ajustan a una distribución conocida, utilizaremos la opción:
Describe . Distributions . Distribution Fiting (Uncensored Data). En la ventana de análisis con el BD
pulsamos la opción Analysis Options y elegimos la distribución teórica deseada. En Graphics Options
tomamos la opción Frequency Histogram.
La opción Goodness-of Fit Tests de Tabular Options nos da un estudio estadístico de aproximación.
Veremos en el tema 6 este forma de actuar. (Leer el StatAdvisor).
Para calcular la probabilidad o el área que deja a la izquierda o a la derecha una distribución,
procederemos así:
Plot . Probability Distributions y elegimos la distribución deseada.
En Tabular Options elegimos Cumulative Distribution y en esa ventana con el BD en Pane Options
damos los valores de la variable de los que queremos calcular su probabilidad acumulada.
Para calcular el valor de una variable dada una distribución de probabilidad conocida, procederemos de la
misma forma que antes, pero utilizando la función de distribución inversa. En Tabular Options elegimos
Inverse CDF.
1.- (Práctica con MAPLE) Sean X 1 y X 2 variables aleatorias con funciones de distribución:
⎧0 si x < −4
⎛0 si x < −3 ⎪x
⎜ ⎪ +1 si −4 ≤ x < −2
⎜1 ⎪4
si −3 ≤ x < 0 ⎪⎪ 1
F1 ( x) = ⎜⎜ F2 ( x) = ⎨ si −2 ≤ x < 1
5
y
⎜
3
si 0 ≤ x < 2 ⎪2
⎜ 10 ⎪ x2
⎜1 ⎪ − x +1 si 1 ≤ x < 2
⎝ si x≥2
⎪2
⎪⎩1 si x≥2
⎧0 si x≤0
⎧k1 ( x − 2)(4 − x) si x ∈ [ 2, 4] ⎪
f1 ( x) = ⎨ y f 2 ( x) = ⎨ 4 ⎛ 2 ⎞ 1 ⎛ x⎞
⎩ 0 resto ⎪k2 9 exp ⎜⎝ − 3 x ⎟⎠ ⋅ 9 exp ⎜⎝ − 3 ⎟⎠ si x>0
⎩
a) Hallar los valores de k1 y k2 .
b) Calcular y representar las funciones de distribución de X 1 y X 2 .
c) Calcular la esperanza y la varianza de las dos variables.
3.- (Práctica con MAPLE) Una máquina fabrica piezas cilíndricas cuyos radios (en metros) se
⎧k ( x − 1)(3 − x) si x ∈ [1,3]
distribuyen según la función de densidad: f ( x) = ⎨
⎩0 resto
a) Calcular k para que f sea función de densidad y representarla gráficamente.
b) Calcular la función de distribución y representarla gráficamente.
c) Calcular la probabilidad de que el radio de una pieza esté entre 1’8 y 2’4.
d) Calcular la probabilidad de que el radio de una pieza sea mayor que 2’4.
e) Calcular la función de densidad de los diámetros.
f) Calcular la función de densidad de las áreas de las secciones circulares.
4.- (Práctica con MAPLE) Un disco metálico circular de radio R, puede presentar una picadura
en su superficie con igual probabilidad en cualquiera de sus puntos. Llamando X a la
distancia de la picadura al centro del disco, hallar:
a) Las funciones de distribución y densidad de la variable aleatoria X.
PRÁCTICAS TEMA 4
DISTRIBUCIONES DE MUESTREO
1.- Hallar las siguientes probabilidades y valores de una variable que obedece a la χ 2 de
Pearson: a) P ( χ 2 (10) > 5'031) b) P ( 6'821 < χ 2 (15) < 15'13) c) P ( χ 2 (150) > 128 ) y d)
3.- Calcular las siguientes probabilidades y valores de una variable que obedece a una
distribución F de Snedecor: a) P ( F (6,8) > 10 ) , b) P ( F (10,15) < 3'60 ) y c)
( Si ) 2
4.- En el fichero ESTIMA (pedir al profesor), crear las variables X i = (n − 1) y
σ2
(Xi − µ)
Ti = n donde
Si
PRÁCTICAS TEMA 5
ESTIMACIÓN
INTERVALOS DE CONFIANZA:
El intervalo de confianza para la media y la desviación típica de una muestra de una variable estadística,
teniendo la muestra en la tabla de datos, se calcula accediendo a: Describe . Numeric Data . One
Variable Analysis . Tabular Options . Confidence Intervals. Con BD en Pane Options cambiamos el nivel
de confianza. Si no tenemos los datos, pero nos dan la media y la desviación típica, accedemos mediante
Describe . Hypothesis test.
El intervalo de confianza para una proporción, se calcula accediendo a: Describe . Hypothesis test .
Binomnial proportion. Con BD en Analysis Options cambiamos el nivel de confianza.
El intervalo de confianza para la diferencia de medias y la razón de desviaciones, se calcula accediendo a:
Compare . Two Simples . Two-Simple Comparison . Tabular Options. Con BD en Pane Options
cambiamos el nivel de confianza.
Para determinar el tamaño de la muestra necesario controlando el error, acceder a: Describe . Sample Size
Determination. Para la media de una población normal, Normal Mean; para la desviación de una
población normal, Normal Sigma; para la proporción de una población binomial, Binomial Proportion; y
para la tasa de una población de Poisson, Poisson Rate.
Si queremos determinar el tamaño de dos muestras, ir a Compare – Two Simples – Simple-Size
Determination.
1.- Se han observado, para tres rutinas diferentes (A, B y C) de un software, los tiempos de
ejecución siguientes (en segundos):
A 34 45 48 29 36 28 33 56 37 44 40 52 30 48
B 23 35 41 52 47 33 44 55 36 27 28 34 37 41 52 48 33
C 37 48 38 52 43 50 51 46 62 39 48 55 57
contenerlo de 0’97.
Estándar 428 419 458 439 441 456 463 429 438 445 441 463
Nuevo 462 448 435 465 429 472 453 459 427 468 452 447
7.- Para predecir la resistencia al corte de vigas de placa de acero, se compararon dos de los
métodos existentes. Se aplicaron los procedimientos de Karlsruhe y de Lehigh a nueve
vigas específicas. Obtener intervalos de confianza al 95% y al 99% para la diferencia de
medias entre los dos métodos.
Procedimiento Karlsruhe 1’186 1’151 1’322 1’339 1’200 1’402 1’365 1’537 1’559
Procedimiento Lehigh 1’061 0’992 1’063 1’062 1’065 1’178 1’037 1’086 1’052
PRÁCTICAS TEMA 6
CONTRASTES DE HIPÓTESIS
Para hacer contrastes paramétricos conociendo las estimaciones sin tener los datos de la muestra,
Describe . Hypothesis test. Tenemos los contrastes de la media con varianza conocida, de la χ para
2
la varianza, para una proporción binomial y para el parámetro de Poissson. También se obtiene la
curva de potencia.
Sin embargo, cuando tenemos los datos de la muestra, en Describe . Numeric Data . One Variable
Analysis . Tabular Options . Hypothesis Tests, tenemos los contrastes para la media con varianza
desconocida, de los signos para la mediana, de los rangos con signo de Wilcoxon. Con BD en Pane
Options cambiamos el nivel de confianza, la hipótesis nula y elegimos el tipo de hipótesis alternativa.
Para dos variables, conociendo las estimaciones de los parámetros, sin los datos de las muestras, en
Compare . Two Samples . Hypothesis test, tenemos el contraste para la diferencia de medias con
varianzas conocidas, para el cociente de varianzas cuando no tenemos la muestra y para la diferencia
de dos proporciones.
Para dos muestra dadas, en Compare . Two Samples . Two-Sample Comparison. Tenemos los contrastes
para la diferencia de medias con muestras independientes con varianza desconocida, contraste de la
F para el cociente de varianzas, contraste de la suma de rangos (Man-Whitney-Wilcoxon) para la
diferencia de medianas.
Para dos muestra dadas, en Compare . Two Samples . Paired-Sample Comparison, tenemos el contraste
para la diferencia de medias con muestras pareadas.
En Describe . Numeric Data . Multiple-Variable Analysis con BD Rank Correlations obtenemos la
correlación de rangos de Spearman.
Para una tabla de contingencia con datos no agrupados, Describe . Categorical Data . Crosstabulation.
Contraste de la χ2 de independencia para tablas de contingencia.
Para una tabla de contingencia con datos agrupados, Describe . Categorical Data . Contingency Tables.
Contraste de la χ2 de independencia para tablas de contingencia.
Para los contrastes de bondad de ajuste, Describe . Ditributions . Distribution Fitting. Tenemos test de
normalidad y test de la χ y de Kolmogorov-Smirnov en Goodness-of-fit. Para ajustar a un modelo
2
1.- Para la instalación de aerogeneradores, se estudia la velocidad del viento. Se supone que
la varianza de la velocidad del viento es menor o igual a 2 metros por segundo.
Llevadas a cabo 25 mediciones de la velocidad, se obtiene una varianza de 3’2. Si la
distribución de la variable velocidad se supone normal, se pregunta:
a) ¿Es lógico aceptar la suposición con un nivel de significación de 0’01?
b) ¿Cuántas mediciones serían necesarias para que la potencia del contraste sea del
90%, suponiendo una diferencia de 0’2 entre el valor hipotético de σ y su valor
real?
2.- La longitud de una pieza se distribuye normalmente y se desconoce su desviación típica.
Se quiere contrastar la hipótesis de que la media µ = 1'5 cm. frente a la alternativa
µ ≠ 1'5 cm., para lo cual se dispone de una muestra aleatoria de tamaño 16, con media
x = 1' 4 cm. y desviación típica s = 2 mm. Contraste dicha hipótesis con un nivel de
significación del 5% y determine el p-valor de la hipótesis nula.
3.- Una fábrica recibe cola de dos proveedores X e Y y se desea estudiar su calidad
extrayendo una muestra de cada proveedor. Se obtienen lo siguientes resultados
atendiendo a la cantidad de impurezas de la cola.
X: 0’32, 0’29, 0’30, 0’28, 0’33, 0’31, 0’30, 0’29, 0’33, 0’32, 0’30, 0’29
Y: 0’28, 0’30, 0’32, 0’29, 0’31, 0’29, 0’33, 0’32, 0’29, 0’32, 0’31, 0’29, 0’32, 0’31, 0’32, 0’33.
a) Al nivel de confianza del 99% determinar un intervalo de confianza para la
desviación típica de X, la desviación típica de Y, y para la razón de varianzas
suponiendo normal la variable estudiada en ambas poblaciones independientes.
b) Realizar el contraste de hipótesis de igualdad de varianzas para α = 0 '01 .
c) Realizar el contraste de igualdad de medianas para α = 0'05 .
d) ¿Se puede aceptar la hipótesis de que las dos muestras provienen de la misma
población al 95% de confianza?
4.- Se ignora la proporción alumnos pertenecientes a familia numerosa que se matriculan en
la Universidad de Burgos. Con el fin de determinar dicha proporción, se toma una
muestra de 50 alumnos siendo la proporción observada de 0’02. Formulamos la
hipótesis nula H 0 : p = 0 '10 frente a H1 : p ≠ 0 '10 y queremos contrastarla para un
Procedimiento Karlsruhe 57 49 60 55 57 48 50 61 52 56
Procedimiento Lehigh 55 48 58 56 54 48 52 56 50 58
a) ¿Podemos aceptar que la resistencia en ambos procedimientos es la misma con
un nivel α = 0'05 suponiendo una distribución normal bivariante?
b) Hallar intervalos de confianza para la media y la desviación típica de las
diferencias de resistencia entre los dos procedimientos.
7.- Para estudiar el efecto de las bridas reforzadas sobre la capacidad torsional de vigas T
de hormigón armado, se utilizaron dos tipos de vigas T. Ocho vigas con ancho de
plancha de 70 cm. y ocho vigas con ancho de plancha de 100 cm. Sometidas a pruebas
de torsión y flexión, se midió el tiempo de torsión de agrietamiento en la parte superior
de la brida de la viga T.
Ancho de Plancha de 70 cm 6 ’00 7 ’ 2 0 10’20 13’20 11’40 13’60 9 ’ 2 0 11’20
B: 5 11 6 1 2 10 9 8 7 3 4 11
C: 5 8 6 1 2 10 9 8 7 4 3 12
D: 5 11 6 1 2 11 9 9 7 4 3 11
Discutir el grado de concordancia entre los cuatro jueces.
11.- ¿Se puede asegurar que la siguiente muestra procede de una distribución simétrica?
170 171 171 172 173 174 175 176 177 177 179 181 185 188 190 195 202 213 264 352 440
PRÁCTICAS TEMA 7.
FIABILIDAD
TABLAS DE VIDA:
Las tablas de vida para el número de fallos en un conjunto de intervalos: Describe . Life Data . Life
Tables (Intervals)
Las tablas de vida para ocurrencias de fallo: Describe . Life Data . Life Tables (Times). Este método
estima la función de supervivencia mediante el método del límite-producto de Kaplan-Meier que se basa
en la función de supervivencia empírica, calculada por la función de distribución empírica.
Para observar gráficamente el ajuste a un modelo de Weibull, tenemos la utilidad: Describe . Life Data .
Weibull Analisys.
Si queremos saber si hay diferencia significativa entre varios grupos de datos, en Life Tables (Times),
introducimos la variable de agrupación en (Group) y en Tabular Options, accedemos a Group
Comparisons. Este procedimiento crea una tabla de vida separada para cada grupo.
1.- Utilizar los datos del fichero MIELOMA (pedir al profesor) para hacer una tabla de vida
de la variable l_tiempo (en meses), agrupando los pacientes por edades hasta 45 años,
de 46 a 60 años y de 61 en adelante. La variable w_status=0 es muerte y w_status=1 es
censura.
a) Estudiar con que variable de agrupación hay diferencia estadística significativa
entre grupos con un 95% de nivel de confianza.
b) Construir la tabla de vida de los pacientes y decir qué tiempo mínimo de
supervivencia se estima para el 65% de los pacientes.
PRÁCTICAS TEMA 8.
REGRESIÓN SIMPLE:
1.- Con los datos siguientes, construir las rectas de regresión de Y1 , Y2 , Y3 sobre X 1 y la de
X1 Y1 Y2 Y3 X 2 Y4
10 8,04 9,14 7,46 8 6,58
8 6,95 8,14 6,77 8 5,76
13 7,58 8,74 12,74 8 7,71
9 8,81 8,77 7,11 8 8,84
11 8,33 9,26 7,81 8 8,47
14 9,96 8,1 8,84 8 7,04
6 7,24 6,13 6,08 8 5,25
4 4,26 3,1 5,39 19 12,5
12 10,84 9,13 8,15 8 5,56
7 4,82 7,26 6,42 8 7,91
5 5,68 4,74 5,73 8 6,89
2.- Los datos de la tabla adjunta muestran el tiempo de impresión Y de trabajos que se han
imprimido en impresoras de la marca PR. Se está interesado en estudiar la relación
existente entre la variable de interés “tiempo de impresión de un trabajo” y la variable
explicativa X “número de páginas del trabajo”.
Y 7’84 7’78 7’59 7’38 7’23 7’34 7’07 7’12 7’11 7’24 7’46 7’41 8’12 8’06
4.- Una compañía de energía eléctrica seleccionó una vivienda para obtener un modelo
sobre el consumo (variable Y, kilovatios por día) en función de la temperatura promedio
diaria (variable X) durante el invierno. A lo largo de 15 días se obtuvieron los siguientes
datos:
X 0 8 7’5 13’5 14 8’5 4’5 -11 -7’5 -8’5 1’5 0’5 2 -6 -4
Y 70 57 60 63 57 66 67 107 96 88 80 64 79 82 97
a) Hacer el gráfico de dispersión.
b) Obtener el coeficiente de regresión y dibujar la recta correspondiente.
c) Calcular los residuos.
d) Obtener estimadores para las desviaciones de los parámetros.
e) Obtener un intervalo de confianza al 95% para el valor de la pendiente.
f) ¿Es significativa al 95% la relación lineal entre el consumo y la temperatura?
g) Para cada temperatura, obtener intervalos de confianza al 95% estimados para el
consumo de energía. Dibujarlos sobre la recta de regresión.
h) Hacer lo mismo que en el apartado anterior para las predicciones de los
consumos dados en la tabla.