Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ingbiomed1
Estadística
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
PRÁCTICA 1:
Contenido:
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
4. ESTATURA (en centímetros) ………………………………………………………………………..… -----
10. ¿CUANTOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV? ………………….…….. ------
Como punto de partida, cumplimentaremos la encuesta para que los datos obtenidos puedan servir
de base para el próximo curso y nos ayudará a familiarizarnos con los items
Las respuestas de alumnos de la UPV de cursos anteriores a esta encuesta sobre las que
trabajaremos se encuentran almacenadas en Poliformat.
Antes de iniciar un estudio en un paquete estadístico hay que identificar si cada ítem es:
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
el resultado de un proceso de conteo ( característica cuantitativa discreta) o
el resultado de un proceso de medición (característica cuantitativa continua)
Otro tipo de datos
Aunque parece un tema exclusivamente teórico, esta cuestión tendrá una importante repercusión
en la selección del tratamiento a utilizar para estudiar los datos obtenidos. También es importante
considerar cuantas respuestas diferentes es posible obtener en cada pregunta.
¿Cómo crees que son estas características: categóricas nominales, categóricas ordinales,
numéricas discretas o numéricas continuas, de otro tipo?¿Que tratamiento le darías?
Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
1. Tablas de frecuencias
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ejercicio 1: Tablas de frecuencias para datos cualitativos o numéricos discretos con pocos valores
diferentes. Diagrama de barras y diagrama de sectores
La introducción de los datos cualitativos se realiza en código numérico, para facilitar el proceso.
A partir de las características codificadas es posible decodificarlas, con las categorías nominales.
En este ejercicio trabajaremos sobre las respuestas obtenidas en las preguntas 6 y 11. Los valores
se han introducidas, codificados, en las variables POLITICANUM y PROBNUM y se han creado
las características POLITICA y PROBLEMA con los valores nominales.
El StatAdvisor
Esta tabla muestra el número de veces que se ha presentado cada valor de PROBLEMA así como porcentajes y estadísticas
acumuladas. Por
ejemplo, en 36 filas del archivo de datos, PROBLEMA es igual a DES.SOCIAL. Esto representa 20,2247% de los 178 valores en
el archivo.
Las dos columnas de la extrema derecha dan los recuentos y porcentajes acumulados, desde el inicio de la tabla hacia abajo.
FRECUENCIA 36
b) Obtener el diagrama de barras para frecuencias absolutas y relativas ¿Hay cambios en la forma
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
del gráfico? ¿Qué cambia? Cambia la escala, no la forma
Statgraphics: Para obtener el diagrama de barras para frecuencias relativas: pulsar el botón
derecho del ratón, elegir Opciones de Ventana y seleccionar Porcentajes.
DES.SOCIAL DES.SOCIAL
DROGAS/ALCOHOL DROGAS/ALCOHOL
EDUC/SANIDAD EDUC/SANIDAD
PARO PARO
0 10 20 30 40 50 60 0 10 20 30 40
frecuencia porcentaje
c) Obtener el diagrama de sectores o diagrama de tarta ¿Qué relación tiene con los diagramas de
barra? ¿Qué ventaja presenta?
Cada porcentaje corresponde con la frecuencia
Diagrama de Sectores de PROBLEMA
absoluta de cada dato / numero total
Se obtiene una mayor visualización pero con los 19,10% PROBLEMA
20,22% DES.SOCIAL
DROGAS/ALCOHOL
mismos datos que el diagrama de barras EDUC/SANIDAD
PARO
PERDIDA VALORES
1,69%
25,28%
33,71%
13,48%
43,82%
4,49%
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
Ejercicio 2: Tablas de frecuencias para datos numéricos continuos o discretos con muchos valore
diferentes. Histogramas y Polígonos de frecuencias.
Las técnicas que vamos a utilizar en este apartado son útiles para organizar y visualizar datos
numéricos continuos o bien datos numéricos discretos con muchos valores diferentes que necesitan
ser agrupados
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
variable puede tomar muchos valores diferentes?
no se puede interpretar. Es necesario agrupar pues los datos no son correctamente observables
0,56%
1,69%
0,56%
0,56%
2,81% 0,56%
1,69%
1,12%
1,12%
0,56%
1,69% 2,25%
1,12% PESO
1,69% 48
3,93% 1,12%
0,56%50
1,12% 1,69%
52
1,12% 53
0,56%
0,56% 3,93%
1,69% 54
1,12% 2,25%
55
2,81% 56
2,81%
57
3,37% 58
3,93%
59
b) Obtén la tabla de frecuencias de la variable PESO , como variable cuantitativa tal como
se indica en el recuadro
Statgraphics: Desplegar el menú Describir, el submenú Datos Numéricos y elegir la opción
Análisis de una variable. Pulsar el icono que indica las subopciones del análisis y seleccionar
Tabla de frecuencias. Para modificar el número o anchura de los intervalos que Statgraphics hace
por defecto, situarse sobre la tabla y con el botón derecho del ratón seleccionar Opciones Ventana.
Tabla de Frecuencias para PESO
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 45 0 0,0000 0 0,0000
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1 45 48,4783 46,7391 1 0,0056 1 0,0056
2 48,4783 51,9565 50,2174 3 0,0169 4 0,0225
3 51,9565 55,4348 53,6957 13 0,0730 17 0,0955
4 55,4348 58,913 57,1739 9 0,0506 26 0,1461
5 58,913 62,3913 60,6522 19 0,1067 45 0,2528
6 62,3913 65,8696 64,1304 18 0,1011 63 0,3539
7 65,8696 69,3478 67,6087 13 0,0730 76 0,4270
8 69,3478 72,8261 71,087 31 0,1742 107 0,6011
9 72,8261 76,3043 74,5652 21 0,1180 128 0,7191
10 76,3043 79,7826 78,0435 13 0,0730 141 0,7921
11 79,7826 83,2609 81,5217 7 0,0393 148 0,8315
12 83,2609 86,7391 85,0 12 0,0674 160 0,8989
13 86,7391 90,2174 88,4783 6 0,0337 166 0,9326
14 90,2174 93,6957 91,9565 1 0,0056 167 0,9382
15 93,6957 97,1739 95,4348 7 0,0393 174 0,9775
El StatAdvisor
Esta opción ejecuta una tabulación de frecuencias dividiendo el rango de PESO en intervalos del mismo ancho, y contando el
número de
datos en cada intervalo. Las frecuencias muestran el número de datos en cada intervalo, mientras que las frecuencias relativas
muestran las
proporciones en cada intervalo. Puede cambiarse la definición de los intervalos pulsando el botón secundario del ratón y
seleccionando
Opciones de Ventana. Pueden verse gráficamente los resultados de la tabulación seleccionando Histograma de Frecuencias de la
lista de
Opciones Gráficas.
c) ¿Crees que los límites de intervalo seleccionados por el Statgraphics son óptimos para
realizar comparaciones con otros grupos de alumnos? ¿Tú que limites cogerías?
No son comparables pues hay demasiados intervalos
Establecemos nuevos limites observando el rango
(110-45)/5=13 intervalos
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1 45 50,0 47,5 4 0,0225 4 0,0225
2 50 55,0 52,5 13 0,0730 17 0,0955
3 55 60,0 57,5 19 0,1067 36 0,2022
4 60 65,0 62,5 27 0,1517 63 0,3539
5 65 70,0 67,5 30 0,1685 93 0,5225
6 70 75,0 72,5 32 0,1798 125 0,7022
7 75 80,0 77,5 19 0,1067 144 0,8090
8 80 85,0 82,5 13 0,0730 157 0,8820
9 85 90,0 87,5 9 0,0506 166 0,9326
10 90 95,0 92,5 6 0,0337 172 0,9663
11 95 100,0 97,5 5 0,0281 177 0,9944
12 100 105,0 102,5 0 0,0000 177 0,9944
13 105 110,0 107,5 1 0,0056 178 1,0000
mayor de 110 0 0,0000 178 1,0000
Media = 71,0618 Desviación Estándar = 11,8728
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
información proporciona este gráfico? (Explícalo para el primer intervalo)¿Qué intervalo
contiene mayor número de valores?
Statgraphics: Utilizando el botón derecho del ratón, en cualquier gráfico podemos activar la
función Localizar que nos ayudará a leer el valor de la abscisa o de la ordenada en cualquier punto
Cada una de las columnas representa la frecuencia de cada uno de los intervalos, en el primero
hay 4 alumnos con peso entre 45 y 50kg
El intervalo 65-70 es el que contiene mas numero de valores
Histograma
40
20
10
0
45 65 85 105 125
PESO
Statgraphics: Para obtener el histograma de frecuencias relativas: pulsar el botón derecho del
ratón, elegir Opciones de Ventana y seleccionar frecuencias relativas.
Proporciona porcentajes para peso entre 45-50
Histograma
18
15
12
porcentaje
0
45 65 85 105 125
PESO
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
Statgraphics: Para representar el polígono de frecuencias, pulsar el botón derecho del ratón y en
Opciones de ventana, Tipo de Gráfico, marcar Polígono.
Representa la forma del histograma con cada uno de los valores maximos de cada intervalo al unir
los puntos medios de cada barra
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Polígono
18
15
12
porcentaje
0
45 65 85 105 125
PESO
10
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Histograma
100
80
porcentaje
60
40
20
11
Las medidas de posición, dispersión y forma nos proporcionan información acerca de la posición
de los datos y su variabilidad y acerca de si el modelo normal será adecuado para describir la
distribución de la variable.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Statgraphics: Para obtener medidas de posición y dispersión, desplegar el menú Describir, el
submenú Datos Numéricos y elegir la opción Análisis de una variable. Pulsar el icono amarillo
de opciones de análisis y seleccionar Resumen Estadístico y Percentiles.
Por defecto, Statgraphics mostrará algunas de las medidas definidas anteriormente. Si se desea
seleccionar otras medidas que no aparezcan de esta forma, nos situaremos sobre la ventana de
resultados y con el botón derecho del ratón seleccionaremos Opciones de Ventana. Aparecerá un
cuadro de diálogo donde podemos elegir las medidas muestrales que queramos obtener.
Las medidas de tendencia central y posición se utilizan para indicar la posición de la distribución
a) Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las
siguientes medidas de posición:
Mínimo
Máximo Recuento 178
Promedio 71,0618
Media muestral ( x ) (promedio) Mediana 70,0
Primer cuartil (un 25% de los valores son inferiores) Moda 70,0
Mínimo 48,0
Segundo cuartil (Mediana) (un 50% de los valores son Máximo 106,0
inferiores) Cuartil Inferior 62,0
Cuartil Superior 77,0
Tercer cuartil (un 75% de los valores son inferiores) Sesgo Estandarizado 2,62288
Moda Curtosis Estandarizada -0,155831
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de
la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal.
12
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
b) Cambia el idioma de las salidas y obtén el nombre de estos estadísticos en ingles
Editar>preferencias>lenguaje
a) ¿En qué se diferencian media y mediana? ¿Cuándo utilizarías cada una de ellas?
No se debe utilizar la media si hay datos anómalos o la simetría es muy marcada
b) ¿Qué medida de posición utilizarías para PROBLEMA? ¿Tendrían sentido las medidas del
apartado a)? ¿Por qué?
Se utilizaría exclusivamente la moda. Al ser valores cualitativos no tienen relación con la media y
la mediana
a) Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las siguientes
medidas de dispersión:
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de
la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal.
13
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
Las medidas de forma se utilizan para estudiar si el modelo normal, en forma de campana
simétrica, es adecuado para describir la distribución de una variable continua.
a) Con los datos de la variable PESO, utilizar Statgraphics para estudiar si el modelo normal es
adecuado para describir la distribución de esta variable:
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Coeficiente de asimetría Recuento 178
Promedio 71,0618
Varianza 140,962
Coeficiente de curtosis Sesgo Estandarizado 2,62288
Curtosis -0,0572203
Curtosis Estandarizada -0,155831
Coeficiente de asimetría estandarizado (-2,2)
14
3. Diagrama de box-whisker
Para su construcción es necesario localizar los valores mínimo y máximo de los datos y calcular
los cuartiles. Se dibuja una “caja” que se extiende entre el primer y el tercer cuartil. Su amplitud
es por tanto igual al recorrido intercuartílico y entre sus límites se ubican un 50% de los datos (los
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
centrales). En el interior se traza una línea vertical que corresponde a la mediana (segundo cuartil)
y una cruz que indica la media.
Partiendo de cada lado de la caja se dibujan una líneas horizontales llamadas “bigotes” . El bigote
de la izquierda se extiende entre el valor mínimo y el primer cuartil1 y el bigote de la derecha entre
el tercer cuartil y el valor máximo.
Aquellos valores extremos que difieren del cuartil más próximo en más de 1,5 veces la anchura de
la caja o recorrido intercuartílico se representan como puntos aislados por considerar que se
corresponden con datos anómalos.
15
Se han medido las glucemias basales en mg/dl de un grupo de pacientes incluidos en un estudio
epidemiológico. Los datos se encuentran en la variable GLUCEMIA. Existen algunos valores
perdidos por pacientes no presentados, etc.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) Obtener y copiar el diagrama de box-whisker. Identifica utilizando el Localizador el valor
16
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Promedio 82,5474
Mediana 78,0
Desviación Estándar 23,0891
Coeficiente de Variación 27,9707%
Mínimo 45,0
Máximo 225,0
Rango 180,0
Cuartil Inferior 72,0
Cuartil Superior 87,0
Rango Intercuartílico 15,0
Sesgo Estandarizado 20,6717
Curtosis Estandarizada 51,411
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para GLUCEMIA. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de
forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para
determinar si la
RANGO 177,9365
RI 15,1419 Histograma
80
40
0
0 40 80 120 160 200 240
GLUCEMIA
d) ¿Existe algún valor anómalo? ¿cuál?
SI 113,117,195…
17
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
Es muy frecuente el estudio comparativo de una variable continua por subgrupos dentro de una
muestra. El Statgraphics nos permite realizar estos análisis. Adicionalmente el grafico de box-
whisker nos ayudará a visualizar estas comparaciones.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del PESO
asociadas a los distintos tramos de la variable altura (ALTINT). Comentar los resultados.
Curtosis
ALTINT Estandarizada
125
150-160 3,27275
160-170 6,22222
170-180 2,87437
180-190 0,726648
190-200 -0,564229
200-210
Total -0,155831
El StatAdvisor
Esta tabla presenta las estadísticas muestrales para los 7 niveles de ALTINT.
18
125
150-160
160-170
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ALTINT
170-180
180-190
190-200
200-210
48 58 68 78 88 98 108
PESO
un bigote debe ser siempre menor ½ la línea divisoria de la caja se desplaza a la derecha según
bajamos = media
respecto a la dispersion el recorrido intercuartílico es menor el primero pero el resto se
mantienen
c) Utilizar el gráfico de box-whisker para analizar si existe alguna relación entre el TIEMPO que
tardan en llegar a la Universidad los estudiantes y el medio de transporte utilizado para llegar a
la universidad (TRANSPORTE). Comentar los resultados.
ANDANDO
COCHE
COCHE COMPAÑERO
MOTO/BICI
TRANSPORTE PUBLICO
0 10 20 30 40 50 60
TIEMPO
Tardan mas aquellos que utilizan el transporte publico, pudiendo venir de sitios mas lejanos
Tardan menos aquellos que utilizan la bici o la moto pudiendo vivir mas cerca
19
a) Algunos de los pacientes del estudio epidemiológico del ejercicio 6 están diagnosticados de
diabetes (DIABETES=1) mientras que la mayoría están sanos (DIABETES=0). Calcular el valor
medio y la desviación típica de las distribuciones condicionales de GLUCEMIA en función de que
el paciente sea o no diabético (DIABETES). Comentar los resultados.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y seleccionar la
opción Análisis subgrupos. Seleccionar como Datos la variable de la que se quieren obtener los
estadísticos, y como Códigos la variable que indica la pertenencia al grupo. Con el icono amarillo
de subopciones seleccionar Resúmenes Estadísticos.
Estadísticas de Resumen
Datos/Variable: GLUCEMIA
Desviación
DIABETES Recuento Promedio Estándar
0 184 79,7065 13,1976
1 6 169,667 66,1201
Total 190 82,5474 23,0891
El StatAdvisor
Esta tabla presenta las estadísticas muestrales para los 2 niveles de DIABETES.
20
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El tiempo invertido en la preparación de los datos previa a su análisis es tiempo bien utilizado. Los
errores en los datos que no son detectados hasta que los análisis principales son realizados,
requieren que todo sea rehecho de nuevo.
Los errores en los datos son frecuentes: pueden ser intercambiados, o mal tecleados.
Si nos llega un archivo con datos fuera de este rango y no es posible detectar el valor
original lo transformaremos en dato faltante. También se puede establecer dos intervalos,
uno que detecte datos sospechosos y otro que detecte datos imposibles. Un error muy
frecuente consiste en colocar inadecuadamente la coma decimal.
Si nos llega un archivo con datos fuera de este rango y no es posible detectar el valor
original lo transformaremos en dato faltante. También se puede establecer dos intervalos,
uno que detecte datos sospechosos y otro que detecte datos imposibles. Un error muy
frecuente consiste en colocar inadecuadamente la coma decimal.
Si los datos son categóricos, estarán codificados y habrá un número límitado de valores
aceptables. Por ejemplo si estudiamos el tipo sanguíneo tendremos
1-Tipo A
2- Tipo B
3- Tipo 0
4-Tipo AB
Respecto a las fechas, es mejor grabar la fecha de los eventos que el tiempo transcurrido
entre ellos. En las fechas debe revisarse: que sean razonables, que sean válidas, que estén
correctamente secuenciadas y que los tiempos calculados sean razonables.
21
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
También resulta útil establecer reglas lógicas (logical checks) que relacionen las variables.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Si estudiamos las variables sexo y número de embarazos resultaría absurdo si
encontráramos un hombre con embarazos previos;
Datos faltantes
Si los datos faltantes son aleatorios, tendremos un problema menor con dos opciones:
eliminar todos los casos con valores perdidos (que es lo que suelen hacer por defecto los
paquetes estadísticos aunque puede reducir considerablemente el tamaño muestral
No hay que caer nunca en la tentación de reemplazarlos por datos supuestos sin ninguna
garantía. Esta tentación es frecuente en estudios retrospectivos, cuando los datos son
obtenidos de expedientes de hospital.
22
Para estudiar los posibles patrones debidos a la influencia de una segunda variable:
se crea a partir de la primera variable una variable artificial en la cual se codifica como 1
(dato existente) y como 0 dato faltante
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
si la diferencia es significativa tendremos un patrón sistemático de los datos faltantes lo
cual puede tener consecuencias importantes.
23
Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
PRÁCTICA 2:
DISTRIBUCIONES DISCRETAS
Contenido:
Una v.a. numérica puede ser discreta (si el conjunto de posibles valores es numerable), o continua
(si el conjunto de posibles valores es no numerable).
Para describir la distribución de probabilidad de una v.a., tendríamos que especificar cuál es la
probabilidad de que la v.a. tome valores en cualquier intervalo o reunión numerable de intervalos.
Evidentemente, esto no es factible y se han buscado funciones de variable real que sean sencillas
de manejar y permitan calcular la probabilidad de que una v.a. tome valores en cualquier intervalo
(función de distribución, función de probabilidad, función de densidad…).
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Se han definido modelos matemáticos, agrupados en familias e identificados por parámetros, entre
los cuales buscaremos el más adecuado para nuestra variable.
Observamos que Statgraphics nos permite trabajar con veinticuatro familias distintas de
distribuciones de probabilidad.
En el caso de una v.a. discreta, X, las funciones que describen la distribución de probabilidad de
una v.a. discreta y permiten calcular la probabilidad de que la v.a. tome valores en cualquier
intervalo son:
p x P X x
F x P X x
Statgraphics: Al hacer clic sobre el botón de Tablas de la barra de herramientas del Statfolio,
aparece un cuadro que nos da las siguientes opciones:
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Resumen del Análisis, opción que el programa activa por defecto, muestra los valores elegidos
de los parámetros de la distribución.
Distribuciones Acumuladas Inv., opción que nos permite obtener el valor xp de la variable X que
verifica que P X x p p y P X x p p (percentil de orden p)
Para obtener las gráficas de las funciones de Probabilidad y Distribución se pulsa el botón de
Opciones Gráficas de la barra de herramientas y se elige la opción correspondiente Función de
densidad/Masa o Distribuciones Acumuladas
Un modelo uniforme discreto es adecuado para variables que indican un número seleccionado al
azar de entre n valores distintos equiprobables.
Describir>Ajuste distribuciones >Distribuciones de probabilidad
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Si la v.a. X indica la puntuación obtenida al lanzar un dado,
P(X<3) = 0.33
P(X≤3) = P(X<4)=0.5
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
4 0,5
P(X>3) = 0.5
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
puntuación obtenida al lanzar un dado
PROBABILIDAD
Uniforme Discreta
0,12
probabilidad
0,09
0,06
0,03
0
0 1 2 3 4 5 6
x
Uniforme Discreta
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5 6
x
c) Leer con el localizador la probabilidad de que la puntuación obtenida sea menor o igual que 4
Fx(4)=P(X<=4)= 0.67
Uniforme Discreta
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5 6
x
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora
d) Determinar una puntuación x tal que P(X<x) ≤0,5 y la P(X≤ x) ≥0,5 (mediana)
Percentiles = inversa función distribución
Distribuciones acumuladas inversas
Necesario para sacar mediana
FDA Inversa
Distribución: Uniforme Discreta
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
0,5 3
0,9 6
0,99 6
El StatAdvisor
Esta ventana encuentra los valores críticos para la Distribución Uniforme Discreta. Pueden especificarse hasta 5 áreas de cola. El
valor
crítico se define como el mayor valor para la Uniforme Discreta tal que la probabilidad de no exceder ese valor no excede el área
especificada.
Por ejemplo, el resultado indica que, para la primera distribución especificada, 1,0 es el valor más grande tal que la probabilidad de
no exceder
1,0 es menor ó igual a 0,01.
Ejercicio 2: Simulaciones
En algunas ocasiones los modelos probabilísticos nos pueden ayudar a simular situaciones reales
y comprenderlas mejor. Vamos a utilizar la posibilidad que nos ofrece el Statgraphics de simular
valores con distribuciones concretas para intentar responder a una pregunta.
Un grupo de 100 alumnos es evaluado con 15 exámenes tipo test, personalizados, realizados
regularmente a lo largo del curso en Poliformat. Las preguntas de cada alumno se seleccionan al
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
azar a partir de una base de datos clasificada por temas, donde se ha intentado que las preguntas
tengan una dificultad similar, pero teniendo en cuenta que siempre habrá una pequeña oscilación
Tras realizar la primera prueba y comparar los exámenes con los de otros compañeros un alumno
piensa que él tiene peor nota porque el grado de dificultad de su primer examen era mayor y piensa
que en la evaluación final de la asignatura el factor suerte va a tener una influencia importante.
a) Si puntuamos el grado de dificultad de cada examen como un numero entero que oscila
Promedio 5,23
Mínimo 1,0
Máximo 10,0
Rango 9,0
Gráfico de Dispersión
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
0 2 4 6 8 10
DIFICULTAD1
0 2 4 6 8 10
DIFICULTAD1
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
simulado el grado de dificultad de los 100 alumnos en las 15 pruebas y se ha calculado el
nivel de dificultad promedio de los exámenes realizados por cada alumno. Los valores se
han archivado en la variable DIFICULTAD PROMEDIO. Obtener un gráfico Box-whisker
de los valores obtenidos, indicando que el eje X debe variar de 1 a 10 ¿Cuál es el valor
medio?¿Cuál es el rango? ¿Qué diferencias observas con el gráfico anterior?¿tiene sentido
que el alumno siga pensando que la suerte va a ser un factor muy importante en la nota
final?
Rango = 3.6
El rango es distinto y lo cambiamos para ser comparable con el gráfico anterior
No, puesto que ahora el rango es menor y muy pequeño
0 1 2 3 4 5 6 7 8 9 10
PROMEDIO DIFICULTAD
10
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora
d) Uno de los teoremas más importantes en Estadística que es el Teorema Central del Limite
establece que, si el tamaño muestral es suficientemente grande, la distribución de la media
muestral se aproxima a una distribución normal, sea cual sea la distribución de la población
de la cual se ha extraído la muestra. El valor esperado de la media muestral será la media
poblacional y la desviación típica se reducirá al aumentar el tamaño muestral. ¿Explica
este teorema lo que hemos observado en esta simulación?
Cuando repetimos aleatoriamente un experimento un suficiente número de veces la media de la
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
variable tenderá a una normal, los valores se agrupan en el centro y son más frecuentes
Si permite explicarlo
11
2. Distribución Binomial
Un modelo Binomial con parámetros n y p será adecuado para describir la distribución de una
variable que indique el número de veces que ha ocurrido un determinado EVENTO en n
REPETICIONES de una prueba binaria (ensayos), siendo p la probabilidad de que ocurra el evento
en cada repetición (Probabilidad del evento) y manteniéndose p CONSTANTE en las n repeticiones.
Describir>Ajuste distribuciones >Distribuciones de probabilidad
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ejercicio 3: Aplicación del modelo binomial
Se sabe que en una determinada población el 10% es daltónica. Si se extrae una muestra aleatoria
de 25 personas de esa población calcular la probabilidad de que
N = 25, P=0.01
12
Se sabe que en una ciudad, en una tarde dada, en el 85% de las familias, alguno de los miembros
está en casa. Un equipo de investigación sanitaria selecciona una muestra aleatoria de 12 familias
para realizar una encuesta vía telefónica. Calcular la probabilidad de que
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
P(X=7)
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
7 0,0192803
13
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Un viajero de metro llega todas las mañanas a la misma hora a un andén. El 18% de las veces que
llega al andén, el tren se encuentra en él, mientras que el resto de las veces ha de esperar.
X= nº días que encuentra el tren estacionado en 7 dias consecutivos ->
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,249285 0,0509575 0,0280963
4 0,976873 0,721805 0,588751
5 0,997131 0,883306 0,788371
El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Binomial. Calculará las áreas de colas para hasta 5 valores
críticos de la
distribución. También calculará la probabilidad de densidad ó la función de masa. Por ejemplo, el resultado indica que, para la
primera
distribución especificada, la probabilidad de obtener un valor menor que 1,0 es 0,249285. También, la probabilidad de obtener un
valor
mayor que 1,0 es 0,367666. La probabilidad de obtener un valor exactamente igual a 1,0 es 0,383048.
14
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora
a) Obtener y copiar las funciones de probabilidad de las distribuciones Bi(15, 0.2), Bi(15, 0.5) y
Bi(15, 0.9). ¿Son simétricas las gráficas de las funciones de probabilidad obtenidas?
Binomial
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
0,9,15
0,3
probabilidad
0,2
0,1
0
0 3 6 9 12 15
x
b) Obtener y copiar las funciones de distribución de las distribuciones señaladas. ¿Qué ocurre al
cambiar p? ¿Cómo lo interpretas?
La probabilidad del evento es bajita, la probabilidad de que haya eventos aumenta rápidamente.
La Fx sube rápidamente. Pero si la probabilidad del evento es alta, la probabilidad de que haya
muchos eventos no sube tan rápidamente..
Binomial
1 Prob. Evento,Ensayos
0,2,15
0,5,15
probabilidad acumulada
0,8 0,9,15
0,6
0,4
0,2
0
0 3 6 9 12 15
x
15
c) Obtener y copiar las funciones de probabilidad de las distribuciones Bi(9, 0.2), Bi(15, 0.2) y
Bi(50, 0.2). Observar la forma que toma la gráfica a medida que n aumenta su valor.
A medida que aumentas la probabilidad disminuye el numero de sucesos que ocurren
Binomial
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
probabilidad
0,2
0,1
0
0 10 20 30 40 50
x
16
3. Distribución Hipergeométrica.
Un modelo Hipergeométrico se utiliza, al igual que un modelo binomial, cuando la variable indica
el número de eventos obtenidos en n repeticiones de una prueba binaria. La diferencia estriba en
que en el modelo hipergeométrico las repeticiones no serán independientes o, dicho de otro modo,
la probabilidad del evento considerado no será constante en las n repeticiones de la prueba.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
cuando el tamaño muestral n supera el 10% del tamaño poblacional N. Si las extracciones son sin
reposición, al variar la composición de la población, la probabilidad del evento puede variar
significativamente de una extracción a otra. En este modelo, los parámetros serán el tamaño
poblacional N, el tamaño muestral n y la probabilidad en la primera extracción del evento
considerado.
¿Cuál es la probabilidad de que el cargamento sea aceptado si se sabe que hay 2 unidades en el
cargamento que no cumplen las especificaciones?
X= nº monitores defectuosos en los 5 examinados
N 20, n=5, D=2
X->H(p=2/20 , n=5 , N=5 )
P (aceptado)=P(X<=1)=P(X=2)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
2 0,947368
Una tienda de ordenadores personales tiene en stock 20 equipos listos para vender. El gerente está
convencido de que 3 de ellos son defectuosos, sin saber cuáles son. Al día siguiente se venden 4
equipos ¿cuál es la probabilidad de que se hayan vendido todos los defectuosos?
X= nº monitores defectuosos en los 5 examinados
N 20, n=4, D=3
X->H(p=3/20 , n=4 , N=20 )
17
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Al igual que en el modelo binomial, se considera un experimento con dos posibles resultados del
cual se van repitiendo sucesivos ensayos. La diferencia estriba en que en el modelo binomial
negativo la v.a. indica el nº de ensayos en los que no ocurre el evento antes de observar la k-ésima
repetición del evento. Por tanto, a diferencia del modelo binomial, el conjunto de valores posibles
de la v.a. es ilimitado.
4. Distribución de Poisson.
18
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora
Una v.a. X sigue un modelo de Poisson de parámetro λ cuando representa el número de ocurrencias
independientes de un suceso que se observan en un período de tiempo, longitud, superficie o
volumen, siempre que estas ocurrencias se presenten con regularidad e independencia. El
parámetro λ representa el número medio de sucesos que ocurren en todo el periodo observado.
También será adecuado el modelo de Poisson, cuando nuestra v.a. se adecúa a un modelo binomial,
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
siendo n muy elevado y p muy pequeño.
En cierta población, cada año se diagnóstica un promedio de 13 nuevos casos de cáncer esofágico.
a) Exactamente 10
P(X=10)
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
10 0,0858702
b) No más de 12
P(X<=12)= P(X<13)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
13 0,463105
c) Al menos 8
P(X>=8)
Área Cola Superior (>)
19
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
9 0,0997579
16 0,763607
0.76-0.099
e) Menos de 7
P(X<7)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
7 0,0258869
20
Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora
Una compañía de seguros con 10.000 asegurados, halla que el 0,005% de la población fallece cada
año de un cierto tipo de accidente.
N muy grande y p muy pequeño aproximamos
N>30, p<0.1
X->Ps(lambda=0.5)
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) calcular la probabilidad de que la compañía tenga que pagar a los beneficiarios de más de
3 de los asegurados contra tal accidente en un año determinado.
21
El número de usuarios que acceden a un ordenador, que hace de servidor de una red, es, por
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
término medio, de 3000 cada hora. Suponiendo que los accesos se producen de forma independiente
y con media constante, se desea calcular la probabilidad de que en un minuto determinado accedan
a dicha red:
X(t)= nº usuarios que acceden en t minutos->Ps(λ)
Alfa= 3000usuarios/hora= 3000/60 usuarios x minuto = 50 usuarios /minuto
X(1)->Ps(lambda= 50)
a) La red puede atender como máximo 100 accesos por minuto. ¿Cuál es la probabilidad de que
hayan más de 100 accesos en un minuto, y por tanto, se produzcan retrasos en el tráfico de la
red.
P(X>100)
22
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
PRÁCTICA 3:
DISTRIBUCIONES CONTÍNUAS
Contenido:
1. Distribuciones continuas
Las v.a. pueden ser discretas o continuas. Las v.a. discretas vimos en la práctica 2, que eran el
resultado de un proceso de conteo (nº unidades correctas, nº unidades defectuosas, …). Las v.a.
continuas que trabajaremos en este tema son el resultado de un proceso de medición
Pesos
Longitudes
tiempo antes de que se produzca una avería, …
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Al igual que en el caso discreto, existen diferentes funciones de variable real, que permiten describir
la distribución de una v.a. contínua. Tanto la función densidad como la función de distribución nos
permiten calcular la probabilidad de que una va.contínua tome valores en un intervalo.
Para hallar la probabilidad de que una v.a. se mueva en un intervalo, a partir de la función de
densidad, es necesario integrar una función, que en muchas ocasiones no es integrable
analíticamente, como en el modelo normal, lo cual obliga, si no se dispone del software adecuado,
a recurrir a una tabla que nos proporciona el valor de la función de distribución para un modelo
tipificado. Evidentemente, estos problemas desaparecen si trabajamos con un software estadístico
adecuado.
P X x , P X x y P X x
En este tipo de variables, vimos que podíamos calcular a partir de estos valores, la probabilidad
de que nuestra v.a. se moviera en cualquier intervalo, fuera este cerrado, abierto o semiabierto,
Pa X b P X b PX a P X a
Pa X b P X b P X b PX a P X a
Pa X b PX b PX a
Pa X b P X b P X b P X a
Evidentemente, la probabilidad de que una v.a. discreta tome valores en un intervalo puede variar
considerablemente, según que los límites estén o no estén incluidos en el intervalo.
No obstante, en una v.a. continua se verifica que la probabilidad en un punto es siempre nula ya
que,
Es por ello que la probabilidad de que una v.a. continua se mueva en un intervalo puede calcularse
siempre como,
P a X b P a X b P a X b P a X b P X b P X a
Los modelos continuos, al igual que los modelos discretos, se agrupan en familias, y se identifican
por parámetros. La identificación de las familias, en el caso de variables continuas no vendrá
determinada exclusivamente por la definición de las v.a., y en muchos casos, si buscamos el modelo
que mejor se ajuste a unos datos, resultarán útiles herramientas como el histograma o los papeles
probabilísticos.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Respecto a la determinación de los parámetros, en el caso de que dispongamos de una muestra
aleatoria, podremos obtener estimaciones aproximadas a partir de los papeles probabilísticos, o
bien recurrir a herramientas de inferencia, como la estimación máximo-verosímil, que nos permitan
una estimación más precisa.
Statgraphics: Statgraphics permite trabajar sobre 39 familias de modelos continuos. En esta clase
práctica trabajaremos sobre modelos normales y exponenciales.
y podremos obtener, según ese modelo, la probabilidad de que nuestra variable tome valores en un
intervalo, percentiles y representaciones gráficas de la función de densidad y la función de
distribución
y los papeles probabilístico pueden ayudarnos a seleccionar familias con modelos adecuados para
describir la distribución de la v.a..
y le indicamos la familia o familias seleccionadas, nos proporciona una estimación óptima de los
parámetros para cada familia, mediante técnicas de inferencia estadística y nos permite valorar
gráficamente la adecuación del modelo a los datos muestrales mediante un histograma y un gráfico
cuantil-cuantil. También nos ofrece, mediante técnicas de inferencia, contrastes que miden la
bondad del ajuste y nos ayudan a tomar una decisión definitiva. Una vez seleccionado de forma
definitiva el modelo que mejor se ajusta a nuestros datos, el statfolio nos permite calcular la
probabilidad, según el modelo, de que nuestra variable se mueva en un intervalo y determinar
percentiles
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ejercicio 1:
Si una v.a. sigue una distribución normal de media 15 y desviación típica 5, contesta a las siguientes
preguntas
Distribución Acumulada
Distribución: Normal
Probabilidad de Densidad
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Normal. Calculará las áreas de colas para hasta 5 valores críticos
de la
distribución. También calculará la probabilidad de densidad ó la función de masa. Por ejemplo, el resultado indica que, para la
primera
distribución especificada, la probabilidad de obtener un valor menor que 15,0 es 0,5. También, la probabilidad de obtener un valor
mayor que
15,0 es 0,5. La altura de la función de densidad de probabilidad en 15,0 es 0,0797885.
N (15,5)
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
c) ¿Cuál es la P (X>25)?
Área Cola Superior (>)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
25 0,02275
d) ¿Cuál es la P(X<60)?
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
60 1,0
2. Distribución normal
Muchos tipos de análisis estadístico de datos continuos se basan en la hipótesis de que los datos
son una muestra de una población normal.
Existen métodos alternativos que se pueden utilizar cuando los datos no verifican esta hipótesis,
pero presentan desventajas. Es importante, por lo tanto, antes de comenzar, verificar si es admisible
que nuestros datos proceden de una población normal.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Para evaluar la normalidad podemos basarnos en el histograma muestral, pero será difícil de
evaluar en muestras pequeñas ya que su forma va a depender mucho de los intervalos que
seleccionemos.
Como alternativa tenemos los papeles probabilísticos que nos ayudan a identificar el modelo más
adecuado para describir la distribución de una v.a continua. Estos papeles se basan en intentar
identificar en las distintas familias de distribuciones continuas una relación lineal entre una
transformación de X y una transformación de la función de distribución.
En el caso de la distribución normal, si una variable sigue una distribución normal debe verificarse
que
En base a esta relación, en el papel probabilístico normal representamos en abscisas los valores
de los datos muestrales y en ordenadas el percentil normal correspondiente a las frecuencias
relativas muestrales de los datos. Si los datos proceden de una población normal estos puntos
deberán estar alineados.
Para facilitar la labor, se utiliza en el eje de ordenadas una escala especial de tal modo que cuando
representamos la frecuencia relativa acumulada, realmente estaremos representando el percentil
de una v.a. Z correspondiente a esa frecuencia relativa.
En el caso de que los puntos no estén alineados podemos encontrarnos los siguientes casos:
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos.
Aunque el papel probabilístico es una herramienta muy útil para juzgar la normalidad, debido a la
variabilidad muestral, sabemos que muestras procedentes de una población normal pueden no ser
exactamente normales, por ello es útil también tener otros métodos alternativos para valorar y
cuantificar la desviación de la normalidad. Podemos considerar como apoyo las representaciones
de Box-Whisker y los valores de los coeficientes de asimetría y curtosis estandarizados.
Una vez seleccionadas aquellas familias que pueden contener modelos adecuados para describir
la distribución de la v.a. hay métodos gráficos que permiten estimar aproximadamente sobre el
mismo papel probabilístico los parámetros del modelo. Estos métodos son útiles debido a su
sencillez.
En concreto, en una distribución normal se obtendrá una primera estimación de los dos parámetros
del modelo (media y desviación típica), teniendo en cuenta que el percentil 84 coincide con la suma
de ambos y el percentil 50 coincide con la media. No obstante, no hay que olvidar que los resultados
obtenidos por métodos gráficos son siempre aproximados. Hay métodos matemáticos mucho más
precisos (método de los momentos, el método de máxima verosimilitud, etc.) que nos permitirán,
partiendo en ocasiones de estimaciones iniciales, identificar con mayor precisión, el modelo que
mejor se ajusta a los datos dentro de familia elegida.
Si se ha decidido que los datos pueden provenir de una normal y se han obtenido estimaciones de
los parámetros, las pruebas Q-Q y los test de bondad de ajuste permiten valorar la adecuación de
los datos al modelo. P valor <0,05 rechazo el modelo y busco otro
En concreto los test de normalidad permiten estimar cual sería la probabilidad de obtener dicha
muestra en un muestreo si la población de partida fuera una población normal con dichos
parámetros. Si esta probabilidad fuera suficientemente pequeña (<0.05) rechazaríamos el modelo
normal. No obstante, el tamaño muestral influye en la potencias de estos test y en muestras grandes,
son capaces de detectar pequeñas desviaciones de la normalidad que en muestras pequeñas no
hubieran sido detectadas. También hay que tener en cuenta que la presencia de outliers, o
desviaciones en las colas de la distribución, también pueden ser muy influyentes en su resultado.
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El modelo normal podría servir al estar los coeficientes de asimetría y curtosis en el intervalo [-
2,2]
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de
b) Obtener una representación en papel probabilístico normal de los datos de la variable PESO de
los alumnos ¿Se distribuye el peso de los chicos de forma aproximadamente normal?
80 99,9
porcentaje acumulado
99
60
porcentaje acumulado
95
40 80
50
20
20
0 5
56 66 76 86 96 1
PESO
0,1
56 66 76 86 96
PESO
c) Seleccionar sobre papel probabilístico, con métodos gráficos, el modelo normal que mejor se
ajusta a la variable PESO de los alumnos ¿Cuáles son los valores aproximados de los parámetros
que identifican el modelo?
X0.5= µ=71.5kg
X0.84= µ+Ơ =79.6kg
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Sigma = 79.6-71.5= 8.1
Peso N(71,5 8.1)
d) Determinar con más precisión, utilizando métodos matemáticos los parámetros del modelo
normal que mejor se ajusta a la variable PESO de los alumnos
Gráfica Cuantil-Cuantil
Histograma para PESO
91 Distribución
12 Distribución
Normal
Normal
10
81
8
frecuencia
PESO
71
6
4
61
2
51
0
51 61 71 81 91
54 64 74 84 94
Distribución Normal
PESO
Valor-P 0,942461
p-valor no< 0.5 no tengo motivos evidentes para rechazar el modelo normal
10
f) Una vez elegido el modelo que mejor se ajusta a la distribución del peso de los alumnos, calcular
la probabilidad de que un alumno elegido al azar tenga un peso:
Areas de cola
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Áreas de Cola para PESO
Distribución Normal
X Área Cola Inferior (<) Área Cola Superior (>)
60,0 0,0793202 0,92068
80,0 0,858193 0,141807
100,0 0,99981 0,000189662
El StatAdvisor
En esta ventana se calculan las áreas de colas para la distribución normal ajustada. Calculará áreas de colas hasta para 5 valores críticos, los
cuales pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica que la
probabilidad de obtener un valor menor o igual a 60,0 es 0,0793202 para la distribución normal ajustada.
Ejercicio 3
El tiempo medio de CPU necesario para la ejecución de una clase de programas en un ordenador
Distribución Acumulada
Distribución: Normal
Probabilidad de Densidad
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,000233352
2 0,401612
4 0,000361703
El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Normal. Calculará las áreas de colas para hasta 5 valores críticos
de la
distribución. También calculará la probabilidad de densidad ó la función de masa. Por ejemplo, el resultado indica que, para la
primera
distribución especificada, la probabilidad de obtener un valor menor que 1,0 es 0,0000199566. También, la probabilidad de
obtener un valor
mayor que 1,0 es 0,99998. La altura de la función de densidad de probabilidad en 1,0 es 0,000233352.
11
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
AJUSTAR
Simular 100 valores de una variable aleatoria normal de media 10 y desviación típica 5.
Guardar los datos obtenidos en la variable NORMAL1
Distribución> Ajuste de distribuciones >distribución de probabilidad> números aleatorios
Guardar
Histograma
18
15
0
-3 2 7 12 17 22 27
RAND1
a) Representar los datos en papel probabilístico normal. Obtener a partir del gráfico una
estimación aproximada del valor medio y de la desviación típica
99,9
99
porcentaje acumulado
95
80
50
20
5
1
0,1
-2 3 8 13 18 23
RAND1
X0.5 =
X0.84=
12
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
b) ¿Podemos considerar que los datos han sido generados correctamente? Realizar un test de
bondad de ajuste.
Pruebas de Bondad-de-Ajuste para RAND1
Prueba de Kolmogorov-Smirnov
Normal
DMAS 0,0763584
DMENOS 0,0518882
DN 0,0763584
Valor-P 0,604353
El StatAdvisor
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Esta ventana muestra los resultados de diversas pruebas realizadas para determinar si RAND1 puede modelarse
adecuadamente con una
distribución normal.
Debido a que el valor-P más pequeño de las pruebas realizadas es mayor ó igual a 0,05, no se puede rechazar la idea de que
RAND1 proviene
de una distribución normal con 95% de confianza.
El StatAdvisor
En esta ventana se calculan las áreas de colas para la distribución normal ajustada. Calculará áreas de colas hasta para 5
valores críticos, los
cuales pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la
salida indica que la
probabilidad de obtener un valor menor o igual a 15,0 es 0,848606 para la distribución normal ajustada.
13
3. Modelo Exponencial
El modelo normal no suele ser útil para describir el tiempo de vida porque la función de densidad
de T suele ser asimétrica positiva y T toma exclusivamente valores no negativos.
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Modeliza el tiempo entre eventos de Poisson consecutivos
1 1
Rt e t e t ln t
Rt Rt
Para facilitar la labor, se utiliza en el eje de ordenadas una escala logaritmica de tal modo que
cuando representamos la frecuencia relativa acumulada, realmente estaremos representando su
logaritmo de 1/R(t)
.
En el papel probabilístico exponencial se obtendrá una primera estimación del parámetro lambda,
teniendo en cuenta que el percentil 63 coincidirá con la media
14
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Los coeficientes se salen del intervalo (-2,2) no podemos aceptar modelo normal
Resumen Estadístico para TIEMPO
Recuento 131
Promedio 26,1221
Desviación Estándar 16,6743
Coeficiente de Variación 63,8319%
Mínimo 4,0
Máximo 90,0
Rango 86,0
Sesgo Estandarizado 5,90912
Curtosis Estandarizada 3,31496
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para TIEMPO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de
99,9 30
99
25
porcentaje acumulado
95
20
80
frecuencia
50 15
20
10
5
5
1
0,1 0
0 20 40 60 80 100 -10 10 30 50 70 90 110
TIEMPO TIEMPO
15
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
b) Obtener, a partir de los datos de la encuesta, una representación en papel probabilístico normal
y exponencial de los datos de la variable TIEMPO, ¿Se distribuye esta variable de forma
aproximadamente normal? En caso de ser asimétrica, ¿la asimetría es positiva o negativa? ¿Es
posible admitir el modelo exponencial?
No se distribuye normalmente
Asimetría positiva
Podríamos admitir modelo exponencial
99,9
porcentaje acumulado
99,5
99
95
90
80
70
50
0,1
0 30 60 90 120 150
TIEMPO
c) Seleccionar sobre papel probabilístico, con métodos gráficos, el modelo exponencial que mejor
se ajusta a la variable TIEMPO ¿Cuál es el valor aproximado del parámetro que identifica el
modelo?
E(T)=1/lambda = 26.6
16
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
d) Determinar con más precisión, utilizando métodos matemáticos el parámetro del modelo
exponencial que mejor se ajusta a la variable TIEMPO
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Distribuciones Ajustadas
Exponencial
media = 26,1221
El StatAdvisor
Este análisis muestra los resultados de ajustar una distribución exponencial a los datos de TIEMPO. Los parámetros estimados
para la
distribución ajustada se muestran arriba. Se puede evaluar si la distribución exponencial ajusta los datos adecuadamente,
seleccionando
Pruebas de Bondad de Ajuste de la lista de Opciones Tabulares. También puede evaluarse visualmente que tan bien la distribución
exponencial se ajusta, seleccionando Histogramas de Frecuencia de la lista de Opciones Gráficas. Otras opciones dentro el
procedimiento
permiten calcular y desplegar áreas de colas y valores críticos para la distribución. Para seleccionar una distribución diferente,
presione el
botón secundario del ratón y seleccione Opciones de Análisis.
20
frecuencia
90
TIEMPO
15
60
10
5 30
0 0
0 20 40 60 80 100 0 30 60 90 120 150
TIEMPO Distribución Exponencial
17
4. Modelo Log-normal
En la modelización del tiempo de vida, T, no siempre es posible admitir que la tasa de fallo
permanece constante en el periodo de estudio.
Aunque el modelo normal no suele ser útil para describir el tiempo de vida porque la función de
densidad de T suele ser asimétrica positiva y T toma exclusivamente valores no negativos, podemos
encontrar una transformación de los datos cuya distribución sea más próxima a la distribución
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
normal.
A partir del valor medio y la desviación típica de logT es posible obtener el valor medio del tiempo
2
E (T ) e 2
18
Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
19
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) Representar el histograma y el gráfico de Box-whisker y obtener los coeficientes de asimetría y
curtosis para la variable LOG(TIEMPO) ¿Podríamos aceptar el modelo normal? ¿Qué ocurre con
los outliers?
El StatAdvisor
99,9
99
porcentaje acumulado
95
80
50
20
5
1
0,1
1,3 2,3 3,3 4,3 5,3
log(TIEMPO)
20
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora
c) Seleccionar por métodos matemáticos los parámetros del modelo normal, el modelo lognormal
y el modelo exponencial que mejor describan la distribución de la variable TIEMPO.
Distribuciones Ajustadas
Exponencial Lognormal Normal
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
media = 26,1221 media = 26,3124 media = 26,1221
desviación estándar = 18,3673 desviación estándar = 16,6743
Escala log: media = 3,07157
Escala log: desv. est. = 0,630033
El StatAdvisor
Este análisis muestra los resultados de ajustar 3 distribuciones a los datos en TIEMPO. Los parámetros estimados de las
distribuciones
ajustadas se muestran arriba. Se puede probar si las distribuciones ajustan adecuadamente a los datos, seleccionando Pruebas de
Bondad de
Ajuste de la lista de Opciones Tabulares. También puede evaluarse visualmente que tan bien se ajustan las distribuciones
seleccionando
Histograma de Frecuencias de la lista de Opciones Gráficas. Otras opciones dentro el procedimiento permiten calcular y desplegar
áreas de
colas y valores críticos para la distribución. Para seleccionar una distribución diferente, presione el botón secundario del ratón y
30 Distribución
Exponencial
Lognormal
25
Normal
20
frecuencia
15
10
0
0 20 40 60 80 100
TIEMPO
21
Gráfica Cuantil-Cuantil
120 Distribución
Exponencial (2 Parámetros)
Lognormal
100
Normal
80
TIEMPO
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
60
40
20
0
0 20 40 60 80 100 120
Distribución Lognormal
El StatAdvisor
Esta ventana muestra los resultados de las pruebas realizadas para determinar si TIEMPO puede ser modelada adecuadamente por
varias
distribuciones.
Valores-P menores que 0,05 indicarían que TIEMPO no proviene de la distribución seleccionada con 95% de confianza.
22
El StatAdvisor
Esta ventana calcula las áreas de cola para las distribuciones ajustadas. Calculará áreas de colas hasta para 5 valores críticos, los
cuales
pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica
que la
probabilidad de obtener un valor menor o igual a 10,0 es 0,237552 para la distribución exponencial de 2 parámetros ajustada.
f) Obtener los tres cuartiles de los modelos considerados y compararlos con los cuartiles muestrales
No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Áreas de Cola para TIEMPO
Área Cola Inferior (<=)
X Exponencial (2 Parámetros) Lognormal Normal
0,25 0,0 7,49012E-13 0,0603763
0,5 0,0 1,15149E-9 0,062192
0,75 0,0 4,87087E-8 0,0640501
El StatAdvisor
Esta ventana calcula las áreas de cola para las distribuciones ajustadas. Calculará áreas de colas hasta para 5 valores críticos, los
23