Está en la página 1de 70

PracticasParcial1.

pdf

ingbiomed1

Estadística

2º Grado en Ingeniería Biomédica

Escuela Técnica Superior de Ingeniería Industrial


Universidad Politécnica de Valencia

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Nieves Martínez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
PRÁCTICA 1:

Reservados todos los derechos.


ESTADISTICA DESCRIPTIVA

Contenido:

1. Recogida de datos. Tipos de datos


2. Tablas de frecuencias
3. Medidas que caracterizan una distribución de frecuencias.
4. Diagramas de box-whisker
5. Estudios por subgrupos
6. Preparación de datos para su análisis

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

1. Recogida de datos. Tipos de datos

En esta práctica analizaremos las respuestas de alumnos de la UPV a la siguiente encuesta.

1. SEXO (1-Varón 2-Mujer)……………………………………………..………………………………. -----

2. EDAD (en años)………………………………………………………..…………………….………… -----

3. MES DE NACIMIENTO (1 A 12)……………………………..…………………………………..…… -----

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
4. ESTATURA (en centímetros) ………………………………………………………………………..… -----

5. PESO (en kgs)…………………………………………….……………………………………………. -----

6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE………………………………………..------


1- Derechas 4- Nacionalista
2- Centro 5- Ecologista
3- Izquierdas 6- Pasas del tema

7. ESCRIBE UN DIGITO AL AZAR DE 0 A 9……………………….………………………………….. -----

8. LUGAR DE RESIDENCIA DURANTE EL CURSO:……………………….…………………………------


1- Hogar familiar 4- Con un pariente/conocido
2- Residencia 5- Otra solución

Reservados todos los derechos.


3- Piso con compañeros

9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD? :………….……………….…………------


1- En tu coche 4- En un coche de un compañero
2- En tu moto 5- Transporte público
3- Andando 6- En vehículo no motorizado (bici, skateboard,..)
7- En patinete eléctrico

10. ¿CUANTOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV? ………………….…….. ------

11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE


EN LA ESPAÑA ACTUAL? ....................................................................................................... ------
1- Drogas/Alcohol 4- Desigualdad social
2- Educación/Sanidad 5- Pérdida de valores
3- Paro 6- Conciliación vida laboral y familiar

12. ¿CUÁL ES EL NIVEL EDUCACIONAL DE TUS PADRES? PADRE___ MADRE___


1.- Ninguno
2.- Secundaria / FP GM
3.- Bachillerato / FP Grado Superior.
4.- Graduado
5.- Ingeniería o Máster
6 .- Doctorado

13. DE LAS 24 HORAS DEL DÍA ¿QUÉ PORCENTAJE DEDICAS A..


1. Estudio/Trabajo-..…………………………..……………………..……………….. …… -----%
2. Ocio/familia/amigos………………………………………………………….…….. …… -----%
3. Redes sociales, videojuegos, whatsapp, ……………………………………….. …… -----%
4. Ejercicio físico……………………………………………………..……………….. …… -----%
5. Pensar, leer..……………………………………………………………………….. …… -----%

Como punto de partida, cumplimentaremos la encuesta para que los datos obtenidos puedan servir
de base para el próximo curso y nos ayudará a familiarizarnos con los items

La vida son experiencias, Cuenta Smart


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Las respuestas de alumnos de la UPV de cursos anteriores a esta encuesta sobre las que
trabajaremos se encuentran almacenadas en Poliformat.

Ejercicio 0: Tipos de datos

Antes de iniciar un estudio en un paquete estadístico hay que identificar si cada ítem es:

 una cualidad (característica cualitativa o categórica)

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
 el resultado de un proceso de conteo ( característica cuantitativa discreta) o
 el resultado de un proceso de medición (característica cuantitativa continua)
 Otro tipo de datos

Aunque parece un tema exclusivamente teórico, esta cuestión tendrá una importante repercusión
en la selección del tratamiento a utilizar para estudiar los datos obtenidos. También es importante
considerar cuantas respuestas diferentes es posible obtener en cada pregunta.

¿Cómo crees que son estas características: categóricas nominales, categóricas ordinales,
numéricas discretas o numéricas continuas, de otro tipo?¿Que tratamiento le darías?

Reservados todos los derechos.


 Sexo categórica nominal
 Edad numérica discreta
 Mes Nacimiento categórica nominal
 Peso numérica continua
 Opinión política categórica nominal
 Digito azar categórica nominal
 Residencia categórica nominal
 Transporte categórica nominal
 Tiempo cuantitativo continuo
 Problema cualitativo nominal
 Nivel Educacional padres cualitativo ordinal
 Distribución-tiempo otro tipo

Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

1. Tablas de frecuencias

En el análisis estadístico de unos datos tendremos que:

 organizar los datos en tablas de frecuencias


 construir gráficos que nos ayuden a visualizarlos
 calcular medidas que nos permitan realizar comparaciones entre subgrupos.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ejercicio 1: Tablas de frecuencias para datos cualitativos o numéricos discretos con pocos valores
diferentes. Diagrama de barras y diagrama de sectores

La introducción de los datos cualitativos se realiza en código numérico, para facilitar el proceso.
A partir de las características codificadas es posible decodificarlas, con las categorías nominales.

En este ejercicio trabajaremos sobre las respuestas obtenidas en las preguntas 6 y 11. Los valores
se han introducidas, codificados, en las variables POLITICANUM y PROBNUM y se han creado
las características POLITICA y PROBLEMA con los valores nominales.

Reservados todos los derechos.


a) Obtener y copiar la tabla de frecuencias de PROBLEMA. ¿Cuántos alumnos han respondido
esta pregunta

Statgraphics: Desplegar el menú de Estadística Descriptiva (Describir), el submenú Datos


Categóricos y elegir la opción Tabulación.

Tabla de Frecuencia para PROBLEMA


Frecuencia Frecuencia Frecuencia
Clase Valor Frecuencia Relativa Acumulada Rel. acum.
1 DES.SOCIAL 36 0,2022 36 0,2022
2 DROGAS/ALCOHOL 3 0,0169 39 0,2191
3 EDUC/SANIDAD 45 0,2528 84 0,4719
4 PARO 60 0,3371 144 0,8090
5 PERDIDA VALORES 34 0,1910 178 1,0000

El StatAdvisor
Esta tabla muestra el número de veces que se ha presentado cada valor de PROBLEMA así como porcentajes y estadísticas
acumuladas. Por
ejemplo, en 36 filas del archivo de datos, PROBLEMA es igual a DES.SOCIAL. Esto representa 20,2247% de los 178 valores en
el archivo.
Las dos columnas de la extrema derecha dan los recuentos y porcentajes acumulados, desde el inicio de la tabla hacia abajo.

FRECUENCIA 36

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

b) Obtener el diagrama de barras para frecuencias absolutas y relativas ¿Hay cambios en la forma

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
del gráfico? ¿Qué cambia? Cambia la escala, no la forma

Statgraphics: Para obtener el diagrama de barras para frecuencias relativas: pulsar el botón
derecho del ratón, elegir Opciones de Ventana y seleccionar Porcentajes.

Diagrama de Barras de PROBLEMA Diagrama de Barras de PROBLEMA

DES.SOCIAL DES.SOCIAL

DROGAS/ALCOHOL DROGAS/ALCOHOL

EDUC/SANIDAD EDUC/SANIDAD

PARO PARO

Reservados todos los derechos.


PERDIDA VALORES PERDIDA VALORES

0 10 20 30 40 50 60 0 10 20 30 40
frecuencia porcentaje

c) Obtener el diagrama de sectores o diagrama de tarta ¿Qué relación tiene con los diagramas de
barra? ¿Qué ventaja presenta?
Cada porcentaje corresponde con la frecuencia
Diagrama de Sectores de PROBLEMA
absoluta de cada dato / numero total
Se obtiene una mayor visualización pero con los 19,10% PROBLEMA
20,22% DES.SOCIAL
DROGAS/ALCOHOL
mismos datos que el diagrama de barras EDUC/SANIDAD
PARO
PERDIDA VALORES
1,69%

25,28%
33,71%

d) Analizar mediante un diagrama de sectores los resultados de la variable POLITICA. ¿Detectas


algún posible error?
Cuando la frecuencia absoluta de algún dato
es muy pequeña no podemos visualizarla Diagrama de Sectores de POLITICA

correctamente 8,99% 0,56%


POLITICA
4,49% 30
24,16%
CENTRO
DERECHAS
ECOLOGISTAS
IZQUIERDAS
NACIONALISTAS
PASAS DEL TEMA

13,48%

43,82%

4,49%

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Ejercicio 2: Tablas de frecuencias para datos numéricos continuos o discretos con muchos valore
diferentes. Histogramas y Polígonos de frecuencias.

Las técnicas que vamos a utilizar en este apartado son útiles para organizar y visualizar datos
numéricos continuos o bien datos numéricos discretos con muchos valores diferentes que necesitan
ser agrupados

a) Construye un diagrama de sectores para la característica PESO, considerándola cualitativa


como has hecho en el Ejercicio 1 ¿Qué ocurre? ¿Qué crees que es necesario hacer si la

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
variable puede tomar muchos valores diferentes?
no se puede interpretar. Es necesario agrupar pues los datos no son correctamente observables

Diagrama de Sectores de PESO

0,56%
1,69%
0,56%
0,56%
2,81% 0,56%
1,69%
1,12%
1,12%
0,56%
1,69% 2,25%
1,12% PESO
1,69% 48
3,93% 1,12%
0,56%50
1,12% 1,69%
52
1,12% 53
0,56%
0,56% 3,93%
1,69% 54
1,12% 2,25%
55
2,81% 56
2,81%
57
3,37% 58
3,93%
59

Reservados todos los derechos.


1,69%
60
1,69%
3,93% 61
4,49%
62
3,93% 0,56%63
6,18% 64
1,69% 9,55% 65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

b) Obtén la tabla de frecuencias de la variable PESO , como variable cuantitativa tal como
se indica en el recuadro
Statgraphics: Desplegar el menú Describir, el submenú Datos Numéricos y elegir la opción
Análisis de una variable. Pulsar el icono que indica las subopciones del análisis y seleccionar
Tabla de frecuencias. Para modificar el número o anchura de los intervalos que Statgraphics hace
por defecto, situarse sobre la tabla y con el botón derecho del ratón seleccionar Opciones Ventana.
Tabla de Frecuencias para PESO
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 45 0 0,0000 0 0,0000

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1 45 48,4783 46,7391 1 0,0056 1 0,0056
2 48,4783 51,9565 50,2174 3 0,0169 4 0,0225
3 51,9565 55,4348 53,6957 13 0,0730 17 0,0955
4 55,4348 58,913 57,1739 9 0,0506 26 0,1461
5 58,913 62,3913 60,6522 19 0,1067 45 0,2528
6 62,3913 65,8696 64,1304 18 0,1011 63 0,3539
7 65,8696 69,3478 67,6087 13 0,0730 76 0,4270
8 69,3478 72,8261 71,087 31 0,1742 107 0,6011
9 72,8261 76,3043 74,5652 21 0,1180 128 0,7191
10 76,3043 79,7826 78,0435 13 0,0730 141 0,7921
11 79,7826 83,2609 81,5217 7 0,0393 148 0,8315
12 83,2609 86,7391 85,0 12 0,0674 160 0,8989
13 86,7391 90,2174 88,4783 6 0,0337 166 0,9326
14 90,2174 93,6957 91,9565 1 0,0056 167 0,9382
15 93,6957 97,1739 95,4348 7 0,0393 174 0,9775

Reservados todos los derechos.


16 97,1739 100,652 98,913 3 0,0169 177 0,9944
17 100,652 104,13 102,391 0 0,0000 177 0,9944
18 104,13 107,609 105,87 1 0,0056 178 1,0000
19 107,609 111,087 109,348 0 0,0000 178 1,0000
20 111,087 114,565 112,826 0 0,0000 178 1,0000
21 114,565 118,043 116,304 0 0,0000 178 1,0000
22 118,043 121,522 119,783 0 0,0000 178 1,0000
23 121,522 125,0 123,261 0 0,0000 178 1,0000
mayor de 125 0 0,0000 178 1,0000
Media = 71,0618 Desviación Estándar = 11,8728

El StatAdvisor
Esta opción ejecuta una tabulación de frecuencias dividiendo el rango de PESO en intervalos del mismo ancho, y contando el
número de
datos en cada intervalo. Las frecuencias muestran el número de datos en cada intervalo, mientras que las frecuencias relativas
muestran las
proporciones en cada intervalo. Puede cambiarse la definición de los intervalos pulsando el botón secundario del ratón y
seleccionando
Opciones de Ventana. Pueden verse gráficamente los resultados de la tabulación seleccionando Histograma de Frecuencias de la
lista de
Opciones Gráficas.

No es una tabla comparable, establecemos intervalos nuevos

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

c) ¿Crees que los límites de intervalo seleccionados por el Statgraphics son óptimos para
realizar comparaciones con otros grupos de alumnos? ¿Tú que limites cogerías?
No son comparables pues hay demasiados intervalos
Establecemos nuevos limites observando el rango
(110-45)/5=13 intervalos

Tabla de Frecuencias para PESO


Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 45 0 0,0000 0 0,0000

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
1 45 50,0 47,5 4 0,0225 4 0,0225
2 50 55,0 52,5 13 0,0730 17 0,0955
3 55 60,0 57,5 19 0,1067 36 0,2022
4 60 65,0 62,5 27 0,1517 63 0,3539
5 65 70,0 67,5 30 0,1685 93 0,5225
6 70 75,0 72,5 32 0,1798 125 0,7022
7 75 80,0 77,5 19 0,1067 144 0,8090
8 80 85,0 82,5 13 0,0730 157 0,8820
9 85 90,0 87,5 9 0,0506 166 0,9326
10 90 95,0 92,5 6 0,0337 172 0,9663
11 95 100,0 97,5 5 0,0281 177 0,9944
12 100 105,0 102,5 0 0,0000 177 0,9944
13 105 110,0 107,5 1 0,0056 178 1,0000
mayor de 110 0 0,0000 178 1,0000
Media = 71,0618 Desviación Estándar = 11,8728

Reservados todos los derechos.


El StatAdvisor
Esta opción ejecuta una tabulación de frecuencias dividiendo el rango de PESO en intervalos del mismo ancho, y contando el
número de
datos en cada intervalo. Las frecuencias muestran el número de datos en cada intervalo, mientras que las frecuencias relativas
muestran las
proporciones en cada intervalo. Puede cambiarse la definición de los intervalos pulsando el botón secundario del ratón y
seleccionando
Opciones de Ventana. Pueden verse gráficamente los resultados de la tabulación seleccionando Histograma de Frecuencias de la
lista de
Opciones Gráficas.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

d) Obtener y copiar un histograma de frecuencias absolutas de la variable PESO ¿Qué

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
información proporciona este gráfico? (Explícalo para el primer intervalo)¿Qué intervalo
contiene mayor número de valores?

Statgraphics: Utilizando el botón derecho del ratón, en cualquier gráfico podemos activar la
función Localizar que nos ayudará a leer el valor de la abscisa o de la ordenada en cualquier punto
Cada una de las columnas representa la frecuencia de cada uno de los intervalos, en el primero
hay 4 alumnos con peso entre 45 y 50kg
El intervalo 65-70 es el que contiene mas numero de valores

Histograma

40

Reservados todos los derechos.


30
frecuencia

20

10

0
45 65 85 105 125
PESO

e) Obtener y copiar el histograma de frecuencias relativas ¿Qué información proporciona este


gráfico? (Explícalo para el primer intervalo)

Statgraphics: Para obtener el histograma de frecuencias relativas: pulsar el botón derecho del
ratón, elegir Opciones de Ventana y seleccionar frecuencias relativas.
Proporciona porcentajes para peso entre 45-50

Histograma

18

15

12
porcentaje

0
45 65 85 105 125
PESO

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

f) Representar el polígono de frecuencias. ¿Qué relación tiene con el histograma?

Statgraphics: Para representar el polígono de frecuencias, pulsar el botón derecho del ratón y en
Opciones de ventana, Tipo de Gráfico, marcar Polígono.
Representa la forma del histograma con cada uno de los valores maximos de cada intervalo al unir
los puntos medios de cada barra

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Polígono

18

15

12
porcentaje

0
45 65 85 105 125
PESO

Reservados todos los derechos.


g) Teniendo en cuenta el concepto de simetría, asimetría a derechas y asimetría a izquierdas (ver
gráfico) ¿Cómo crees que es la distribución de la variable PESO?¿Presenta claramente una
cola más larga hacia la derecha o hacia la izquierda?

Ligera Asimetría positiva

10

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

h) Obtener y copiar el histograma de frecuencias relativas acumuladas. ¿Qué información


proporciona este histograma? (explícalo para el segundo intervalo)

Statgraphics: Para representar el histograma de frecuencias relativas acumuladas, pulsar el botón


derecho del ratón y en Opciones de ventana, Tipo de Gráfico, marcar histograma y en frecuencias
marcar relativa.

Un 9,5 % de la muestra tiene un peso inferior a 55kg

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Histograma

100

80
porcentaje

60

40

20

Reservados todos los derechos.


45 65 85 105 125
PESO

11

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

2. Medidas que caracterizan una distribución de frecuencias

Las medidas de posición, dispersión y forma nos proporcionan información acerca de la posición
de los datos y su variabilidad y acerca de si el modelo normal será adecuado para describir la
distribución de la variable.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Statgraphics: Para obtener medidas de posición y dispersión, desplegar el menú Describir, el
submenú Datos Numéricos y elegir la opción Análisis de una variable. Pulsar el icono amarillo
de opciones de análisis y seleccionar Resumen Estadístico y Percentiles.

Por defecto, Statgraphics mostrará algunas de las medidas definidas anteriormente. Si se desea
seleccionar otras medidas que no aparezcan de esta forma, nos situaremos sobre la ventana de
resultados y con el botón derecho del ratón seleccionaremos Opciones de Ventana. Aparecerá un
cuadro de diálogo donde podemos elegir las medidas muestrales que queramos obtener.

Ejercicio 3: Medidas de tendencia central y posición

Las medidas de tendencia central y posición se utilizan para indicar la posición de la distribución

Reservados todos los derechos.


de frecuencias. Son valores representativos de los datos.

a) Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las
siguientes medidas de posición:

Mínimo
Máximo Recuento 178
Promedio 71,0618
Media muestral ( x ) (promedio) Mediana 70,0
Primer cuartil (un 25% de los valores son inferiores) Moda 70,0
Mínimo 48,0
Segundo cuartil (Mediana) (un 50% de los valores son Máximo 106,0
inferiores) Cuartil Inferior 62,0
Cuartil Superior 77,0
Tercer cuartil (un 75% de los valores son inferiores) Sesgo Estandarizado 2,62288
Moda Curtosis Estandarizada -0,155831

Resumen Estadístico para PESO

El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de
la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal.

12

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
b) Cambia el idioma de las salidas y obtén el nombre de estos estadísticos en ingles
Editar>preferencias>lenguaje

a) ¿En qué se diferencian media y mediana? ¿Cuándo utilizarías cada una de ellas?
No se debe utilizar la media si hay datos anómalos o la simetría es muy marcada

b) ¿Qué medida de posición utilizarías para PROBLEMA? ¿Tendrían sentido las medidas del
apartado a)? ¿Por qué?
Se utilizaría exclusivamente la moda. Al ser valores cualitativos no tienen relación con la media y
la mediana

Reservados todos los derechos.


Ejercicio 4: Medidas de dispersión
Las medidas de dispersión nos indicarán la variabilidad de los datos

a) Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las siguientes
medidas de dispersión:

Varianza muestral (s2) Recuento 178


Varianza 140,962
Desviación típica (s) Desviación Estándar 11,8728
Rango o recorrido Coeficiente de Variación 16,7076%
Rango 58,0
Rango intercuartílico Rango Intercuartílico 15,0
Coeficiente de variación Sesgo Estandarizado 2,62288
Curtosis Estandarizada -0,155831

Resumen Estadístico para PESO

El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de
la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal.

b) Cambia el idioma de las salidas y obtén el nombre de estos estadísticos en ingles


Editar>preferencias>lenguaje

c) ¿Qué caracteriza cada medida de dispersión? ¿Cuál elegirías en este caso?


La variabilidad de los datos
Si es asimétrica o presenta datos anómalos el recorrido intercuartilico
d) ¿Tendría sentido estudiar la dispersión de PROBLEMA?¿Por qué?
No porque no es un valor numérico

13

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Ejercicio 5: Medidas de forma

Las medidas de forma se utilizan para estudiar si el modelo normal, en forma de campana
simétrica, es adecuado para describir la distribución de una variable continua.

a) Con los datos de la variable PESO, utilizar Statgraphics para estudiar si el modelo normal es
adecuado para describir la distribución de esta variable:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Coeficiente de asimetría Recuento 178
Promedio 71,0618
Varianza 140,962
Coeficiente de curtosis Sesgo Estandarizado 2,62288
Curtosis -0,0572203
Curtosis Estandarizada -0,155831
Coeficiente de asimetría estandarizado (-2,2)

Coeficiente de curtosis estandarizado (-2,2)

Resumen Estadístico para PESO

Reservados todos los derechos.


El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de
la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal.

b) ¿Cómo interpretas los valores obtenidos?


Presenta asimetría a derechas al salirse del intervalo (-2,2)

14

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

3. Diagrama de box-whisker

El gráfico de box-whisker permite analizar de un modo sencillo la posición, dispersión, simetría y


presencia de datos anómalos en una distribución. La sencillez de su construcción e interpretación
facilita también la comparación de distintas distribuciones.

Para su construcción es necesario localizar los valores mínimo y máximo de los datos y calcular
los cuartiles. Se dibuja una “caja” que se extiende entre el primer y el tercer cuartil. Su amplitud
es por tanto igual al recorrido intercuartílico y entre sus límites se ubican un 50% de los datos (los

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
centrales). En el interior se traza una línea vertical que corresponde a la mediana (segundo cuartil)
y una cruz que indica la media.

Partiendo de cada lado de la caja se dibujan una líneas horizontales llamadas “bigotes” . El bigote
de la izquierda se extiende entre el valor mínimo y el primer cuartil1 y el bigote de la derecha entre
el tercer cuartil y el valor máximo.

Aquellos valores extremos que difieren del cuartil más próximo en más de 1,5 veces la anchura de
la caja o recorrido intercuartílico se representan como puntos aislados por considerar que se
corresponden con datos anómalos.

Reservados todos los derechos.


Para estudiar la simetría de la distribución se comparan la media y la mediana o los cuartiles

15

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Ejercicio 6: Diagrama de box-whisker

Se han medido las glucemias basales en mg/dl de un grupo de pacientes incluidos en un estudio
epidemiológico. Los datos se encuentran en la variable GLUCEMIA. Existen algunos valores
perdidos por pacientes no presentados, etc.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) Obtener y copiar el diagrama de box-whisker. Identifica utilizando el Localizador el valor

Reservados todos los derechos.


mínimo, el valor máximo, primer y tercer cuartil, media y mediana

Statgraphics: Para representar el gráfico box-whisker, seleccionar con el botón de opciones


gráficas del Statfolio la opción Gráfico de caja-bigotes. Recordar que utilizando el botón derecho
del ratón, en cualquier grafico podemos activar la función Localizar que nos ayudara a leer el valor
de la abscisa o de la ordenada en cualquier punto

Gráfico de Caja y Bigotes


MINIMO 45.1735
MAXIMO 225,11
PRIMER CUARTIL71.9243
TERCER CUARTIL 87.0662
MEDIA 82.5237
MEDIANA 77.9811

0 40 80 120 160 200 240


GLUCEMIA

16

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Resumen Estadístico para GLUCEMIA


Recuento 190

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Promedio 82,5474
Mediana 78,0
Desviación Estándar 23,0891
Coeficiente de Variación 27,9707%
Mínimo 45,0
Máximo 225,0
Rango 180,0
Cuartil Inferior 72,0
Cuartil Superior 87,0
Rango Intercuartílico 15,0
Sesgo Estandarizado 20,6717
Curtosis Estandarizada 51,411
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para GLUCEMIA. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de
forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para
determinar si la

Reservados todos los derechos.


muestra proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones
significativas de la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada no se encuentra dentro del rango esperado para datos provenientes de una distribución normal
valor mínimo valor máximo
Gráfico de Caja y Bigotes Gráfico de Caja y Bigotes

0 40 80 120 160 200 240


0 40 80 120 160 200 240 GLUCEMIA
GLUCEMIA

b) ¿Cuál es el rango y el recorrido intercuartílico?

RANGO 177,9365
RI 15,1419 Histograma

80

c) ¿Es simétrica la distribución? 60

Si que es simétrica, pero presenta muchos datos


frecuencia

40

anómalos que influyen en el valor de la media


Convedria estudiar los datos anómalos 20

0
0 40 80 120 160 200 240
GLUCEMIA
d) ¿Existe algún valor anómalo? ¿cuál?

SI 113,117,195…

17

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

4. Estudio por subgrupos

Es muy frecuente el estudio comparativo de una variable continua por subgrupos dentro de una
muestra. El Statgraphics nos permite realizar estos análisis. Adicionalmente el grafico de box-
whisker nos ayudará a visualizar estas comparaciones.

Ejercicio 7: Estudio de la distribución del peso por tramos de altura

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del PESO
asociadas a los distintos tramos de la variable altura (ALTINT). Comentar los resultados.

Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y seleccionar la


opción Análisis subgrupos. Seleccionar como Datos la variable de la que se quieren obtener los
estadísticos, y como Códigos la variable que indica la pertenencia al grupo. Con el icono amarillo
de subopciones seleccionar Resúmenes Estadísticos.
Datos peso
Código altint
Peso medio va subiendo conforma aumenta altura
La desviación típica oscila pero ni sube ni baja

Reservados todos los derechos.


Estadísticas de Resumen
Datos/Variable: PESO

Desviación Coeficiente Sesgo


ALTINT Recuento Promedio Estándar de Variación Mínimo Máximo Rango Estandarizado
125 1 76,0 76,0 76,0 0,0
150-160 7 57,2857 10,2423 17,8793% 50,0 80,0 30,0 2,59574
160-170 38 62,2632 10,2078 16,3946% 48,0 100,0 52,0 4,81551
170-180 78 69,3205 8,20436 11,8354% 50,0 95,0 45,0 2,57208
180-190 47 79,8085 8,72437 10,9316% 56,0 100,0 44,0 0,679707
190-200 6 92,1667 9,04249 9,81102% 84,0 106,0 22,0 0,803607
200-210 1 95,0 95,0 95,0 0,0
Total 178 71,0618 11,8728 16,7076% 48,0 106,0 58,0 2,62288

Curtosis
ALTINT Estandarizada
125
150-160 3,27275
160-170 6,22222
170-180 2,87437
180-190 0,726648
190-200 -0,564229
200-210
Total -0,155831

El StatAdvisor
Esta tabla presenta las estadísticas muestrales para los 7 niveles de ALTINT.

18

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

b) Confirmar los comentarios del apartado anterior realizando un gráfico de box-whisker


múltiple

Gráfica de Caja y Bigotes

125

150-160

160-170

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
ALTINT

170-180

180-190

190-200

200-210

48 58 68 78 88 98 108
PESO

un bigote debe ser siempre menor ½ la línea divisoria de la caja se desplaza a la derecha según
bajamos = media
respecto a la dispersion el recorrido intercuartílico es menor el primero pero el resto se
mantienen

Reservados todos los derechos.


respecto al rango existen datos anómalos

c) Utilizar el gráfico de box-whisker para analizar si existe alguna relación entre el TIEMPO que
tardan en llegar a la Universidad los estudiantes y el medio de transporte utilizado para llegar a
la universidad (TRANSPORTE). Comentar los resultados.

Gráfica de Caja y Bigotes


TRANSPORTE

ANDANDO

COCHE

COCHE COMPAÑERO

MOTO/BICI

TRANSPORTE PUBLICO

0 10 20 30 40 50 60
TIEMPO

Tardan mas aquellos que utilizan el transporte publico, pudiendo venir de sitios mas lejanos
Tardan menos aquellos que utilizan la bici o la moto pudiendo vivir mas cerca

El rango intercuartilico es muy amplio

No hay relación de orden al ser variables cualitativas


Comparas donde el valor medio es mayor (transporte publico)

19

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Ejercicio 8: Estudio de la distribución de la glucemia en función de la presencia o ausencia de


diabetes.

a) Algunos de los pacientes del estudio epidemiológico del ejercicio 6 están diagnosticados de
diabetes (DIABETES=1) mientras que la mayoría están sanos (DIABETES=0). Calcular el valor
medio y la desviación típica de las distribuciones condicionales de GLUCEMIA en función de que
el paciente sea o no diabético (DIABETES). Comentar los resultados.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y seleccionar la
opción Análisis subgrupos. Seleccionar como Datos la variable de la que se quieren obtener los
estadísticos, y como Códigos la variable que indica la pertenencia al grupo. Con el icono amarillo
de subopciones seleccionar Resúmenes Estadísticos.

Gráfica de Caja y Bigotes

Reservados todos los derechos.


DIABETES

0 40 80 120 160 200 240


GLUCEMIA

b) Utilizar el gráfico de box-whisker para describir las diferentes distribuciones de la variable


GLUCEMIA en pacientes diabéticos y no diabéticos.

Estadísticas de Resumen
Datos/Variable: GLUCEMIA

Desviación
DIABETES Recuento Promedio Estándar
0 184 79,7065 13,1976
1 6 169,667 66,1201
Total 190 82,5474 23,0891

El StatAdvisor
Esta tabla presenta las estadísticas muestrales para los 2 niveles de DIABETES.

Asimetría muy marcada cuando hay diabetes

20

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

6. Preparación de datos para su análisis

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El tiempo invertido en la preparación de los datos previa a su análisis es tiempo bien utilizado. Los
errores en los datos que no son detectados hasta que los análisis principales son realizados,
requieren que todo sea rehecho de nuevo.

Revisión previa a la introducción de datos

Los errores en los datos son frecuentes: pueden ser intercambiados, o mal tecleados.

El propósito del data checking es identificar y si es posible rectificar los errores.

Reservados todos los derechos.


 Si son grandes ficheros es mejor una doble entrada, en la cual los datos sean comparados
automáticamente con posterioridad. Para los ficheros pequeños es mejor “cantar los
resultados”.

 Si los datos son continuos, es conveniente establecer, mediante reglas de validación, un


intervalo en el cual los datos son razonables (range checking) y revisar los datos que están
fuera de este rango. Hay que establecer estas reglas antes de la introducción de datos.

Si nos llega un archivo con datos fuera de este rango y no es posible detectar el valor
original lo transformaremos en dato faltante. También se puede establecer dos intervalos,
uno que detecte datos sospechosos y otro que detecte datos imposibles. Un error muy
frecuente consiste en colocar inadecuadamente la coma decimal.

Si nos llega un archivo con datos fuera de este rango y no es posible detectar el valor
original lo transformaremos en dato faltante. También se puede establecer dos intervalos,
uno que detecte datos sospechosos y otro que detecte datos imposibles. Un error muy
frecuente consiste en colocar inadecuadamente la coma decimal.

 Si los datos son categóricos, estarán codificados y habrá un número límitado de valores
aceptables. Por ejemplo si estudiamos el tipo sanguíneo tendremos

1-Tipo A
2- Tipo B
3- Tipo 0
4-Tipo AB

 Respecto a las fechas, es mejor grabar la fecha de los eventos que el tiempo transcurrido
entre ellos. En las fechas debe revisarse: que sean razonables, que sean válidas, que estén
correctamente secuenciadas y que los tiempos calculados sean razonables.

21

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Por ejemplo grabar la fecha de nacimiento, fecha de la operación y si ocurre fecha de


la muerte es mejor que grabar la edad en el momento de la operación y la edad en el
momento del fallecimiento.

 También resulta útil establecer reglas lógicas (logical checks) que relacionen las variables.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Si estudiamos las variables sexo y número de embarazos resultaría absurdo si
encontráramos un hombre con embarazos previos;

Datos faltantes

La existencia de valores faltantes es muchas veces inevitable, especialmente cuando se realiza un


estudio multivariante (expediente de un paciente, encuestas,…)

Reservados todos los derechos.


Las consecuencias de su presencia dependerán de su distribución y de la cantidad de valores. Lo
más importante es su distribución:

 si es aleatoria no causara muchos daños,


 si tiene un patrón si puede ser muy dañino.

Es importante tratar de averiguar cuál es la causa de la presencia de determinados datos faltantes,


especialmente si se repiten con frecuencia.

peso en las mujeres,


declaraciones sobre renta en personas de renta alta

Si los datos faltantes son aleatorios, tendremos un problema menor con dos opciones:

 eliminar todos los casos con valores perdidos (que es lo que suelen hacer por defecto los
paquetes estadísticos aunque puede reducir considerablemente el tamaño muestral

 imputar un valor estimado. Si decidimos imputar un valor estimado, hay técnicas


específicas que permite estimar el valor de algunos datos faltantes. La más utilizada es
imputar la media. Es un procedimiento conservador en el cual la media no cambia pero la
varianza se reduce. Existen otras técnicas más elaboradas como la técnica del vecino más
próximo. Estas técnicas resultan muy útiles en estudios multivariantes para no reducir
considerablemente el tamaño muestral.

 No hay que caer nunca en la tentación de reemplazarlos por datos supuestos sin ninguna
garantía. Esta tentación es frecuente en estudios retrospectivos, cuando los datos son
obtenidos de expedientes de hospital.

22

La vida son experiencias, Cuenta Smart


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Para estudiar los posibles patrones debidos a la influencia de una segunda variable:

 se crea a partir de la primera variable una variable artificial en la cual se codifica como 1
(dato existente) y como 0 dato faltante

 se promedia el valor de la segunda variable cuando la variable codificada vale 1 y cuando


vale 0

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
 si la diferencia es significativa tendremos un patrón sistemático de los datos faltantes lo
cual puede tener consecuencias importantes.

Es frecuente también el encontrar fechas grabadas parcialmente. Si el día no está grabado,


podemos grabar supuestamente 15, pero eso nos puede llevar a problemas en el cálculo de fechas
derivada. Por ejemplo si el día de la operación era faltante y falleció el día 13, seria operado
después del fallecimiento.

Reservados todos los derechos.

23

Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
PRÁCTICA 2:

DISTRIBUCIONES DISCRETAS
Contenido:

Reservados todos los derechos.


1. Distribución uniforme discreta
2. Distribución Binomial.
3. Distribución Hipergeométrica
4. Distribución Binomial negativa.
5. Distribución de Poisson.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
2
Nieves MartÍnez-Alzamora

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Nieves MartÍnez-Alzamora

Una v.a. numérica puede ser discreta (si el conjunto de posibles valores es numerable), o continua
(si el conjunto de posibles valores es no numerable).

Para describir la distribución de probabilidad de una v.a., tendríamos que especificar cuál es la
probabilidad de que la v.a. tome valores en cualquier intervalo o reunión numerable de intervalos.
Evidentemente, esto no es factible y se han buscado funciones de variable real que sean sencillas
de manejar y permitan calcular la probabilidad de que una v.a. tome valores en cualquier intervalo
(función de distribución, función de probabilidad, función de densidad…).

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Se han definido modelos matemáticos, agrupados en familias e identificados por parámetros, entre
los cuales buscaremos el más adecuado para nuestra variable.

Observamos que Statgraphics nos permite trabajar con veinticuatro familias distintas de
distribuciones de probabilidad.

Reservados todos los derechos.


En esta clase práctica utilizaremos los modelos DISCRETOS: Distribución Uniforme discreta,
Binomial, Distribución Hipergeométrica y Distribución de Poisson.

En el caso de una v.a. discreta, X, las funciones que describen la distribución de probabilidad de
una v.a. discreta y permiten calcular la probabilidad de que la v.a. tome valores en cualquier
intervalo son:

 la función de probabilidad, p(x),que nos indica,

p x   P X  x 

 la función de distribución, F(x), que nos indica

F  x   P X  x 

Statgraphics: Al hacer clic sobre el botón de Tablas de la barra de herramientas del Statfolio,
aparece un cuadro que nos da las siguientes opciones:

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Resumen del Análisis, opción que el programa activa por defecto, muestra los valores elegidos
de los parámetros de la distribución.

Reservados todos los derechos.


Distribuciones Acumuladas, opción que nos proporciona las probabilidades de que la v.a. tome
valores estrictamente menores, iguales (únicamente en el caso de discretas) o estrictamente
mayores que un valor dado.

Distribuciones Acumuladas Inv., opción que nos permite obtener el valor xp de la variable X que
verifica que P X  x p   p y P X  x p   p (percentil de orden p)

Para obtener las gráficas de las funciones de Probabilidad y Distribución se pulsa el botón de
Opciones Gráficas de la barra de herramientas y se elige la opción correspondiente Función de
densidad/Masa o Distribuciones Acumuladas

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

1. Distribución uniforme discreta.

Un modelo uniforme discreto es adecuado para variables que indican un número seleccionado al
azar de entre n valores distintos equiprobables.
Describir>Ajuste distribuciones >Distribuciones de probabilidad

Ejercicio 1 : Funciones de probabilidad y distribución

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Si la v.a. X indica la puntuación obtenida al lanzar un dado,

a) Calcular las probabilidades:


Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
3 0,333333
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
3 0,166667
Área Cola Superior (>)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
3 0,5

Reservados todos los derechos.


 P(X=3) = 0.16

 P(X<3) = 0.33

 P(X≤3) = P(X<4)=0.5
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
4 0,5

 P(X>3) = 0.5

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

b) Obtener y copiar las funciones de probabilidad y de distribución de la variable que indica la

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
puntuación obtenida al lanzar un dado
PROBABILIDAD
Uniforme Discreta

0,18 Límite Inferior,Límite Superior


1,6
0,15

0,12
probabilidad

0,09

0,06

0,03

0
0 1 2 3 4 5 6
x

Reservados todos los derechos.


DISTRIBUCION (debeeria ser escalonada pero solo pone al primer punto de la línea )

Uniforme Discreta

1 Límite Inferior,Límite Superior


1,6
probabilidad acumulada

0,8

0,6

0,4

0,2

0
0 1 2 3 4 5 6
x

c) Leer con el localizador la probabilidad de que la puntuación obtenida sea menor o igual que 4
Fx(4)=P(X<=4)= 0.67

Uniforme Discreta

1 Límite Inferior,Límite Superior


1,6
probabilidad acumulada

0,8

0,6

0,4

0,2

0
0 1 2 3 4 5 6
x

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

d) Determinar una puntuación x tal que P(X<x) ≤0,5 y la P(X≤ x) ≥0,5 (mediana)
Percentiles = inversa función distribución
Distribuciones acumuladas inversas
Necesario para sacar mediana
FDA Inversa
Distribución: Uniforme Discreta

FDA Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5


0,01 1
0,1 1

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
0,5 3
0,9 6
0,99 6

El StatAdvisor
Esta ventana encuentra los valores críticos para la Distribución Uniforme Discreta. Pueden especificarse hasta 5 áreas de cola. El
valor
crítico se define como el mayor valor para la Uniforme Discreta tal que la probabilidad de no exceder ese valor no excede el área
especificada.
Por ejemplo, el resultado indica que, para la primera distribución especificada, 1,0 es el valor más grande tal que la probabilidad de
no exceder
1,0 es menor ó igual a 0,01.

Reservados todos los derechos.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Ejercicio 2: Simulaciones

En algunas ocasiones los modelos probabilísticos nos pueden ayudar a simular situaciones reales
y comprenderlas mejor. Vamos a utilizar la posibilidad que nos ofrece el Statgraphics de simular
valores con distribuciones concretas para intentar responder a una pregunta.

Un grupo de 100 alumnos es evaluado con 15 exámenes tipo test, personalizados, realizados
regularmente a lo largo del curso en Poliformat. Las preguntas de cada alumno se seleccionan al

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
azar a partir de una base de datos clasificada por temas, donde se ha intentado que las preguntas
tengan una dificultad similar, pero teniendo en cuenta que siempre habrá una pequeña oscilación

Tras realizar la primera prueba y comparar los exámenes con los de otros compañeros un alumno
piensa que él tiene peor nota porque el grado de dificultad de su primer examen era mayor y piensa
que en la evaluación final de la asignatura el factor suerte va a tener una influencia importante.

¿Nos puede ayudar la simulación a responder a esta pregunta?

a) Si puntuamos el grado de dificultad de cada examen como un numero entero que oscila

Reservados todos los derechos.


entre 1 y 10, teniendo en cuenta que las preguntas se seleccionan aleatoriamente, podemos
simular el grado de dificultad del primer examen realizado por los alumnos, generando 100
valores de una v,a, con distribución uniforme discreta entre 1 y 10. Guardar estos valores
en la variable B.DIFICULTAD1

Statgraphics: Entrar en Describir Ajuste Distribuciones Distribuciones de Probabilidad y


elegir la familia Uniforme Discreta. Elegir la opción Numeros aleatorios y utilizando el botón de
salvar, dentro de la barra del Statfolio, guardar los valores obtenidos en la variable
DIFICULTAD1

Resumen Estadístico para DIFICULTAD1


Recuento 100

Promedio 5,23

Desviación Estándar 2,8064

Coeficiente de Variación 53,6596%

Mínimo 1,0

Máximo 10,0

Rango 9,0

Sesgo Estandarizado 0,639257

Curtosis Estandarizada -2,28324

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Gráfico de Dispersión

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
0 2 4 6 8 10
DIFICULTAD1

b) Obtener un gráfico de Box-whisker de los valores obtenidos ¿Cuál es la media?¿Cual es el


rango?¿Puede el alumno pensar que la dificultad del primer examen ha influido en su nota?

Reservados todos los derechos.


Statgraphics: Entrar en Describir Datos numéricos Análisis de una variable

Gráfico de Caja y Bigotes

0 2 4 6 8 10
DIFICULTAD1

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

c) Abrir el archivo correspondiente a esta práctica, DATOSPRACT_GIB_P2. En él se han

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
simulado el grado de dificultad de los 100 alumnos en las 15 pruebas y se ha calculado el
nivel de dificultad promedio de los exámenes realizados por cada alumno. Los valores se
han archivado en la variable DIFICULTAD PROMEDIO. Obtener un gráfico Box-whisker
de los valores obtenidos, indicando que el eje X debe variar de 1 a 10 ¿Cuál es el valor
medio?¿Cuál es el rango? ¿Qué diferencias observas con el gráfico anterior?¿tiene sentido
que el alumno siga pensando que la suerte va a ser un factor muy importante en la nota
final?

Rango = 3.6
El rango es distinto y lo cambiamos para ser comparable con el gráfico anterior
No, puesto que ahora el rango es menor y muy pequeño

Reservados todos los derechos.


Resumen Estadístico para PROMEDIO DIFICULTAD
Recuento 100
Promedio 5,35533
Desviación Estándar 0,760061
Coeficiente de Variación 14,1926%
Mínimo 3,46667
Máximo 7,06667
Rango 3,6
Sesgo Estandarizado -0,873548
Curtosis Estandarizada -0,603094

Gráfico de Caja y Bigotes

0 1 2 3 4 5 6 7 8 9 10
PROMEDIO DIFICULTAD

10

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

d) Uno de los teoremas más importantes en Estadística que es el Teorema Central del Limite
establece que, si el tamaño muestral es suficientemente grande, la distribución de la media
muestral se aproxima a una distribución normal, sea cual sea la distribución de la población
de la cual se ha extraído la muestra. El valor esperado de la media muestral será la media
poblacional y la desviación típica se reducirá al aumentar el tamaño muestral. ¿Explica
este teorema lo que hemos observado en esta simulación?
Cuando repetimos aleatoriamente un experimento un suficiente número de veces la media de la

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
variable tenderá a una normal, los valores se agrupan en el centro y son más frecuentes
Si permite explicarlo

Reservados todos los derechos.

11

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

2. Distribución Binomial

Un modelo Binomial con parámetros n y p será adecuado para describir la distribución de una
variable que indique el número de veces que ha ocurrido un determinado EVENTO en n
REPETICIONES de una prueba binaria (ensayos), siendo p la probabilidad de que ocurra el evento
en cada repetición (Probabilidad del evento) y manteniéndose p CONSTANTE en las n repeticiones.
Describir>Ajuste distribuciones >Distribuciones de probabilidad

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ejercicio 3: Aplicación del modelo binomial

Se sabe que en una determinada población el 10% es daltónica. Si se extrae una muestra aleatoria
de 25 personas de esa población calcular la probabilidad de que
N = 25, P=0.01

a) En la muestra hayan 5 o menos daltónicos


X= nºpersonas daltónicas en la muestra de 25 personas -> Bi(n=25, p=0.10)
P(X<=5)= P(X<6)
Área Cola Inferior (<)

Reservados todos los derechos.


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
6 0,9666

b) Existan entre 6 y 9 daltónicos (ambos valores incluidos)


P(6<=X<=9)= P(X<=5)-P(X<6)= P(X<10)-P(X<6)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
6 0,9666
10 0,999921

c) Hayan dos, tres o cuatro daltónicos


Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
5 0,902007
2 0,271206

12

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Ejercicio 4: Aplicación del modelo binomial

Se sabe que en una ciudad, en una tarde dada, en el 85% de las familias, alguno de los miembros
está en casa. Un equipo de investigación sanitaria selecciona una muestra aleatoria de 12 familias
para realizar una encuesta vía telefónica. Calcular la probabilidad de que

a) El equipo encuentre a alguien en casa en 7 familias exactamente


X= nº familias encuestadas e las que había alguien en casa -> Bi (n=12,p=0,85)

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
P(X=7)
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
7 0,0192803

b) El equipo encuentre a alguien en casa en 5 familias o menos


P(X<=5)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
6 0,000672126

Reservados todos los derechos.


c) El equipo encuentre a alguien en casa en 8 o más familias
P(X>=8)= 1-P(X<8)= 1- 0.0239219
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
8 0,0239219

13

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Ejercicio 5: Aplicación del modelo binomial

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Un viajero de metro llega todas las mañanas a la misma hora a un andén. El 18% de las veces que
llega al andén, el tren se encuentra en él, mientras que el resto de las veces ha de esperar.
X= nº días que encuentra el tren estacionado en 7 dias consecutivos ->
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,249285 0,0509575 0,0280963
4 0,976873 0,721805 0,588751
5 0,997131 0,883306 0,788371

Probabilidad de Masa (=)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,383048 0,167787 0,111015
4 0,0202581 0,161501 0,199621
5 0,00266815 0,0779931 0,122694

Reservados todos los derechos.


Área Cola Superior (>)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,367666 0,781256 0,860889
4 0,00286922 0,116694 0,211629
5 0,00020107 0,0387006 0,0889352

El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Binomial. Calculará las áreas de colas para hasta 5 valores
críticos de la
distribución. También calculará la probabilidad de densidad ó la función de masa. Por ejemplo, el resultado indica que, para la
primera
distribución especificada, la probabilidad de obtener un valor menor que 1,0 es 0,249285. También, la probabilidad de obtener un
valor
mayor que 1,0 es 0,367666. La probabilidad de obtener un valor exactamente igual a 1,0 es 0,383048.

a) En siete días consecutivos, ¿Cuál es la probabilidad de que se encuentre el tren estacionado


uno sólo de esos días?
Bi (n=7,p=0,18)
P(X=1) = 0.383048

b) En quince días consecutivos, ¿Cuál es la probabilidad de que se encuentre el tren estacionado


tres días como máximo?
Bi (n=15,p=0,18)
P(X<=3)=P(X<4) = 0.721805

c) En dieciocho días consecutivos, ¿Cuál es la probabilidad de que se encuentre el tren


estacionado más de cinco días?
Bi (n=18,p=0,18)
P(X>5)= 0.889

14

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Ejercicio 6: Gráficas de la función de probabilidad y función de distribución binomial

a) Obtener y copiar las funciones de probabilidad de las distribuciones Bi(15, 0.2), Bi(15, 0.5) y
Bi(15, 0.9). ¿Son simétricas las gráficas de las funciones de probabilidad obtenidas?

Binomial

0,4 Prob. Evento,Ensayos


0,2,15
0,5,15

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
0,9,15
0,3
probabilidad

0,2

0,1

0
0 3 6 9 12 15
x

Bi(15, 0.5): simetrica


Bi(15, 0.2): asimétrica con cola a la derecha

Reservados todos los derechos.


Bi(15, 0.9): asimétrica con cola a la izquierda
Una distribución binomial será mas simétrica cuanto mas se acerque su valor de P al 50%

b) Obtener y copiar las funciones de distribución de las distribuciones señaladas. ¿Qué ocurre al
cambiar p? ¿Cómo lo interpretas?
La probabilidad del evento es bajita, la probabilidad de que haya eventos aumenta rápidamente.
La Fx sube rápidamente. Pero si la probabilidad del evento es alta, la probabilidad de que haya
muchos eventos no sube tan rápidamente..

Binomial

1 Prob. Evento,Ensayos
0,2,15
0,5,15
probabilidad acumulada

0,8 0,9,15

0,6

0,4

0,2

0
0 3 6 9 12 15
x

15

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

c) Obtener y copiar las funciones de probabilidad de las distribuciones Bi(9, 0.2), Bi(15, 0.2) y
Bi(50, 0.2). Observar la forma que toma la gráfica a medida que n aumenta su valor.
A medida que aumentas la probabilidad disminuye el numero de sucesos que ocurren

Binomial

0,4 Prob. Evento,Ensayos


0,2,9
0,2,15
0,2,50
0,3

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
probabilidad

0,2

0,1

0
0 10 20 30 40 50
x

P próximo al 0.5 y numero de pruebas muy alto (Binomial aproximo a normal)

Reservados todos los derechos.

16

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

3. Distribución Hipergeométrica.

Un modelo Hipergeométrico se utiliza, al igual que un modelo binomial, cuando la variable indica
el número de eventos obtenidos en n repeticiones de una prueba binaria. La diferencia estriba en
que en el modelo hipergeométrico las repeticiones no serán independientes o, dicho de otro modo,
la probabilidad del evento considerado no será constante en las n repeticiones de la prueba.

Se aplica especialmente cuando realizamos muestreos sin reposición en poblaciones pequeñas, o

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
cuando el tamaño muestral n supera el 10% del tamaño poblacional N. Si las extracciones son sin
reposición, al variar la composición de la población, la probabilidad del evento puede variar
significativamente de una extracción a otra. En este modelo, los parámetros serán el tamaño
poblacional N, el tamaño muestral n y la probabilidad en la primera extracción del evento
considerado.

Ejercicio 7: Aplicación distribución hipergeométrica.

Un cargamento de 20 monitores de registro para realizar holters será aceptado o rechazado en


base a una muestra de 5 unidades seleccionadas aleatoriamente del lote. El cargamento será

Reservados todos los derechos.


rechazado si en la muestra hay más de una unidad defectuosa.

¿Cuál es la probabilidad de que el cargamento sea aceptado si se sabe que hay 2 unidades en el
cargamento que no cumplen las especificaciones?
X= nº monitores defectuosos en los 5 examinados
N 20, n=5, D=2
X->H(p=2/20 , n=5 , N=5 )
P (aceptado)=P(X<=1)=P(X=2)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
2 0,947368

Ejercicio 8: Aplicación distribución hipergeométrica .

Una tienda de ordenadores personales tiene en stock 20 equipos listos para vender. El gerente está
convencido de que 3 de ellos son defectuosos, sin saber cuáles son. Al día siguiente se venden 4
equipos ¿cuál es la probabilidad de que se hayan vendido todos los defectuosos?
X= nº monitores defectuosos en los 5 examinados
N 20, n=4, D=3
X->H(p=3/20 , n=4 , N=20 )

P (vendido todos defectuosos)=P(X=3)


Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
3 0,00350877
4. Distribución Geométrica y Binomial negativa.

17

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Al igual que en el modelo binomial, se considera un experimento con dos posibles resultados del
cual se van repitiendo sucesivos ensayos. La diferencia estriba en que en el modelo binomial
negativo la v.a. indica el nº de ensayos en los que no ocurre el evento antes de observar la k-ésima
repetición del evento. Por tanto, a diferencia del modelo binomial, el conjunto de valores posibles
de la v.a. es ilimitado.

Statgraphics: Procedemos de forma análoga al caso anterior de la distribución binomial. En este


caso los parámetros solicitados por el programa es p (Probabilidad Evento), es decir, la
probabilidad de que ocurra un evento en un ensayo y k el número de ocurrencias del evento que
se deben presentar antes de finalizar las repeticiones. Recordar que el Statgraphics calcula la
probabilidad de que haya x ensayos en los que no ocurra el evento antes del evento k-ésimo.

Reservados todos los derechos.


Ejercicio 9 : Aplicación distribución geométrica
Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de
0.05, ¿cuál es la probabilidad de que el sexto de estos dispositivos de medición sometidos a prueba
sea el primero en mostrar una desviación excesiva?.
C1,C2,C3,C4,C5,D1
X= nºdispositivos correctos antes del primer defectuoso
X->G(p=0.05) X->BN(p=0.05, k=1)
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
5 0,038689

Ejercicio 10: Aplicación distribución binomial negativa


Se lanza al aire una moneda trucada 8 veces, de tal manera que la probabilidad de que aparezca
cara es de 2/3, mientras que la probabilidad de que aparezca cruz es de 1/3. Determine la
probabilidad de que en el último lanzamiento aparezca la primera cara.
+,+,+,+,+, C1,C2,C3
X= nº cruces antes de la primra cara
X->BN (p=2/3, k=3)
P(X=5)
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
5 0,024718

4. Distribución de Poisson.

18

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Una v.a. X sigue un modelo de Poisson de parámetro λ cuando representa el número de ocurrencias
independientes de un suceso que se observan en un período de tiempo, longitud, superficie o
volumen, siempre que estas ocurrencias se presenten con regularidad e independencia. El
parámetro λ representa el número medio de sucesos que ocurren en todo el periodo observado.

También será adecuado el modelo de Poisson, cuando nuestra v.a. se adecúa a un modelo binomial,

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
siendo n muy elevado y p muy pequeño.

Statgraphics: Desplegar el menú Describir y el submenú Distribuciones de Probabilidad. Utilizar


el botón derecho del ratón para trabajar con un valor medio (recordar que el valor medio en esta
distribución es igual a λ ) distinto del seleccionado por defecto (Opciones de Análisis).

Ejercicio 11: Aplicación distribución de Poisson.

En cierta población, cada año se diagnóstica un promedio de 13 nuevos casos de cáncer esofágico.

Reservados todos los derechos.


Si la incidencia anual de este tipo de cáncer sigue una distribución de Poisson, calcular la
probabilidad de que en un año determinado el número de nuevos casos diagnosticados de cáncer
sea:
X(t)= nº de cancer esofágicos en 1año
Alfa = promedio de casos de cancer en un año=13 casos/año
X()->Ps(lambda=alfa* 13)

a) Exactamente 10
P(X=10)
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
10 0,0858702

b) No más de 12
P(X<=12)= P(X<13)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
13 0,463105

c) Al menos 8
P(X>=8)
Área Cola Superior (>)

19

La vida son experiencias, Cuenta Smart


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5


7 0,945972

d) Entre 9 y 15 ambos inclusive


P(9<=X<=15)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
9 0,0997579
16 0,763607
0.76-0.099

e) Menos de 7
P(X<7)
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
7 0,0258869

Reservados todos los derechos.


f) ¿Podríamos aplicar el modelo de Poisson si supiéramos que la tasa de incidencia está
creciendo últimamente?
No, porque la probabilidad no permanece constante

Ejercicio 12: Aplicación distribución de Poisson.

20

Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

Una compañía de seguros con 10.000 asegurados, halla que el 0,005% de la población fallece cada
año de un cierto tipo de accidente.
N muy grande y p muy pequeño aproximamos

N>30, p<0.1
X->Ps(lambda=0.5)

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) calcular la probabilidad de que la compañía tenga que pagar a los beneficiarios de más de
3 de los asegurados contra tal accidente en un año determinado.

Área Cola Superior (>)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
3 0,00175154

b) ¿cuál es el número de accidentes al año por término medio?


1 cada dos años (“0.5”al año)

Reservados todos los derechos.


c)¿Se podría modelizar con otra distribución?

Si, con la binomial

Área Cola Superior (>)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
3 0,00175075

Ejercicio 13: Aplicación distribución de Poisson.

21

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves MartÍnez-Alzamora

El número de usuarios que acceden a un ordenador, que hace de servidor de una red, es, por

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
término medio, de 3000 cada hora. Suponiendo que los accesos se producen de forma independiente
y con media constante, se desea calcular la probabilidad de que en un minuto determinado accedan
a dicha red:
X(t)= nº usuarios que acceden en t minutos->Ps(λ)
Alfa= 3000usuarios/hora= 3000/60 usuarios x minuto = 50 usuarios /minuto
X(1)->Ps(lambda= 50)

Reservados todos los derechos.


a) Exactamente 40 usuarios.
X=40
Probabilidad de Masa (=)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
40 0,0214996

b) Entre 40 y 50 usuarios, ambos valores incluidos.


P(40<=X<=50)
c) Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
40 0,0645704
51 0,537517
0,53-0.06…

a) La red puede atender como máximo 100 accesos por minuto. ¿Cuál es la probabilidad de que
hayan más de 100 accesos en un minuto, y por tanto, se produzcan retrasos en el tráfico de la
red.
P(X>100)

Área Cola Superior (>)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
100 6,95231E-9

22

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
PRÁCTICA 3:

DISTRIBUCIONES CONTÍNUAS
Contenido:

Reservados todos los derechos.


1. Distribuciones continuas
2. Distribución normal
3. Modelo Exponencial
4. Modelo log-normal

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

1. Distribuciones continuas

Las v.a. pueden ser discretas o continuas. Las v.a. discretas vimos en la práctica 2, que eran el
resultado de un proceso de conteo (nº unidades correctas, nº unidades defectuosas, …). Las v.a.
continuas que trabajaremos en este tema son el resultado de un proceso de medición

 Pesos
 Longitudes
 tiempo antes de que se produzca una avería, …

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Al igual que en el caso discreto, existen diferentes funciones de variable real, que permiten describir
la distribución de una v.a. contínua. Tanto la función densidad como la función de distribución nos
permiten calcular la probabilidad de que una va.contínua tome valores en un intervalo.

Para hallar la probabilidad de que una v.a. se mueva en un intervalo, a partir de la función de
densidad, es necesario integrar una función, que en muchas ocasiones no es integrable
analíticamente, como en el modelo normal, lo cual obliga, si no se dispone del software adecuado,
a recurrir a una tabla que nos proporciona el valor de la función de distribución para un modelo
tipificado. Evidentemente, estos problemas desaparecen si trabajamos con un software estadístico
adecuado.

Reservados todos los derechos.


El statgraphics permite, en las v.a. discretas (como vimos en la practica 2 , calcular en cualquier
punto x:

P X  x  , P X  x  y P  X  x 

En este tipo de variables, vimos que podíamos calcular a partir de estos valores, la probabilidad
de que nuestra v.a. se moviera en cualquier intervalo, fuera este cerrado, abierto o semiabierto,

Pa  X  b   P X  b  PX  a   P X  a 
Pa  X  b   P X  b  P X  b  PX  a   P X  a 
Pa  X  b   PX  b  PX  a 
Pa  X  b   P X  b  P X  b  P X  a 

Evidentemente, la probabilidad de que una v.a. discreta tome valores en un intervalo puede variar
considerablemente, según que los límites estén o no estén incluidos en el intervalo.

No obstante, en una v.a. continua se verifica que la probabilidad en un punto es siempre nula ya
que,

PX  x   P X  x   P X  x   FX x  lim FX x   FX x   FX x   0


x x

Es por ello que la probabilidad de que una v.a. continua se mueva en un intervalo puede calcularse
siempre como,

P a  X  b   P a  X  b   P a  X  b   P a  X  b   P  X  b   P X  a 

sea el intervalo abierto, cerrado o semiabierto.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

En este tipo de variables el Statgraphics, proporciona únicamente P(X<x) y P(X>x) y en lugar de


P(X=x) proporciona el valor de la función de densidad, aunque este valor no resulta útil para hallar
la probabilidad de que la v.a. se mueva en un intervalo.

Los modelos continuos, al igual que los modelos discretos, se agrupan en familias, y se identifican
por parámetros. La identificación de las familias, en el caso de variables continuas no vendrá
determinada exclusivamente por la definición de las v.a., y en muchos casos, si buscamos el modelo
que mejor se ajuste a unos datos, resultarán útiles herramientas como el histograma o los papeles
probabilísticos.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Respecto a la determinación de los parámetros, en el caso de que dispongamos de una muestra
aleatoria, podremos obtener estimaciones aproximadas a partir de los papeles probabilísticos, o
bien recurrir a herramientas de inferencia, como la estimación máximo-verosímil, que nos permitan
una estimación más precisa.

Statgraphics: Statgraphics permite trabajar sobre 39 familias de modelos continuos. En esta clase
práctica trabajaremos sobre modelos normales y exponenciales.

a) Si el modelo probabilistico que sigue la v.a. ya se conoce, entraremos por

Reservados todos los derechos.


Describir  Ajuste Distribuciones  Distribuciones Probabilidad

y podremos obtener, según ese modelo, la probabilidad de que nuestra variable tome valores en un
intervalo, percentiles y representaciones gráficas de la función de densidad y la función de
distribución

b) Si desconocemos la distribución de la v.a. en la población y únicamente disponemos de sus


valores en una muestra extraída de la población entraremos por

Describir  Ajuste Distribuciones Gráficos de Probabilidad

y los papeles probabilístico pueden ayudarnos a seleccionar familias con modelos adecuados para
describir la distribución de la v.a..

c) Una vez seleccionada la familia o familias más adecuadas, si entramos por

Describir  Ajuste Distribuciones  Ajuste de datos no censurados

y le indicamos la familia o familias seleccionadas, nos proporciona una estimación óptima de los
parámetros para cada familia, mediante técnicas de inferencia estadística y nos permite valorar
gráficamente la adecuación del modelo a los datos muestrales mediante un histograma y un gráfico
cuantil-cuantil. También nos ofrece, mediante técnicas de inferencia, contrastes que miden la
bondad del ajuste y nos ayudan a tomar una decisión definitiva. Una vez seleccionado de forma
definitiva el modelo que mejor se ajusta a nuestros datos, el statfolio nos permite calcular la
probabilidad, según el modelo, de que nuestra variable se mueva en un intervalo y determinar
percentiles

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Ejercicio 1:

Si una v.a. sigue una distribución normal de media 15 y desviación típica 5, contesta a las siguientes
preguntas

Distribución Acumulada
Distribución: Normal

Área Cola Inferior (<)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
15 0,5
25 0,97725
60 1,0

Probabilidad de Densidad
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5

Reservados todos los derechos.


15 0,0797885
25 0,0107982
60 2,05595E-19

Área Cola Superior (>)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
15 0,5
25 0,02275
60 0,0

El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Normal. Calculará las áreas de colas para hasta 5 valores críticos
de la
distribución. También calculará la probabilidad de densidad ó la función de masa. Por ejemplo, el resultado indica que, para la
primera
distribución especificada, la probabilidad de obtener un valor menor que 15,0 es 0,5. También, la probabilidad de obtener un valor
mayor que
15,0 es 0,5. La altura de la función de densidad de probabilidad en 15,0 es 0,0797885.

N (15,5)

a) ¿Cuál es la P(15<X< 25)


Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
25 0,97725
15 0,5

P(15<X<25) = 0.97725-0.5 = 0.47725

b) ¿Cuál es el valor de la función de densidad para x = 15?


Probabilidad de Densidad
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
15 0,0797885

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

c) ¿Cuál es la P (X>25)?
Área Cola Superior (>)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
25 0,02275

d) ¿Cuál es la P(X<60)?

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
60 1,0

Reservados todos los derechos.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
6

si lees esto me debes un besito


Nieves Martínez-Alzamora

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Nieves Martínez-Alzamora

2. Distribución normal

Muchos tipos de análisis estadístico de datos continuos se basan en la hipótesis de que los datos
son una muestra de una población normal.

Existen métodos alternativos que se pueden utilizar cuando los datos no verifican esta hipótesis,
pero presentan desventajas. Es importante, por lo tanto, antes de comenzar, verificar si es admisible
que nuestros datos proceden de una población normal.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Para evaluar la normalidad podemos basarnos en el histograma muestral, pero será difícil de
evaluar en muestras pequeñas ya que su forma va a depender mucho de los intervalos que
seleccionemos.

Como alternativa tenemos los papeles probabilísticos que nos ayudan a identificar el modelo más
adecuado para describir la distribución de una v.a continua. Estos papeles se basan en intentar
identificar en las distintas familias de distribuciones continuas una relación lineal entre una
transformación de X y una transformación de la función de distribución.

En el caso de la distribución normal, si una variable sigue una distribución normal debe verificarse
que

Reservados todos los derechos.


 x  x
F  x       F  x  
1

   

En base a esta relación, en el papel probabilístico normal representamos en abscisas los valores
de los datos muestrales y en ordenadas el percentil normal correspondiente a las frecuencias
relativas muestrales de los datos. Si los datos proceden de una población normal estos puntos
deberán estar alineados.

Para facilitar la labor, se utiliza en el eje de ordenadas una escala especial de tal modo que cuando
representamos la frecuencia relativa acumulada, realmente estaremos representando el percentil
de una v.a. Z correspondiente a esa frecuencia relativa.

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

En el caso de que los puntos no estén alineados podemos encontrarnos los siguientes casos:

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Reservados todos los derechos.
Aunque el papel probabilístico es una herramienta muy útil para juzgar la normalidad, debido a la
variabilidad muestral, sabemos que muestras procedentes de una población normal pueden no ser
exactamente normales, por ello es útil también tener otros métodos alternativos para valorar y
cuantificar la desviación de la normalidad. Podemos considerar como apoyo las representaciones
de Box-Whisker y los valores de los coeficientes de asimetría y curtosis estandarizados.
Una vez seleccionadas aquellas familias que pueden contener modelos adecuados para describir
la distribución de la v.a. hay métodos gráficos que permiten estimar aproximadamente sobre el
mismo papel probabilístico los parámetros del modelo. Estos métodos son útiles debido a su
sencillez.

En concreto, en una distribución normal se obtendrá una primera estimación de los dos parámetros
del modelo (media y desviación típica), teniendo en cuenta que el percentil 84 coincide con la suma
de ambos y el percentil 50 coincide con la media. No obstante, no hay que olvidar que los resultados
obtenidos por métodos gráficos son siempre aproximados. Hay métodos matemáticos mucho más
precisos (método de los momentos, el método de máxima verosimilitud, etc.) que nos permitirán,
partiendo en ocasiones de estimaciones iniciales, identificar con mayor precisión, el modelo que
mejor se ajusta a los datos dentro de familia elegida.

Si se ha decidido que los datos pueden provenir de una normal y se han obtenido estimaciones de
los parámetros, las pruebas Q-Q y los test de bondad de ajuste permiten valorar la adecuación de
los datos al modelo. P valor <0,05 rechazo el modelo y busco otro

En concreto los test de normalidad permiten estimar cual sería la probabilidad de obtener dicha
muestra en un muestreo si la población de partida fuera una población normal con dichos
parámetros. Si esta probabilidad fuera suficientemente pequeña (<0.05) rechazaríamos el modelo
normal. No obstante, el tamaño muestral influye en la potencias de estos test y en muestras grandes,
son capaces de detectar pequeñas desviaciones de la normalidad que en muestras pequeñas no
hubieran sido detectadas. También hay que tener en cuenta que la presencia de outliers, o
desviaciones en las colas de la distribución, también pueden ser muy influyentes en su resultado.

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Ejercicio 2: CASO IDEAL

a) Abrir el archivo de datos de la practica 3, representar el histograma y el gráfico de Box-whisker


y obtener los coeficientes de asimetría y curtosis para la variable PESO de los alumnos
varones¿Podríamos aceptar el modelo normal?

Statgraphics: Desplegar el menu Describir, el submenu Datos numéricos y elegir la opción


Análisis de una variable. SEXONUM=1

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
El modelo normal podría servir al estar los coeficientes de asimetría y curtosis en el intervalo [-
2,2]

Resumen Estadístico para PESO


Recuento 89
Sesgo 0,255692
Sesgo Estandarizado 0,984775
Curtosis Estandarizada -0,446615

El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de

Reservados todos los derechos.


la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
del sesgo
estandarizado se encuentra dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis
estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.

b) Obtener una representación en papel probabilístico normal de los datos de la variable PESO de
los alumnos ¿Se distribuye el peso de los chicos de forma aproximadamente normal?

Statgraphics: Desplegar el menu Describir, el submenu Ajuste de distribuciones y elegir la


opción Gráficos de Probabilidad.

No se ajusta adecuadamente a la funcion de probabilidad unifrome, sin embargo a la funcion


normal si

Gráfica de Probabilidad Uniforme

100 Gráfica de Probabilidad Normal

80 99,9
porcentaje acumulado

99
60
porcentaje acumulado

95

40 80

50
20
20

0 5
56 66 76 86 96 1
PESO
0,1
56 66 76 86 96
PESO

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

c) Seleccionar sobre papel probabilístico, con métodos gráficos, el modelo normal que mejor se
ajusta a la variable PESO de los alumnos ¿Cuáles son los valores aproximados de los parámetros
que identifican el modelo?

Statgraphics: Utilizar la opción Locate

X0.5= µ=71.5kg
X0.84= µ+Ơ =79.6kg

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Sigma = 79.6-71.5= 8.1
Peso N(71,5 8.1)

d) Determinar con más precisión, utilizando métodos matemáticos los parámetros del modelo
normal que mejor se ajusta a la variable PESO de los alumnos

Statgraphics: Desplegar el menu Describir, el submenu Ajuste de distribuciones y elegir la


opción Ajuste de datos no censurados.
Distribuciones Ajustadas
Normal
media = 71,3596

Reservados todos los derechos.


desviación estándar = 8,05838

e) Representar el histograma, la función de densidad, el gráfico cuantil-cuantil y obtener el test de


normalidad ¿se ajusta el modelo a los datos?

Gráfica Cuantil-Cuantil
Histograma para PESO

91 Distribución
12 Distribución
Normal
Normal
10
81
8
frecuencia

PESO

71
6

4
61
2

51
0
51 61 71 81 91
54 64 74 84 94
Distribución Normal
PESO

ajuste muy bueno

Valor-P 0,942461
p-valor no< 0.5 no tengo motivos evidentes para rechazar el modelo normal

Chi-Cuadrada = 19,2809 con 20 g.l. Valor-P = 0,50364 Tampoco es inferior a 0.5

10

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

f) Una vez elegido el modelo que mejor se ajusta a la distribución del peso de los alumnos, calcular
la probabilidad de que un alumno elegido al azar tenga un peso:

 Entre 60 y 80 kg P(X<80)- P(X<60)= 0.85-0.08


 Mayor de 100 kg 0.000189
 Menor de 60 kg 0,0793202

Areas de cola

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Áreas de Cola para PESO
Distribución Normal
X Área Cola Inferior (<) Área Cola Superior (>)
60,0 0,0793202 0,92068
80,0 0,858193 0,141807
100,0 0,99981 0,000189662

El StatAdvisor
En esta ventana se calculan las áreas de colas para la distribución normal ajustada. Calculará áreas de colas hasta para 5 valores críticos, los
cuales pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica que la
probabilidad de obtener un valor menor o igual a 60,0 es 0,0793202 para la distribución normal ajustada.

Ejercicio 3

El tiempo medio de CPU necesario para la ejecución de una clase de programas en un ordenador

Reservados todos los derechos.


central es 2,52 minutos y la desviación típica es 0,37 minutos. Si el tiempo de ejecución se distribuye
normalmente, ¿cuál es la probabilidad de que un programa seleccionado aleatoriamente requiera
entre 2 y 4 minutos de CPU? ¿Cuál es la probabilidad de que la diferencia en valor absoluto entre
el tiempo de ejecución y la media sea menor o igual que 1 minuto? P(-1<x<1)

Distribución Acumulada
Distribución: Normal

Área Cola Inferior (<)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,0000199566
2 0,0799501
4 0,999968

Probabilidad de Densidad
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,000233352
2 0,401612
4 0,000361703

Área Cola Superior (>)


Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
1 0,99998
2 0,92005
4 0,000031686

El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Normal. Calculará las áreas de colas para hasta 5 valores críticos
de la
distribución. También calculará la probabilidad de densidad ó la función de masa. Por ejemplo, el resultado indica que, para la
primera
distribución especificada, la probabilidad de obtener un valor menor que 1,0 es 0,0000199566. También, la probabilidad de
obtener un valor
mayor que 1,0 es 0,99998. La altura de la función de densidad de probabilidad en 1,0 es 0,000233352.

11

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Ejercicio 4: ESTUDIO CALIDAD DE LA SIMULACION CASO EN EL QUE PUEDE NO

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
AJUSTAR

Simular 100 valores de una variable aleatoria normal de media 10 y desviación típica 5.
Guardar los datos obtenidos en la variable NORMAL1
Distribución> Ajuste de distribuciones >distribución de probabilidad> números aleatorios
Guardar

Histograma

18

15

Reservados todos los derechos.


12
frecuencia

0
-3 2 7 12 17 22 27
RAND1

a) Representar los datos en papel probabilístico normal. Obtener a partir del gráfico una
estimación aproximada del valor medio y de la desviación típica

Describir< ajuste de distribuciones > gráficos de probabilidad

si que se ajusta correctamente


Gráfica de Probabilidad Normal

99,9

99
porcentaje acumulado

95

80

50

20

5
1

0,1
-2 3 8 13 18 23
RAND1

X0.5 =
X0.84=

12

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

b) ¿Podemos considerar que los datos han sido generados correctamente? Realizar un test de
bondad de ajuste.
Pruebas de Bondad-de-Ajuste para RAND1
Prueba de Kolmogorov-Smirnov
Normal
DMAS 0,0763584
DMENOS 0,0518882
DN 0,0763584
Valor-P 0,604353

El StatAdvisor

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Esta ventana muestra los resultados de diversas pruebas realizadas para determinar si RAND1 puede modelarse
adecuadamente con una
distribución normal.

Debido a que el valor-P más pequeño de las pruebas realizadas es mayor ó igual a 0,05, no se puede rechazar la idea de que
RAND1 proviene
de una distribución normal con 95% de confianza.

Valor p>0.5 se podría aceptar el modelo


Chi-Cuadrada = 25,28 con 21 g.l. Valor-P = 0,235241

Reservados todos los derechos.


c) Una vez determinado el modelo, calcular en base al modelo seleccionado la probabilidad
de que la v.a. tome un valor superior a 15
Áreas de Cola para RAND1
Distribución Normal
X Área Cola Inferior (<) Área Cola Superior (>)
15,0 0,848606 0,151394

El StatAdvisor
En esta ventana se calculan las áreas de colas para la distribución normal ajustada. Calculará áreas de colas hasta para 5
valores críticos, los
cuales pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la
salida indica que la
probabilidad de obtener un valor menor o igual a 15,0 es 0,848606 para la distribución normal ajustada.

13

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

3. Modelo Exponencial

El modelo normal no suele ser útil para describir el tiempo de vida porque la función de densidad
de T suele ser asimétrica positiva y T toma exclusivamente valores no negativos.

La distribución exponencial se utiliza frecuentemente como modelo cuando la variable en estudio


es el tiempo transcurrido antes de que se presente un suceso, siempre que la tasa de ocurrencia por
unidad de tiempo, α, sea constante en todo el período de observación.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Modeliza el tiempo entre eventos de Poisson consecutivos

En el modelo exponencial se verifica que

1  1 
Rt   e t   e t  ln    t
Rt   Rt  

En base a esta relación, en el papel probabilístico exponencial representamos en abscisas los


valores de los datos muestrales y en ordenadas el logaritmo neperiano de 1/(1-F(t)), siendo F(t) las

Reservados todos los derechos.


frecuencias relativas muestrales las frecuencias relativas muestrales de los datos. Si los datos
proceden de una población exponencial estos puntos deberán estar alineados.

Para facilitar la labor, se utiliza en el eje de ordenadas una escala logaritmica de tal modo que
cuando representamos la frecuencia relativa acumulada, realmente estaremos representando su
logaritmo de 1/R(t)
.
En el papel probabilístico exponencial se obtendrá una primera estimación del parámetro lambda,
teniendo en cuenta que el percentil 63 coincidirá con la media

14

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

Ejercicio 5: Modelizando el tiempo de vida

a) Representar el histograma y el gráfico de Box-whisker y obtener los coeficientes de asimetría y


curtosis para la variable TIEMPO que indica el tiempo que tardan los alumnos en llegar a la
Universidad. ¿Podríamos aceptar el modelo normal?

Statgraphics: Desplegar el menu Describir, el submenu Datos numéricos y elegir la opción


Análisis de una variable.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Los coeficientes se salen del intervalo (-2,2) no podemos aceptar modelo normal
Resumen Estadístico para TIEMPO
Recuento 131
Promedio 26,1221
Desviación Estándar 16,6743
Coeficiente de Variación 63,8319%
Mínimo 4,0
Máximo 90,0
Rango 86,0
Sesgo Estandarizado 5,90912
Curtosis Estandarizada 3,31496

El StatAdvisor
Esta tabla muestra los estadísticos de resumen para TIEMPO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de

Reservados todos los derechos.


forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para
determinar si la
muestra proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones
significativas de la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada no se encuentra dentro del rango esperado para datos provenientes de una distribución normal.

Gráfica de Probabilidad Normal Histograma

99,9 30

99
25
porcentaje acumulado

95
20
80
frecuencia

50 15

20
10
5
5
1

0,1 0
0 20 40 60 80 100 -10 10 30 50 70 90 110
TIEMPO TIEMPO

15

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
b) Obtener, a partir de los datos de la encuesta, una representación en papel probabilístico normal
y exponencial de los datos de la variable TIEMPO, ¿Se distribuye esta variable de forma
aproximadamente normal? En caso de ser asimétrica, ¿la asimetría es positiva o negativa? ¿Es
posible admitir el modelo exponencial?
No se distribuye normalmente
Asimetría positiva
Podríamos admitir modelo exponencial

Reservados todos los derechos.


Statgraphics: Desplegar el menu Describir, el submenu Ajuste de distribuciones y elegir la
opción Gráficos de Probabilidad. Seleccionar los modelos normal y exponencial

Gráfica de Probabilidad Exponencial

99,9
porcentaje acumulado

99,5
99

95
90
80
70
50
0,1
0 30 60 90 120 150
TIEMPO

c) Seleccionar sobre papel probabilístico, con métodos gráficos, el modelo exponencial que mejor
se ajusta a la variable TIEMPO ¿Cuál es el valor aproximado del parámetro que identifica el
modelo?

Statgraphics: Utilizar la opción Locate

E(T)=1/lambda = 26.6

16

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

d) Determinar con más precisión, utilizando métodos matemáticos el parámetro del modelo
exponencial que mejor se ajusta a la variable TIEMPO

Statgraphics: Desplegar el menu Describir, el submenu Ajuste de distribuciones y elegir la


opción Ajuste de datos no censurados.

Ajuste de Distribuciones (Ajuste de Datos No Censurados) - TIEMPO


Datos/Variable: TIEMPO

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Distribuciones Ajustadas
Exponencial
media = 26,1221

El StatAdvisor
Este análisis muestra los resultados de ajustar una distribución exponencial a los datos de TIEMPO. Los parámetros estimados
para la
distribución ajustada se muestran arriba. Se puede evaluar si la distribución exponencial ajusta los datos adecuadamente,
seleccionando
Pruebas de Bondad de Ajuste de la lista de Opciones Tabulares. También puede evaluarse visualmente que tan bien la distribución
exponencial se ajusta, seleccionando Histogramas de Frecuencia de la lista de Opciones Gráficas. Otras opciones dentro el
procedimiento
permiten calcular y desplegar áreas de colas y valores críticos para la distribución. Para seleccionar una distribución diferente,
presione el
botón secundario del ratón y seleccione Opciones de Análisis.

Reservados todos los derechos.


d) Representar el histograma, la función de densidad, el gráfico cuantil-cuantil y el test de
bondad de ajuste ¿se ajusta el modelo a los datos?

Histograma para TIEMPO Gráfica Cuantil-Cuantil

30 Distribución 150 Distribución


Exponencial Exponencial
25
120

20
frecuencia

90
TIEMPO

15
60
10

5 30

0 0
0 20 40 60 80 100 0 30 60 90 120 150
TIEMPO Distribución Exponencial

Pruebas de Bondad-de-Ajuste para TIEMPO


Prueba de Kolmogorov-Smirnov
Exponencial
DMAS 0,0717172
DMENOS 0,24936
DN 0,24936
Valor-P 1,68197E-7

Valor p<<0.5 se rechaza modelo

17

La vida son experiencias, Cuenta Smart


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

4. Modelo Log-normal

En la modelización del tiempo de vida, T, no siempre es posible admitir que la tasa de fallo
permanece constante en el periodo de estudio.

Aunque el modelo normal no suele ser útil para describir el tiempo de vida porque la función de
densidad de T suele ser asimétrica positiva y T toma exclusivamente valores no negativos, podemos
encontrar una transformación de los datos cuya distribución sea más próxima a la distribución

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
normal.

La transformación utilizada con más frecuencia es la transformación logarítmica. Adicionalmente,


este tipo de transformaciones, también reduce con frecuencia la influencia de outliers.

De hecho, el logaritmo de T, si se ajusta con frecuencia a un modelo normal. Cuando el logaritmo


de una variable T sigue un modelo normal, se dice que la variable T sigue un modelo log-normal.

Los parámetros son el valor medio y la desviación típica de logT (µ y ) .

A partir del valor medio y la desviación típica de logT es posible obtener el valor medio del tiempo

Reservados todos los derechos.


de vida,

2

E (T )  e 2

18

Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
19

si lees esto me debes un besito


Nieves Martínez-Alzamora

Reservados todos los derechos.


No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Nieves Martínez-Alzamora

Ejercicio 6.- Distribución log-normal

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
a) Representar el histograma y el gráfico de Box-whisker y obtener los coeficientes de asimetría y
curtosis para la variable LOG(TIEMPO) ¿Podríamos aceptar el modelo normal? ¿Qué ocurre con
los outliers?

Statgraphics: Desplegar el menu Describir, el submenu Datos numéricos y elegir la opción


Análisis de una variable.

Resumen Estadístico para log(TIEMPO)


Recuento 131
Sesgo Estandarizado -0,358683
Curtosis Estandarizada -0,788588

El StatAdvisor

Reservados todos los derechos.


Esta tabla muestra los estadísticos de resumen para log(TIEMPO). Incluye medidas de tendencia central, medidas de variabilidad y
medidas
de forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para
determinar si la
muestra proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones
significativas de la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
del sesgo
estandarizado se encuentra dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis
estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.

b) Obtener, una representación en papel probabilístico normal de los datos de la variable


LOG(TIEMPO)¿Es posible admitir el modelo normal?

Statgraphics: Desplegar el menu Describir, el submenu Ajuste de distribuciones y elegir la


opción Gráficos de Probabilidad.

Gráfica de Probabilidad Normal

99,9

99
porcentaje acumulado

95

80

50

20

5
1

0,1
1,3 2,3 3,3 4,3 5,3
log(TIEMPO)

si se adecua a un modelo normal

20

a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

c) Seleccionar por métodos matemáticos los parámetros del modelo normal, el modelo lognormal
y el modelo exponencial que mejor describan la distribución de la variable TIEMPO.

Ajuste de Distribuciones (Ajuste de Datos No Censurados) - TIEMPO


Datos/Variable: TIEMPO

131 valores con rango desde 4,0 a 90,0

Distribuciones Ajustadas
Exponencial Lognormal Normal

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
media = 26,1221 media = 26,3124 media = 26,1221
desviación estándar = 18,3673 desviación estándar = 16,6743
Escala log: media = 3,07157
Escala log: desv. est. = 0,630033

El StatAdvisor
Este análisis muestra los resultados de ajustar 3 distribuciones a los datos en TIEMPO. Los parámetros estimados de las
distribuciones
ajustadas se muestran arriba. Se puede probar si las distribuciones ajustan adecuadamente a los datos, seleccionando Pruebas de
Bondad de
Ajuste de la lista de Opciones Tabulares. También puede evaluarse visualmente que tan bien se ajustan las distribuciones
seleccionando
Histograma de Frecuencias de la lista de Opciones Gráficas. Otras opciones dentro el procedimiento permiten calcular y desplegar
áreas de
colas y valores críticos para la distribución. Para seleccionar una distribución diferente, presione el botón secundario del ratón y

Reservados todos los derechos.


seleccione
Opciones de Análisis.

e) Usar el histograma y el grafico Cuantil-Cuantil y un test de bondad de ajuste para elegir


uno de los tres modelos
LOG NORMAL

Histograma para TIEMPO

30 Distribución
Exponencial
Lognormal
25
Normal

20
frecuencia

15

10

0
0 20 40 60 80 100
TIEMPO

21

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

cuantil cuantil el log normal

Gráfica Cuantil-Cuantil

120 Distribución
Exponencial (2 Parámetros)
Lognormal
100
Normal

80
TIEMPO

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
60

40

20

0
0 20 40 60 80 100 120
Distribución Lognormal

NO RECHAZAMOS MODELO LOGNORMAL

Pruebas de Bondad-de-Ajuste para TIEMPO


Prueba de Kolmogorov-Smirnov
Exponencial (2 Parámetros) Lognormal Normal

Reservados todos los derechos.


DMAS 0,05682 0,10734 0,192871
DMENOS 0,193319 0,0835002 0,0980971
DN 0,193319 0,10734 0,192871
Valor-P 0,000111842 0,0977348 0,000117038

El StatAdvisor
Esta ventana muestra los resultados de las pruebas realizadas para determinar si TIEMPO puede ser modelada adecuadamente por
varias
distribuciones.

Valores-P menores que 0,05 indicarían que TIEMPO no proviene de la distribución seleccionada con 95% de confianza.

Pruebas de Bondad-de-Ajuste para TIEMPO


Prueba Chi-Cuadrada
Exponencial (2 Parámetros) Lognormal Normal
Chi-Cuadrada 208,458 217,939 230,305
G.l. 24 24 24
Valor-P 0,0 0,0 0,0

e) En base a los resultados obtenidos, según el modelo seleccionado ¿Cuál es la probabilidad de


que el tiempo que tarda un alumno en llegar sea menor o igual a 10m? ¿Y de que supere los 30 m?
¿Y de que esté entre 10 y 30 m?

Áreas de Cola para TIEMPO


Área Cola Inferior (<=)
X Exponencial (2 Parámetros) Lognormal Normal
10,0 0,237552 0,111129 0,166799
30,0 0,691272 0,699581 0,591953

Área Cola Superior (>)


X Exponencial (2 Parámetros) Lognormal Normal
10,0 0,762448 0,888871 0,833201
30,0 0,308728 0,300419 0,408047

22

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
Nieves Martínez-Alzamora

El StatAdvisor
Esta ventana calcula las áreas de cola para las distribuciones ajustadas. Calculará áreas de colas hasta para 5 valores críticos, los
cuales
pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica
que la
probabilidad de obtener un valor menor o igual a 10,0 es 0,237552 para la distribución exponencial de 2 parámetros ajustada.

f) Obtener los tres cuartiles de los modelos considerados y compararlos con los cuartiles muestrales

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Áreas de Cola para TIEMPO
Área Cola Inferior (<=)
X Exponencial (2 Parámetros) Lognormal Normal
0,25 0,0 7,49012E-13 0,0603763
0,5 0,0 1,15149E-9 0,062192
0,75 0,0 4,87087E-8 0,0640501

Área Cola Superior (>)


X Exponencial (2 Parámetros) Lognormal Normal
0,25 1,0 1,0 0,939624
0,5 1,0 1,0 0,937808
0,75 1,0 1,0 0,93595

El StatAdvisor
Esta ventana calcula las áreas de cola para las distribuciones ajustadas. Calculará áreas de colas hasta para 5 valores críticos, los

Reservados todos los derechos.


cuales
pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica
que la
probabilidad de obtener un valor menor o igual a 0,25 es 0,0 para la distribución exponencial de 2 parámetros ajustad

23

si lees esto me debes un besito


a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966

También podría gustarte