Wuolah Free PracticasParcial1

PracticasParcial1.
pdf
ingbiomed1
Estadística
2º Grado en Ingeniería Biomédica
Escuela Técnica Superior de Ingeniería Industrial

Universidad Politécnica de Valencia
Reservados todos los derechos.

No se permite la explotación económica ni la transformación de esta obra. Queda permitida la impresión en su totalidad.
Nieves Martínez-Alzamora
PRÁCTICA 1:

ESTADISTICA DESCRIPTIVA
Contenido:
1. Recogida de datos. Tipos de datos

2. Tablas de frecuencias
3. Medidas que caracterizan una distribución de frecuencias.
4. Diagramas de box-whisker
5. Estudios por subgrupos
6. Preparación de datos para su análisis
a64b0469ff35958ef4ab887a898bd50bdfbbe91a-6299966
1. Recogida de datos. Tipos de datos
En esta práctica analizaremos las respuestas de alumnos de la UPV a la siguiente encuesta.
1. SEXO (1-Varón 2-Mujer)……………………………………………..………………………………. -----
2. EDAD (en años)………………………………………………………..…………………….………… -----
3. MES DE NACIMIENTO (1 A 12)……………………………..…………………………………..…… -----
4. ESTATURA (en centímetros) ………………………………………………………………………..… -----
5. PESO (en kgs)…………………………………………….……………………………………………. -----
6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE………………………………………..------

1- Derechas 4- Nacionalista
2- Centro 5- Ecologista
3- Izquierdas 6- Pasas del tema
7. ESCRIBE UN DIGITO AL AZAR DE 0 A 9……………………….………………………………….. -----
8. LUGAR DE RESIDENCIA DURANTE EL CURSO:……………………….…………………………------

1- Hogar familiar 4- Con un pariente/conocido
2- Residencia 5- Otra solución

3- Piso con compañeros
9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD? :………….……………….…………------

1- En tu coche 4- En un coche de un compañero
2- En tu moto 5- Transporte público
3- Andando 6- En vehículo no motorizado (bici, skateboard,..)
7- En patinete eléctrico
10. ¿CUANTOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV? ………………….…….. ------
11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE

EN LA ESPAÑA ACTUAL? ....................................................................................................... ------
1- Drogas/Alcohol 4- Desigualdad social
2- Educación/Sanidad 5- Pérdida de valores
3- Paro 6- Conciliación vida laboral y familiar
12. ¿CUÁL ES EL NIVEL EDUCACIONAL DE TUS PADRES? PADRE___ MADRE___

1.- Ninguno
2.- Secundaria / FP GM
3.- Bachillerato / FP Grado Superior.
4.- Graduado
5.- Ingeniería o Máster
6 .- Doctorado
13. DE LAS 24 HORAS DEL DÍA ¿QUÉ PORCENTAJE DEDICAS A..

1. Estudio/Trabajo-..…………………………..……………………..……………….. …… -----%
2. Ocio/familia/amigos………………………………………………………….…….. …… -----%
3. Redes sociales, videojuegos, whatsapp, ……………………………………….. …… -----%
4. Ejercicio físico……………………………………………………..……………….. …… -----%
5. Pensar, leer..……………………………………………………………………….. …… -----%
Como punto de partida, cumplimentaremos la encuesta para que los datos obtenidos puedan servir
de base para el próximo curso y nos ayudará a familiarizarnos con los items
La vida son experiencias, Cuenta Smart

Las respuestas de alumnos de la UPV de cursos anteriores a esta encuesta sobre las que
trabajaremos se encuentran almacenadas en Poliformat.
Ejercicio 0: Tipos de datos
Antes de iniciar un estudio en un paquete estadístico hay que identificar si cada ítem es:
 una cualidad (característica cualitativa o categórica)
 el resultado de un proceso de conteo ( característica cuantitativa discreta) o
 el resultado de un proceso de medición (característica cuantitativa continua)
 Otro tipo de datos
Aunque parece un tema exclusivamente teórico, esta cuestión tendrá una importante repercusión
en la selección del tratamiento a utilizar para estudiar los datos obtenidos. También es importante
considerar cuantas respuestas diferentes es posible obtener en cada pregunta.
¿Cómo crees que son estas características: categóricas nominales, categóricas ordinales,
numéricas discretas o numéricas continuas, de otro tipo?¿Que tratamiento le darías?

 Sexo categórica nominal
 Edad numérica discreta
 Mes Nacimiento categórica nominal
 Peso numérica continua
 Opinión política categórica nominal
 Digito azar categórica nominal
 Residencia categórica nominal
 Transporte categórica nominal
 Tiempo cuantitativo continuo
 Problema cualitativo nominal
 Nivel Educacional padres cualitativo ordinal
 Distribución-tiempo otro tipo
Respuesta Coca-Cola Zero Azúcar. Demasiado bueno para explicarlo con palabras
1. Tablas de frecuencias
En el análisis estadístico de unos datos tendremos que:
 organizar los datos en tablas de frecuencias

 construir gráficos que nos ayuden a visualizarlos
 calcular medidas que nos permitan realizar comparaciones entre subgrupos.
Ejercicio 1: Tablas de frecuencias para datos cualitativos o numéricos discretos con pocos valores
diferentes. Diagrama de barras y diagrama de sectores
La introducción de los datos cualitativos se realiza en código numérico, para facilitar el proceso.
A partir de las características codificadas es posible decodificarlas, con las categorías nominales.
En este ejercicio trabajaremos sobre las respuestas obtenidas en las preguntas 6 y 11. Los valores
se han introducidas, codificados, en las variables POLITICANUM y PROBNUM y se han creado
las características POLITICA y PROBLEMA con los valores nominales.

a) Obtener y copiar la tabla de frecuencias de PROBLEMA. ¿Cuántos alumnos han respondido
esta pregunta
Statgraphics: Desplegar el menú de Estadística Descriptiva (Describir), el submenú Datos

Categóricos y elegir la opción Tabulación.
Tabla de Frecuencia para PROBLEMA

Frecuencia Frecuencia Frecuencia
Clase Valor Frecuencia Relativa Acumulada Rel. acum.
1 DES.SOCIAL 36 0,2022 36 0,2022
2 DROGAS/ALCOHOL 3 0,0169 39 0,2191
3 EDUC/SANIDAD 45 0,2528 84 0,4719
4 PARO 60 0,3371 144 0,8090
5 PERDIDA VALORES 34 0,1910 178 1,0000
El StatAdvisor
Esta tabla muestra el número de veces que se ha presentado cada valor de PROBLEMA así como porcentajes y estadísticas
acumuladas. Por
ejemplo, en 36 filas del archivo de datos, PROBLEMA es igual a DES.SOCIAL. Esto representa 20,2247% de los 178 valores en
el archivo.
Las dos columnas de la extrema derecha dan los recuentos y porcentajes acumulados, desde el inicio de la tabla hacia abajo.
FRECUENCIA 36
si lees esto me debes un besito

b) Obtener el diagrama de barras para frecuencias absolutas y relativas ¿Hay cambios en la forma
del gráfico? ¿Qué cambia? Cambia la escala, no la forma
Statgraphics: Para obtener el diagrama de barras para frecuencias relativas: pulsar el botón
derecho del ratón, elegir Opciones de Ventana y seleccionar Porcentajes.
Diagrama de Barras de PROBLEMA Diagrama de Barras de PROBLEMA
DES.SOCIAL DES.SOCIAL
DROGAS/ALCOHOL DROGAS/ALCOHOL
EDUC/SANIDAD EDUC/SANIDAD
PARO PARO

PERDIDA VALORES PERDIDA VALORES
0 10 20 30 40 50 60 0 10 20 30 40
frecuencia porcentaje
c) Obtener el diagrama de sectores o diagrama de tarta ¿Qué relación tiene con los diagramas de
barra? ¿Qué ventaja presenta?
Cada porcentaje corresponde con la frecuencia
Diagrama de Sectores de PROBLEMA
absoluta de cada dato / numero total
Se obtiene una mayor visualización pero con los 19,10% PROBLEMA
20,22% DES.SOCIAL
DROGAS/ALCOHOL
mismos datos que el diagrama de barras EDUC/SANIDAD
PARO
PERDIDA VALORES
1,69%
25,28%
33,71%
d) Analizar mediante un diagrama de sectores los resultados de la variable POLITICA. ¿Detectas

algún posible error?
Cuando la frecuencia absoluta de algún dato
es muy pequeña no podemos visualizarla Diagrama de Sectores de POLITICA
correctamente 8,99% 0,56%

POLITICA
4,49% 30
24,16%
CENTRO
DERECHAS
ECOLOGISTAS
IZQUIERDAS
NACIONALISTAS
PASAS DEL TEMA
13,48%
43,82%
4,49%
Ejercicio 2: Tablas de frecuencias para datos numéricos continuos o discretos con muchos valore
diferentes. Histogramas y Polígonos de frecuencias.
Las técnicas que vamos a utilizar en este apartado son útiles para organizar y visualizar datos
numéricos continuos o bien datos numéricos discretos con muchos valores diferentes que necesitan
ser agrupados
a) Construye un diagrama de sectores para la característica PESO, considerándola cualitativa

como has hecho en el Ejercicio 1 ¿Qué ocurre? ¿Qué crees que es necesario hacer si la
variable puede tomar muchos valores diferentes?
no se puede interpretar. Es necesario agrupar pues los datos no son correctamente observables
Diagrama de Sectores de PESO
0,56%
1,69%
0,56%
0,56%
2,81% 0,56%
1,69%
1,12%
1,12%
0,56%
1,69% 2,25%
1,12% PESO
1,69% 48
3,93% 1,12%
0,56%50
1,12% 1,69%
52
1,12% 53
0,56%
0,56% 3,93%
1,69% 54
1,12% 2,25%
55
2,81% 56
2,81%
57
3,37% 58
3,93%
59

1,69%
60
1,69%
3,93% 61
4,49%
62
3,93% 0,56%63
6,18% 64
1,69% 9,55% 65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84

b) Obtén la tabla de frecuencias de la variable PESO , como variable cuantitativa tal como
se indica en el recuadro
Statgraphics: Desplegar el menú Describir, el submenú Datos Numéricos y elegir la opción
Análisis de una variable. Pulsar el icono que indica las subopciones del análisis y seleccionar
Tabla de frecuencias. Para modificar el número o anchura de los intervalos que Statgraphics hace
por defecto, situarse sobre la tabla y con el botón derecho del ratón seleccionar Opciones Ventana.
Tabla de Frecuencias para PESO
Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 45 0 0,0000 0 0,0000
1 45 48,4783 46,7391 1 0,0056 1 0,0056
2 48,4783 51,9565 50,2174 3 0,0169 4 0,0225
3 51,9565 55,4348 53,6957 13 0,0730 17 0,0955
4 55,4348 58,913 57,1739 9 0,0506 26 0,1461
5 58,913 62,3913 60,6522 19 0,1067 45 0,2528
6 62,3913 65,8696 64,1304 18 0,1011 63 0,3539
7 65,8696 69,3478 67,6087 13 0,0730 76 0,4270
8 69,3478 72,8261 71,087 31 0,1742 107 0,6011
9 72,8261 76,3043 74,5652 21 0,1180 128 0,7191
10 76,3043 79,7826 78,0435 13 0,0730 141 0,7921
11 79,7826 83,2609 81,5217 7 0,0393 148 0,8315
12 83,2609 86,7391 85,0 12 0,0674 160 0,8989
13 86,7391 90,2174 88,4783 6 0,0337 166 0,9326
14 90,2174 93,6957 91,9565 1 0,0056 167 0,9382
15 93,6957 97,1739 95,4348 7 0,0393 174 0,9775

16 97,1739 100,652 98,913 3 0,0169 177 0,9944
17 100,652 104,13 102,391 0 0,0000 177 0,9944
18 104,13 107,609 105,87 1 0,0056 178 1,0000
19 107,609 111,087 109,348 0 0,0000 178 1,0000
20 111,087 114,565 112,826 0 0,0000 178 1,0000
21 114,565 118,043 116,304 0 0,0000 178 1,0000
22 118,043 121,522 119,783 0 0,0000 178 1,0000
23 121,522 125,0 123,261 0 0,0000 178 1,0000
mayor de 125 0 0,0000 178 1,0000
Media = 71,0618 Desviación Estándar = 11,8728
El StatAdvisor
Esta opción ejecuta una tabulación de frecuencias dividiendo el rango de PESO en intervalos del mismo ancho, y contando el
número de
datos en cada intervalo. Las frecuencias muestran el número de datos en cada intervalo, mientras que las frecuencias relativas
muestran las
proporciones en cada intervalo. Puede cambiarse la definición de los intervalos pulsando el botón secundario del ratón y
seleccionando
Opciones de Ventana. Pueden verse gráficamente los resultados de la tabulación seleccionando Histograma de Frecuencias de la
lista de
Opciones Gráficas.
No es una tabla comparable, establecemos intervalos nuevos

c) ¿Crees que los límites de intervalo seleccionados por el Statgraphics son óptimos para
realizar comparaciones con otros grupos de alumnos? ¿Tú que limites cogerías?
No son comparables pues hay demasiados intervalos
Establecemos nuevos limites observando el rango
(110-45)/5=13 intervalos
Tabla de Frecuencias para PESO

Límite Límite Frecuencia Frecuencia Frecuencia
Clase Inferior Superior Punto Medio Frecuencia Relativa Acumulada Rel. Acum.
menor o igual 45 0 0,0000 0 0,0000
1 45 50,0 47,5 4 0,0225 4 0,0225
2 50 55,0 52,5 13 0,0730 17 0,0955
3 55 60,0 57,5 19 0,1067 36 0,2022
4 60 65,0 62,5 27 0,1517 63 0,3539
5 65 70,0 67,5 30 0,1685 93 0,5225
6 70 75,0 72,5 32 0,1798 125 0,7022
7 75 80,0 77,5 19 0,1067 144 0,8090
8 80 85,0 82,5 13 0,0730 157 0,8820
9 85 90,0 87,5 9 0,0506 166 0,9326
10 90 95,0 92,5 6 0,0337 172 0,9663
11 95 100,0 97,5 5 0,0281 177 0,9944
12 100 105,0 102,5 0 0,0000 177 0,9944
13 105 110,0 107,5 1 0,0056 178 1,0000
mayor de 110 0 0,0000 178 1,0000
Media = 71,0618 Desviación Estándar = 11,8728

El StatAdvisor
Esta opción ejecuta una tabulación de frecuencias dividiendo el rango de PESO en intervalos del mismo ancho, y contando el
número de
datos en cada intervalo. Las frecuencias muestran el número de datos en cada intervalo, mientras que las frecuencias relativas
muestran las
proporciones en cada intervalo. Puede cambiarse la definición de los intervalos pulsando el botón secundario del ratón y
seleccionando
Opciones de Ventana. Pueden verse gráficamente los resultados de la tabulación seleccionando Histograma de Frecuencias de la
lista de
Opciones Gráficas.

d) Obtener y copiar un histograma de frecuencias absolutas de la variable PESO ¿Qué
información proporciona este gráfico? (Explícalo para el primer intervalo)¿Qué intervalo
contiene mayor número de valores?
Statgraphics: Utilizando el botón derecho del ratón, en cualquier gráfico podemos activar la
función Localizar que nos ayudará a leer el valor de la abscisa o de la ordenada en cualquier punto
Cada una de las columnas representa la frecuencia de cada uno de los intervalos, en el primero
hay 4 alumnos con peso entre 45 y 50kg
El intervalo 65-70 es el que contiene mas numero de valores
Histograma
40

30
frecuencia
20
10
0
45 65 85 105 125
PESO
e) Obtener y copiar el histograma de frecuencias relativas ¿Qué información proporciona este

gráfico? (Explícalo para el primer intervalo)
Statgraphics: Para obtener el histograma de frecuencias relativas: pulsar el botón derecho del
ratón, elegir Opciones de Ventana y seleccionar frecuencias relativas.
Proporciona porcentajes para peso entre 45-50
Histograma
18
15
12
porcentaje
0
45 65 85 105 125
PESO
f) Representar el polígono de frecuencias. ¿Qué relación tiene con el histograma?
Statgraphics: Para representar el polígono de frecuencias, pulsar el botón derecho del ratón y en
Opciones de ventana, Tipo de Gráfico, marcar Polígono.
Representa la forma del histograma con cada uno de los valores maximos de cada intervalo al unir
los puntos medios de cada barra
Polígono
18
15
12
porcentaje
0
45 65 85 105 125
PESO

g) Teniendo en cuenta el concepto de simetría, asimetría a derechas y asimetría a izquierdas (ver
gráfico) ¿Cómo crees que es la distribución de la variable PESO?¿Presenta claramente una
cola más larga hacia la derecha o hacia la izquierda?
Ligera Asimetría positiva
10

h) Obtener y copiar el histograma de frecuencias relativas acumuladas. ¿Qué información

proporciona este histograma? (explícalo para el segundo intervalo)
Statgraphics: Para representar el histograma de frecuencias relativas acumuladas, pulsar el botón

derecho del ratón y en Opciones de ventana, Tipo de Gráfico, marcar histograma y en frecuencias
marcar relativa.
Un 9,5 % de la muestra tiene un peso inferior a 55kg
Histograma
100
80
porcentaje
60
40
20

45 65 85 105 125
PESO
11

2. Medidas que caracterizan una distribución de frecuencias
Las medidas de posición, dispersión y forma nos proporcionan información acerca de la posición
de los datos y su variabilidad y acerca de si el modelo normal será adecuado para describir la
distribución de la variable.
Statgraphics: Para obtener medidas de posición y dispersión, desplegar el menú Describir, el
submenú Datos Numéricos y elegir la opción Análisis de una variable. Pulsar el icono amarillo
de opciones de análisis y seleccionar Resumen Estadístico y Percentiles.
Por defecto, Statgraphics mostrará algunas de las medidas definidas anteriormente. Si se desea
seleccionar otras medidas que no aparezcan de esta forma, nos situaremos sobre la ventana de
resultados y con el botón derecho del ratón seleccionaremos Opciones de Ventana. Aparecerá un
cuadro de diálogo donde podemos elegir las medidas muestrales que queramos obtener.
Ejercicio 3: Medidas de tendencia central y posición
Las medidas de tendencia central y posición se utilizan para indicar la posición de la distribución

de frecuencias. Son valores representativos de los datos.
a) Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las
siguientes medidas de posición:
Mínimo
Máximo Recuento 178
Promedio 71,0618
Media muestral ( x ) (promedio) Mediana 70,0
Primer cuartil (un 25% de los valores son inferiores) Moda 70,0
Mínimo 48,0
Segundo cuartil (Mediana) (un 50% de los valores son Máximo 106,0
inferiores) Cuartil Inferior 62,0
Cuartil Superior 77,0
Tercer cuartil (un 75% de los valores son inferiores) Sesgo Estandarizado 2,62288
Moda Curtosis Estandarizada -0,155831
Resumen Estadístico para PESO
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para PESO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de forma.
De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para determinar si la
muestra
proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones significativas de
la
normalidad, lo que tendería a invalidar cualquier prueba estadística con referencia a la desviación estándar. En este caso, el valor
de sesgo
estandarizado no se encuentra dentro del rango esperado para datos provenientes de una distribución normal. El valor de curtosis
estandarizada se encuentra dentro del rango esperado para datos provenientes de una distribución normal.
12

b) Cambia el idioma de las salidas y obtén el nombre de estos estadísticos en ingles
Editar>preferencias>lenguaje
a) ¿En qué se diferencian media y mediana? ¿Cuándo utilizarías cada una de ellas?
No se debe utilizar la media si hay datos anómalos o la simetría es muy marcada
b) ¿Qué medida de posición utilizarías para PROBLEMA? ¿Tendrían sentido las medidas del
apartado a)? ¿Por qué?
Se utilizaría exclusivamente la moda. Al ser valores cualitativos no tienen relación con la media y
la mediana

Ejercicio 4: Medidas de dispersión
Las medidas de dispersión nos indicarán la variabilidad de los datos
a) Con los datos de la variable PESO, utilizar Statgraphics para hallar el valor de las siguientes
medidas de dispersión:
Varianza muestral (s2) Recuento 178

Varianza 140,962
Desviación típica (s) Desviación Estándar 11,8728
Rango o recorrido Coeficiente de Variación 16,7076%
Rango 58,0
Rango intercuartílico Rango Intercuartílico 15,0
Coeficiente de variación Sesgo Estandarizado 2,62288
Curtosis Estandarizada -0,155831
El StatAdvisor
medidas de forma.
muestra
la
de sesgo
b) Cambia el idioma de las salidas y obtén el nombre de estos estadísticos en ingles

Editar>preferencias>lenguaje
c) ¿Qué caracteriza cada medida de dispersión? ¿Cuál elegirías en este caso?

La variabilidad de los datos
Si es asimétrica o presenta datos anómalos el recorrido intercuartilico
d) ¿Tendría sentido estudiar la dispersión de PROBLEMA?¿Por qué?
No porque no es un valor numérico
13
Ejercicio 5: Medidas de forma
Las medidas de forma se utilizan para estudiar si el modelo normal, en forma de campana
simétrica, es adecuado para describir la distribución de una variable continua.
a) Con los datos de la variable PESO, utilizar Statgraphics para estudiar si el modelo normal es
adecuado para describir la distribución de esta variable:
Coeficiente de asimetría Recuento 178
Promedio 71,0618
Varianza 140,962
Coeficiente de curtosis Sesgo Estandarizado 2,62288
Curtosis -0,0572203
Coeficiente de asimetría estandarizado (-2,2)
Coeficiente de curtosis estandarizado (-2,2)

El StatAdvisor
medidas de forma.
muestra
la
de sesgo
b) ¿Cómo interpretas los valores obtenidos?

Presenta asimetría a derechas al salirse del intervalo (-2,2)
14

3. Diagrama de box-whisker
El gráfico de box-whisker permite analizar de un modo sencillo la posición, dispersión, simetría y

presencia de datos anómalos en una distribución. La sencillez de su construcción e interpretación
facilita también la comparación de distintas distribuciones.
Para su construcción es necesario localizar los valores mínimo y máximo de los datos y calcular
los cuartiles. Se dibuja una “caja” que se extiende entre el primer y el tercer cuartil. Su amplitud
es por tanto igual al recorrido intercuartílico y entre sus límites se ubican un 50% de los datos (los
centrales). En el interior se traza una línea vertical que corresponde a la mediana (segundo cuartil)
y una cruz que indica la media.
Partiendo de cada lado de la caja se dibujan una líneas horizontales llamadas “bigotes” . El bigote
de la izquierda se extiende entre el valor mínimo y el primer cuartil1 y el bigote de la derecha entre
el tercer cuartil y el valor máximo.
Aquellos valores extremos que difieren del cuartil más próximo en más de 1,5 veces la anchura de
la caja o recorrido intercuartílico se representan como puntos aislados por considerar que se
corresponden con datos anómalos.

Para estudiar la simetría de la distribución se comparan la media y la mediana o los cuartiles
15

Ejercicio 6: Diagrama de box-whisker
Se han medido las glucemias basales en mg/dl de un grupo de pacientes incluidos en un estudio
epidemiológico. Los datos se encuentran en la variable GLUCEMIA. Existen algunos valores
perdidos por pacientes no presentados, etc.
a) Obtener y copiar el diagrama de box-whisker. Identifica utilizando el Localizador el valor

mínimo, el valor máximo, primer y tercer cuartil, media y mediana
Statgraphics: Para representar el gráfico box-whisker, seleccionar con el botón de opciones

gráficas del Statfolio la opción Gráfico de caja-bigotes. Recordar que utilizando el botón derecho
del ratón, en cualquier grafico podemos activar la función Localizar que nos ayudara a leer el valor
de la abscisa o de la ordenada en cualquier punto
Gráfico de Caja y Bigotes

MINIMO 45.1735
MAXIMO 225,11
PRIMER CUARTIL71.9243
TERCER CUARTIL 87.0662
MEDIA 82.5237
MEDIANA 77.9811
0 40 80 120 160 200 240

GLUCEMIA
16

Resumen Estadístico para GLUCEMIA

Recuento 190
Promedio 82,5474
Mediana 78,0
Desviación Estándar 23,0891
Coeficiente de Variación 27,9707%
Mínimo 45,0
Máximo 225,0
Rango 180,0
Cuartil Inferior 72,0
Cuartil Superior 87,0
Rango Intercuartílico 15,0
Sesgo Estandarizado 20,6717
Curtosis Estandarizada 51,411
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para GLUCEMIA. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de
forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para
determinar si la

muestra proviene de una distribución normal. Valores de estos estadísticos fuera del rango de -2 a +2 indican desviaciones
significativas de la
de sesgo
estandarizada no se encuentra dentro del rango esperado para datos provenientes de una distribución normal
valor mínimo valor máximo
Gráfico de Caja y Bigotes Gráfico de Caja y Bigotes
0 40 80 120 160 200 240

0 40 80 120 160 200 240 GLUCEMIA
GLUCEMIA
b) ¿Cuál es el rango y el recorrido intercuartílico?
RANGO 177,9365
RI 15,1419 Histograma
80
c) ¿Es simétrica la distribución? 60
Si que es simétrica, pero presenta muchos datos

frecuencia
40
anómalos que influyen en el valor de la media

Convedria estudiar los datos anómalos 20
0
0 40 80 120 160 200 240
GLUCEMIA
d) ¿Existe algún valor anómalo? ¿cuál?
SI 113,117,195…
17
4. Estudio por subgrupos
Es muy frecuente el estudio comparativo de una variable continua por subgrupos dentro de una
muestra. El Statgraphics nos permite realizar estos análisis. Adicionalmente el grafico de box-
whisker nos ayudará a visualizar estas comparaciones.
Ejercicio 7: Estudio de la distribución del peso por tramos de altura
a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del PESO
asociadas a los distintos tramos de la variable altura (ALTINT). Comentar los resultados.
Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y seleccionar la

opción Análisis subgrupos. Seleccionar como Datos la variable de la que se quieren obtener los
estadísticos, y como Códigos la variable que indica la pertenencia al grupo. Con el icono amarillo
de subopciones seleccionar Resúmenes Estadísticos.
Datos peso
Código altint
Peso medio va subiendo conforma aumenta altura
La desviación típica oscila pero ni sube ni baja

Estadísticas de Resumen
Datos/Variable: PESO
Desviación Coeficiente Sesgo

ALTINT Recuento Promedio Estándar de Variación Mínimo Máximo Rango Estandarizado
125 1 76,0 76,0 76,0 0,0
150-160 7 57,2857 10,2423 17,8793% 50,0 80,0 30,0 2,59574
160-170 38 62,2632 10,2078 16,3946% 48,0 100,0 52,0 4,81551
170-180 78 69,3205 8,20436 11,8354% 50,0 95,0 45,0 2,57208
180-190 47 79,8085 8,72437 10,9316% 56,0 100,0 44,0 0,679707
190-200 6 92,1667 9,04249 9,81102% 84,0 106,0 22,0 0,803607
200-210 1 95,0 95,0 95,0 0,0
Total 178 71,0618 11,8728 16,7076% 48,0 106,0 58,0 2,62288
Curtosis
ALTINT Estandarizada
125
150-160 3,27275
160-170 6,22222
170-180 2,87437
180-190 0,726648
190-200 -0,564229
200-210
Total -0,155831
El StatAdvisor
Esta tabla presenta las estadísticas muestrales para los 7 niveles de ALTINT.
18

b) Confirmar los comentarios del apartado anterior realizando un gráfico de box-whisker

múltiple
Gráfica de Caja y Bigotes
125
150-160
160-170
ALTINT
170-180
180-190
190-200
200-210
48 58 68 78 88 98 108
PESO
un bigote debe ser siempre menor ½ la línea divisoria de la caja se desplaza a la derecha según
bajamos = media
respecto a la dispersion el recorrido intercuartílico es menor el primero pero el resto se
mantienen

respecto al rango existen datos anómalos
c) Utilizar el gráfico de box-whisker para analizar si existe alguna relación entre el TIEMPO que
tardan en llegar a la Universidad los estudiantes y el medio de transporte utilizado para llegar a
la universidad (TRANSPORTE). Comentar los resultados.

TRANSPORTE
ANDANDO
COCHE
COCHE COMPAÑERO
MOTO/BICI
TRANSPORTE PUBLICO
0 10 20 30 40 50 60
TIEMPO
Tardan mas aquellos que utilizan el transporte publico, pudiendo venir de sitios mas lejanos
Tardan menos aquellos que utilizan la bici o la moto pudiendo vivir mas cerca
El rango intercuartilico es muy amplio
No hay relación de orden al ser variables cualitativas

Comparas donde el valor medio es mayor (transporte publico)
19

Ejercicio 8: Estudio de la distribución de la glucemia en función de la presencia o ausencia de

diabetes.
a) Algunos de los pacientes del estudio epidemiológico del ejercicio 6 están diagnosticados de
diabetes (DIABETES=1) mientras que la mayoría están sanos (DIABETES=0). Calcular el valor
medio y la desviación típica de las distribuciones condicionales de GLUCEMIA en función de que
el paciente sea o no diabético (DIABETES). Comentar los resultados.
Statgraphics: Desplegar el menú Descripción, el submenú Datos Numéricos y seleccionar la
opción Análisis subgrupos. Seleccionar como Datos la variable de la que se quieren obtener los
estadísticos, y como Códigos la variable que indica la pertenencia al grupo. Con el icono amarillo
de subopciones seleccionar Resúmenes Estadísticos.

DIABETES
0 40 80 120 160 200 240

GLUCEMIA
b) Utilizar el gráfico de box-whisker para describir las diferentes distribuciones de la variable

GLUCEMIA en pacientes diabéticos y no diabéticos.
Estadísticas de Resumen
Datos/Variable: GLUCEMIA
Desviación
DIABETES Recuento Promedio Estándar
0 184 79,7065 13,1976
1 6 169,667 66,1201
Total 190 82,5474 23,0891
El StatAdvisor
Esta tabla presenta las estadísticas muestrales para los 2 niveles de DIABETES.
Asimetría muy marcada cuando hay diabetes
20

6. Preparación de datos para su análisis
El tiempo invertido en la preparación de los datos previa a su análisis es tiempo bien utilizado. Los
errores en los datos que no son detectados hasta que los análisis principales son realizados,
requieren que todo sea rehecho de nuevo.
Revisión previa a la introducción de datos
Los errores en los datos son frecuentes: pueden ser intercambiados, o mal tecleados.
El propósito del data checking es identificar y si es posible rectificar los errores.

 Si son grandes ficheros es mejor una doble entrada, en la cual los datos sean comparados
automáticamente con posterioridad. Para los ficheros pequeños es mejor “cantar los
resultados”.
 Si los datos son continuos, es conveniente establecer, mediante reglas de validación, un

intervalo en el cual los datos son razonables (range checking) y revisar los datos que están
fuera de este rango. Hay que establecer estas reglas antes de la introducción de datos.
Si nos llega un archivo con datos fuera de este rango y no es posible detectar el valor
original lo transformaremos en dato faltante. También se puede establecer dos intervalos,
uno que detecte datos sospechosos y otro que detecte datos imposibles. Un error muy
frecuente consiste en colocar inadecuadamente la coma decimal.
Si nos llega un archivo con datos fuera de este rango y no es posible detectar el valor
original lo transformaremos en dato faltante. También se puede establecer dos intervalos,
uno que detecte datos sospechosos y otro que detecte datos imposibles. Un error muy
frecuente consiste en colocar inadecuadamente la coma decimal.
 Si los datos son categóricos, estarán codificados y habrá un número límitado de valores
aceptables. Por ejemplo si estudiamos el tipo sanguíneo tendremos
1-Tipo A
2- Tipo B
3- Tipo 0
4-Tipo AB
 Respecto a las fechas, es mejor grabar la fecha de los eventos que el tiempo transcurrido
entre ellos. En las fechas debe revisarse: que sean razonables, que sean válidas, que estén
correctamente secuenciadas y que los tiempos calculados sean razonables.
21
Por ejemplo grabar la fecha de nacimiento, fecha de la operación y si ocurre fecha de

la muerte es mejor que grabar la edad en el momento de la operación y la edad en el
momento del fallecimiento.
 También resulta útil establecer reglas lógicas (logical checks) que relacionen las variables.
Si estudiamos las variables sexo y número de embarazos resultaría absurdo si
encontráramos un hombre con embarazos previos;
Datos faltantes
La existencia de valores faltantes es muchas veces inevitable, especialmente cuando se realiza un

estudio multivariante (expediente de un paciente, encuestas,…)

Las consecuencias de su presencia dependerán de su distribución y de la cantidad de valores. Lo
más importante es su distribución:
 si es aleatoria no causara muchos daños,

 si tiene un patrón si puede ser muy dañino.
Es importante tratar de averiguar cuál es la causa de la presencia de determinados datos faltantes,

especialmente si se repiten con frecuencia.
peso en las mujeres,

declaraciones sobre renta en personas de renta alta
Si los datos faltantes son aleatorios, tendremos un problema menor con dos opciones:
 eliminar todos los casos con valores perdidos (que es lo que suelen hacer por defecto los
paquetes estadísticos aunque puede reducir considerablemente el tamaño muestral
 imputar un valor estimado. Si decidimos imputar un valor estimado, hay técnicas

específicas que permite estimar el valor de algunos datos faltantes. La más utilizada es
imputar la media. Es un procedimiento conservador en el cual la media no cambia pero la
varianza se reduce. Existen otras técnicas más elaboradas como la técnica del vecino más
próximo. Estas técnicas resultan muy útiles en estudios multivariantes para no reducir
considerablemente el tamaño muestral.
 No hay que caer nunca en la tentación de reemplazarlos por datos supuestos sin ninguna
garantía. Esta tentación es frecuente en estudios retrospectivos, cuando los datos son
obtenidos de expedientes de hospital.
22

Para estudiar los posibles patrones debidos a la influencia de una segunda variable:
 se crea a partir de la primera variable una variable artificial en la cual se codifica como 1
(dato existente) y como 0 dato faltante
 se promedia el valor de la segunda variable cuando la variable codificada vale 1 y cuando

vale 0
 si la diferencia es significativa tendremos un patrón sistemático de los datos faltantes lo
cual puede tener consecuencias importantes.
Es frecuente también el encontrar fechas grabadas parcialmente. Si el día no está grabado,

podemos grabar supuestamente 15, pero eso nos puede llevar a problemas en el cálculo de fechas
derivada. Por ejemplo si el día de la operación era faltante y falleció el día 13, seria operado
después del fallecimiento.
23
Nieves MartÍnez-Alzamora
PRÁCTICA 2:
DISTRIBUCIONES DISCRETAS
Contenido:

1. Distribución uniforme discreta
2. Distribución Binomial.
3. Distribución Hipergeométrica
4. Distribución Binomial negativa.
5. Distribución de Poisson.

2

Una v.a. numérica puede ser discreta (si el conjunto de posibles valores es numerable), o continua
(si el conjunto de posibles valores es no numerable).
Para describir la distribución de probabilidad de una v.a., tendríamos que especificar cuál es la
probabilidad de que la v.a. tome valores en cualquier intervalo o reunión numerable de intervalos.
Evidentemente, esto no es factible y se han buscado funciones de variable real que sean sencillas
de manejar y permitan calcular la probabilidad de que una v.a. tome valores en cualquier intervalo
(función de distribución, función de probabilidad, función de densidad…).
Se han definido modelos matemáticos, agrupados en familias e identificados por parámetros, entre
los cuales buscaremos el más adecuado para nuestra variable.
Observamos que Statgraphics nos permite trabajar con veinticuatro familias distintas de
distribuciones de probabilidad.

En esta clase práctica utilizaremos los modelos DISCRETOS: Distribución Uniforme discreta,
Binomial, Distribución Hipergeométrica y Distribución de Poisson.
En el caso de una v.a. discreta, X, las funciones que describen la distribución de probabilidad de
una v.a. discreta y permiten calcular la probabilidad de que la v.a. tome valores en cualquier
intervalo son:
 la función de probabilidad, p(x),que nos indica,
p x   P X  x 
 la función de distribución, F(x), que nos indica
F  x   P X  x 
Statgraphics: Al hacer clic sobre el botón de Tablas de la barra de herramientas del Statfolio,
aparece un cuadro que nos da las siguientes opciones:

Resumen del Análisis, opción que el programa activa por defecto, muestra los valores elegidos
de los parámetros de la distribución.

Distribuciones Acumuladas, opción que nos proporciona las probabilidades de que la v.a. tome
valores estrictamente menores, iguales (únicamente en el caso de discretas) o estrictamente
mayores que un valor dado.
Distribuciones Acumuladas Inv., opción que nos permite obtener el valor xp de la variable X que
verifica que P X  x p   p y P X  x p   p (percentil de orden p)
Para obtener las gráficas de las funciones de Probabilidad y Distribución se pulsa el botón de
Opciones Gráficas de la barra de herramientas y se elige la opción correspondiente Función de
densidad/Masa o Distribuciones Acumuladas

1. Distribución uniforme discreta.
Un modelo uniforme discreto es adecuado para variables que indican un número seleccionado al
azar de entre n valores distintos equiprobables.
Describir>Ajuste distribuciones >Distribuciones de probabilidad
Ejercicio 1 : Funciones de probabilidad y distribución
Si la v.a. X indica la puntuación obtenida al lanzar un dado,
a) Calcular las probabilidades:

Área Cola Inferior (<)
Variable Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5
3 0,333333
Probabilidad de Masa (=)
3 0,166667
Área Cola Superior (>)
3 0,5

 P(X=3) = 0.16
 P(X<3) = 0.33
 P(X≤3) = P(X<4)=0.5
4 0,5
 P(X>3) = 0.5

b) Obtener y copiar las funciones de probabilidad y de distribución de la variable que indica la
puntuación obtenida al lanzar un dado
PROBABILIDAD
Uniforme Discreta
0,18 Límite Inferior,Límite Superior

1,6
0,15
0,12
probabilidad
0,09
0,06
0,03
0
0 1 2 3 4 5 6
x

DISTRIBUCION (debeeria ser escalonada pero solo pone al primer punto de la línea )
Uniforme Discreta
1 Límite Inferior,Límite Superior

1,6
probabilidad acumulada
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5 6
x
c) Leer con el localizador la probabilidad de que la puntuación obtenida sea menor o igual que 4
Fx(4)=P(X<=4)= 0.67
Uniforme Discreta
1 Límite Inferior,Límite Superior

1,6
0,8
0,6
0,4
0,2
0
0 1 2 3 4 5 6
x
d) Determinar una puntuación x tal que P(X<x) ≤0,5 y la P(X≤ x) ≥0,5 (mediana)
Percentiles = inversa función distribución
Distribuciones acumuladas inversas
Necesario para sacar mediana
FDA Inversa
Distribución: Uniforme Discreta
FDA Dist. 1 Dist. 2 Dist. 3 Dist. 4 Dist. 5

0,01 1
0,1 1
0,5 3
0,9 6
0,99 6
El StatAdvisor
Esta ventana encuentra los valores críticos para la Distribución Uniforme Discreta. Pueden especificarse hasta 5 áreas de cola. El
valor
crítico se define como el mayor valor para la Uniforme Discreta tal que la probabilidad de no exceder ese valor no excede el área
especificada.
Por ejemplo, el resultado indica que, para la primera distribución especificada, 1,0 es el valor más grande tal que la probabilidad de
no exceder
1,0 es menor ó igual a 0,01.

Ejercicio 2: Simulaciones
En algunas ocasiones los modelos probabilísticos nos pueden ayudar a simular situaciones reales
y comprenderlas mejor. Vamos a utilizar la posibilidad que nos ofrece el Statgraphics de simular
valores con distribuciones concretas para intentar responder a una pregunta.
Un grupo de 100 alumnos es evaluado con 15 exámenes tipo test, personalizados, realizados
regularmente a lo largo del curso en Poliformat. Las preguntas de cada alumno se seleccionan al
azar a partir de una base de datos clasificada por temas, donde se ha intentado que las preguntas
tengan una dificultad similar, pero teniendo en cuenta que siempre habrá una pequeña oscilación
Tras realizar la primera prueba y comparar los exámenes con los de otros compañeros un alumno
piensa que él tiene peor nota porque el grado de dificultad de su primer examen era mayor y piensa
que en la evaluación final de la asignatura el factor suerte va a tener una influencia importante.
¿Nos puede ayudar la simulación a responder a esta pregunta?
a) Si puntuamos el grado de dificultad de cada examen como un numero entero que oscila

entre 1 y 10, teniendo en cuenta que las preguntas se seleccionan aleatoriamente, podemos
simular el grado de dificultad del primer examen realizado por los alumnos, generando 100
valores de una v,a, con distribución uniforme discreta entre 1 y 10. Guardar estos valores
en la variable B.DIFICULTAD1
Statgraphics: Entrar en Describir Ajuste Distribuciones Distribuciones de Probabilidad y

elegir la familia Uniforme Discreta. Elegir la opción Numeros aleatorios y utilizando el botón de
salvar, dentro de la barra del Statfolio, guardar los valores obtenidos en la variable
DIFICULTAD1
Resumen Estadístico para DIFICULTAD1

Recuento 100
Promedio 5,23
Mínimo 1,0
Máximo 10,0
Rango 9,0

Gráfico de Dispersión
0 2 4 6 8 10
DIFICULTAD1
b) Obtener un gráfico de Box-whisker de los valores obtenidos ¿Cuál es la media?¿Cual es el

rango?¿Puede el alumno pensar que la dificultad del primer examen ha influido en su nota?

Statgraphics: Entrar en Describir Datos numéricos Análisis de una variable
0 2 4 6 8 10
DIFICULTAD1

c) Abrir el archivo correspondiente a esta práctica, DATOSPRACT_GIB_P2. En él se han
simulado el grado de dificultad de los 100 alumnos en las 15 pruebas y se ha calculado el
nivel de dificultad promedio de los exámenes realizados por cada alumno. Los valores se
han archivado en la variable DIFICULTAD PROMEDIO. Obtener un gráfico Box-whisker
de los valores obtenidos, indicando que el eje X debe variar de 1 a 10 ¿Cuál es el valor
medio?¿Cuál es el rango? ¿Qué diferencias observas con el gráfico anterior?¿tiene sentido
que el alumno siga pensando que la suerte va a ser un factor muy importante en la nota
final?
Rango = 3.6
El rango es distinto y lo cambiamos para ser comparable con el gráfico anterior
No, puesto que ahora el rango es menor y muy pequeño

Resumen Estadístico para PROMEDIO DIFICULTAD
Recuento 100
Promedio 5,35533
Mínimo 3,46667
Máximo 7,06667
Rango 3,6
Sesgo Estandarizado -0,873548
0 1 2 3 4 5 6 7 8 9 10
PROMEDIO DIFICULTAD
10
d) Uno de los teoremas más importantes en Estadística que es el Teorema Central del Limite
establece que, si el tamaño muestral es suficientemente grande, la distribución de la media
muestral se aproxima a una distribución normal, sea cual sea la distribución de la población
de la cual se ha extraído la muestra. El valor esperado de la media muestral será la media
poblacional y la desviación típica se reducirá al aumentar el tamaño muestral. ¿Explica
este teorema lo que hemos observado en esta simulación?
Cuando repetimos aleatoriamente un experimento un suficiente número de veces la media de la
variable tenderá a una normal, los valores se agrupan en el centro y son más frecuentes
Si permite explicarlo
11

2. Distribución Binomial
Un modelo Binomial con parámetros n y p será adecuado para describir la distribución de una
variable que indique el número de veces que ha ocurrido un determinado EVENTO en n
REPETICIONES de una prueba binaria (ensayos), siendo p la probabilidad de que ocurra el evento
en cada repetición (Probabilidad del evento) y manteniéndose p CONSTANTE en las n repeticiones.
Describir>Ajuste distribuciones >Distribuciones de probabilidad
Ejercicio 3: Aplicación del modelo binomial
Se sabe que en una determinada población el 10% es daltónica. Si se extrae una muestra aleatoria
de 25 personas de esa población calcular la probabilidad de que
N = 25, P=0.01
a) En la muestra hayan 5 o menos daltónicos

X= nºpersonas daltónicas en la muestra de 25 personas -> Bi(n=25, p=0.10)
P(X<=5)= P(X<6)

6 0,9666
b) Existan entre 6 y 9 daltónicos (ambos valores incluidos)

P(6<=X<=9)= P(X<=5)-P(X<6)= P(X<10)-P(X<6)
6 0,9666
10 0,999921
c) Hayan dos, tres o cuatro daltónicos

5 0,902007
2 0,271206
12

Se sabe que en una ciudad, en una tarde dada, en el 85% de las familias, alguno de los miembros
está en casa. Un equipo de investigación sanitaria selecciona una muestra aleatoria de 12 familias
para realizar una encuesta vía telefónica. Calcular la probabilidad de que
a) El equipo encuentre a alguien en casa en 7 familias exactamente

X= nº familias encuestadas e las que había alguien en casa -> Bi (n=12,p=0,85)
P(X=7)
7 0,0192803
b) El equipo encuentre a alguien en casa en 5 familias o menos

P(X<=5)
6 0,000672126

c) El equipo encuentre a alguien en casa en 8 o más familias
P(X>=8)= 1-P(X<8)= 1- 0.0239219
8 0,0239219
13

Un viajero de metro llega todas las mañanas a la misma hora a un andén. El 18% de las veces que
llega al andén, el tren se encuentra en él, mientras que el resto de las veces ha de esperar.
X= nº días que encuentra el tren estacionado en 7 dias consecutivos ->
1 0,249285 0,0509575 0,0280963
4 0,976873 0,721805 0,588751
5 0,997131 0,883306 0,788371

1 0,383048 0,167787 0,111015
4 0,0202581 0,161501 0,199621
5 0,00266815 0,0779931 0,122694

1 0,367666 0,781256 0,860889
4 0,00286922 0,116694 0,211629
5 0,00020107 0,0387006 0,0889352
El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Binomial. Calculará las áreas de colas para hasta 5 valores
críticos de la
distribución. También calculará la probabilidad de densidad ó la función de masa. Por ejemplo, el resultado indica que, para la
primera
distribución especificada, la probabilidad de obtener un valor menor que 1,0 es 0,249285. También, la probabilidad de obtener un
valor
mayor que 1,0 es 0,367666. La probabilidad de obtener un valor exactamente igual a 1,0 es 0,383048.
a) En siete días consecutivos, ¿Cuál es la probabilidad de que se encuentre el tren estacionado

uno sólo de esos días?
Bi (n=7,p=0,18)
P(X=1) = 0.383048
b) En quince días consecutivos, ¿Cuál es la probabilidad de que se encuentre el tren estacionado

tres días como máximo?
Bi (n=15,p=0,18)
P(X<=3)=P(X<4) = 0.721805
c) En dieciocho días consecutivos, ¿Cuál es la probabilidad de que se encuentre el tren

estacionado más de cinco días?
Bi (n=18,p=0,18)
P(X>5)= 0.889
14
Ejercicio 6: Gráficas de la función de probabilidad y función de distribución binomial
a) Obtener y copiar las funciones de probabilidad de las distribuciones Bi(15, 0.2), Bi(15, 0.5) y
Bi(15, 0.9). ¿Son simétricas las gráficas de las funciones de probabilidad obtenidas?
Binomial
0,4 Prob. Evento,Ensayos

0,2,15
0,5,15
0,9,15
0,3
probabilidad
0,2
0,1
0
0 3 6 9 12 15
x
Bi(15, 0.5): simetrica

Bi(15, 0.2): asimétrica con cola a la derecha

Bi(15, 0.9): asimétrica con cola a la izquierda
Una distribución binomial será mas simétrica cuanto mas se acerque su valor de P al 50%
b) Obtener y copiar las funciones de distribución de las distribuciones señaladas. ¿Qué ocurre al
cambiar p? ¿Cómo lo interpretas?
La probabilidad del evento es bajita, la probabilidad de que haya eventos aumenta rápidamente.
La Fx sube rápidamente. Pero si la probabilidad del evento es alta, la probabilidad de que haya
muchos eventos no sube tan rápidamente..
Binomial
1 Prob. Evento,Ensayos
0,2,15
0,5,15
0,8 0,9,15
0,6
0,4
0,2
0
0 3 6 9 12 15
x
15

c) Obtener y copiar las funciones de probabilidad de las distribuciones Bi(9, 0.2), Bi(15, 0.2) y
Bi(50, 0.2). Observar la forma que toma la gráfica a medida que n aumenta su valor.
A medida que aumentas la probabilidad disminuye el numero de sucesos que ocurren
Binomial
0,4 Prob. Evento,Ensayos

0,2,9
0,2,15
0,2,50
0,3
probabilidad
0,2
0,1
0
0 10 20 30 40 50
x
P próximo al 0.5 y numero de pruebas muy alto (Binomial aproximo a normal)
16

3. Distribución Hipergeométrica.
Un modelo Hipergeométrico se utiliza, al igual que un modelo binomial, cuando la variable indica
el número de eventos obtenidos en n repeticiones de una prueba binaria. La diferencia estriba en
que en el modelo hipergeométrico las repeticiones no serán independientes o, dicho de otro modo,
la probabilidad del evento considerado no será constante en las n repeticiones de la prueba.
Se aplica especialmente cuando realizamos muestreos sin reposición en poblaciones pequeñas, o
cuando el tamaño muestral n supera el 10% del tamaño poblacional N. Si las extracciones son sin
reposición, al variar la composición de la población, la probabilidad del evento puede variar
significativamente de una extracción a otra. En este modelo, los parámetros serán el tamaño
poblacional N, el tamaño muestral n y la probabilidad en la primera extracción del evento
considerado.
Ejercicio 7: Aplicación distribución hipergeométrica.
Un cargamento de 20 monitores de registro para realizar holters será aceptado o rechazado en

base a una muestra de 5 unidades seleccionadas aleatoriamente del lote. El cargamento será

rechazado si en la muestra hay más de una unidad defectuosa.
¿Cuál es la probabilidad de que el cargamento sea aceptado si se sabe que hay 2 unidades en el
cargamento que no cumplen las especificaciones?
X= nº monitores defectuosos en los 5 examinados
N 20, n=5, D=2
X->H(p=2/20 , n=5 , N=5 )
P (aceptado)=P(X<=1)=P(X=2)
2 0,947368
Ejercicio 8: Aplicación distribución hipergeométrica .
Una tienda de ordenadores personales tiene en stock 20 equipos listos para vender. El gerente está
convencido de que 3 de ellos son defectuosos, sin saber cuáles son. Al día siguiente se venden 4
equipos ¿cuál es la probabilidad de que se hayan vendido todos los defectuosos?
X= nº monitores defectuosos en los 5 examinados
N 20, n=4, D=3
X->H(p=3/20 , n=4 , N=20 )
P (vendido todos defectuosos)=P(X=3)

3 0,00350877
4. Distribución Geométrica y Binomial negativa.
17

Al igual que en el modelo binomial, se considera un experimento con dos posibles resultados del
cual se van repitiendo sucesivos ensayos. La diferencia estriba en que en el modelo binomial
negativo la v.a. indica el nº de ensayos en los que no ocurre el evento antes de observar la k-ésima
repetición del evento. Por tanto, a diferencia del modelo binomial, el conjunto de valores posibles
de la v.a. es ilimitado.
Statgraphics: Procedemos de forma análoga al caso anterior de la distribución binomial. En este

caso los parámetros solicitados por el programa es p (Probabilidad Evento), es decir, la
probabilidad de que ocurra un evento en un ensayo y k el número de ocurrencias del evento que
se deben presentar antes de finalizar las repeticiones. Recordar que el Statgraphics calcula la
probabilidad de que haya x ensayos en los que no ocurra el evento antes del evento k-ésimo.

Ejercicio 9 : Aplicación distribución geométrica
Sí la probabilidad de que un cierto dispositivo de medición muestre una desviación excesiva es de
0.05, ¿cuál es la probabilidad de que el sexto de estos dispositivos de medición sometidos a prueba
sea el primero en mostrar una desviación excesiva?.
C1,C2,C3,C4,C5,D1
X= nºdispositivos correctos antes del primer defectuoso
X->G(p=0.05) X->BN(p=0.05, k=1)
5 0,038689
Ejercicio 10: Aplicación distribución binomial negativa

Se lanza al aire una moneda trucada 8 veces, de tal manera que la probabilidad de que aparezca
cara es de 2/3, mientras que la probabilidad de que aparezca cruz es de 1/3. Determine la
probabilidad de que en el último lanzamiento aparezca la primera cara.
+,+,+,+,+, C1,C2,C3
X= nº cruces antes de la primra cara
X->BN (p=2/3, k=3)
P(X=5)
5 0,024718
4. Distribución de Poisson.
18
Una v.a. X sigue un modelo de Poisson de parámetro λ cuando representa el número de ocurrencias
independientes de un suceso que se observan en un período de tiempo, longitud, superficie o
volumen, siempre que estas ocurrencias se presenten con regularidad e independencia. El
parámetro λ representa el número medio de sucesos que ocurren en todo el periodo observado.
También será adecuado el modelo de Poisson, cuando nuestra v.a. se adecúa a un modelo binomial,
siendo n muy elevado y p muy pequeño.
Statgraphics: Desplegar el menú Describir y el submenú Distribuciones de Probabilidad. Utilizar

el botón derecho del ratón para trabajar con un valor medio (recordar que el valor medio en esta
distribución es igual a λ ) distinto del seleccionado por defecto (Opciones de Análisis).
Ejercicio 11: Aplicación distribución de Poisson.
En cierta población, cada año se diagnóstica un promedio de 13 nuevos casos de cáncer esofágico.

Si la incidencia anual de este tipo de cáncer sigue una distribución de Poisson, calcular la
probabilidad de que en un año determinado el número de nuevos casos diagnosticados de cáncer
sea:
X(t)= nº de cancer esofágicos en 1año
Alfa = promedio de casos de cancer en un año=13 casos/año
X()->Ps(lambda=alfa* 13)
a) Exactamente 10
P(X=10)
10 0,0858702
b) No más de 12
P(X<=12)= P(X<13)
13 0,463105
c) Al menos 8
P(X>=8)
19


7 0,945972
d) Entre 9 y 15 ambos inclusive

P(9<=X<=15)
9 0,0997579
16 0,763607
0.76-0.099
e) Menos de 7
P(X<7)
7 0,0258869

f) ¿Podríamos aplicar el modelo de Poisson si supiéramos que la tasa de incidencia está
creciendo últimamente?
No, porque la probabilidad no permanece constante
20
Una compañía de seguros con 10.000 asegurados, halla que el 0,005% de la población fallece cada
año de un cierto tipo de accidente.
N muy grande y p muy pequeño aproximamos
N>30, p<0.1
X->Ps(lambda=0.5)
a) calcular la probabilidad de que la compañía tenga que pagar a los beneficiarios de más de
3 de los asegurados contra tal accidente en un año determinado.

3 0,00175154
b) ¿cuál es el número de accidentes al año por término medio?

1 cada dos años (“0.5”al año)

c)¿Se podría modelizar con otra distribución?
Si, con la binomial

3 0,00175075
21

El número de usuarios que acceden a un ordenador, que hace de servidor de una red, es, por
término medio, de 3000 cada hora. Suponiendo que los accesos se producen de forma independiente
y con media constante, se desea calcular la probabilidad de que en un minuto determinado accedan
a dicha red:
X(t)= nº usuarios que acceden en t minutos->Ps(λ)
Alfa= 3000usuarios/hora= 3000/60 usuarios x minuto = 50 usuarios /minuto
X(1)->Ps(lambda= 50)

a) Exactamente 40 usuarios.
X=40
40 0,0214996
b) Entre 40 y 50 usuarios, ambos valores incluidos.

P(40<=X<=50)
c) Área Cola Inferior (<)
40 0,0645704
51 0,537517
0,53-0.06…
a) La red puede atender como máximo 100 accesos por minuto. ¿Cuál es la probabilidad de que
hayan más de 100 accesos en un minuto, y por tanto, se produzcan retrasos en el tráfico de la
red.
P(X>100)

100 6,95231E-9
22
PRÁCTICA 3:
DISTRIBUCIONES CONTÍNUAS
Contenido:

1. Distribuciones continuas
2. Distribución normal
3. Modelo Exponencial
4. Modelo log-normal

1. Distribuciones continuas
Las v.a. pueden ser discretas o continuas. Las v.a. discretas vimos en la práctica 2, que eran el
resultado de un proceso de conteo (nº unidades correctas, nº unidades defectuosas, …). Las v.a.
continuas que trabajaremos en este tema son el resultado de un proceso de medición
 Pesos
 Longitudes
 tiempo antes de que se produzca una avería, …
Al igual que en el caso discreto, existen diferentes funciones de variable real, que permiten describir
la distribución de una v.a. contínua. Tanto la función densidad como la función de distribución nos
permiten calcular la probabilidad de que una va.contínua tome valores en un intervalo.
Para hallar la probabilidad de que una v.a. se mueva en un intervalo, a partir de la función de
densidad, es necesario integrar una función, que en muchas ocasiones no es integrable
analíticamente, como en el modelo normal, lo cual obliga, si no se dispone del software adecuado,
a recurrir a una tabla que nos proporciona el valor de la función de distribución para un modelo
tipificado. Evidentemente, estos problemas desaparecen si trabajamos con un software estadístico
adecuado.

El statgraphics permite, en las v.a. discretas (como vimos en la practica 2 , calcular en cualquier
punto x:
P X  x  , P X  x  y P  X  x 
En este tipo de variables, vimos que podíamos calcular a partir de estos valores, la probabilidad
de que nuestra v.a. se moviera en cualquier intervalo, fuera este cerrado, abierto o semiabierto,
Pa  X  b   P X  b  PX  a   P X  a 
Pa  X  b   P X  b  P X  b  PX  a   P X  a 
Pa  X  b   PX  b  PX  a 
Pa  X  b   P X  b  P X  b  P X  a 
Evidentemente, la probabilidad de que una v.a. discreta tome valores en un intervalo puede variar
considerablemente, según que los límites estén o no estén incluidos en el intervalo.
No obstante, en una v.a. continua se verifica que la probabilidad en un punto es siempre nula ya
que,
PX  x   P X  x   P X  x   FX x  lim FX x   FX x   FX x   0

x x
Es por ello que la probabilidad de que una v.a. continua se mueva en un intervalo puede calcularse
siempre como,
P a  X  b   P a  X  b   P a  X  b   P a  X  b   P  X  b   P X  a 
sea el intervalo abierto, cerrado o semiabierto.

En este tipo de variables el Statgraphics, proporciona únicamente P(X<x) y P(X>x) y en lugar de

P(X=x) proporciona el valor de la función de densidad, aunque este valor no resulta útil para hallar
la probabilidad de que la v.a. se mueva en un intervalo.
Los modelos continuos, al igual que los modelos discretos, se agrupan en familias, y se identifican
por parámetros. La identificación de las familias, en el caso de variables continuas no vendrá
determinada exclusivamente por la definición de las v.a., y en muchos casos, si buscamos el modelo
que mejor se ajuste a unos datos, resultarán útiles herramientas como el histograma o los papeles
probabilísticos.
Respecto a la determinación de los parámetros, en el caso de que dispongamos de una muestra
aleatoria, podremos obtener estimaciones aproximadas a partir de los papeles probabilísticos, o
bien recurrir a herramientas de inferencia, como la estimación máximo-verosímil, que nos permitan
una estimación más precisa.
Statgraphics: Statgraphics permite trabajar sobre 39 familias de modelos continuos. En esta clase
práctica trabajaremos sobre modelos normales y exponenciales.
a) Si el modelo probabilistico que sigue la v.a. ya se conoce, entraremos por

Describir  Ajuste Distribuciones  Distribuciones Probabilidad
y podremos obtener, según ese modelo, la probabilidad de que nuestra variable tome valores en un
intervalo, percentiles y representaciones gráficas de la función de densidad y la función de
distribución
b) Si desconocemos la distribución de la v.a. en la población y únicamente disponemos de sus

valores en una muestra extraída de la población entraremos por
Describir  Ajuste Distribuciones Gráficos de Probabilidad
y los papeles probabilístico pueden ayudarnos a seleccionar familias con modelos adecuados para
describir la distribución de la v.a..
c) Una vez seleccionada la familia o familias más adecuadas, si entramos por
Describir  Ajuste Distribuciones  Ajuste de datos no censurados
y le indicamos la familia o familias seleccionadas, nos proporciona una estimación óptima de los
parámetros para cada familia, mediante técnicas de inferencia estadística y nos permite valorar
gráficamente la adecuación del modelo a los datos muestrales mediante un histograma y un gráfico
cuantil-cuantil. También nos ofrece, mediante técnicas de inferencia, contrastes que miden la
bondad del ajuste y nos ayudan a tomar una decisión definitiva. Una vez seleccionado de forma
definitiva el modelo que mejor se ajusta a nuestros datos, el statfolio nos permite calcular la
probabilidad, según el modelo, de que nuestra variable se mueva en un intervalo y determinar
percentiles

Ejercicio 1:
Si una v.a. sigue una distribución normal de media 15 y desviación típica 5, contesta a las siguientes
preguntas
Distribución Acumulada
Distribución: Normal

15 0,5
25 0,97725
60 1,0
Probabilidad de Densidad

15 0,0797885
25 0,0107982
60 2,05595E-19

15 0,5
25 0,02275
60 0,0
El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Normal. Calculará las áreas de colas para hasta 5 valores críticos
de la
primera
distribución especificada, la probabilidad de obtener un valor menor que 15,0 es 0,5. También, la probabilidad de obtener un valor
mayor que
15,0 es 0,5. La altura de la función de densidad de probabilidad en 15,0 es 0,0797885.
N (15,5)
a) ¿Cuál es la P(15<X< 25)

25 0,97725
15 0,5
P(15<X<25) = 0.97725-0.5 = 0.47725
b) ¿Cuál es el valor de la función de densidad para x = 15?

15 0,0797885
c) ¿Cuál es la P (X>25)?
25 0,02275
d) ¿Cuál es la P(X<60)?
60 1,0

6


2. Distribución normal
Muchos tipos de análisis estadístico de datos continuos se basan en la hipótesis de que los datos
son una muestra de una población normal.
Existen métodos alternativos que se pueden utilizar cuando los datos no verifican esta hipótesis,
pero presentan desventajas. Es importante, por lo tanto, antes de comenzar, verificar si es admisible
que nuestros datos proceden de una población normal.
Para evaluar la normalidad podemos basarnos en el histograma muestral, pero será difícil de
evaluar en muestras pequeñas ya que su forma va a depender mucho de los intervalos que
seleccionemos.
Como alternativa tenemos los papeles probabilísticos que nos ayudan a identificar el modelo más
adecuado para describir la distribución de una v.a continua. Estos papeles se basan en intentar
identificar en las distintas familias de distribuciones continuas una relación lineal entre una
transformación de X y una transformación de la función de distribución.
En el caso de la distribución normal, si una variable sigue una distribución normal debe verificarse
que

 x  x
F  x       F  x  
1
   
En base a esta relación, en el papel probabilístico normal representamos en abscisas los valores
de los datos muestrales y en ordenadas el percentil normal correspondiente a las frecuencias
relativas muestrales de los datos. Si los datos proceden de una población normal estos puntos
deberán estar alineados.
Para facilitar la labor, se utiliza en el eje de ordenadas una escala especial de tal modo que cuando
representamos la frecuencia relativa acumulada, realmente estaremos representando el percentil
de una v.a. Z correspondiente a esa frecuencia relativa.

En el caso de que los puntos no estén alineados podemos encontrarnos los siguientes casos:
Aunque el papel probabilístico es una herramienta muy útil para juzgar la normalidad, debido a la
variabilidad muestral, sabemos que muestras procedentes de una población normal pueden no ser
exactamente normales, por ello es útil también tener otros métodos alternativos para valorar y
cuantificar la desviación de la normalidad. Podemos considerar como apoyo las representaciones
de Box-Whisker y los valores de los coeficientes de asimetría y curtosis estandarizados.
Una vez seleccionadas aquellas familias que pueden contener modelos adecuados para describir
la distribución de la v.a. hay métodos gráficos que permiten estimar aproximadamente sobre el
mismo papel probabilístico los parámetros del modelo. Estos métodos son útiles debido a su
sencillez.
En concreto, en una distribución normal se obtendrá una primera estimación de los dos parámetros
del modelo (media y desviación típica), teniendo en cuenta que el percentil 84 coincide con la suma
de ambos y el percentil 50 coincide con la media. No obstante, no hay que olvidar que los resultados
obtenidos por métodos gráficos son siempre aproximados. Hay métodos matemáticos mucho más
precisos (método de los momentos, el método de máxima verosimilitud, etc.) que nos permitirán,
partiendo en ocasiones de estimaciones iniciales, identificar con mayor precisión, el modelo que
mejor se ajusta a los datos dentro de familia elegida.
Si se ha decidido que los datos pueden provenir de una normal y se han obtenido estimaciones de
los parámetros, las pruebas Q-Q y los test de bondad de ajuste permiten valorar la adecuación de
los datos al modelo. P valor <0,05 rechazo el modelo y busco otro
En concreto los test de normalidad permiten estimar cual sería la probabilidad de obtener dicha
muestra en un muestreo si la población de partida fuera una población normal con dichos
parámetros. Si esta probabilidad fuera suficientemente pequeña (<0.05) rechazaríamos el modelo
normal. No obstante, el tamaño muestral influye en la potencias de estos test y en muestras grandes,
son capaces de detectar pequeñas desviaciones de la normalidad que en muestras pequeñas no
hubieran sido detectadas. También hay que tener en cuenta que la presencia de outliers, o
desviaciones en las colas de la distribución, también pueden ser muy influyentes en su resultado.
Ejercicio 2: CASO IDEAL
a) Abrir el archivo de datos de la practica 3, representar el histograma y el gráfico de Box-whisker

y obtener los coeficientes de asimetría y curtosis para la variable PESO de los alumnos
varones¿Podríamos aceptar el modelo normal?
Statgraphics: Desplegar el menu Describir, el submenu Datos numéricos y elegir la opción

Análisis de una variable. SEXONUM=1
El modelo normal podría servir al estar los coeficientes de asimetría y curtosis en el intervalo [-
2,2]

Recuento 89
Sesgo 0,255692
El StatAdvisor
medidas de forma.
muestra

la
del sesgo
estandarizado se encuentra dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis
estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.
b) Obtener una representación en papel probabilístico normal de los datos de la variable PESO de
los alumnos ¿Se distribuye el peso de los chicos de forma aproximadamente normal?
Statgraphics: Desplegar el menu Describir, el submenu Ajuste de distribuciones y elegir la

opción Gráficos de Probabilidad.
No se ajusta adecuadamente a la funcion de probabilidad unifrome, sin embargo a la funcion

normal si
Gráfica de Probabilidad Uniforme
100 Gráfica de Probabilidad Normal
80 99,9
porcentaje acumulado
99
60
95
40 80
50
20
20
0 5
56 66 76 86 96 1
PESO
0,1
56 66 76 86 96
PESO

c) Seleccionar sobre papel probabilístico, con métodos gráficos, el modelo normal que mejor se
ajusta a la variable PESO de los alumnos ¿Cuáles son los valores aproximados de los parámetros
que identifican el modelo?
Statgraphics: Utilizar la opción Locate
X0.5= µ=71.5kg
X0.84= µ+Ơ =79.6kg
Sigma = 79.6-71.5= 8.1
Peso N(71,5 8.1)
d) Determinar con más precisión, utilizando métodos matemáticos los parámetros del modelo
normal que mejor se ajusta a la variable PESO de los alumnos

opción Ajuste de datos no censurados.
Distribuciones Ajustadas
Normal
media = 71,3596

desviación estándar = 8,05838
e) Representar el histograma, la función de densidad, el gráfico cuantil-cuantil y obtener el test de

normalidad ¿se ajusta el modelo a los datos?
Gráfica Cuantil-Cuantil
Histograma para PESO
91 Distribución
12 Distribución
Normal
Normal
10
81
8
frecuencia
PESO
71
6
4
61
2
51
0
51 61 71 81 91
54 64 74 84 94
Distribución Normal
PESO
ajuste muy bueno
Valor-P 0,942461
p-valor no< 0.5 no tengo motivos evidentes para rechazar el modelo normal
Chi-Cuadrada = 19,2809 con 20 g.l. Valor-P = 0,50364 Tampoco es inferior a 0.5
10

f) Una vez elegido el modelo que mejor se ajusta a la distribución del peso de los alumnos, calcular
la probabilidad de que un alumno elegido al azar tenga un peso:
 Entre 60 y 80 kg P(X<80)- P(X<60)= 0.85-0.08

 Mayor de 100 kg 0.000189
 Menor de 60 kg 0,0793202
Areas de cola
Áreas de Cola para PESO
X Área Cola Inferior (<) Área Cola Superior (>)
60,0 0,0793202 0,92068
80,0 0,858193 0,141807
100,0 0,99981 0,000189662
El StatAdvisor
En esta ventana se calculan las áreas de colas para la distribución normal ajustada. Calculará áreas de colas hasta para 5 valores críticos, los
cuales pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica que la
probabilidad de obtener un valor menor o igual a 60,0 es 0,0793202 para la distribución normal ajustada.
Ejercicio 3
El tiempo medio de CPU necesario para la ejecución de una clase de programas en un ordenador

central es 2,52 minutos y la desviación típica es 0,37 minutos. Si el tiempo de ejecución se distribuye
normalmente, ¿cuál es la probabilidad de que un programa seleccionado aleatoriamente requiera
entre 2 y 4 minutos de CPU? ¿Cuál es la probabilidad de que la diferencia en valor absoluto entre
el tiempo de ejecución y la media sea menor o igual que 1 minuto? P(-1<x<1)
Distribución Acumulada
Distribución: Normal

1 0,0000199566
2 0,0799501
4 0,999968
1 0,000233352
2 0,401612
4 0,000361703

1 0,99998
2 0,92005
4 0,000031686
El StatAdvisor
Esta ventana evalúa la distribución acumulada de la Distribución Normal. Calculará las áreas de colas para hasta 5 valores críticos
de la
primera
distribución especificada, la probabilidad de obtener un valor menor que 1,0 es 0,0000199566. También, la probabilidad de
obtener un valor
mayor que 1,0 es 0,99998. La altura de la función de densidad de probabilidad en 1,0 es 0,000233352.
11

Ejercicio 4: ESTUDIO CALIDAD DE LA SIMULACION CASO EN EL QUE PUEDE NO
AJUSTAR
Simular 100 valores de una variable aleatoria normal de media 10 y desviación típica 5.
Guardar los datos obtenidos en la variable NORMAL1
Distribución> Ajuste de distribuciones >distribución de probabilidad> números aleatorios
Guardar
Histograma
18
15

12
frecuencia
0
-3 2 7 12 17 22 27
RAND1
a) Representar los datos en papel probabilístico normal. Obtener a partir del gráfico una
estimación aproximada del valor medio y de la desviación típica
Describir< ajuste de distribuciones > gráficos de probabilidad
si que se ajusta correctamente

Gráfica de Probabilidad Normal
99,9
99
95
80
50
20
5
1
0,1
-2 3 8 13 18 23
RAND1
X0.5 =
X0.84=
12
b) ¿Podemos considerar que los datos han sido generados correctamente? Realizar un test de
bondad de ajuste.
Pruebas de Bondad-de-Ajuste para RAND1
Prueba de Kolmogorov-Smirnov
Normal
DMAS 0,0763584
DMENOS 0,0518882
DN 0,0763584
Valor-P 0,604353
El StatAdvisor
Esta ventana muestra los resultados de diversas pruebas realizadas para determinar si RAND1 puede modelarse
adecuadamente con una
distribución normal.
Debido a que el valor-P más pequeño de las pruebas realizadas es mayor ó igual a 0,05, no se puede rechazar la idea de que
RAND1 proviene
de una distribución normal con 95% de confianza.
Valor p>0.5 se podría aceptar el modelo

Chi-Cuadrada = 25,28 con 21 g.l. Valor-P = 0,235241

c) Una vez determinado el modelo, calcular en base al modelo seleccionado la probabilidad
de que la v.a. tome un valor superior a 15
Áreas de Cola para RAND1
X Área Cola Inferior (<) Área Cola Superior (>)
15,0 0,848606 0,151394
El StatAdvisor
En esta ventana se calculan las áreas de colas para la distribución normal ajustada. Calculará áreas de colas hasta para 5
valores críticos, los
cuales pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la
salida indica que la
probabilidad de obtener un valor menor o igual a 15,0 es 0,848606 para la distribución normal ajustada.
13

3. Modelo Exponencial
El modelo normal no suele ser útil para describir el tiempo de vida porque la función de densidad
de T suele ser asimétrica positiva y T toma exclusivamente valores no negativos.
La distribución exponencial se utiliza frecuentemente como modelo cuando la variable en estudio

es el tiempo transcurrido antes de que se presente un suceso, siempre que la tasa de ocurrencia por
unidad de tiempo, α, sea constante en todo el período de observación.
Modeliza el tiempo entre eventos de Poisson consecutivos
En el modelo exponencial se verifica que
1  1 
Rt   e t   e t  ln    t
Rt   Rt  
En base a esta relación, en el papel probabilístico exponencial representamos en abscisas los

valores de los datos muestrales y en ordenadas el logaritmo neperiano de 1/(1-F(t)), siendo F(t) las

frecuencias relativas muestrales las frecuencias relativas muestrales de los datos. Si los datos
proceden de una población exponencial estos puntos deberán estar alineados.
Para facilitar la labor, se utiliza en el eje de ordenadas una escala logaritmica de tal modo que
cuando representamos la frecuencia relativa acumulada, realmente estaremos representando su
logaritmo de 1/R(t)
.
En el papel probabilístico exponencial se obtendrá una primera estimación del parámetro lambda,
teniendo en cuenta que el percentil 63 coincidirá con la media
14

Ejercicio 5: Modelizando el tiempo de vida
a) Representar el histograma y el gráfico de Box-whisker y obtener los coeficientes de asimetría y

curtosis para la variable TIEMPO que indica el tiempo que tardan los alumnos en llegar a la
Universidad. ¿Podríamos aceptar el modelo normal?

Análisis de una variable.
Los coeficientes se salen del intervalo (-2,2) no podemos aceptar modelo normal
Resumen Estadístico para TIEMPO
Recuento 131
Promedio 26,1221
Mínimo 4,0
Máximo 90,0
Rango 86,0
Curtosis Estandarizada 3,31496
El StatAdvisor
Esta tabla muestra los estadísticos de resumen para TIEMPO. Incluye medidas de tendencia central, medidas de variabilidad y
medidas de

forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para
determinar si la
de sesgo
estandarizada no se encuentra dentro del rango esperado para datos provenientes de una distribución normal.
Gráfica de Probabilidad Normal Histograma
99,9 30
99
25
95
20
80
frecuencia
50 15
20
10
5
5
1
0,1 0
0 20 40 60 80 100 -10 10 30 50 70 90 110
TIEMPO TIEMPO
15

b) Obtener, a partir de los datos de la encuesta, una representación en papel probabilístico normal
y exponencial de los datos de la variable TIEMPO, ¿Se distribuye esta variable de forma
aproximadamente normal? En caso de ser asimétrica, ¿la asimetría es positiva o negativa? ¿Es
posible admitir el modelo exponencial?
No se distribuye normalmente
Asimetría positiva
Podríamos admitir modelo exponencial

opción Gráficos de Probabilidad. Seleccionar los modelos normal y exponencial
Gráfica de Probabilidad Exponencial
99,9
99,5
99
95
90
80
70
50
0,1
0 30 60 90 120 150
TIEMPO
c) Seleccionar sobre papel probabilístico, con métodos gráficos, el modelo exponencial que mejor
se ajusta a la variable TIEMPO ¿Cuál es el valor aproximado del parámetro que identifica el
modelo?
Statgraphics: Utilizar la opción Locate
E(T)=1/lambda = 26.6
16
d) Determinar con más precisión, utilizando métodos matemáticos el parámetro del modelo
exponencial que mejor se ajusta a la variable TIEMPO

opción Ajuste de datos no censurados.
Ajuste de Distribuciones (Ajuste de Datos No Censurados) - TIEMPO

Datos/Variable: TIEMPO
Exponencial
media = 26,1221
El StatAdvisor
Este análisis muestra los resultados de ajustar una distribución exponencial a los datos de TIEMPO. Los parámetros estimados
para la
distribución ajustada se muestran arriba. Se puede evaluar si la distribución exponencial ajusta los datos adecuadamente,
seleccionando
Pruebas de Bondad de Ajuste de la lista de Opciones Tabulares. También puede evaluarse visualmente que tan bien la distribución
exponencial se ajusta, seleccionando Histogramas de Frecuencia de la lista de Opciones Gráficas. Otras opciones dentro el
procedimiento
permiten calcular y desplegar áreas de colas y valores críticos para la distribución. Para seleccionar una distribución diferente,
presione el
botón secundario del ratón y seleccione Opciones de Análisis.

d) Representar el histograma, la función de densidad, el gráfico cuantil-cuantil y el test de
bondad de ajuste ¿se ajusta el modelo a los datos?
Histograma para TIEMPO Gráfica Cuantil-Cuantil
30 Distribución 150 Distribución

Exponencial Exponencial
25
120
20
frecuencia
90
TIEMPO
15
60
10
5 30
0 0
0 20 40 60 80 100 0 30 60 90 120 150
TIEMPO Distribución Exponencial
Pruebas de Bondad-de-Ajuste para TIEMPO

Exponencial
DMAS 0,0717172
DMENOS 0,24936
DN 0,24936
Valor-P 1,68197E-7
Valor p<<0.5 se rechaza modelo
17

4. Modelo Log-normal
En la modelización del tiempo de vida, T, no siempre es posible admitir que la tasa de fallo
permanece constante en el periodo de estudio.
Aunque el modelo normal no suele ser útil para describir el tiempo de vida porque la función de
densidad de T suele ser asimétrica positiva y T toma exclusivamente valores no negativos, podemos
encontrar una transformación de los datos cuya distribución sea más próxima a la distribución
normal.
La transformación utilizada con más frecuencia es la transformación logarítmica. Adicionalmente,

este tipo de transformaciones, también reduce con frecuencia la influencia de outliers.
De hecho, el logaritmo de T, si se ajusta con frecuencia a un modelo normal. Cuando el logaritmo

de una variable T sigue un modelo normal, se dice que la variable T sigue un modelo log-normal.
Los parámetros son el valor medio y la desviación típica de logT (µ y ) .
A partir del valor medio y la desviación típica de logT es posible obtener el valor medio del tiempo

de vida,
2

E (T )  e 2
18
19


Ejercicio 6.- Distribución log-normal
a) Representar el histograma y el gráfico de Box-whisker y obtener los coeficientes de asimetría y
curtosis para la variable LOG(TIEMPO) ¿Podríamos aceptar el modelo normal? ¿Qué ocurre con
los outliers?

Análisis de una variable.
Resumen Estadístico para log(TIEMPO)

Recuento 131
Sesgo Estandarizado -0,358683
El StatAdvisor

Esta tabla muestra los estadísticos de resumen para log(TIEMPO). Incluye medidas de tendencia central, medidas de variabilidad y
medidas
de forma. De particular interés aquí son el sesgo estandarizado y la curtosis estandarizada, las cuales pueden utilizarse para
determinar si la
del sesgo
estandarizado se encuentra dentro del rango esperado para datos provenientes una distribución normal. El valor de curtosis
estandarizada se
encuentra dentro del rango esperado para datos provenientes de una distribución normal.
b) Obtener, una representación en papel probabilístico normal de los datos de la variable

LOG(TIEMPO)¿Es posible admitir el modelo normal?

opción Gráficos de Probabilidad.
Gráfica de Probabilidad Normal
99,9
99
95
80
50
20
5
1
0,1
1,3 2,3 3,3 4,3 5,3
log(TIEMPO)
si se adecua a un modelo normal
20
c) Seleccionar por métodos matemáticos los parámetros del modelo normal, el modelo lognormal
y el modelo exponencial que mejor describan la distribución de la variable TIEMPO.
Ajuste de Distribuciones (Ajuste de Datos No Censurados) - TIEMPO

Datos/Variable: TIEMPO
131 valores con rango desde 4,0 a 90,0
Exponencial Lognormal Normal
media = 26,1221 media = 26,3124 media = 26,1221
desviación estándar = 18,3673 desviación estándar = 16,6743
Escala log: media = 3,07157
Escala log: desv. est. = 0,630033
El StatAdvisor
Este análisis muestra los resultados de ajustar 3 distribuciones a los datos en TIEMPO. Los parámetros estimados de las
distribuciones
ajustadas se muestran arriba. Se puede probar si las distribuciones ajustan adecuadamente a los datos, seleccionando Pruebas de
Bondad de
Ajuste de la lista de Opciones Tabulares. También puede evaluarse visualmente que tan bien se ajustan las distribuciones
seleccionando
Histograma de Frecuencias de la lista de Opciones Gráficas. Otras opciones dentro el procedimiento permiten calcular y desplegar
áreas de
colas y valores críticos para la distribución. Para seleccionar una distribución diferente, presione el botón secundario del ratón y

seleccione
Opciones de Análisis.
e) Usar el histograma y el grafico Cuantil-Cuantil y un test de bondad de ajuste para elegir

uno de los tres modelos
LOG NORMAL
Histograma para TIEMPO
30 Distribución
Exponencial
Lognormal
25
Normal
20
frecuencia
15
10
0
0 20 40 60 80 100
TIEMPO
21

cuantil cuantil el log normal
Gráfica Cuantil-Cuantil
120 Distribución
Exponencial (2 Parámetros)
Lognormal
100
Normal
80
TIEMPO
60
40
20
0
0 20 40 60 80 100 120
Distribución Lognormal
NO RECHAZAMOS MODELO LOGNORMAL

Exponencial (2 Parámetros) Lognormal Normal

DMAS 0,05682 0,10734 0,192871
DMENOS 0,193319 0,0835002 0,0980971
DN 0,193319 0,10734 0,192871
Valor-P 0,000111842 0,0977348 0,000117038
El StatAdvisor
Esta ventana muestra los resultados de las pruebas realizadas para determinar si TIEMPO puede ser modelada adecuadamente por
varias
distribuciones.
Valores-P menores que 0,05 indicarían que TIEMPO no proviene de la distribución seleccionada con 95% de confianza.

Prueba Chi-Cuadrada
Exponencial (2 Parámetros) Lognormal Normal
Chi-Cuadrada 208,458 217,939 230,305
G.l. 24 24 24
Valor-P 0,0 0,0 0,0
e) En base a los resultados obtenidos, según el modelo seleccionado ¿Cuál es la probabilidad de

que el tiempo que tarda un alumno en llegar sea menor o igual a 10m? ¿Y de que supere los 30 m?
¿Y de que esté entre 10 y 30 m?
Áreas de Cola para TIEMPO

Área Cola Inferior (<=)
X Exponencial (2 Parámetros) Lognormal Normal
10,0 0,237552 0,111129 0,166799
30,0 0,691272 0,699581 0,591953

10,0 0,762448 0,888871 0,833201
30,0 0,308728 0,300419 0,408047
22

El StatAdvisor
Esta ventana calcula las áreas de cola para las distribuciones ajustadas. Calculará áreas de colas hasta para 5 valores críticos, los
cuales
pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica
que la
probabilidad de obtener un valor menor o igual a 10,0 es 0,237552 para la distribución exponencial de 2 parámetros ajustada.
f) Obtener los tres cuartiles de los modelos considerados y compararlos con los cuartiles muestrales
Áreas de Cola para TIEMPO
Área Cola Inferior (<=)
0,25 0,0 7,49012E-13 0,0603763
0,5 0,0 1,15149E-9 0,062192
0,75 0,0 4,87087E-8 0,0640501

0,25 1,0 1,0 0,939624
0,5 1,0 1,0 0,937808
0,75 1,0 1,0 0,93595
El StatAdvisor
Esta ventana calcula las áreas de cola para las distribuciones ajustadas. Calculará áreas de colas hasta para 5 valores críticos, los

cuales
pueden especificarse pulsando el botón secundario de ratón y seleccionando Opciones de Ventana. Por ejemplo, la salida indica
que la
probabilidad de obtener un valor menor o igual a 0,25 es 0,0 para la distribución exponencial de 2 parámetros ajustad
23


Wuolah Free PracticasParcial1

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Wuolah Free PracticasParcial1

Cargado por

Copyright:

Formatos disponibles

PracticasParcial1.

2º Grado en Ingeniería Biomédica

Escuela Técnica Superior de Ingeniería Industrial

Reservados todos los derechos.

Reservados todos los derechos.

1. Recogida de datos. Tipos de datos

1. Recogida de datos. Tipos de datos

En esta práctica analizaremos las respuestas de alumnos de la UPV a la siguiente encuesta.

1. SEXO (1-Varón 2-Mujer)……………………………………………..………………………………. -----

2. EDAD (en años)………………………………………………………..…………………….………… -----

3. MES DE NACIMIENTO (1 A 12)……………………………..…………………………………..…… -----

5. PESO (en kgs)…………………………………………….……………………………………………. -----

6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE………………………………………..------

7. ESCRIBE UN DIGITO AL AZAR DE 0 A 9……………………….………………………………….. -----

8. LUGAR DE RESIDENCIA DURANTE EL CURSO:……………………….…………………………------

Reservados todos los derechos.

9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD? :………….……………….…………------

11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE

12. ¿CUÁL ES EL NIVEL EDUCACIONAL DE TUS PADRES? PADRE___ MADRE___

13. DE LAS 24 HORAS DEL DÍA ¿QUÉ PORCENTAJE DEDICAS A..

La vida son experiencias, Cuenta Smart

Ejercicio 0: Tipos de datos

 una cualidad (característica cualitativa o categórica)

Reservados todos los derechos.

En el análisis estadístico de unos datos tendremos que:

 organizar los datos en tablas de frecuencias

Reservados todos los derechos.

Statgraphics: Desplegar el menú de Estadística Descriptiva (Describir), el submenú Datos

Tabla de Frecuencia para PROBLEMA

si lees esto me debes un besito

Diagrama de Barras de PROBLEMA Diagrama de Barras de PROBLEMA

Reservados todos los derechos.

d) Analizar mediante un diagrama de sectores los resultados de la variable POLITICA. ¿Detectas

correctamente 8,99% 0,56%

a) Construye un diagrama de sectores para la característica PESO, considerándola cualitativa

Diagrama de Sectores de PESO

Reservados todos los derechos.

si lees esto me debes un besito

Reservados todos los derechos.

No es una tabla comparable, establecemos intervalos nuevos

si lees esto me debes un besito

Tabla de Frecuencias para PESO

Reservados todos los derechos.

si lees esto me debes un besito

d) Obtener y copiar un histograma de frecuencias absolutas de la variable PESO ¿Qué

Reservados todos los derechos.

e) Obtener y copiar el histograma de frecuencias relativas ¿Qué información proporciona este

f) Representar el polígono de frecuencias. ¿Qué relación tiene con el histograma?

Reservados todos los derechos.

Ligera Asimetría positiva

si lees esto me debes un besito

h) Obtener y copiar el histograma de frecuencias relativas acumuladas. ¿Qué información

Statgraphics: Para representar el histograma de frecuencias relativas acumuladas, pulsar el botón

Un 9,5 % de la muestra tiene un peso inferior a 55kg

Reservados todos los derechos.

si lees esto me debes un besito

2. Medidas que caracterizan una distribución de frecuencias

Ejercicio 3: Medidas de tendencia central y posición

Reservados todos los derechos.

Resumen Estadístico para PESO

si lees esto me debes un besito

Reservados todos los derechos.

Varianza muestral (s2) Recuento 178

Resumen Estadístico para PESO

12. ¿CUÁL ES EL NIVEL EDUCACIONAL DE TUS PADRES? PADRE_ MADRE_