Está en la página 1de 2

Universidad de Bogotá Jorge Tadeo Lozano

Facultad de Ciencias Naturales e Ingeniería


Modelos probabilísticos y Análisis de Datos: Modulo I

Descripción de los datos: Pima Indians Diabetes Database

Donador: Vincent Sigillito


Publicació n en la que fue usado el dataset: Smith, J. W., Everhart, J. E., Dickson, W. C.,
Knowler, W. C., & Johannes, R. S. (1988, November). Using the ADAP learning algorithm to
forecast the onset of diabetes mellitus. In Proceedings of the Annual Symposium on Computer
Application in Medical Care (p. 261). American Medical Informatics Association.
Informació n de la muestra: Todos los pacientes son mujeres mayores de 21 añ os
pertenecientes a la etnia Pima. Otros detalles concernientes con el algoritmo ADAP pueden
ser consultados en el artículo. Nú mero of casos (pacientes): 768. Existen valores perdidos:
si. Nú mero de variables: 8 má s la clase (novena columna)
Descripció n de los datos: (todos son numéricos)
1. [preg]. Nú mero de veces embarazadas
2. [plas]. Concentració n de glucosa plasmá tica después de 2 horas de aplicada una
prueba oral de tolerancia a la glucosa (GTT)
3. [pres]. Presió n arterial diastó lica (mm Hg)
4. [skin]. Espesor del pliegue cutá neo ubicado sobre el mú sculo tríceps
(mm)
5. [test]. Niveles de insulina en suero a las 2 horas (μU/ml)
6. [mass]. Índice de masa corporal (IMC) (peso en kg/(estatura en m)2)
7. [pedl]. Funció n pedigree de la diabetes (tipo de diabetes)
8. [age]. Edad (añ os)
9. [class]. Atributo de clase (0: negativo para diabetes ; 1: positivo para diabetes)

Motivación: El correcto análisis de los datos es el principal insumo para la toma de


decisiones acertadas. Los médicos y los investigadores está n tomando decisiones críticas
todos los días. Por lo tanto, es necesario que estas personas tengan algú n conocimiento
bá sico de aná lisis de datos. Esta actividad tiene como objetivo evaluar las habilidades de los
estudiantes de maestría de la Facultad de Ciencias Naturales e Ingeniería de la Universidad
de Bogotá Jorge Tadeo Lozano para describir datos y calcular probabilidades en un nivel
bá sico.
Instrucciones: Desarrolle los siguientes ejercicios y dé respuesta a las preguntas en un
archivo de texto cuyo nombre corresponda con el suyo. Envíe este archivo al correo:
rodrigo.gil@utadeo.edu.co antes de la media noche del domingo 15 de marzo Adjunte
también el có digo en R que le permitió solucionar cada uno de los puntos.
EJERCICIOS
Con base en los datos descriptos anteriormente (DatosDiabetis.csv) desarrolle cada uno de
los siguientes ejercicios.

Ejercicio 1: Resumen de información en tablas

a. Construya una tabla (só lo una tabla) con estadísticas descriptivas bá sicas: media,
mediana y coeficiente de variació n; para cada una de las variable pero separando la muestra
en dos grupos dependiendo del valor de la novena columna (0: Negativo para diabetes ; 1:
positivo para diabetes).
b. Asigne un nombre conveniente a la tabla y redacte un pá rrafo (evite que sea una sola
oració n) describiendo el conjunto de datos con base en los resultados mostrados en la tabla.
Por tratarse de varias variables puede ser má s fácil se enfoque só lo en algunas (mínimo
tres). Esta descripció n deberá contener comparaciones entre las dos clases definidas por la
novena columna (0:negativo para diabetes; 1:positivo para diabetes). Es comú n que el
pá rrafo anteceda a la tabla y que dentro del texto se haga referencia a ella, por ejemplo: En
la tabla 1 se puede observar que ….

Ejercicio 2: Resumen de información en gráficas


a. Construya una grá fica (solo una) que deje ver la relació n entre las variables mass y skin;
pero en la cual también se pueda distinguir de manera clara el efecto de la variable clase
(class) sobre la relació n entre las variables. Es decir, asigne colores diferentes a los puntos
dependiendo si son 0 o 1 (variable class).
b. Asigne un título apropiado a la grá fica que construyó de manera que se pueda entender
claramente la informació n contenida en ella. Redacte un pequeñ o pá rrafo interpretando la
informació n contenida en la grá fica. Al igual que el caso anterior, el texto precede a la
grá fica.

Ejercicio 3: Explorar correlaciones


a. Explore el nivel de asociació n entre las variables mass y skin para las dos clases por
separado (variable class). Sea cuidadoso al momento de seleccionar el método de
correlació n y una vez lo haya definido justifique brevemente su decisió n. Al momento de
realizar la correlació n reflexione acerca de los siguiente aspectos: ¿Se deben excluir datos
como aquellos que indican valores de cero para mass y skin? ¿Se deberá comprobar que el
valor de la correlació n es significativamente diferente de cero?. Tenga en cuenta estos
elementos al momento de redactar la interpretació n.

Ejercicio 4: Cálculos de probabilidad


Cuá l es probabilidad, calculada con el enfoque empírico, de que una paciente nueva:
a. sea mayor de 40 añ os y haya reportado menos de 5 embarazos.
b. tenga un índice de masa muscular mayor de 40 y una edad inferior a los 30 añ os.
c. presente una concentració n de glucosa plá smatica (plas) menor de 190 y una presió n
arterial diastó lica menor que 100

Ejercicio 5: Función de distribución de probabilidad


a. Asumiendo que la diabetes se distribuye de forma binomial con una probabilidad de éxito
de p=0.65 (considerando a un éxito como ser diagnosticado negativamente para la
enfermedad). Cuál es la probabilidad de que el diagnostico de 105 de los pró ximos 150
pacientes sea negativo con relació n a la diabetes (éxito).
b. Simule una distribució n de valores normales (1000 valores) para la variable índice de
masa corporal cuya media sea 31.5 y desviació n está ndar sea 7.5. Elabore una grá fica
mostrando la distribució n de los datos (por ejemplo un histograma). Qué porcentaje de la
població n tiene un índice de masa muscular mayor que 28.5. Adicione al histograma el valor
de referencia, es decir 28.5.

También podría gustarte