Está en la página 1de 3

Programa Iberoamericano de Formación en Minerı́a de Datos

Tarea Número 4
Curso: Programación en R Código: MD102
Generación: Bernoulli Fecha de Entrega: 4 de junio del 2019 6:00pm (GMT-6)

Lineamientos Generales
Cada dı́a de atraso en la entrega implica un rebajo de 10 puntos.

La tarea es estrictamente de carácter individual, en caso de detectarse tareas idénticas ambas


tendrán como nota cero.

La tarea debe ser entregada en un documento html y rmd que contenga el código utilizado y
las salidas de consola de cada ejercicio.

El nombre del archivo debe tener el siguiente formato: Tarea1 nombre apellido.html, por
ejemplo, si el nombre del estudiante es Luis Pérez el nombre del documento para la tarea 4
será Tarea1 luis perez.html.

Cada tarea representa un 25 % de la nota total del curso.

Ejercicios
Resuelva los siguientes ejercicios y genere un documento Reproducible con las soluciones (debe subir al
aula virtual el archivo Rmd y el archivo HTML generados):

1. Haga una tabla de contenidos flotante donde cada ı́ndice de la tabla sea un ejercicio. (Exceptuando
el ejercicio 1)

2. Inserte un logo de su preferencia o bien inserte el logo de PROMiDAT, el logo tiene que estar
centrado.

3. Inserte un chunk que no se ejecute y que contenga lo mismo que el chunk de configuraciones.

4. Importe directamente desde Excel en R el archivo EjemploAlgoritmosRecomendación.xlsx el


cual contiene los promedios de evaluación de 100 personas que adquirieron los mismos productos
o muy similares en la tienda AMAZON. Luego con esta tabla de datos realice un análisis básico
de las variables usando el comando str(....) y summary(....). También realice los siguientes
puntos:

a) Grafique la matriz de correlación (Intérprete).


b) Haga un gráfico que le permita identificar los posibles datos atı́picos (Intérprete).
c) Haga un gráfico de pairs (Intérprete).

1
5. Calcule en R para todas las variables cuantitativas presentes en el archivo SAheart.csv: El
mı́nimo, el máximo, la media, la mediana y para la variables chd calcule la cantidad de Si y de
No.

6. La tabla de datos stackloss (que viene con R) contiene 21 observaciones sobre cuatro variables
tomadas en una fábrica en la que el amonı́aco se convierte en ácido nı́trico. Las primeras tres
variables son Air.Flow, Water.Temp y Acid.Conc, la cuarta variable es stack.loss, que mide
la cantidad de amonı́aco que se escapa antes de ser absorbido. Para esta tabla de datos utilice
la función pairs(...) para obtener todos los diagramas de dispersión entre pares de las cuatro
variables.

7. Explique cuál es la función del parámetro cache en un chunk de knitr.

8. Inserte la siguiente fórmula utilizando doble signo de dólar ($):

 √ x  √ x
1+ 5 1− 5
2
− 2

5

9. Utilizando un archivo de xlsx o csv (que no se haya utilizado en ningún curso de PROMiDAT)
con datos propios o descargados de internet y que contenga variables numéricas, realice las
siguientes operaciones.

a) Leer la tabla de datos directamente del archivo.


b) Verifique que las variables numéricas fueron leı́das correctamente.
c) En caso de tener nombres de fila, asigne los nombres a su tabla y elimine la columna que
las contiene.
d ) Con lo visto a lo largo del curso explique a través de tablas y gráficos la relación que existe
entre dichas variables, dé una interpretación a sus resultados.

Entregables: Subir al aula virtual el archivo Rmd y el archivo HTML.

2
3

También podría gustarte