Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Descripción
Esta actividad permite al estudiante hallar las respuestas a situaciones frecuentes
que se presentan durante el manejo de los datos, aplicando los conceptos tratados
en el módulo y desarrollando las competencias de interpretación de los resultados
obtenidos.
Indicador Ponderación
Respuesta a la solicitud que utiliza el 20%
archivo Superstore
Resultados del Atiende la consulta que usa el archivo 20%
Desempeño SFCrime
Ofrece respuesta al cuestionamiento que 20%
utiliza el archivo HealthData
Presentación de la respuesta a la inquietud 20%
que usa el archivo DataExercise
Presentación organizada del documento 20%
word y las evidencias de los cálculos
Total 100%
1
DESCRIPCIÓN DEL PROYECTO A DESARROLLAR
1.1 Revisa que la información esté completa: encontrar cuántos valores faltantes o
vacíos hay en cada columna de los datos entregados.
1.2 Calcular el precio cobrado al cliente: dentro de los datos se encuentra el valor de
venta (Sales) y el valor de envío (Shipping.Cost), así que deberá crear una
columna nueva (Total.Sale) con la suma de estos dos valores.
1.3 Calcular el precio de cada unidad vendida: dentro de los datos se encuentra el
valor de la venta y la cantidad de productos vendidos (Quantity). Calcule el valor
individual del producto (Unit.Price).
1.4 Calcular la relación Costo de Envío y Precio cobrado al cliente: este valor es
calculado como costo del envío (Shipping.Cost) dividido por el precio cobrado al
cliente (Total.Sale calculado en 1.2).
1.5 Valor venta para alcanzar equilibrio en ventas con pérdidas: hay diversas ventas
que se efectuaron a pérdidas (Profit negativos), así que, deberá crear un campo
de valor sugerido de venta (Suggested.Sales) y en este campo calcular el valor
que debería haber tenido la venta para tener un valor de equilibrio (Profit = 0).
Este cálculo SOLO se efectúa en las transacciones que tuvieron un margen de
ganancia negativo, para todas las demás transacciones el valor
(Suggested.Sales) debe ser 0.
1.6 Valor sugerido de productos: utilizando la columna de valor sugerido de venta
(Suggested.Sales, obtenido en 1.5) deberá calcular un precio aconsejado para el
producto vendido (Suggested.Unit.Price), este cálculo se realiza de manera
similar al 1.3.
2
2. En el archivo SFCrime.csv se encuentra la información transaccional de crímenes en
distintos distritos. En este archivo encontramos fechas, categorías, lugares, entre
otros. Con la información brindada deberá realizar los siguientes requerimientos:
2.1 ¿Qué día de la semana se cometen más crímenes? Esto se responderá usando
una gráfica circular (o torta), en donde se observen los nombres de los días
(DayofWeek) junto con el porcentaje y total de crímenes de cada día.
2.2 ¿Cuál es el crimen que más se comete ese día? Este resultado también se
realizará con una gráfica circular, excepto que solo se mostrarán los crímenes
(Category) que superen 200 registros en este día. En la gráfica circular se debe
observar el porcentaje y total de crímenes para cada tipo de crimen.
2.3 Hallar el top 5 de crímenes por cada distrito. Este resultado se puede mostrar en
múltiples tablas (una por Distrito).
3.1 Arregle el nombre de las columnas a un nombre más adecuado: por ejemplo, la
columna “<18” en R queda como “X..18”, así que puede cambiar el nombre a algo
como “Menores.de.18”. Realice este paso con cualquier columna cuyo nombre
no sea claro.
3.2 Realice una regresión lineal entre Porcentaje de Diabetes e Inactividad Física:
esta regresión lineal debe ser mostrada en una gráfica de dispersión entre estas
dos variables con una línea recta (de la regresión) cruzando esta gráfica (similar
como se muestra en la cartilla).
3.3 Use el modelo de regresión lineal para predecir un valor futuro. Con el modelo
obtenido en 3.2, pronostique el porcentaje de diabetes que tendría un Estado con
un valor de inactividad física de 31.
3
4. En el archivo DataExercise.csv se encuentra la información de un subconjunto de
personas de una ciudad. Entre los datos tenemos la edad, el nivel educativo,
ingresos, género, entre otros. Con la información brindada deberá realizar los
siguientes requerimientos:
4.1 Separar la población en número de hijos. Para esto creará una variable por
distinta por cada grupo (Ej: Pob.Hijos.0 para las personas que no tienen hijos,
Pob.Hijos.1 para las personas que tiene solo 1 hijo y así sucesivamente).
4.2 Generar un histograma del Peso del individuo por grupo. Creará un histograma
por cada grupo creado en el 4.1. Se crearán 12 rangos en el histograma, que van
desde el valor mínimo de peso de la población global (no del grupo) hasta el valor
máximo de peso de la población global.
4.3 Explicar qué comportamientos se observa en cada histograma, si lo hay.