Está en la página 1de 41

Actividad 8:

Proyecto Integrador Etapa 3

Equipo: 8

Nombres: Héctor Alejandro Rojas Ortíz


Carlos Alberto Rojas Guerrero
Manuel Alejandro Ruiz Quezada

Materia: Explotación de datos empresariales

Programa: Maestría Ciencia de Datos

Docente: Dr. Patricia Rayón Villela

San Nicolás de los Garza, N. L., a 10 de agosto 2019

0
Contenido

Introducción................................................................................................................................2
Proyecto Etapa 1.......................................................................................................................3
Plan de Instalación R y R Studio.........................................................................................3
Preguntas.........................................................................................................................17
Proyecto Etapa 2.....................................................................................................................22
Ejercicio 1.............................................................................................................................22
Ejercicio 2.............................................................................................................................28
Ejercicio 3.............................................................................................................................32
Ejercicio 4.............................................................................................................................32
Etapa 3......................................................................................................................................33
Ejercicio 1.............................................................................................................................33
Ejercicio 2.............................................................................................................................37
Informe del proyecto...............................................................................................................39
Conclusión................................................................................................................................40
Referencias..............................................................................................................................40

Introducción

1
En este documento consiste en aplicar los conocimientos adquiridos a lo
largo del curso y retomar lo aprendido en asignaturas previas, de modo que
se integraran diferentes disciplinas. De igual forma, se toman como
referente actividades elaboradas previamente, lo que garantiza la
transversalidad de los contenidos revisados para fortalecer el desarrollo de
competencias.

Lo planteado en el proyecto integrador ayuda a demostrar la aplicabilidad


de las técnicas de análisis a cualquier ámbito empresarial. Esto permite
extrapolar el conocimiento adquirido a conjuntos de datos del ámbito
profesional, con la finalidad de preparar datos para su análisis mediante la
aplicación de modelos predictivos.

2
Proyecto Etapa 1

Plan de Instalación R y R Studio

Paso 1

En primera instancia se instalará R y el cual se descarga del siguiente


enlace:

https://cran.r-project.org/

Paso 2

Seleccionamos el cual se acomode a nuestro sistema operativo, en mi


caso elegí para Windows:

3
Paso 3

Pulsamos en base

Paso 4

Descargamos R 3.5.1

4
Paso 5

Haciendo doble clic sobre el fichero comenzamos la instalación y


pulsamos en ejecutar.

Paso 6

Elegimos el idioma de instalación

5
Paso 7

A continuación, arranca el Asistente de instalación, pulsar siguiente:

Paso 8

Informa sobre la licencia, pulsar siguiente.

6
Paso 9

Indicar la ruta de instalación y pulsar siguiente.

Paso 10

Seleccionar los paquetes a instalar, pulsar siguiente.

7
Paso 11

Elegir NO para las opciones de configuración, pulsar siguiente.

Paso 12

Elegir la carpeta del menú inicio donde colocar los accesos directos a los
elementos del paquete, pulsar siguiente.

Paso 13

8
Selección de las tareas adicionales, pulsar siguiente.

Paso 14

Instalación de la aplicación que puede demorar un minuto.

Paso 15

9
Una vez finalizada el proceso de instalación sale una ventana
indicándolo. Pulsar Finalizar.

Paso 16

Se agregará el icono en el escritorio.

Paso 17

Abrimos la aplicación para validar que se ejecute sin ningún error:

10
Paso 18

En segunda instancia se instalará R Studio y el cual se descarga del


siguiente enlace:
https://www.rstudio.com/

Paso 19

Seleccionamos la versión free:

11
Paso 20

Elegimos la que se adapte a nuestro sistema operativo del ordenador (en mi


caso elegí para Windows)

Paso 21

Haciendo doble clic sobre el fichero comenzamos la instalación y pulsamos en


ejecutar.

12
Paso 22

Aparece el Asistente de instalación, pulsar siguiente.

Paso 23

Elegir el directorio de instalación del paquete, pulsar siguiente.

13
Paso 24

Elegir la carpeta del menú inicio donde colocar los accesos directos a los
elementos del paquete, pulsar Instalar.

Paso 25

A continuación, comienza la instalación que dura menos de un minuto


aproximadamente.

14
Paso 26

Enseguida aparece el asistente indicando que ha finalizado la


instalación. Pulsar Terminar.

Paso 28

Aparecerá el icono del RStudio que hemos instalado.

15
Paso 29

Al arrancar Rstudio nos aparece lo siguiente:

Preguntas

1) ¿Qué problemas encontraste al instalar RStudio y cómo los resolviste?

16
Al momento de instalar la herramienta no se presentó ningún detalle, el
único problema que se presentó fue al momento de instalar un paquete:

install.packages("proto")

Mensaje:

Los paquetes de origen descargados están en


?/tmp/Rtmph4YKLX/downloaded_packages?
Actualizar índice HTML de paquetes en '. Biblioteca '
Advertencia en install.packages:
no se puede crear el archivo
' / opt/POC/lib64/Revo-7.3/R-3.1.1/lib64/R/doc/html/packages.html',
razón
'Permiso denegado'

Solución:

Este error se mostró porque no se tiene los permisos de archivo


necesarios para poder escribir en la carpeta de biblioteca R actual como
el usuario, actualmente está conectado. Puede utilizar la función de R
'.libPaths()' para ambas consultas y cambiar la ubicación actual que r
utilizará para instalar nuevas bibliotecas aportados por el usuario.

Por ejemplo:

>.libPaths("/home/testuser/Rlib")

2) ¿Qué tipo de datos relacionados con tu ámbito laboral te interesaría


analizar y cuál sería su finalidad?

Con relación la herramienta R, se pueden cubrir casi todos los rubros de la


empresa donde trabajo en relación al análisis de datos, para tareas
relacionadas con minería de datos se puede utilizar con grandes resultados,
tiene paquetes con los que puedes hacer modelos de regresión lineal, análisis

17
temporal, correlación factorial, ANOVA. También se puede hacer fácilmente
exploración de datos para poder determinar la limpieza de los mismos. En este
sentido también se puede hablar de que se pueden hacer reportes completos
con el uso de otros paquetes de esta herramienta. Existen gran cantidad de
paquetes para gráficos y mapas, dando así una solución rápida a las
necesidades de BI de cualquier empresa. No se tiene la certeza por lo pronto
de su conectividad con las bases de datos más populares, como Oracle o
Netezza, y no contamos con información propia para evaluar el desempeño al
manejar grandes volúmenes de datos, hablando de entre 10 a 100 GB de
información por día, esto sería un tema a investigar. Pero la parte bondadosa
de R es su comunidad y soporte, con esto me refiero a que hay solución para
casi cualquier problema en la red acerca del uso de R.

3) ¿Qué ventajas podrías señalar a partir de la utilización de RStudio y su


relación con el tratamiento de bases de datos?

Ventajas:

 R es un software libre:
o Cuenta con la licencia GNU GPL el cual consta de 4
libertades
 Libertad 0: la libertad de ejecutar el programa como
desee y con cualquier propósito
 Libertad 1: libertad de estudiar el funcionamiento del
programa y adaptarlo a sus necesidades.
 Libertad 2: La libertad de rescribir copias para
ayudar a los demás.
 Libertad 3: La libertad de manejar el programa y
publicar las mejorar, de manera que toda
comunidad se beneficie.
 Es multiplataforma, R funciona en Mac, Windows, y en números
sistemas UNIX.

18
 Es de código abierto, existe una gran comunidad de voluntarios
trabajando para mejorarlo, lo cual permite ser moldeado y dirigido
a cuestiones específicas.
 R es una plataforma estadística, lo cual ofrece todas las
técnicas de análisis de datos.
 Los gráficos disponibles en R son de gran calidad y de una
versatilidad impresionante.
 R remplaza la combinación de varios programas, puedes
realizar todo el análisis de datos e inclusive leer archivos de
diferentes formatos.
 R se está convirtiendo en un estándar en la sociedad científica,
por hacer figuras de calidad de publicación.

4) Investiga al menos dos herramientas alternativas a RStudio para el


análisis de datos y menciona brevemente sus características, ventajas y
desventajas considerando el ámbito laboral y/o profesional en el que te
desenvuelves

Herramienta de minería de texto T-lab

Hablando de la exploración de textos se puede utilizar una herramienta llamada


T-lab que te permite hacer agrupamiento, explorar relaciones y explorar
semejanzas y diferencias entre archivos de texto, esta herramienta consta de
una interfaz fácil de usar para científicos, estudiantes y docentes, a pesar de
que tiene una interfaz gráfica se tiene que tener un bagaje para saber utilizarlo
cómodamente.

A diferencia de Matlab, tiene suits especializadas en varios temas diferentes,


en este caso no se tiene que escribir gran cantidad de código en T-lab como se
hace manualmente en R. esto implica varias diferencias, al utilizar un código
nativo para R entonces se tiene más libertad de hacer lo que se quiera
programar, pero obviamente se necesita más conocimiento especializado en
codificación y bases de datos.

19
Otra diferencia es el tipo de licencia que tiene, R al ser soportado por una
comunidad lo podemos usar libremente y podemos descargar bastantes
librerías que son generadas por esta misma comunidad y se pueden usar sin
ningún problema. En T-lab no se cuenta con dicha comunidad, pero al ser
especializada para las empresas entonces tiene una licencia que tiene un costo
y si tiene derechos reservados entonces no hay una comunidad que esté
continuamente añadiendo funcionalidades.

Herramienta de minería de datos WEKA

Una de las herramientas utilizadas para el análisis y manipulación de datos que


puede ser alternativa a RStudio es WEKA.

Este software es una herramienta muy potente que está escrita en Java, lo cual
permite que pueda ser instalada y usada prácticamente en cualquier dispositivo
que cuente con este ambiente. Otra de las principales características, al igual
que RStudio, es que se mantiene como un software libre y que cuenta con una
comunidad activa para poder solucionar problemas o mejorar el sistema al
mismo tiempo.

Weka es un software capaz de crear algoritmos de machine learning, además


de poder contar con herramientas para la minería de datos, clasificación,
regresión, clustering y visualización. Otra ventaja importante de Weka es que
proporciona acceso a las bases de datos SQL, ya que utiliza la conectividad
que tiene Java con las bases de datos utilizando JDBC para poder manipular la
información almacenada de forma fácil.

Dentro de sus posibles campos de aplicación por el tipo de datos que utiliza y
los métodos de minería de datos que brinda pueden ser el marketing,
manufactura, salud, finanzas y medicina.

20
Proyecto Etapa 2

Para poder realizar los ejercicios, se necesita instalar las librerías necesarias y
la base de datos de diamantes.

Ejercicio 1

Explore la distribución de price. ¿Descubres algo inusual o sorprendente?


(Sugerencia: piense cuidadosamente binwidthy asegúrese de probar una
amplia gama de valores).

Hacemos un plot de la variable precio, podemos ver que hay tres tendencias,
una que incrementa mucho su valor, otra incremente discretamente y otra se
mantiene igual.

21
Podemos ver que los precios se comportan de manera usual, hay más
diamantes baratos y menos caros.

22
Vamos a estudiar los diamantes caros de más de 15000, por eso hacemos un
set de datos separado con estos datos.

En los diamantes caros, el corte que prevalece es el Premium.

En el set de diamantes normales el corte que prevalece es ideal lo que quiere


decir que es muy posible que el corte tenga mucho que ver en el precio.

No hay diferencia entre el set de datos normal y el de diamantes caros con


respecto a depth.
hist(diamantescaros$depth)

23
hist(diamantes$depth)

24
SI2 prevalece en diamantes caros, y SI1 en diamantes, puede ser que el la
claridad tenga algo que ver.
plot(diamantescaros$clarity)

plot(diamantes$clarity)

25
El color L prevalece en diamantes caros, es diferente la distribución en
diamantes, puede ser que sea un factor relevante.
plot(diamantescaros$color)

plot(diamantes$color)

26
El kilaje prevalece en 2 en diamantes caros, entre el dos y el tres. La
distribución es completamente diferente en diamantes, este puede ser el factor
principal.

El costo de los diamantes al parecer tiene que ver con la claridad, el color, el
corte y sobre todo carat, no con depth.

27
Ejercicio 2

¿Cuántos diamantes son 0.99 quilates?  ¿Cuántos son 1 quilate?  ¿Cuál


crees que es la causa de la diferencia?

Se puede observar que hay un gran número de diamantes con carat 1 y pocos
con .99 y .98

Hacemos un set de datos con estas ocurrencias y catar al parecer tiene que ver
con el corte, cuando carat es 1 entonces el corte es Premium, de otra manera
es ideal.

28
La variable depth parece no tener diferencia entre los set de datos.

29
x es un valor muy significativo, hay una gran diferencia en las distribuciones de
diamantes carat y diamantes.

30
Y tiene diferencia pero no se aprecia claramente

Podemos concluir que el corte aporta mucho al kilaje exacto de 1, y la variable


x, en cambio la variable depth no tiene nada que ver.

31
Ejercicio 3

Visualice la distribución de quilates, dividida por precio.

Ejercicio 4

¿Cómo se compara la distribución de precios de los diamantes muy grandes


con los diamantes pequeños? ¿Es como esperabas o te sorprende?

El histograma remueve valores irregulares, esto quiere decir que


automáticamente hace un análisis de varianza y los datos irregulares los
remueve.
na.rm false en mean and sum hacen que retorne un NA pero si esta en true
solo ignora el valor, en caso de mean ignora la línea para que no afecte el
promedio ya que la suma se divide entre el número de ocurrencias.

32
Etapa 3

El objetivo de la tercera parte del proyecto integrador es realizar ejercicios de


covarianza en RStudio, para identificar relaciones entre variables en los datos.

Esta relación ayuda a identificar la tendencia de dos variables a cambiar con alguna
función de dependencia. Para ello, se utiliza nuevamente los conjuntos de datos
diamonds (información sobre atributos de diamantes), faithful (erupciones del geiser
Faithful en Yellowstone) y mpg (información de rendimiento en combustible de autos).

Ejercicio 1

¿Qué variable en el conjunto de datos de diamantes es el más importante para


predecir el precio de un diamante?¿Cómo se correlaciona esa variable corte? ¿Por
qué la combinación de esas dos relaciones hace que los diamantes de menor calidad
sean más caros?

Como parte de la exploración hacemos una gráfica de caja de cada elemento de corte
con la variable precio, se visualiza que hay observaciones anormales en todos. Esto
significa que hay precios muy elevados en todos los cortes, pero también los hay en
cortes tipo fair.

boxplot(diamantes$price~diamantes$cut)

33
Identificar estadísticamente si en verdad las variables de corte, color y claridad son un
factor relevante en el precio. Procedemos con el análisis de varianza para comprobar:

anova(lm(diamantes$price~factor(diamantes$cut)))

anova(lm(diamantes$price~factor(diamantes$color)))

anova(lm(diamantes$price~factor(diamantes$clarity)))

Se demuestra que todos los factores son relevantes en el precio con el set de
datos completo, aunque el menos significativo de los tres es el corte.
Subdividimos el set de datos en los diamantes más caros, arriba de 1300
diamantescaros <- filter(diamantes,diamantes$price > 13000)

Se realiza de nuevo el análisis de varianza para el set de datos de diamantes


caros:
anova(lm(diamantescaros$price~factor(diamantescaros$cut)))

34
anova(lm(diamantescaros$price~factor(diamantescaros$color)))

anova(lm(diamantescaros$price~factor(diamantescaros$clarity)))

Aquí se observa que el corte no es un factor significativo en este set de datos,


lo que verifica que en verdad estas observaciones son anormales. Esto quiere
decir que hay pocos datos o poca densidad de datos de corte de mala calidad
que son caros. Se requiere una gráfica para comprobar:

boxplot(diamantescaros$price~diamantescaros$cut)

35
En este set se puede verificar que la media de los diamantes caros para corte
de mala calidad es menor:
plot(diamantescaros$cut)

En la gráfica anterior se observa que hay muy pocos datos de diamantes arriba
de 13000 que tienen un corte de baja calidad, en realidad se tratan de
observaciones anormales.
diamantescaros

En realidad, hay menos de 40 observaciones de mala calidad en diamantes


caros de 2800 observaciones, esto es casualidad, no es un factor significativo,
36
estas observaciones son totalmente anormales y significa una inflación del
vendedor en un diamante de mala calidad.

Ejercicio 2

Instalar el paquete ggstance y crear un boxplot horizontal. ¿Cómo se compara esto


con el uso de coord_flip()?

Instalar el paquete ggtance


install.packages("ggstance")

A continuación, se muestra una gráfica de cajas de los mismos datos del


ejercicio anterior, la densidad de diamantes arriba de 10000 es muy escasa
para el corte fair:
boxplot(diamantes$price~diamantes$cut, horizontal = T)

boxplot(diamantescaros$price~diamantescaros$cut, horizontal = T)

37
Se concluye que hay casos de abuso al incrementar el precio de diamantes de
baja calidad, y son observaciones anormales.

38
Informe del proyecto

El poder de R consiste en la modularidad de sus componentes, cada


desarrollador o equipo de desarrollo que ha escrito código para R tiene
diferentes aproximaciones para dar una solución a un problema, así podemos
ver que existen muchas librerías de gráficos, unos más recomendables y
fáciles de usar que otros, pero todos coinciden en la importancia de los
gráficos. Es muy difícil visualizar que está pasando con el set de datos
existentes si solo vemos números y valores de variables, es por eso por lo que
tenemos graficas que nos representan de manera rápida el comportamiento de
estos datos, como el histograma y la gráfica de cajas. Hay una máxima común
en los ingenieros mecánicos que dice: “una gráfica dice más que mil
ecuaciones” y esto es cierto para cada rama de ciencia que tenga números y
valores.

En el caso de este proyecto, las gráficas son la herramienta principal para la


inspección de datos, tanto el histograma como la gráfica de cajas sirven no solo
para verificar que los datos sean consistentes, sino también para darnos una
idea del comportamiento de los datos, incluso para saber una aproximación de
la distribución del set de datos.

Gracias a las gráficas generadas por R se pueden presentar hipótesis que


después podemos verificar con métodos estadísticos, y es precisamente de
esta forma que se debe de hacer el descubrimiento de conocimiento. La
exploración de datos es el primer paso de explotación de los datos y por lo
tanto es el más importante, después de la exploración vendrá la comprobación
con métodos estadísticos y la generación de modelos.

39
Conclusión

R es una herramienta versátil y modular, no sé qué tan poderosa sea en el uso


de hardware dado un volumen considerable de datos, pero creo que el tema a
resaltar de R son sus paquetes. R es conocido mundialmente y es un software
libre, su comunidad está desarrollando continuamente nuevos paquetes gratis
para dar solución a nuevos problemas. Lo que significa R es un punto de
encuentro para desarrolladores e interesados en tecnologías de información
para el crecimiento de conocimiento.

Referencias

 Experimental Learning (02 de abril de 2017). R - Install R and R Studio


on Windows 10 [Archivo de video]. Recuperado de https://youtu.be/9-
RrkJQQYqY

 rvaquerizo. (2009). Manual. Curso introducción de R. Capítulo 15:


Análisis Cluster con R (II). octubre 7, 2018, de analisisydecision.es Sitio
web: http://analisisydecision.es/manual-curso-introduccion-de-r-capitulo-
15-analisis-cluster-con-r-ii/

 Unknown . (2015). Ventajas y Desventajas de utilizar R. Julio 28, 2019,


de http://rstadistica.blogspot.com Sitio web:
http://rstadistica.blogspot.com/2015/10/VentajasDesventajasR

 Garrett Grolemund (Enero de 2017). R for Data Science. Recuperado de


https://r4ds.had.co.nz/

40

También podría gustarte