Introducción A La Mineria de Datos

Introducción Minería de Datos
Autor:
Willams A. Canales Verdugo

williams.canales@gmail.com
+56993598650
Santiago, 2021
Índice general
1. Introducción a la minería de datos 3
1.1. Aprendizaje supervisado y no supervisado . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.3. Visualización de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
1.4. Visualización de datos mediante R . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.1. ¿Por qué R? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.4.2. Conociendo RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4.3. Instalando paquetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.4.4. Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
1.4.5. Mapeos estéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.4.6. Objeto geométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
1.4.7. Facetas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.4.8. Transformaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.4.9. Elecciones locales y visualización de datos . . . . . . . . . . . . . . . . . . 25
1.4.10. Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.4.11. Gráfico de líneas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
1.4.12. Gráfico de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
1.4.13. Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
1.4.14. Relación entre las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
1
ÍNDICE GENERAL
1.4.15. patchwork . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.4.16. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
1.4.17. Transformaciones estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . 59
1.5. Datos Faltantes, Datos Perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
1.6. Técnicas de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
2. Metodo Exploratorio 67
2.1. Análisis de componentes principales (ACP) . . . . . . . . . . . . . . . . . . . . . . 67
2.1.1. Explicación teórica del ACP . . . . . . . . . . . . . . . . . . . . . . . . . . 68
2.1.2. Cálculo de los Componentes Principales . . . . . . . . . . . . . . . . . . . 69
3. Bibliografia 70
Resumen Practico - Teórico 2 William Canales Verdugo

Capítulo 1
Introducción a la minería de datos
La Minería de Datos (MD) es una disciplina que busca convertir datos brutos en información
útil.
Antes de definir el concepto de MD, comentaremos algunas ideas básicas, para entender la MD.
Hoy en día, la cantidad de datos que ha sido almacenada en las bases de datos excede nuestra
habilidad para reducir y analizar los datos sin el uso de técnicas de análisis automatizadas. Muchas
bases de datos comerciales transaccionales y científicas crecen a una proporción fenomenal.
KDD (Knowledge Discovery in Databases) es una metodología genérica para encontrar informa-
ción en un gran conjunto de datos y con ello generar conocimiento. Se define como un proceso no
trivial de extracción de información a partir de los datos, la cual se encuentra presente de forma
implícita, previamente desconocida y potencialmente útil para el usuario o para el negocio
El objetivo principal de esta metodología es automatizar el procesamiento de los datos, permi-

tiendo a los usuarios dedicar más tiempo a las tareas de análisis y al descubrimiento de relaciones
entre los datos.
Las etapas de este proceso, tal como se muestra en la Figura 1.1, son:
1. Identificación del problema en estudio, teniendo un objetivo claro para el problema a resolver,
entendiendo las metas del proceso y cuáles son las preguntas que se quieren responder.
2. Selección e integración de los datos, para contar con un conjunto objetivo desde el cual
obtener el conocimiento. Se obtienen los datos desde los sistemas operacionales, los cuales
3
1. Introducción a la minería de datos
Figura 1.1: Etapas del proceso KDD
pueden venir en diferentes formatos y en algunas oportunidades con errores, por lo cual es
importante realizar una etapa de procesamiento.
3. Preparación de los datos (limpieza y pre-procesamiento), ya que en general, como se dijo

en la etapa anterior, los datos provienen desde varias fuentes y en diferentes formatos. En
esta etapa se escogen técnicas y estrategias para corregir errores en el conjunto de datos
seleccionado, tratar la información faltante y unificar formatos.
4. Transformación y almacenamiento de los datos, punto en el que se pueden reducir o agrupar

los datos en las características de interés. Se consolida la información y escoge una arquitec-
tura acorde a las necesidades del problema que permita almacenarla, por ejemplo un Data
Mart.
5. Selección y aplicación de algoritmos de MD, utilizando técnicas adecuadas según la hipótesis

planteada y el análisis que se quiera hacer. Las técnicas seleccionadas permitirán generar
modelos de minería de datos, y con ello descubrir patrones de información implícitos en los
datos.
6. Selección y aplicación de algoritmos de MD, utilizando técnicas adecuadas según la hipótesis

planteada y el análisis que se quiera hacer. Las técnicas seleccionadas permitirán generar
modelos de minería de datos, y con ello descubrir patrones de información implícitos en los
datos.
Las etapas iniciales del proceso KDD son muy importantes porque serán la base sobre la cual se
hará minería de datos. Si la preparación de los datos no está bien hecha, los resultados obtenidos
en los análisis no serán confiables. Por lo tanto, hay que asegurar que se esté trabajando sobre un
repositorio bien diseñado, y es por esta razón que la mayor parte de los esfuerzos se emplean en
las etapas de selección y preparación de los datos. La relación entre el proceso KDD y los Data
Warehouses se da de forma natural, pues el primero busca contar con datos procesados, limpios y
consolidados, mientras que los segundos ofrecen una estructura bien definida en donde almacenar
la información con esas características.
MD corresponde a una de las etapas del proceso llamado “Knowledge Discovery in Databases”
(KDD). Está conformado por un conjunto de técnicas y algoritmos que sirven para hacer análisis
de conjuntos de datos, extrayendo patrones y relaciones entre ellos, convirtiéndolos en información
valiosa y útil para quienes toman las decisiones.
El uso de minería de datos se debe entender como un apoyo para los analistas, y no reemplaza
al conocimiento que tienen los expertos del negocio, ni elimina la necesidad de entender los datos.
El MD no funciona por sí sólo, ya que los patrones que se encuentren en los datos deben ser
interpretados y validados para ver si responden a las consultas del negocio, y si son aplicables en
el mundo real.
1.1. Aprendizaje supervisado y no supervisado
El objetivo del MD, como se ha dicho antes, es producir nuevo conocimiento para que los usuarios
del negocio puedan tomar decisiones, a partir de la construcción de un modelo del mundo real
y basándose en datos de diversas fuentes. La decisión del modelo de Data Mining a utilizar está
condicionada por los objetivos del negocio, los cuales se alcanzan al diseñar y probar combinaciones
de algoritmos.
Es importante notar que no existe un “mejor” modelo o algoritmo de minería de datos, depende
del problema en estudio y de los datos disponibles para decir cuál entrega resultados más confiables.

Los modelos de MD se clasifican como predictivos y descriptivos. En el primer caso, se tiene una
variable con valor desconocido, y la finalidad es determinarlo. Esta variable se llama respuesta,
variable dependiente u objetivo, mientras que aquellas utilizadas para hacer la predicción son los
predictores o variables independientes
Los modelos predictivos requieren ser “entrenados”, utilizando un conjunto de datos de entrena-
miento cuyo valor de variable objetivo es conocido. La idea es que el modelo entregue resultados
en base un aprendizaje, en otras palabras, que se vaya ajustando a la realidad conocida.
A este tipo de modelos se les conoce también como modelos de aprendizaje supervisado, debido
a que los valores estimados o calculados son comparados con los resultados conocidos, y por lo
tanto se tiene una clara medida del éxito o falla de la predicción. Algunos algoritmos que se utilizan
en estos modelos son los de clasificación y las regresiones.
El aprendizaje supervisado se utiliza en problemas en los que se tiene conocimiento del resultado
al que se quiere llegar, por ejemplo para la detección de aquellos clientes que son más propensos
a la fuga de la empresa.
Por otra parte, se tienen los modelos descriptivos, en los cuales no se cuenta con un resultado
conocido para poder guiar a los algoritmos, y por ello se conocen como modelos de aprendizaje no
supervisado, donde el modelo se va ajustando de acuerdo a las observaciones o datos entregados, y
se recurre muchas veces a argumentos heurísticos para evaluar la calidad de los resultados. Algunos
algoritmos que se utilizan en estos modelos son los de clustering y las reglas de asociación
El aprendizaje no supervisado, es usado en los casos en que no se tiene conocimiento previo del
resultado al que se va a llegar, por ejemplo al segmentar a los clientes en grupos que no hayan
sido definidos previamente. Luego que el modelo ya ha sido entrenado, se utiliza una muestra de
datos independiente de aquella utilizada para la fase de construcción y entrenamiento del modelo,
con la intención de evaluar la capacidad de predicción de éste.
Los dos caminos principales del MD hacen referencia a la predicción y a la descripción. Para
ambos existen una variedad de métodos de minería de datos que se pueden utilizar, con el fin
de descubrir conocimiento. Dentro de los métodos predictivos se encuentran la clasificación y
regresión, por otra parte en los descriptivos se tienen el clustering y las reglas de asociación
La clasificación consiste en “mapear” un elemento dentro de un grupo de datos, de acuerdo a una

clase predefinida, en otras palabras indicar a qué conjunto pertenece. Se apunta a identificar las
características o atributos que hacen que un elemento se vincule a un grupo siguiendo un patrón

de datos. Este último se puede utilizar para predecir cómo se comportarán nuevas instancias
La regresión es una función que le asigna a un elemento un valor real, utilizando valores exis-
tentes para predecir datos futuros. En el caso más simple, la regresión usa técnicas estadísticas
como la regresión lineal, sin embargo muchos de los problemas del mundo real no funcionan con
proyecciones lineales. Las regresiones se pueden utilizar por ejemplo para predecir comportamiento
de la demanda futura, utilizando las ventas o el consumo pasado
El clustering divide el conjunto de datos en grupos que son muy diferentes unos de otros, pero
cuyos elementos sean muy similares entre sí. Es un método descriptivo que identifica un grupo de
categorías o “clusters” para describir los datos. Estas categorías pueden ser exclusivas, jerárquicas
o superpuestas. Entre los algoritmos más conocidos de clustering se encuentran K-means y las
redes neuronales o mapas de Kohonen.
A diferencia de la clasificación, en clustering no se sabe cuáles serán los grupos que se formarán
según los atributos escogidos, por lo tanto, es necesario que los expertos del negocio interpreten
las categorías que se formen y vean si hacen sentido o no. Una vez obtenidos los clusters que
segmentan los datos, se pueden clasificar otros nuevos.
Es importante distinguir entre las definiciones de clustering, segmentación y clasificación: seg-

mentar se refiere a identificar grupos de datos que tienen características comunes, clustering es
encontrar grupos de datos que no estaban definidos, y clasificar es asignar elementos a un grupo
ya definido.
Las reglas de asociación son otro instrumento descriptivo, donde el objetivo es encontrar rela-
ciones significativas entre los datos, utilizando probabilidades de ocurrencia de dos objetos. Un
claro ejemplo es el análisis de los artículos o productos de una canasta de compras en una tienda.
1.2. Tipos de datos
En general podemos encontrar tres clasificaciones dependiendo de como se encuentra almacenada

la información:
1. Datos provenientes de Base de Datos (BD) relacionadas como ACCES, MySQL, Oracle,
entre otros.
Son las mas sencillas de trabajar, ya que, están claramente estructurados en tablas, registros

y campos .
Desde las técnicas de minería de datos se manejan 2 tipos de atributos (columnas o campos)
a) Atributos numéricos: contienen valores enteros o reales. Ejemplos: salario, edad.

b) Atributos categóricos o nominales: toman valores en un conjunto finito y preestablecido
de categorías. Ejemplos: sexo, nombre del depto.(gestión, marketing, ventas)
Figura 1.2: Base de Datos Relacionadas
2. Datos provenientes de BD estructuras mas complejas:
a) Bases de datos espaciales mantienen información relacionada a espacios físicos cuyos

datos pueden ser geográficos, redes de transporte, información de tráfico, etc., donde
la minería de datos podría encontrar patrones que permitan la construcción de nuevos
caminos o líneas del metro.
b) Bases de datos temporales mantienen información relacionada al tiempo ya sea ins-
tantes específicos o intervalos temporales. Aquí la minería de datos podría encontrar
tendencias climatológicas.
c) Bases de datos documentales que pueden poseer datos de los tres tipos (estruc-
turados, semi-estructurados y no estructurados) y donde la minería de datos podría
utilizarse para encontrar asociaciones entre contenidos o clasificación de objetos.
d ) Bases de datos multimedia además de las técnicas de minería de datos se requieren
algoritmos de búsqueda eficiente y almacenamiento sobre este tipo de formatos.

3. Datos provenientes de la web y otros repositorios No Estructurados.

La Internet es el repositorio de información más grande donde la información prevaleciente es
semi-estructurada y en la mayoría de los casos no estructurada. La minería web generalmente
se utiliza para realizar:
a) Minería del contenido la cual pretende encontrar patrones en el contenido de las

paginas web.
b) Minería de la estructura entendiendo por estructura los hipervínculos y URLs.
c) Minería del uso para encontrar patrones de preferencias entre los usuarios de un sitio
web y poder adecuar el sitio a sus necesidades.
1.3. Visualización de Datos
La visualización de datos es la representación gráfica de información y datos. Al utilizar ele-

mentos visuales como cuadros, gráficos y mapas, las herramientas de visualización de datos pro-
porcionan una manera accesible de ver y comprender tendencias, valores atípicos y patrones en
los datos.
En el mundo de la Minería de Dato, las herramientas y tecnologías de visualización de datos

son esenciales para analizar grandes cantidades de información y tomar decisiones basadas en los
datos.
Nuestros ojos son atraídos por los colores y patrones. Podemos identificar rápidamente el rojo
del azul o el cuadrado del círculo. Nuestra cultura es visual, lo que incluye todo tipo de cosas,
desde arte y publicidad hasta televisión y películas.
La visualización de datos es otra forma de arte visual que capta nuestro interés y mantiene
nuestros ojos en el mensaje. Cuando vemos un gráfico, vemos rápidamente las tendencias y los
valores atípicos. Si podemos ver algo, lo interiorizamos rápidamente. Es contar historias con un
propósito. Si alguna vez haz visto una gigantesca hoja de cálculo de datos y no te fue posible ver
una tendencia, sabes cuán eficaz puede ser una visualización.
Sin embargo, no es tan simple como adornar un gráfico para que se vea mejor o pegar la parte
ïnformativa"de una infografía. La visualización eficaz de datos es un delicado equilibrio entre forma
y función. La gráfica más simple podría ser demasiado aburrida para captar la atención del público

Figura 1.3: Visualización de Datos
o lograr que diga algo importante; la visualización más sorprendente podría fallar por completo a
la hora de transmitir el mensaje correcto o podría decir mucho. Los datos y los elementos visuales
deben trabajar juntos, y hay algo de arte en combinar un gran análisis con una gran narración.
¿Por qué la visualización de datos es importante?
Si bien siempre hablaremos poéticamente sobre la visualización de datos, existen aplicaciones

prácticas y reales que son innegables. Y, dado que la visualización es tan prolífica, también es una
de las habilidades profesionales más comunes para desarrollar. Cuanto mejor pueda transmitir sus
puntos visualmente, ya sea en un dashboard o en una plataforma de diapositivas, mejor podrá
aprovechar esa información.
El concepto de científico de datos ciudadano está en aumento. Los conjuntos de habilidades

están cambiando para adaptarse a un mundo basado en los datos. Para los profesionales es cada
vez más valioso poder usar los datos para tomar decisiones y usar elementos visuales para contar
historias con los datos para informar quién, qué, cuándo, dónde y cómo. Mientras que la educación
tradicional normalmente dibuja una línea distinta entre la narración creativa y el análisis técnico,
el mundo profesional moderno también valora a aquellos que pueden cruzar entre las dos: la

visualización de datos se encuentra justo en el centro del análisis y la narración visual.
Figura 1.4: Visualización de Datos

Cuando piensas en la visualización de datos, tu primer pensamiento probablemente se dirija de

inmediato a gráficos de barras o gráficos circulares simples. Si bien esto puede ser una parte integral
de la visualización de datos y una línea base común para muchos gráficos de datos, la visualización
correcta debe emparejarse con el conjunto correcto de información. Los gráficos simples son solo
la punta del iceberg. Hay toda una selección de métodos de visualización para presentar datos de
manera eficaz e interesante.
1. Tipos generales comunes de visualización de datos:
a) Cuadros.
b) Tablas.
c) Mapas.
d ) Infografías.
e) Dashboards.
2. Métodos para visualizar datos.
a) Grafico de áreas.
b) Diagramas de caja y bigotes
c) Nube de burbujas
d ) Gráfico de bala
e) Cartograma
f ) Vista circular
g) Mapa de distribución de puntos
h) Gráfico de Gantt
i ) Mapa de calor
j ) Tabla de resaltado
k ) Histograma
l ) Matriz
m) Red

n) Área polar
ñ) Árbol radial
o) Diagrama de dispersión (2D o 3D)
p) Gráfico de flujo
q) Tablas de texto
r ) Escala de tiempo
s) Diagrama de árbol
t) Gráfico circular apilado
u) Nube de palabras
1.4. Visualización de datos mediante R
1.4.1. ¿Por qué R?
Tus análisis serán una serie de comandos escritos (R script), lo que es muy conveniente porque:
* Conlleva a tener el control y completo entendimiento de qué estás haciendo (adiós a la caja
negra en tus análisis in silico).
* ¡Reproducibilidad! Si necesitas repetir el análisis, agregar más datos o corregir un error,

sólo necesitas correr tu script nuevamente y tus tests estadísticos y gráficos se actualizarán
automáticamente.
* Tus análisis son claros y transparentes, cualquier colega o tú en el futuro pueden leerlo para
encontrar errores y/o hacer mejoras.
* Puedes comentar tu script. Agregar comentarios, explicaciones o relatos en tu código facili-

tará entender, paso a paso, el por qué de tus análisis a tus colegas, e incluso a ti mísmo en
el futuro.
* ¡Escalabilidad! R está diseñado para el análisis de datos. Las habilidades que vayas apren-
diendo en R se pueden escalar fácilmente con el tamaño de tus datos (set de datos con cientos
a miles, incluso millones de líneas).

* ¡Gráficos de alta calidad! R tiene innumerables funcionalidades para todo tipo de gráficas a
tu disposición para lograr una efectiva visualización de tus resultados. Visita The R Graph
Gallery para ver ejemplos de lo que puedes llegar a hacer.
* ¡Amplia documentación! R cuenta con una basta documentación y la web está minada de
tutoriales, sólo debes buscar. Por ejemplo, Cookbook for R que provee de soluciones a tareas
y problemas básicos en análisis de datos.
Aprender R puede ser difícil y tomar tiempo en un principio, pero ¡no te preocupes, no estás
sólo! R cuenta con una amplia comunidad de usuarios dispuestos a ayudar a través de mailing-lists
y websites como Stack Overflow y RStudio community. Sin embargo, lo más probable es que tus
dudas ya se encuentren resueltas en la web, asi que primero haz una búsqueda en Google usando
palabras clave o copia y pega en el buscador el mensaje de error que te aparezca en la consola de
R. Consejo: haz tus búsquedas y consultas en inglés, tendrás acceso a más y mejor información.
1.4.2. Conociendo RStudio
Todo lo que necesitas en una ventana! Como puedes ver en la imagen a continuación, RStudio
se divide en 4 paneles principales:
1. Panel superior izquierdo: editor de texto para escribir comandos/instrucciónes en R (R

script), aquí puedes agregar comentarios.
2. Panel inferior izquierdo: consola de R, donde se ejecutan las líneas de comando en tu script.
3. Panel superior derecho: aquí puedes visualizar los datos presentes en la memoria de R.
4. Panel inferior derecho: aquí encuentras 5 pestañas Files/Plots/Packages/Help/Viewer en

las que puedes navegar por tus archivos, visualizar tus gráficos en tiempo real, administrar
paquetes de R, y pedir ayuda.

Figura 1.5
1.4.3. Instalando paquetes
Una de las principales características que hemos destacado de R es su versatilidad. Su filosofía

de código abierto motiva a los desarrolladores a traer nuevas características a la comunidad R.
En general, lo hacen a través de paquetes, que los usuarios pueden instalar como un apéndice
adicional a R. Estos paquetes contienen nuevas funciones, bases de datos y características. Las
pestañas de RStudio que hemos revisado nos permiten acceder a los paquetes instalados.
Acá aprenderemos como visualizar tus datos usando el paquete ggplot2. De los muchos sistemas
que posee R para hacer gráficos, ggplot2 es uno de los más elegantes y versátiles. Esto se debe a
que ggplot2 implementa un sistema coherente para describir y construir gráficos, conocido como
la gramática de gráficos. Con ggplot2 puedes hacer más cosas en menor tiempo, aprendiendo un
único sistema y aplicándolo en diferentes ámbitos.
La instalación de un paquete es bastante sencilla a través de la función install.packages(). Ahora,

instalaremos el paquete tidyverse, que será central para nuestros próximos análisis. El tidyverse es
una compilación que incluye algunos de los mejores paquetes modernos para el análisis de datos
en R.

Cada vez que un usuario abre una nueva sesión en R, ésta se abre como “recién salido de
fábrica”. Es decir, no sólo se abre sin objetos, sino también con sólo los paquetes básicos que
permiten que R funcione. Entonces, tenemos que cargar los paquetes extra que queremos usar. Es
como cuando compras un smartphone y descargas las aplicaciones que usarás de acuerdo a tus
necesidades diarias. La forma más común de hacerlo es a través de la función library, como se ve
a continuación. Tenga en cuenta que esta vez el “tiempo de espera” no está entre comillas
Además, para sacar el máximo provecho de este libro, debe instalar nuestro paquete comple-
mentario, paqueteadp. Esto le dará acceso a las bases de datos que se utilizarán en los diferentes
capítulos de este libro, además de algunas funciones de soporte. La instalación es ligeramente
diferente, porque es un trabajo en progreso. Para obtenerlo, primero debes tener instalado el pa-
quete remotes, que te permitirá utilizar los paquetes almacenados en GitHub, una plataforma de
desarrollo de software.
Una vez cargado el paquete remotes, su función install.github() le permitirá instalar el paquete
de este libro:
Fíjate que uno de nosotros tiene el nombre de usuario “arcruz0” en GitHub, donde se almacena
el paquete “paqueteadp”. ¡Ahora está instalado en tu sistema! Cada vez que lo necesites en una
sesión R, tienes que cargarlo con library():

1.4.4. Datos
La primera capa corresponde a los datos que usaremos. Para hacerlo más demostrativo, carga-
remos la base datos que se utilizará como ejemplo.
El conjunto de datos debería estar ahora en nuestro ambiente. Estos datos corresponden a la
información de los municipios chilenos. Algunos son del Servicio Electoral y otros del Sistema Na-
cional de Información Municipal de Chile. En la primera base de datos, encontramos los resultados
electorales de las elecciones locales, regionales y nacionales del país; mientras que en la segunda
encontramos las características económicas, sociales y demográficas de los municipios chilenos. En
este caso, tenemos los datos electorales comunales de 1992 a 2012, con datos descriptivos como la
población, el ingreso total del municipio, el gasto en asistencia social y el porcentaje de personas en
situación de pobreza en base al total comunal de la Encuesta de Caracterización Socioeconómica
Nacional (CASEN).
Al mirar a la base de datos, encontramos que hay variables continuas (numéricas) y categóricas
(de texto). Saber con qué tipo de variable estamos trabajando es esencial para el siguiente paso.

1.4.5. Mapeos estéticos
La segunda capa corresponde al mapeo de las variables dentro del espacio. En este paso, usamos
mapping=aes(), que contendrá la variable que tendremos en nuestros ejes x e y. Para aes(),
hay muchas opciones que veremos a lo largo del capítulo: algunas de ellas son, por ejemplo, fill,
color, shape, y alpha. Todas estas opciones son un conjunto de señales que nos permitirán traducir
mejor lo que queremos decir a través de nuestro gráfico. Normalmente, estas opciones se llaman
estéticas o aes().
Figura 1.6: Marco vacío

El resultado muestra un marco vacío. Esto se debe a que no le hemos dicho a R qué objeto
geométrico usar.
1.4.6. Objeto geométrico
Suena extraño, pero cuando hablamos del objeto geométrico o geom, nos referimos al tipo de
gráfico que queremos hacer, ya sea un gráfico lineal, un gráfico de barras, un histograma, un gráfico
de densidad, o un gráfico de puntos, o si queremos hacer un gráfico de cajas. Esto corresponde a
la tercera capa. En este caso, ya que tenemos datos de la encuesta CASEN, haremos un gráfico
de caja para ver cómo se distribuyen los municipios en nuestra muestra.
Figura 1.7: Añadiendo un objeto geométrico a su gráfica

Lo primero que notamos es la ausencia de datos durante tres períodos. Desafortunadamente,

no hay datos anteriores a 2002, por lo que no se encuentran entradas para esos años. Por ello, es
una gran idea filtrar los datos y dejar sólo los años que contienen datos sobre la encuesta CASEN.
Además de eso, nuestro gráfico no nos dice mucho sobre el porcentaje de pobreza y su distribución.
Considerando la geografía de Chile, es una gran idea ver la distribución de la pobreza por zona de
la región geográfica.
1.4.7. Facetas
Ahora, usaremos nuestras nuevas habilidades para hacer dos cosas: primero, usaremos filter()
para conservar sólo los años que nos interesan. Segundo, dividiremos los resultados por zonas
usando facet_wrap(), que corresponde a la cuarta capa que podemos usar para construir un
gráfico con ggplot2. Cuando usamos esta capa, lo que queremos es organizar las “geoms” que
estamos usando en función de una variable categórica. En este caso, la zona. Sin embargo, las
facetas, como acción, son mucho más que eso. face_wrap() y facet_grid() pueden adoptar una
serie de argumentos, siendo el primero el más importante. En este caso, la sintaxis que utilizamos
es la misma que se usa para las fórmulas en R, y denotamos el primer argumento con un signo
“∼”. Con los argumentos nrow = y ncol = podemos especificar cómo queremos ordenar nuestro
gráfico.
Finalmente, añadimos dos líneas de código, una para filtrar y otra para subdividir nuestra
información. Esto es lo que logramos:

Figura 1.8: Añadiendo una faceta a su gráfico
Tanto con facet_wrap() como con facet_grid() podemos usar más de un argumento, pero los
resultados son diferentes. facet_wrap() no sólo ordena los geoms, sino que es capaz de cruzarlos,
creando gráficos con dos o más dimensiones usando variables categóricas. Mira los siguientes
ejemplos:

Figura 1.9: Comparando wraps y grillas, ejemplo A
Este gráfico muestra que, por zonas, el porcentaje de pobreza ha variado considerablemente
de 2004 a 2012, y que existe una gran variabilidad interregional. Además, nos muestra cómo
ggplot2 ofrece resultados de alta calidad sin mucha complejidad. La función facet_wrap() es
una capa opcional dentro de las múltiples capas de “Una Gramática de Gráficos en Capas”, pero
es importante recordar que las otras tres deben estar presentes para cualquier tipo de resultados.
1.4.8. Transformaciones
Otra capa que se puede usar es la que nos permite hacer transformaciones de escala en las varia-
bles. Normalmente, aparecerá con el nombre scale_x_discrete(), que variará dependiendo de la

Figura 1.10: Comparando wraps y grillas, ejemplo B
estética utilizada dentro de nuestro mapeo. Así, podemos encontrarnos con scale_fill_continous()
o scale_y_log10(). Por ejemplo, podemos ver cómo se distribuyen los ingresos de los municipios
según la tasa de pobreza de nuestra muestra. Normalmente, haríamos esto de la siguiente manera:

Figura 1.11: Ejemplo de una gráfica en la que no utilizamos la escala
Lo más frecuente es que cuando usamos una variable relacionada con el dinero, aplicamos una
transformación logarítmica. Sin embargo, ¿cómo se traduce esto en nuestra figura?

Figura 1.12: Ejemplo de una trama en la que reescalamos el eje y
Por lo general, trabajaremos con un eje X y un eje Y. Hay funciones en ggplot2, como
coord_flip, que nos permiten cambiar la dirección de nuestra gráfica. Sin embargo, también
podemos utilizar este tipo de capa cuando trabajamos con datos geográficos, o cuando, por ejem-
plo, queremos hacer un gráfico de torta. Sin embargo, normalmente, no queremos hacer gráficos
de pastel. Cuanto más se utilice ggplot2, más se aprenderá sobre cada opción.
1.4.9. Elecciones locales y visualización de datos
Como hemos mencionado anteriormente, la cuestión principal es entender que la visualización

nos permite explorar nuestros datos y responder a preguntas sustantivas de nuestra investigación.
Normalmente, los medios, las desviaciones estándar u otro tipo de parámetros no nos dicen mu-
cho. Podemos expresar los mismos datos visualizándolos. Por ejemplo, un diagrama de caja puede
ser útil para representar la distribución de los datos y ver sus posibles valores atípicos, mientras

que un gráfico de barras puede ayudarnos a observar la frecuencia de nuestros datos categóricos,
y un gráfico lineal es práctico para comprender el cambio a lo largo del tiempo. Estos son sólo
algunos ejemplos dentro de una variedad de posibilidades. En esta tercera sección, aprenderemos
a visualizar diferentes tipos de gráficos con datos de la reelección municipal en Chile. Para con-
textualizar, la división político-administrativa más pequeña de Chile es la comuna o municipio,
que cada cuatro años elige a sus autoridades locales: un alcalde y un consejo municipal. Desde
1992 a 2000, los alcaldes fueron elegidos indirectamente, y desde 2004 comenzaron a ser elegidos
directamente por los ciudadanos.
Como ya conocemos nuestros datos, podemos empezar con los más simples. Una buena idea,
por ejemplo, es ver el número de mujeres elegidas como alcaldes en comparación con el número de
hombres elegidos. Para ello, podemos utilizar un gráfico de barras. Como aprendimos en la sección
anterior, para construir cualquier tipo de gráfico necesitamos saber la(s) variable(s) que queremos
usar y qué geometría o geom nos permite representarla. En este caso, usaremos geom_bar()
para ver cuántos hombres y mujeres han sido elegidos desde 1992.
1.4.10. Gráfico de barras
Debemos sospechar de cualquier conjunto de datos (grande o pequeño) que parezca perfecto.

Figura 1.13: Gráfica simple de barras
Como podemos ver, construir un gráfico de barras es una tarea fácil. Vemos que, a partir de
2004, más de 800 hombres fueron elegidos como alcaldes, un número que supera con creces el
número de mujeres elegidas para el mismo cargo en el mismo período.
Tal vez, este número ha cambiado con el tiempo, y no podemos verlo en este tipo de gráfico?
Esto parece ser una buena razón para usar facet_wrap.

Figura 1.14: Gráfico de barras con una faceta por año.
Como vemos, el número de mujeres alcaldesas parece aumentar, aunque es un aumento mucho
menor del que se esperaría. Esto podría ser un problema sustantivo para hacer un análisis del
gobierno local en Chile.
Geometrías como fgeom_bar, fgeom_col, fgeom_density y
fgeom_histogram tienden a no llevar un eje Y explícito en su estética, ya que son un recuento

en el eje horizontal. Sin embargo, uno puede modificar el eje vertical en estas geometrías aplicando
algún tipo de transformación. Por ejemplo, al especificar fy=..prop.. como una estética dentro
del objeto geométrico, estamos ordenando el cálculo de la proporción, no el conteo. Normalmente,
usaremos faes() además de los datos en fggplot(), pero dependiendo de tus preferencias, también
es posible usarlo con fgeom. Esta última es más común cuando ocupamos más de una base de
datos o cuando queremos hacer una transformación.

Por ejemplo, podríamos estar interesados en el número de autoridades locales por zona geográ-
fica. Para ello, sería útil utilizar una proporción, ya que cada zona geográfica está formada por
un número diferente de municipios. De esta manera, será más fácil comparar la situación entre las
zonas.
Figura 1.15: Gráfico de barras con una faceta por zona.

¿Pero por qué usamos grupo=1?
Cuando queremos calcular una proporción con fy=..prop.., tenemos que tomar algunas precau-
ciones si estamos usando ffacet_wrap. Esta función no calcula la proporción basada en la suma
de ambos géneros por zona. Por ejemplo, esta función registra que hay 89 hombres y 13 mujeres
elegidos en la zona del Gran Norte. Concluye que “en el Gran Norte, los 89 hombres corresponden
al 100 % de los hombres elegidos y las 13 mujeres al 100 % de las mujeres elegidas”. Claramente,
esto no es lo que intentamos representar en el gráfico. Por eso usamos fgroup=1. Intenta ver el
resultado sin fgroup=1 para comprobar lo que sucede.
Ya lo hemos hecho! Vemos que no hay grandes diferencias, donde la zona del “Norte Pequeño”
es la que tiene más mujeres en la alcaldía que hombres. Sin embargo, no hay grandes diferencias
entre las zonas, y los resultados del primer gráfico de barras se replican en este.
Ahora, podemos cambiar la presentación del gráfico. Todo buen gráfico debe contener, por
ejemplo, un título claro, la fuente de los datos y el detalle de los ejes.

Figura 1.16: Gráfico de barras con título y fuentes.
Ahora, sólo tenemos que añadir etiquetas para el eje X. Podemos hacerlo fácilmente con
fscale_x_discrete(). Tienes que considerar qué estética de faes() modificarás, ya que esto
cambiará la fscale = que necesitas. Si examináramos las etiquetas desde ffill =, por ejemplo,
tendríamos que usar fscale_fill_discrete(). También hay que tener en cuenta el tipo de variable
que se utiliza. fscale_x_discrete() no tiene “discrete” al final sin motivo. Como comprenderás,
depende totalmente del tipo de variable que estamos usando.

Figura 1.17: Gráfica con etiquetas de grupo
1.4.11. Gráfico de líneas
En el último gráfico de la sección anterior vimos que, aunque la elección de mujeres como al-
caldesas en Chile ha aumentado, este aumento no parece ser significativo: en 2012, sólo el 13 %
de los alcaldes elegidos eran mujeres. Tal vez esto se deba a que los cambios socioeconómicos no
han afectado las percepciones de los roles de género en la sociedad. El examen de los datos econó-
micos de los ingresos municipales o del porcentaje de pobreza según la CASEN podría ayudarnos
a comprender por qué la elección de mujeres en las instancias municipales no ha aumentado sus-
tancialmente. Para ello, podemos utilizar geom_line, el objeto geométrico que permite observar
la evolución en el tiempo de nuestro sujeto de interés. La intuición sería hacer la figura de esta
manera:

Figura 1.18: Una especificación errónea para un gráfico de líneas.
El problema es que no da el resultado esperado. La intuición es correcta, pero tenemos que

ayudar a geom_line() con algunas especificaciones. En este caso, se agrupa por lo que tiene más
sentido: por año. Por eso tenemos que especificar cuál es la variable que agrupa toda la información
y, como sabemos, la información que poseemos está agrupada por municipio. Cuando añadimos
esta información, el resultado cambia y se parece a lo que buscamos:

Figura 1.19: Una especificación errónea para un gráfico de líneas.
Una de las cuestiones que surge a primera vista es que, teniendo en cuenta que Chile tiene 345
municipios, parece imposible mostrarlos todos en un solo gráfico.
Ahora, podemos separar el gráfico como lo hemos hecho antes. Se puede hacer por zonas o
regiones, considerando sus intereses. Ya hemos visto resultados diferentes por zonas, por lo que
valdría la pena ver los ingresos de la misma manera:

Figura 1.20: Evolución anual de los ingresos por municipio enfrentado por zona.
Como nuestra muestra se compone de un pequeño número de años, no podemos ver mucha
variabilidad y, a primera vista, los ingresos de todos los municipios han aumentado considerable-
mente. Tal vez, todavía podemos hacer algunos ajustes a nuestro gráfico. Lo más probable es que
no estés familiarizado con la notación científica y te resulte mejor leer números grandes. Tal vez
sepas que es mejor trabajar con una variable monetaria en su transformación logarítmica, como
nos han enseñado en diferentes cursos de metodología. Además, puede que quieras añadir otro tipo
de información en este gráfico, por ejemplo, los promedios. ¿Qué piensas de este gráfico?

Figura 1.21: Versión completa de nuestro gráfico de líneas para los ingresos de los municipios en
los años electorales.
¿Qué hemos especificado?
1. Primero, creamos un conjunto de datos (“promedio”) que contiene los ingresos medios de
cada zona. Lo hicimos usando group_by() y summarize() del tidyverse.

2. Luego, especificamos el color de la geom_line().
3. Después de eso, añadimos a nuestro código geom_hline(). Este objeto geométrico, como
geom_vline() o geom_abline(), nos permite añadir líneas con información. En este caso,
lo usé para agregar el ingreso promedio de cada zona. Especificamos la variable que contiene la
media yintercept = mean, la base de datos means, y el color con color = "dodgerblue3".
4. A continuación, usamos scale_x_discrete() para especificar la expansión de los paneles.

Si antes veíamos un espacio gris sin información, lo eliminamos. Esto es estético.
5. Luego, usamos scale_x_discrete() para escalar nuestros datos. Esta es una transformación
logarítmica que se hace normalmente cuando trabajamos con modelos lineales que contienen
datos monetarios. Además, cambiamos las etiquetas del eje y: ya no aparece con notación
científica. Esto se hizo con un paquete llamado scales. Aquí llamamos a la función directa-
mente con scales::dollar.
6. Añadimos el título y los nombres de los ejes x e y con labs().
7. Finalmente, especificamos la información sobre el tema. Sin ella, los años entre un panel y
otro se colapsarían. Para eso, lo especificamos con panel.spacing = unit(2, "lines") en
la capa de theme().

1.4.12. Gráfico de caja
Ya vimos que los ingresos de los municipios en Chile aumentaron entre 2004 y 2012. Si bien
miramos el gráfico sin transformaciones funcionales, observamos que algunos municipios tenían
ingresos muy superiores al promedio y se destacaban dentro de sus zonas. La intuición es que pro-
bablemente son extravagantes. Pudimos verlo claramente con un gráfico de caja, que nos permite
graficar diversos datos descriptivos en nuestras variables como la mediana, el mínimo y el máximo.
En este caso, lo utilizaremos para observar si nuestra intuición es correcta o no.
Comencemos filtrando los datos como lo hicimos en el gráfico anterior. En nuestro eje x coloca-
remos las zonas de Chile y en el eje y los ingresos:
Figura 1.22: Recuadro de ingresos del municipio por zona, facetado por año.

Podemos ver valores atípicos muy claros. Tal vez, luego de mirar estos resultados, nos gustaría
identificar qué municipalidades tienen mayores ingreso. Para esto podemos usar el mapeo estético
label =, parte de geom_text(). Para etiquetas solo para los valores atípicos, debemos hacer un
filtro en nuestra base:
Desafortunadamente, las etiquetas están sobre los puntos y, en algunos casos, estos se superponen
cuando están cerca uno del otro. Podemos resolver esto con el paquete ggrepel, que tiene un
elemento geométrico geom_text() “mejorado” que evita la coalición de las etiquetas:

Figura 1.23: Podemos arreglar las etiquetas que se superponen usando el ggrepel.
El límite puede estar en 50.000.000 de dólares o en números mayores o menores. Depende

enteramente de lo que queramos observar. Además, con geom_text o geom_text_repel no
sólo podemos cambiar el color, sino también el tipo de fuente del texto, o si debe estar en ne-
grita, cursiva o subrayado. Para ver más opciones, puedes escribir ?geom_text o llamar a un
help("geom_text").
También podríamos añadir otra información o cambiar la forma en que se presenta actualmente
el gráfico.

Figura 1.24: La versión pulida de nuestra gráfica de caja.
Algunas otras especificaciones:
1. Hemos añadido la información descriptiva en el gráfico.
2. Cambiamos el tamaño de la fuente. Esto era importante debido a la cantidad de municipios

que están por encima de 50.000.000 dólares de ingresos.
3. De nuevo, cambiamos las etiquetas del eje y con scales::dollar.

4. Por último, con guides, y especificando las aes() que queríamos dirigir, escribimos el código
color=F para eliminar la etiqueta, ya que era información repetida dentro del gráfico.
1.4.13. Histograma
Como observamos en nuestro boxplot, muchos municipios, especialmente los de la zona central,
están muy por encima de la media de ingresos por zona. Podemos ver la distribución de estos
datos a través de un histograma. Construir un histograma es una tarea fácil, y como se mencionó
anteriormente, geom_histogram no tiene un eje y explícito, ya que cuenta la frecuencia de un
evento dentro de un intervalo.
Al crear el histograma según nuestra intuición, el resultado es el siguiente:

Figura 1.25: La versión más simple de un histograma de los ingresos fiscales del municipio.
Como podemos ver, el gráfico da una “Advertencia” que indica la existencia de “738 filas que
contienen valores no finitos”. Esta advertencia ha estado presente a lo largo de todo este capí-
tulo, y no significa nada más que “Hay valores desconocidos dentro de esta variable” y se debe
a que no hay datos de los primeros años. Así que no te preocupes, si filtramos los datos con
filter(!is.na(ingreso)), esta advertencia seguramente desaparecerá.
Además, la consola da el siguiente mensaje: stat_bin() usando bins = 30. Elija mejores valores
con binwidth. Simplemente, dice que es posible modificar los intervalos para el histograma.
El siguiente paso es modificar el eje x. Por otro lado, intentaremos cambiar el número de inter-
valos con bins.

Figura 1.26: Histograma de los ingresos fiscales del municipio con una escala corregida en x.
Consulta
¿Qué pasa si ponemos bins = 15 de intervalos?
A continuación haremos un subconjunto de los datos.
Considerando el número de valores atípicos que encontramos, eliminaremos los municipios con
ingresos superiores a 50.000.000 dólares. También podemos examinar la frecuencia por zona. Como
cuando usamos color con geom_boxplot, usaremos fill con geom_histogram.

Figura 1.27: Versión pulida de nuestro histograma en el que haremos ‘fill’ por zona..
1.4.14. Relación entre las variables
Es probable que una de tus mayores preocupaciones sea si las dos variables que estás estudiando
están relacionadas de alguna manera. Con ggplot2 esto es fácil de verificar. En este caso, tenemos
dos variables continuas: la tasa de pobreza, del conjunto de datos de CASEN, y los ingresos
municipales. Siguiendo la teoría, debería haber algún tipo de correlación: cuanto mayor sea el
ingreso municipal, menor será la tasa de pobreza en el municipio. Creamos nuestros datos:

Para este tipo de gráfico, usaremos geom_smooth. Con este objeto, puedes modificar la forma
en que las variables se relacionan con method. También puedes introducir tus propias fórmulas.
Por defecto, se especifica una relación lineal entre las variables, por lo que no es necesario escribirla.
Figura 1.28: Ajuste lineal de la pobreza en el log de ingresos.
Parece vacía, ¿no? Normalmente, usamos geom_smooth con otras figuras geométricas, como
geom_point, para indicar la posición de las columnas en el espacio. Usamos alpha para ver
la superposición de los puntos. Como no son demasiados, no hay problemas para ver cómo se
distribuyen.

Figura 1.29: El ajuste lineal más las observaciones dispersas.
Ahora podemos hacer dos mejoras. Primero, insertaremos el título y el nombre de los ejes.
Segundo, en geom_x_continuous especificaremos donde empieza y acaba nuestra gráfica. Ya
habíamos usado esto con geom_line.

Figura 1.30: La versión pulida de nuestra gráfica de ajuste lineal.
Claramente, hay una correlación negativa entre ambas variables. ¡Esto es lo que esperábamos!
Ahora, podemos calcular la correlación entre ambas variables, para estar más seguros de los resul-
tados obtenidos visualmente:
La correlación entre ambas variables es de -0,27. Sería interesante añadir esta información en

el gráfico. Podemos hacer esto con annotate(). Sólo necesitamos especificar el tipo de objeto
geométrico que queremos generar. En este caso, lo que queremos crear es el texto geom = "text",
pero podría ser una caja que resalte un punto específico en el gráfico geom = rect" o una línea
geom = "segment". Especificamos dónde queremos ubicarlo y, finalmente, anotamos lo que
queremos anotar.
Figura 1.31: Añadimos la coeficiente de correlación usando annotate.

1.4.15. patchwork
Esta es una gran herramienta para combinar diferentes ggplots en el mismo gráfico. Usarás +,
| y / para organizarlos.
Figura 1.32: Ejemplo de patchwork.
1.4.16. Ejemplo
En esta sección se centra en ggplot2, uno de los paquetes principales del Tidyverse. Para acceder
a sus funciones y las páginas de ayuda que utilizaremos para el ejemlo, debes cargar el Tidyverse
ejecutando este código:
Recuerda que solo es necesario que instales los paquetes una única vez; sin embargo, tendrás
que cargarlos siempre que inicies una nueva sesión.

En esta sección trabajaremos con el conjunto de datos, que contiene observaciones para 38
modelos de automóviles recopiladas por la Agencia de Protección Ambiental de los EE. UU.
Cuando necesitemos especificar la procedencia de una función (o un conjunto de datos), usare-

mos el formato especial paquete::funcion(). Por ejemplo, ggplot2::ggplot() dice explícitamente que
estamos usando la función ggplot() del paquete ggplot2.
Además del Tidyverse, es necesario que cargue el paquete datos, ya que en él están contenidas
las versiones en español de los datos:
Primeros pasos
Usemos nuestro primer gráfico para responder una pregunta:
¿los automóviles con motores grandes consumen más combustible que los automóviles con mo-
tores pequeños?
Probablemente ya tengas una respuesta, pero trata de responder de forma precisa. ¿Cómo es
la relación entre el tamaño del motor y la eficiencia del combustible? ¿Es positiva? ¿Es negativa?
¿Es lineal o no lineal?
Puedes poner a prueba tu respuesta empleando el data frame millas que se encuentra en el
paquete datos (datos::millas). Un data frame es una colección rectangular de variables (columnas)
y observaciones (filas).

Entre las variables de millas se encuentran:
1. cilindrada: tamaño del motor del automóvil, en litros.
2. autopista: eficiencia del uso de combustible de un automóvil en carretera, en millas por galón.
Al recorrer la misma distancia, un automóvil de baja eficiencia consume más combustible
que un automóvil de alta eficiencia.
Para obtener más información sobre el data frame millas, abre su página de ayuda ejecutando
?millas.
Creando un gráfico con ggplot
Para gráficar millas, ejecuta este código para poner cilindrada en el eje x y autopista en el eje
y:

El gráfico muestra una relación negativa entre el tamaño del motor (cilindrada) y la eficiencia
del combustible (autopista). En otras palabras, los vehículos con motores grandes usan más com-
bustible. Este resultado, ¿confirma o refuta tu hipótesis acerca de la relación entre la eficiencia del
combustible y el tamaño del motor?

Mapeos estéticos
Los colores revelan que muchos de los puntos inusuales son automóviles de dos asientos. ¡Estos
no parecen híbridos y son, de hecho, automóviles deportivos! Los automóviles deportivos tienen
motores grandes, como las camionetas todo terreno o pickups, pero su cuerpo es pequeño, como
los automóviles medianos y compactos, lo que mejora su consumo de gasolina. En retrospectiva,
es poco probable que estos automóviles sean híbridos, ya que tienen motores grandes.

Separar en facetas

Objetos geométricos
¿En qué sentido estos dos gráficos son similares?
Ambos gráficos contienen las mismas variables x e y, y ambos describen los mismos datos. Pero
los gráficos no son idénticos. Cada uno utiliza un objeto visual diferente para representar los datos.
En la sintaxis de ggplot2, decimos que usan diferentes geoms.
Un geom es el objeto geométrico usado para representar datos de forma gráfica. La gente a
menudo llama a los gráficos por el tipo de geom que utiliza. Por ejemplo, los diagramas de barras
usan geoms de barra (bar), los diagramas de líneas usan geoms de línea (line), los diagramas de caja
usan geoms de diagrama de caja (boxplot), y así sucesivamente. En inglés, los diagramas de puntos
(llamados scatterplots) rompen la tendencia; ellos usan geom de punto (o point). Como vemos
arriba, puedes usar diferentes geoms para graficar los mismos datos. La gráfica de la izquierda usa el
geom de punto (geom_point()), y la gráfica de la derecha usa el geom suavizado (geom_smooth()),
una línea suavizada ajustada a los datos.
Para cambiar el geom de tu gráfico, modifica la función geom que acompaña a ggplot(). Por
ejemplo, para hacer los gráficos que se muestran arriba, puedes usar este código:


Cada función geom en ggplot2 toma un argumento de mapping. Sin embargo, no todas las
estéticas funcionan con todos los geom. Puedes establecer la forma para un punto, pero no puedes
establecer la “forma” de una línea. Por otro lado, para una línea podrías elegir el tipo de línea
(linetype). geom_smooth() dibujará una línea diferente, con un tipo de línea distinto (linetype),
para cada valor único de la variable que asignes al tipo de línea (linetype).
Aquí geom_smooth() separa los automóviles en tres líneas en función de su valor de traccion,
que describe el tipo de transmisión de un automóvil. Una línea describe todos los puntos con un
valor de 4, otra línea los de valor d, y una tercera línea describe los puntos con un valor t. Aquí,
4 significa tracción en las cuatro ruedas, d tracción delantera y t tracción trasera.
Muchos geoms, como geom_smooth(), usan un único objeto geométrico para mostrar múltiples
filas de datos. Con estos geoms, puedes asignar la estética de group (grupo) a una variable categó-
rica para graficar múltiples objetos. ggplot2 representará un objeto distinto por cada valor único
de la variable de agrupamiento. En la práctica, ggplot2 agrupará automáticamente los datos para
estos geoms siempre que se asigne una estética a una variable discreta (como en el ejemplo del
tipo de línea o linetype). Es conveniente confiar en esta característica porque la estética del grupo
en sí misma no agrega una leyenda o características distintivas a los geoms.

1.4.17. Transformaciones estadísticas
El conjunto de datos diamantes se encuentra en el paquete datos y contiene información sobre

54000 diamantes, incluido el precio, el quilate, el color, la claridad y el corte de cada uno. El
gráfico muestra que hay más diamantes disponibles con cortes de alta calidad que con cortes de
baja calidad.

En el eje x, el gráfico muestra corte, una variable de diamantes. En el eje y muestra ‘recuento’
(count), ¡pero el recuento no es una variable en diamantes! ¿De dónde viene? Muchos gráficos,
como los diagramas de dispersión (scatterplots), grafican los valores brutos de un conjunto de
datos. Otros gráficos, como los de barras, calculan nuevos valores para presentar:
♠ Los gráficos de barras, los histogramas y los polígonos de frecuencia almacenan los datos y
luego grafican los conteos por contenedores, es decir, el número de puntos que caen en cada
contenedor.
♠ los gráficos de líneas suavizadas (smoothers) ajustan un modelo a los datos y luego grafican
las predicciones del modelo.
♠ los diagramas de caja (boxplots) calculan un resumen robusto de la distribución y luego

muestran una caja con formato especial.
El algoritmo utilizado para calcular nuevos valores para un gráfico se llama stat, abreviatura
en inglés de transformación estadística (stattistical transformation). La siguiente figura describe
cómo funciona este proceso con geom_bar().

Puedes aprender acerca de qué stat usa cada geom inspeccionando el valor predeterminado para
el argumento stat. Por ejemplo, ?geom_bar muestra que el valor predeterminado para stat es
“count”, lo que significa que geom_bar() usa statvcount(). stat_count() está documentado en la
misma página que geom_bar(), y si te desplazas hacia abajo puedes encontrar una sección llamada
“Computed variables” (Variables calculadas). Ahí se describe cómo calcula dos nuevas variables:
count y prop.
Por lo general, puedes usar geoms y estadísticas de forma intercambiable. Por ejemplo, puedes

volver a crear la gráfica anterior usando stat_count() en lugar de geom_bar():
Esto funciona porque cada geom tiene una estadística predeterminada, y cada estadística tiene
un geom predeterminado. Esto significa que generalmente puedes usar geoms sin preocuparte por
la transformación estadística subyacente.
Hay tres razones por las que podrías necesitar usar una estadística explícitamente:
1. Es posible que desees anular la estadística predeterminada. En el siguiente código, cambia-

mos en geom_bar() la estadística recuento (“count”, el valor predeterminado) a identidad
(“identity”). Esto nos permite asignar la altura de las barras a los valores brutos de una va-
riable y . Desafortunadamente, cuando las personas hablan de gráficos de barras de manera
informal, podrían estar refiriéndose a este tipo de gráfico de barras, en el que la altura de la
barra ya está presente en los datos, o bien, al gráfico de barras anterior, en el que la altura
de la barra se determina contando filas.
2. Es posible que desees anular el mapeo predeterminado de las variables transformadas a las
estéticas. Por ejemplo, es posible que desees mostrar un gráfico de barras de proporciones,
en lugar de un recuento:

Para encontrar las variables calculadas por stat, busca la sección de ayuda titulada “Compute
Variables”.
3. Es posible que desees resaltar la transformación estadística en tu código. Por ejemplo, puedes
usar stat_summary(), que resume los valores de y para cada valor único de x, para así resaltar
el resumen que se está computando:
1.5. Datos Faltantes, Datos Perdidos
Siempre debemos sospechar de cualquier conjunto de datos (grande o pequeño) que parezca
perfecto.

1.6. Técnicas de minería de datos
Las técnicas de la minería de datos provienen de la inteligencia artificial y de la estadística;

dichas técnicas no son mas que algoritmos, que se aplican sobre un conjunto de datos.
Estos resultados pueden ser un modelo, una agrupación de datos en diferentes grupos o simple-
mente una serie de variables importantes que representan a todos los datos de forma significativa,
ahorrándose tiempo y cantidad de procesamientos.
Se suelen agrupar es 2 tipos de técnicas:
a) Técnicas Descriptivas o Metodo Exploratorio

Orientadas a describir un conjunto de datos.
Pretende identificar patrones (tendencias, correlaciones, anomalías, grupos, datos atípicos,
etc.) que explican o resumen las relaciones subyacentes en los datos, es decir, exploran las
propiedades de los datos examinados.

Por ejemplo: una agencia de viajes desea identificar grupos de personas con gustos similares
y así organizar ofertas hacia grupos. Para ello, analiza los viajes realizados por sus clientes
e infiere un modelo descriptivo que caracteriza estos grupos.
Las principales técnicas descriptivas que usa las MD son:
a) Análisis de Componentes Principales (ACP o PCA)

b) Análisis de Correspondencia (AC)
c) Algoritmos de agrupamiento o cluntering.
d ) Análisis Cluestering Jerárquico Aglomerado.
e) Metodo de K-medias.
b) Técnicas Predictivas o Metodo Predictivo

Orientadas a estimar o predecir un valor(es) de salida.

Pretende estimar el valor de un atributo desconocido (variable objetivo o dependiente),
usando los valores del resto de atributos (variables independientes o predictivas)
Por ejemplo: estimar la demanda de un nuevo producto en funcion del gasto en publicidad.
Las principales técnicas predictivas que usa las MD son:
a) Metodo de Clasificación.
b) Árboles de Desición.
c) Curva de Rock.
d ) Redes Bayesianas.
e) Naivas Vayes.
f ) KNN

Capítulo 2
Metodo Exploratorio
Los métodos exploratorios están orientados a describir un conjunto de datos.
Pretende identificar patrones (tendencias, correlaciones, anomalías, grupos, datos atípicos, etc.)
que explican o resumen las relaciones subyacentes en los datos, es decir, exploran las propiedades
de los datos examinados.
2.1. Análisis de componentes principales (ACP)
Un problema central en el análisis de datos multivariantes es la reducción de la dimensionalidad.

Si es posible describir con precisión los valores de p variables por un pequeño subconjunto r < p de
ellas, se habrá reducido la dimensión del problema a costa de una pequeña pérdida de información.
El análisis de componentes principales tiene ese objetivo: Con n observaciones de p variables,
se analiza si es posible representar adecuadamente esta información con un número menor de
variables construidas como combinaciones lineales de las originales. Por ejemplo, con variables con
alta dependencia es frecuente que un pequeño número de nuevas variables (menos del 20 % de las
originales) expliquen la mayor parte (más del 80 %) de la variabilidad original.
La técnica de componentes principales es debida a Hotelling (1193), aunque sus orígenes se

encuentran en los ajustes ortogonales por mínimos cuadrados introducidos por K. Pearson (1991).
Su utilidad es doble:
1. Permite representar óptimamente en un espacio de dimensión pequeña, observaciones de
67
2. Metodo Exploratorio
un espacio general p−dimensional. En este sentido la técnica de componentes principales

es el primer paso para identificar posinles variables latentes o no o observables, que están
generando la variavilidad de los datos.
2. Permite transformar las variables originales, en general correladas, en nuevas variables inco-
rreladas, facilitando la interpretación de los datos.
En este apartado presentamos únicamente esta técnica como una herramienta exploratoria para
facilitar la descripción y la interpretación de los datos. El problema de inferir si las propiedades
de reducción de la dimensión encontradas en los datos pueden extenderse a una población, se
estudiará más adelante.
2.1.1. Explicación teórica del ACP
Cuando se recoge la información de una muestra de datos, lo mas frecuente es tomar el mayor
número posible de variables con el objetivo de recabar la mayor información.
sin embargo, si tomamos demasiadas variables tenemos 2 problemas:
1. El número de combinaciones o covarianzas entre todas es muy alto.

Por ejemplo 20 variables, tendremos que considerar 20

2
= 190 posibles coeficientes de co-
rrelación; si son 40 variables dicho número aumenta hasta 780. Evidentemente, en este caso
es difícil visualizar relaciones entre las variables.
2. La fuerte correlación que muchas veces se presenta entre las variables: si tomamos demasiadas
variables (cosa que en general sucede cuando no se sabe demasiado sobre los datos o sólo se
tiene ánimo exploratorio), lo normal es que estén relacionadas o que midan lo mismo bajo
distintos puntos de vista. Por ejemplo, en estudios médicos, la presión sanguínea a la salida
del corazón y a la salida de los pulmones están fuertemente relacionadas.
Se hace necesario, pues, reducir el número de variables. Es importante resaltar el hecho de que
el concepto de mayor información se relaciona con el de mayor variabilidad o varianza. Cuanto
mayor sea la variabilidad de los datos (varianza) se considera que existe mayor información, lo
cual está relacionado con el concepto de entropía.

2. Metodo Exploratorio
El ACP es una técnica estadística de síntesis de la información, basada en la reducción de la

dimensión (número de variables) del problema.
Es decir, ante un banco de datos con muchas variables relacionadas, el objetivo será reducirlas
a un menor número perdiendo la menor cantidad de información posible.
Para ello intentaremos eliminar la(s) posible(s) redundancia(s) entre ellas, dando lugar a nuevas
componentes (o factores), que serán una combinación lienal de las variables originales, y además
serán independientes entre sí.
Matemáticamente esta técnica se describe así:
Para estudiar las relaciones que se presentan entre p variables correlacionadas se puede transfor-
mar el conjunto original de variables en otro nuevo conjunto de nuevas variables incorrelacionadas
entre si ( que no tengas repetición o redundancia en la información) llamado conjunto de compo-
nentes principales
Las nuevas variables con combinaciones lineales de las anteriores y se van constituyendo según
el orden de importancia en cuanto a la variabilidad total que recoge la muestra.
De mo ideal se busca z < p variables que sean combinación lineales de las p originales y que
estén incorreladas (si, que tengan poca o ninguna correlación entre ellas para que aporten más
información), recogiendo la mayor parte de la información o variabilidad de los datos.
Esto es:
A partir de la construcción de una matriz de n observaciones en x variables relacionadas

(x1 , x2 , ..., xp ) .
2.1.2. Cálculo de los Componentes Principales
Se considera una serie de variables (x1 , x2 , ..., xp ) sobre un grupo de objetos o individuos y se
trata de calcular, a partir de ellas, un nuevo conjunto de variables y1 , y2 , ..., yp , incorreladas entre
sí, cuyas varianzas vayan decreciendo progresivamente.
Cada yj (donde j = 1, ..., p) es una combinación lineal de las x1 , x2 , ..., xp originales, es decir:

Capítulo 3
Bibliografia
[2 ] h
[2 ] h
[2 ] h
[2 ] h
[2 ] h
[2 ] h
[2 ] h
[2 ] h
[2 ] h
[1 ] https://arcruz0.github.io/libroadp/basic-r.html.
[2 ] https://analisisdedatos.net/mineria/index.php.
[2 ] h
70

Introducción A La Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Introducción A La Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

Introducción Minería de Datos

Willams A. Canales Verdugo

1. Introducción a la minería de datos 3

1.1. Aprendizaje supervisado y no supervisado . . . . . . . . . . . . . . . . . . . . . . 5

1.2. Tipos de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

1.3. Visualización de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

1.4. Visualización de datos mediante R . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.4.1. ¿Por qué R? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

1.4.2. Conociendo RStudio . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

1.4.3. Instalando paquetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

1.4.5. Mapeos estéticos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18

1.4.6. Objeto geométrico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

1.4.9. Elecciones locales y visualización de datos . . . . . . . . . . . . . . . . . . 25

1.4.10. Gráfico de barras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

1.4.11. Gráfico de líneas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

1.4.12. Gráfico de caja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

1.4.14. Relación entre las variables . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

1.4.17. Transformaciones estadísticas . . . . . . . . . . . . . . . . . . . . . . . . . 59

1.5. Datos Faltantes, Datos Perdidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

1.6. Técnicas de minería de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64

2.1. Análisis de componentes principales (ACP) . . . . . . . . . . . . . . . . . . . . . . 67

2.1.1. Explicación teórica del ACP . . . . . . . . . . . . . . . . . . . . . . . . . . 68

2.1.2. Cálculo de los Componentes Principales . . . . . . . . . . . . . . . . . . . 69

Resumen Practico - Teórico 2 William Canales Verdugo

Introducción a la minería de datos

El objetivo principal de esta metodología es automatizar el procesamiento de los datos, permi-

Figura 1.1: Etapas del proceso KDD

3. Preparación de los datos (limpieza y pre-procesamiento), ya que en general, como se dijo

4. Transformación y almacenamiento de los datos, punto en el que se pueden reducir o agrupar

5. Selección y aplicación de algoritmos de MD, utilizando técnicas adecuadas según la hipótesis

6. Selección y aplicación de algoritmos de MD, utilizando técnicas adecuadas según la hipótesis

Resumen Practico - Teórico 4 William Canales Verdugo

1.1. Aprendizaje supervisado y no supervisado

Resumen Practico - Teórico 5 William Canales Verdugo

La clasificación consiste en “mapear” un elemento dentro de un grupo de datos, de acuerdo a una

Resumen Practico - Teórico 6 William Canales Verdugo

Es importante distinguir entre las definiciones de clustering, segmentación y clasificación: seg-

1.2. Tipos de datos

En general podemos encontrar tres clasificaciones dependiendo de como se encuentra almacenada

Resumen Practico - Teórico 7 William Canales Verdugo

a) Atributos numéricos: contienen valores enteros o reales. Ejemplos: salario, edad.

Figura 1.2: Base de Datos Relacionadas

2. Datos provenientes de BD estructuras mas complejas:

a) Bases de datos espaciales mantienen información relacionada a espacios físicos cuyos

Resumen Practico - Teórico 8 William Canales Verdugo

3. Datos provenientes de la web y otros repositorios No Estructurados.

a) Minería del contenido la cual pretende encontrar patrones en el contenido de las

1.3. Visualización de Datos

La visualización de datos es la representación gráfica de información y datos. Al utilizar ele-

En el mundo de la Minería de Dato, las herramientas y tecnologías de visualización de datos

Resumen Practico - Teórico 9 William Canales Verdugo

Figura 1.3: Visualización de Datos

¿Por qué la visualización de datos es importante?

Si bien siempre hablaremos poéticamente sobre la visualización de datos, existen aplicaciones

El concepto de científico de datos ciudadano está en aumento. Los conjuntos de habilidades

Resumen Practico - Teórico 10 William Canales Verdugo

visualización de datos se encuentra justo en el centro del análisis y la narración visual.

Figura 1.4: Visualización de Datos

Resumen Practico - Teórico 11 William Canales Verdugo

Cuando piensas en la visualización de datos, tu primer pensamiento probablemente se dirija de

1. Tipos generales comunes de visualización de datos:

2. Métodos para visualizar datos.

Resumen Practico - Teórico 12 William Canales Verdugo