Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Y LA ANALÍTICA VISUAL
MICROSOFT OFFICE
USER
e4you.org/es
ÍNDICE
1 Introducción ______________________________________________________ 2
2 Inteligencia artificial y análisis de datos ________________________________ 2
3 Analítica visual ____________________________________________________ 9
Bibliografía __________________________________________________________ 16
Otra forma que puede tomar un conjunto de datos es el formato JSON, en que se
representa en la notación típica de Javascript la lista de instancias (entre corchetes),
describiendo cada una de ellas como un mapa (entre llaves) de pares clave-valor
(separadas por dos puntos). Un ejemplo se muestra en la Figura 2. Un escenario en el
que este tipo de representación puede ser especialmente interesante es en el que
haya abundantes datos faltantes, esto es, valores no disponibles que estén “en blanco”
en la representación tabular. También es un formato especialmente útil para ir más
allá de los datos estructurados, dando cobertura a una familia un poco más amplia que
serían los datos semiestructurados.
1 https://archive.ics.uci.edu/
Una alternativa más amplia y moderna, aunque con la desventaja de no tener sus
conjuntos de datos seleccionados tan exhaustivamente es la plataforma Kaggle2, que
constituye, en realidad, una comunidad donde los científicos de datos pueden
compartir sus conjuntos de datos, sus análisis sobre los mismos en formato notebook,
participar en foros de discusión, realizar cursos de aprendizaje e incluso participar en
competiciones.
Paradigmas del aprendizaje automático
Dentro del aprendizaje automático podemos distinguir varias familias de algoritmos,
como se muestra de forma esquemática en la Figura 4. El principal de estos
paradigmas es el llamado aprendizaje supervisado, del que se pueden distinguir dos
variedades principales: regresión y clasificación. Por otro lado, tenemos el paradigma
del aprendizaje no supervisado, que en realidad agrupa algoritmos muy dispares, que
posteriormente presentaremos. Entre ambos se puede distinguir el caso especial del
aprendizaje semisupervisado, que integra técnicas procedentes de ambos paradigmas
que pueden ser útiles en circunstancias específicas. Finalmente, podemos distinguir los
algoritmos de aprendizaje por refuerzo, cuyo punto de partida no es un conjunto de
datos como lo puede ser en los otros casos.
2 https://www.kaggle.com/
En el resto del material del tema presentaremos cómo es el trabajo básico con algunas
de estas herramientas.
3 ANALÍTICA VISUAL
La importancia de la visualización
La analítica visual comparte su objetivo principal con el análisis de datos: extraer
información de los conjuntos de datos. Para ello se sirve de herramientas para
transformar los datos en elementos gráficos escogidos para adaptarse a la percepción
humana. Por ejemplo, una tabla de valores como la que veíamos anteriormente con el
conjunto de datos Iris (Tabla 1) no transmitía información de forma directa. De un
vistazo, es difícil concluir si las medidas de una muestra pueden servir realmente para
diferenciar una especie de otra.
Figura 5 - Gráfico de dispersión del dataset Iris con los tamaños de pétalo
Todas estas observaciones que nos proporciona la analítica visual pueden ser útiles
para diseñar y construir modelos de aprendizaje automático, guiando el proceso de
descubrimiento de conocimiento que hace que sea natural que estas dos técnicas
avancen de la mano en el proceso del análisis de datos. Aunque el aprendizaje
automático tenga la tentadora ventaja de no requerir tanta implicación intelectual del
analista, no puede convertirse en un mero proceso de aplicación de un algoritmo:
tiene que ser una búsqueda guiada del conocimiento presente en los datos (y de todo
lo que derive de este, como las decisiones de negocio ventajosas), y para encontrar la
mejor forma de hacerlo es necesario comprender realmente el conjunto de datos. Así
pues, un buen experto en aprendizaje automático tendrá también que serlo en
analítica visual.
Además de descubrir la información en manos del analista de datos, la analítica visual
debe servir para comunicar esa información de forma eficaz. Una forma efectiva de
conseguir esto es plantearse cómo construir una gráfica que cuente la historia que
hemos descubierto. Por ejemplo, en la Figura 5, si quisiéramos resaltar la dificultad de
separar algunos ejemplares de Iris virginica e Iris versicolor podríamos destacar esa
Los tipos básicos más importantes, y que conviene manejar, son los siguientes:
• Table: representa información de forma tabular. Puede ser útil para mostrar la
estructura de nuestros datos, o para enseñar algunas instancias particulares,
posiblemente mediante el uso de filtro.
• Scatter chart: Muestra un diagrama de dispersión, asignando a cada eje un
atributo (preferiblemente numérico). Muy útil si empleamos el color para una
etiqueta con la que segmentamos el conjunto de datos.
• Line graph: Evolución de una magnitud en función de otra.
• Histogram: Distribución de valores de una variable. Se puede segmentar en
categorías.
• KPI: Para una magnitud numérica única en un rango de variación. Recomendable
asignar colores y rangos para una interpretación más sencilla.
• Indicator: lo mismo que KPI, mostrando el número.
BIBLIOGRAFÍA
Bibliografía principal
• Russell, S. J., y Norvig, P. (2004). Inteligencia Artificial: un enfoque moderno.
Pearson.
• Hastie, T. et al. (2001). The elements of statistical learning. 2001.
Bibliografía complementaria
• Bishop, C. (2006). Pattern recognition and machine learning. Springer.
• Anderson, E. (1936). The species problem in Iris. Annals of the Missouri Botanical
Garden, 23(3), 457-509.
• Fisher, R. A. (1936). The use of multiple measurements in taxonomic problems.
Annals of eugenics, 7(2), 179-188.