Está en la página 1de 7

Diapositiva 9

Los términos “análisis de datos” y “Big Data” no son solo las palabras de moda de las que
hablan las empresas punteras. El análisis de datos es el futuro: al tiempo que estas leyendo
esta frase se habrán generado más datos de los que se produjeron desde el año 0 hasta el año
2000. Cada vez crece más rápidamente la velocidad a la que se originan los datos en todo tipo
de formatos. Para las empresas esto significa que deben adaptarse al acelerado ritmo de
crecimiento para satisfacer las necesidades de sus clientes.

Lo cierto es que siempre hemos generado información, ya sea en una conversación, un texto o
un simple dibujo. La única diferencia es que en la actualidad casi toda esta información queda
registrada. Por tanto, ela novedad no es el volumen de información que se produce sino la
capacidad creciente que tenemos de registrarla, almacenarla y analizarla.

La analítica de datos es una disciplina centrada en la extracción de información a partir de los


datos, lo que incluye el análisis, la recopilación, la organización y el almacenamiento de los
datos, así como las herramientas y técnicas utilizadas para ello.

La diferencia entre la analítica de datos y la ciencia de datos suele ser verse en la diferencia de
tiempos. La analítica de datos describe el estado actual o histórico de la realidad, mientras que
el data science utiliza esos datos para predecir y/o comprender el futuro.

Diapositiva 11

Analítica de Datos VS Business Analytics

La analítica de negocios o business analytics es otro subconjunto de la analítica de datos que


utiliza técnicas de análisis de datos, como la minería de datos, el análisis estadístico y el
modelado predictivo, para impulsar mejores decisiones empresariales.

Diapositiva 10

Tipos de Análisis de Datos

Análisis Descriptivo: ¿Qué ha sucedido y qué está sucediendo en este momento? El análisis
descriptivo utiliza datos históricos y actuales procedentes de múltiples fuentes para describir el
estado actual mediante la identificación de tendencias y patrones. En business analytics, este
es el ámbito de BI (Business Intelligence)

Análisis de Diagnóstico: ¿Por qué ocurre? El análisis de diagnóstico utiliza datos (a menudo
generados a través del análisis descriptivo) para descubrir los factores o las razones del
rendimiento pasado.

Análisis Predictivo: ¿Qué es probable que ocurra en el futuro? El análisis predictivo aplica
técnicas como el modelado estadístico, la previsión y el aprendizaje automático o machine
learning a los resultados del análisis descriptivo y de diagnóstico para hacer predicciones sobre
los resultados futuros. La analítica predictiva se considera a menudo un tipo de «analítica
avanzada», y con frecuencia depende del aprendizaje automático y/o del aprendizaje
profundo.

Análisis Prescriptivo: ¿Qué debemos hacer? La analítica prescriptiva es un tipo de analítica


avanzada que implica la aplicación de pruebas y otras técnicas para recomendar soluciones
específicas que ofrezcan los resultados deseados. En las empresas, para realizar análisis
prescriptivo se utilizan el machine learning, las reglas de negocio y los algoritmos.
Diapositiva 12

Métodos y Técnicas de Análisis de Datos

Los analistas de datos utilizan una serie de métodos y técnicas para analizar los datos. Según
Emily Stevens, editora jefe de CareerFoundry, siete de los más famosos son:

1. Análisis de Regresión

El análisis de regresión es un conjunto de procesos estadísticos que se utilizan para estimar las
relaciones entre variables y determinar cómo los cambios en una o más variables pueden
afectar a otra. Por ejemplo, ¿cómo podría afectar el gasto en redes sociales a las ventas?

2. Simulación de Montecarlo

Según Investopedia, «las simulaciones de Montecarlo se utilizan para modelar la probabilidad


de diferentes resultados en un proceso que no puede predecirse fácilmente debido a la
intervención de variables aleatorias.» Se utiliza con frecuencia para el análisis de riesgos.

3. Análisis de Factores

El análisis factorial es un método estadístico que permite tomar un conjunto de datos masivo y
reducirlo a uno más pequeño y manejable. Este tipo de análisis tiene la ventaja añadida de que
a menudo se descubren patrones ocultos. En el ámbito de negocios, el análisis factorial se
utiliza a menudo para explorar aspectos como la fidelidad de los clientes.

4. Análisis de Cohortes

El análisis de cohortes se utiliza para dividir un conjunto de datos en grupos que comparten
características comunes, o cohortes, para su análisis. Suele utilizarse para comprender los
segmentos de clientes.

5. Análisis de Conglomerados

StatisticsSolutions define el análisis de conglomerados como «una clase de técnicas que se


utilizan para clasificar objetos o casos en grupos llamados conglomerados». Puede utilizarse
para revelar estructuras en los datos: las empresas de seguros podrían utilizar el análisis de
conglomerados para investigar por qué ciertas ubicaciones están asociadas a determinadas
reclamaciones de seguros, por ejemplo.

6. Análisis de Series Temporales

StatisticsSolutions define el análisis de series temporales como «una técnica estadística que se
ocupa de los datos de series temporales, o del análisis de tendencias». Los datos de series
temporales significan que los datos se encuentran en una serie de períodos o intervalos de
tiempo determinados. Puede utilizarse para identificar tendencias y ciclos a lo largo del
tiempo, por ejemplo, las cifras de ventas semanales. Se utiliza con frecuencia para hacer
previsiones económicas y de ventas.

7. Análisis de Sentimientos

El análisis de sentimientos o sentiment análisis utiliza herramientas como el procesamiento del


lenguaje natural (PLN), el análisis de textos, la lingüística computacional, etc., para
comprender los sentimientos expresados en los datos. Mientras que los seis métodos
anteriores buscan analizar datos cuantitativos (datos que pueden medirse), el análisis de
sentimientos busca interpretar y clasificar los datos cualitativos organizándolos en temas.
Suele utilizarse para entender lo que sienten los clientes sobre una marca, un producto o un
servicio.

Diapositiva 16

Selección de variables

Uno de los criterios que se utiliza es la dependencia o correlación. Por ejemplo, para un
modelo de predicción de cáncer en individuos humanos, el conjunto de datos con el que se
trabaje probablemente contenga variables como la edad, la existencia de cáncer en otros
miembros de la familia, si es fumador o no… Pero no variables como el color de los ojos.

Ya bien sea por conocimiento en el campo o por lógica, podemos intuir cuáles son las variables
más significativas. Pero no siempre podemos estar seguros de que el color de los ojos no
influye en la probabilidad de padecer cáncer o quizá no queramos arriesgar a hacer tal
afirmación.

Para eso existen métodos matemáticos para medir la asociación y correlación de una variable
con respecto a la variable a predecir para que nos lo chiven. ¡Quizá nos llevemos alguna
sorpresa!

Otro criterio es el de la consistencia. Puede ser que tengamos variables redundantes en


nuestro conjunto que tuvieran una correlación entre ellas suficientemente fuerte como para
que no merezca la pena tener las dos. Por ejemplo, siguiendo con nuestro ejemplo de
predicción de cáncer, quizá teniendo la variable de capacidad pulmonar, no merece la pena
tener también la variable que indica si es fumador o no, ya que puede que esta última esté, de
una forma u otra, ya recogida en la primera.

Es probable que estéis otra vez tentados de hacer caso del monstruo de Diógenes y de
mandarme a paseo con tantas matemáticas. Pero antes dejadme que os diga que no se
necesita ni lápiz, ni papel, ni calculadora. Existe software, gratis por cierto, como WEKA, que
con un par de clics te dice con qué variables se quedaría y con cuáles no. Tan solo hay que
cargarle la colección de datos, contarle qué criterios y estrategias quieres llevar a cabo, y darle
a un botón mágico. No tarda nada, por lo que puedes probar distintas configuraciones e
incluso ver que tal rinde un modelo de aprendizaje con la nueva colección reducida de datos y
comparar. Guay, ¿no?

Análisis de componentes principales

Pasemos a ver la siguiente técnica que os proponemos. La técnica de análisis de componentes


principales requiere unos conocimientos avanzados de matemáticas que no todos los que
estáis leyendo tendréis; aún así, vamos a conocer en qué consiste de forma teórica.

La idea básicamente es construir una dimensión (o variable) nueva a partir de la fusión de dos
ya existentes. Vamos a ver un ejemplo con variables geográficas porque es más fácil de
visualizar, pero se puede aplicar a cualquier tipo de variables, aunque sea más abstracto.

Vivimos en un punto del mapa, que tendremos como referencia, y observamos que hay un
Pikachu a 12 m al Norte y a 20 m al Este. Estamos usando dos variables para describir dónde
está el Pikachu, pero ¿podríamos combinarlas para así usar solo una variable?
Si nos inventamos nuestra propia coordenada J, que sería una combinación de la coordenada
N y de la coordenada E, podemos describir en qué posición se encuentra el Pikachu con tan
solo una variable. Habremos combinado dos dimensiones para crear una ficticia en su lugar.

Diapositiva 18

Eliminación de la característica: es la eliminación de algunas variables completamente si son


redundantes con alguna otra variable o si no están proporcionando ninguna información
nueva sobre el conjunto de datos. La ventaja de la eliminación de características es que es fácil
de implementar y hace que nuestro conjunto de datos sea pequeño, incluyendo solo las
variables en las que estamos interesados. Pero como desventaja, podríamos perder algo de
información de las variables que dejamos de evaluar.

Extracción de variables: es la formación de nuevas variables a partir de las antiguas. Digamos


que tienes 29 variables en un conjunto de datos, entonces la técnica de extracción de
características creará 29 nuevas variables que son combinaciones de 29 variables antiguas.
PCA es el ejemplo de uno de estos métodos de extracción de características.

Selección de Características

Ratio de valores perdidos

Es poco probable que las columnas de datos con demasiados valores faltantes contengan
mucha información útil. De este modo, se pueden eliminar las columnas de datos con una
relación de valores que faltan superior a un umbral determinado. Cuanto más alto sea el
umbral, más agresiva será la reducción.

Filtro de baja varianza

Al igual que la técnica anterior, las columnas de datos con pocos cambios en los datos
contienen poca información. De este modo, se pueden eliminar todas las columnas de datos
con una desviación inferior a un umbral determinado. Observa que la varianza depende del
rango de columnas y, por lo tanto, es necesario normalizarla antes de aplicar esta técnica.

Filtro de alta correlación

Es probable que las columnas de datos con tendencias muy similares también contengan
información muy similar, y solo una de ellas bastará para la clasificación. Aquí calculamos el
coeficiente de correlación de Pearson entre columnas numéricas y el valor de chi-cuadrado de
Pearson entre columnas nominales. Para la clasificación final, solo retenemos una columna de
cada par de columnas cuya correlación por pares excede un umbral dado. Nótese que la
correlación depende del rango de columnas y, por lo tanto, es necesario normalizarla antes de
aplicar esta técnica.

Bosques aleatorios

Los bosques aleatorios, son útiles para la selección de columnas, además de ser clasificadores
eficaces. Aquí generamos un conjunto grande y cuidadosamente construido de árboles para
predecir las clases objetivo y luego usamos las estadísticas de uso de cada columna para
encontrar el subconjunto más informativo de columnas. Generamos un gran conjunto de
árboles muy poco profundos, y cada árbol se entrena en una pequeña fracción del número
total de columnas. Si una columna se selecciona a menudo como la mejor división, es muy
poco probable que sea una columna informativa que debemos mantener. Para todas las
columnas, calculamos una puntuación como el número de veces que la columna fue
seleccionada para la división, dividido por el número de veces que fue un candidato. Las
columnas más predictivas son las que tienen las puntuaciones más altas.

Eliminación de características hacia atrás

En esta técnica, en una iteración dada, el algoritmo de clasificación seleccionado se entrena en


n columnas de entrada. Luego eliminamos una columna de entrada a la vez y entrenamos el
mismo modelo en las columnas n-1. Se elimina la columna de entrada cuya eliminación ha
producido el menor aumento en la tasa de error, lo que nos deja con las columnas de entrada
n-1. A continuación, se repite la clasificación utilizando columnas n-2, y así sucesivamente.
Cada iteración k produce un modelo entrenado en columnas n-k y una tasa de error e(k).
Seleccionando la tasa de error máxima tolerable, definimos el menor número de columnas
necesarias para alcanzar ese rendimiento de clasificación con el algoritmo de Machine
Learning seleccionado.

Construcción de característica secuencial hacia adelante

Este es el proceso inverso a la eliminación de características hacia atrás. Comenzamos con una
sola columna, añadiendo progresivamente una columna a la vez, es decir, la columna que
produce el mayor aumento en el rendimiento. Ambos algoritmos, la eliminación de
característica hacia atrás y este son bastante costosos en términos de tiempo y cálculo. Solo
son prácticos cuando se aplican a un conjunto de datos con un número relativamente bajo de
columnas de entrada.

Métodos de reducción de la dimensionalidad lineal

Los métodos de reducción de la dimensionalidad más comunes y conocidos son los que aplican
transformaciones lineales, como por ejemplo los siguientes.

Análisis factorial

Esta técnica se utiliza para reducir un gran número de variables a un menor número de
factores. Los valores de los datos observados se expresan como funciones de varias causas
posibles para encontrar las más importantes. Se supone que las observaciones son causadas
por una transformación lineal de los factores latentes de dimensiones inferiores y por el ruido
gaussiano añadido.

Análisis de componentes principales (PCA)

Es un procedimiento estadístico que transforma ortogonalmente las n dimensiones numéricas


originales de un conjunto de datos en un nuevo conjunto de n dimensiones llamadas
componentes principales. Como resultado de la transformación, el primer componente
principal tiene la mayor varianza posible. Cada componente principal subsiguiente tiene la
mayor varianza posible bajo la restricción de que es ortogonal a los componentes principales
precedentes, es decir, no está correlacionado con ellos. Mantener solo los primeros m < n
componentes principales reduce la dimensionalidad de los datos, al tiempo que conserva la
mayor parte de la información de los datos, es decir, la variación en los datos. Nota que la
transformación PCA es sensible a la escala relativa de las columnas originales y, por lo tanto,
los datos necesitan ser normalizados antes de aplicar PCA. Observa también que las nuevas
coordenadas ya no son variables reales producidas por el sistema. La aplicación de PCA al
conjunto de datos pierde su capacidad de interpretación. Si la interpretación de los resultados
es importante para su análisis, la PCA no es la transformación que debes aplicar.

Análisis discriminante lineal (LDA)

Proyecta los datos de forma que se maximiza la separabilidad de clases. Los ejemplos de la
misma clase se ponen muy juntos en la proyección. Ejemplos de diferentes clases son
colocados muy lejos por la proyección.

Métodos de reducción de la dimensionalidad no lineal

Los métodos de transformación no lineal o los métodos de aprendizaje múltiple se utilizan


cuando los datos no se encuentran en un espacio lineal. Se basa en la hipótesis de que, en una
estructura de alta dimensión, la información más relevante se concentra en un pequeño
número de colectores de baja dimensión. Si un subsespacio lineal es una hoja de papel plana,
entonces una hoja de papel enrollada es un ejemplo simple de un colector no lineal. Algunos
de los métodos de aprendizaje más populares son los siguientes.

Escala multidimensional (MDS)

Una técnica utilizada para analizar la similitud o disimilitud de los datos como distancias en un
espacio geométrico. Proyecto los datos a una dimensión inferior de manera que los puntos de
datos que están cerca unos de otros, en términos de distancia euclidiana, en la dimensión
superior también estén cerca en la dimensión inferior.

Mapeo de características isométricas (Isomap)

Proyecta los datos a una dimensión inferior al tiempo que preserva la distancia geodésica, en
lugar de la distancia euclidiana como en el MDS. La distancia geodésica es la distancia más
corta entre dos puntos de una curva.

Incrustación localmente lineal (LLE)

Recupera la estructura global no lineal de los ajustes lineales. Cada parche local del colector
puede escribirse como una suma lineal y ponderada de sus vecinos con datos suficientes.

Mapas Hessien (HLLE)

Proyecto los datos a una dimensión más baja mientras preserva el vecindario local como LLE,
pero utiliza el operador Hessian para lograr mejorar este resultado y de ahí el nombre.

Incrustación espectral (Mapas laplacianos)

Utiliza técnicas espectrales para realizar la reducción de la dimensionalidad mediante el mapeo


de entradas cercanas a salidas cercanas. Preserva la localidad más que la linealidad local.

Incrustación de vecinos estocásticos distribuidos en t (t-SNE)

Calcula la probabilidad de que pares de puntos de datos en el espacio de alta dimensión estén
relacionados y luego elige una inserción de baja dimensión que produce una distribución
similar.
La reducción de dimensionalidad no es necesaria hacerlo en cada uno de los proyectos que
trabajamos, todo dependerá la situación.

Diapositiva 20

Completitud

En algunos casos, los datos que no están son irrelevantes, pero cuando se vuelven

necesarios para un proceso del negocio, éstos se vuelven críticos.

Conformidad

Los datos que están en los campos de la tabla deben estar en un formato estándar y

legible.

Consistencia

Al hacer el cruce de información con los registros, se debe evitar la información

contradictoria.

Precisión / Exactitud

Si los datos no son precisos, estos no pueden ser utilizados. En este sentido, para

detectar si estos son precisos, se compara el dato con una fuente de referencia.

Duplicación

Es importante saber si se tiene la misma información en formatos iguales o similares

dentro de la tabla.

Integridad

Otra dimensión de calidad importante radica en el hecho de saber si toda la información

relevante de un registro está presente de forma que se pueda utilizar.

También podría gustarte