Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Los términos “análisis de datos” y “Big Data” no son solo las palabras de moda de las que
hablan las empresas punteras. El análisis de datos es el futuro: al tiempo que estas leyendo
esta frase se habrán generado más datos de los que se produjeron desde el año 0 hasta el año
2000. Cada vez crece más rápidamente la velocidad a la que se originan los datos en todo tipo
de formatos. Para las empresas esto significa que deben adaptarse al acelerado ritmo de
crecimiento para satisfacer las necesidades de sus clientes.
Lo cierto es que siempre hemos generado información, ya sea en una conversación, un texto o
un simple dibujo. La única diferencia es que en la actualidad casi toda esta información queda
registrada. Por tanto, ela novedad no es el volumen de información que se produce sino la
capacidad creciente que tenemos de registrarla, almacenarla y analizarla.
La diferencia entre la analítica de datos y la ciencia de datos suele ser verse en la diferencia de
tiempos. La analítica de datos describe el estado actual o histórico de la realidad, mientras que
el data science utiliza esos datos para predecir y/o comprender el futuro.
Diapositiva 11
Diapositiva 10
Análisis Descriptivo: ¿Qué ha sucedido y qué está sucediendo en este momento? El análisis
descriptivo utiliza datos históricos y actuales procedentes de múltiples fuentes para describir el
estado actual mediante la identificación de tendencias y patrones. En business analytics, este
es el ámbito de BI (Business Intelligence)
Análisis de Diagnóstico: ¿Por qué ocurre? El análisis de diagnóstico utiliza datos (a menudo
generados a través del análisis descriptivo) para descubrir los factores o las razones del
rendimiento pasado.
Análisis Predictivo: ¿Qué es probable que ocurra en el futuro? El análisis predictivo aplica
técnicas como el modelado estadístico, la previsión y el aprendizaje automático o machine
learning a los resultados del análisis descriptivo y de diagnóstico para hacer predicciones sobre
los resultados futuros. La analítica predictiva se considera a menudo un tipo de «analítica
avanzada», y con frecuencia depende del aprendizaje automático y/o del aprendizaje
profundo.
Los analistas de datos utilizan una serie de métodos y técnicas para analizar los datos. Según
Emily Stevens, editora jefe de CareerFoundry, siete de los más famosos son:
1. Análisis de Regresión
El análisis de regresión es un conjunto de procesos estadísticos que se utilizan para estimar las
relaciones entre variables y determinar cómo los cambios en una o más variables pueden
afectar a otra. Por ejemplo, ¿cómo podría afectar el gasto en redes sociales a las ventas?
2. Simulación de Montecarlo
3. Análisis de Factores
El análisis factorial es un método estadístico que permite tomar un conjunto de datos masivo y
reducirlo a uno más pequeño y manejable. Este tipo de análisis tiene la ventaja añadida de que
a menudo se descubren patrones ocultos. En el ámbito de negocios, el análisis factorial se
utiliza a menudo para explorar aspectos como la fidelidad de los clientes.
4. Análisis de Cohortes
El análisis de cohortes se utiliza para dividir un conjunto de datos en grupos que comparten
características comunes, o cohortes, para su análisis. Suele utilizarse para comprender los
segmentos de clientes.
5. Análisis de Conglomerados
StatisticsSolutions define el análisis de series temporales como «una técnica estadística que se
ocupa de los datos de series temporales, o del análisis de tendencias». Los datos de series
temporales significan que los datos se encuentran en una serie de períodos o intervalos de
tiempo determinados. Puede utilizarse para identificar tendencias y ciclos a lo largo del
tiempo, por ejemplo, las cifras de ventas semanales. Se utiliza con frecuencia para hacer
previsiones económicas y de ventas.
7. Análisis de Sentimientos
Diapositiva 16
Selección de variables
Uno de los criterios que se utiliza es la dependencia o correlación. Por ejemplo, para un
modelo de predicción de cáncer en individuos humanos, el conjunto de datos con el que se
trabaje probablemente contenga variables como la edad, la existencia de cáncer en otros
miembros de la familia, si es fumador o no… Pero no variables como el color de los ojos.
Ya bien sea por conocimiento en el campo o por lógica, podemos intuir cuáles son las variables
más significativas. Pero no siempre podemos estar seguros de que el color de los ojos no
influye en la probabilidad de padecer cáncer o quizá no queramos arriesgar a hacer tal
afirmación.
Para eso existen métodos matemáticos para medir la asociación y correlación de una variable
con respecto a la variable a predecir para que nos lo chiven. ¡Quizá nos llevemos alguna
sorpresa!
Es probable que estéis otra vez tentados de hacer caso del monstruo de Diógenes y de
mandarme a paseo con tantas matemáticas. Pero antes dejadme que os diga que no se
necesita ni lápiz, ni papel, ni calculadora. Existe software, gratis por cierto, como WEKA, que
con un par de clics te dice con qué variables se quedaría y con cuáles no. Tan solo hay que
cargarle la colección de datos, contarle qué criterios y estrategias quieres llevar a cabo, y darle
a un botón mágico. No tarda nada, por lo que puedes probar distintas configuraciones e
incluso ver que tal rinde un modelo de aprendizaje con la nueva colección reducida de datos y
comparar. Guay, ¿no?
La idea básicamente es construir una dimensión (o variable) nueva a partir de la fusión de dos
ya existentes. Vamos a ver un ejemplo con variables geográficas porque es más fácil de
visualizar, pero se puede aplicar a cualquier tipo de variables, aunque sea más abstracto.
Vivimos en un punto del mapa, que tendremos como referencia, y observamos que hay un
Pikachu a 12 m al Norte y a 20 m al Este. Estamos usando dos variables para describir dónde
está el Pikachu, pero ¿podríamos combinarlas para así usar solo una variable?
Si nos inventamos nuestra propia coordenada J, que sería una combinación de la coordenada
N y de la coordenada E, podemos describir en qué posición se encuentra el Pikachu con tan
solo una variable. Habremos combinado dos dimensiones para crear una ficticia en su lugar.
Diapositiva 18
Selección de Características
Es poco probable que las columnas de datos con demasiados valores faltantes contengan
mucha información útil. De este modo, se pueden eliminar las columnas de datos con una
relación de valores que faltan superior a un umbral determinado. Cuanto más alto sea el
umbral, más agresiva será la reducción.
Al igual que la técnica anterior, las columnas de datos con pocos cambios en los datos
contienen poca información. De este modo, se pueden eliminar todas las columnas de datos
con una desviación inferior a un umbral determinado. Observa que la varianza depende del
rango de columnas y, por lo tanto, es necesario normalizarla antes de aplicar esta técnica.
Es probable que las columnas de datos con tendencias muy similares también contengan
información muy similar, y solo una de ellas bastará para la clasificación. Aquí calculamos el
coeficiente de correlación de Pearson entre columnas numéricas y el valor de chi-cuadrado de
Pearson entre columnas nominales. Para la clasificación final, solo retenemos una columna de
cada par de columnas cuya correlación por pares excede un umbral dado. Nótese que la
correlación depende del rango de columnas y, por lo tanto, es necesario normalizarla antes de
aplicar esta técnica.
Bosques aleatorios
Los bosques aleatorios, son útiles para la selección de columnas, además de ser clasificadores
eficaces. Aquí generamos un conjunto grande y cuidadosamente construido de árboles para
predecir las clases objetivo y luego usamos las estadísticas de uso de cada columna para
encontrar el subconjunto más informativo de columnas. Generamos un gran conjunto de
árboles muy poco profundos, y cada árbol se entrena en una pequeña fracción del número
total de columnas. Si una columna se selecciona a menudo como la mejor división, es muy
poco probable que sea una columna informativa que debemos mantener. Para todas las
columnas, calculamos una puntuación como el número de veces que la columna fue
seleccionada para la división, dividido por el número de veces que fue un candidato. Las
columnas más predictivas son las que tienen las puntuaciones más altas.
Este es el proceso inverso a la eliminación de características hacia atrás. Comenzamos con una
sola columna, añadiendo progresivamente una columna a la vez, es decir, la columna que
produce el mayor aumento en el rendimiento. Ambos algoritmos, la eliminación de
característica hacia atrás y este son bastante costosos en términos de tiempo y cálculo. Solo
son prácticos cuando se aplican a un conjunto de datos con un número relativamente bajo de
columnas de entrada.
Los métodos de reducción de la dimensionalidad más comunes y conocidos son los que aplican
transformaciones lineales, como por ejemplo los siguientes.
Análisis factorial
Esta técnica se utiliza para reducir un gran número de variables a un menor número de
factores. Los valores de los datos observados se expresan como funciones de varias causas
posibles para encontrar las más importantes. Se supone que las observaciones son causadas
por una transformación lineal de los factores latentes de dimensiones inferiores y por el ruido
gaussiano añadido.
Proyecta los datos de forma que se maximiza la separabilidad de clases. Los ejemplos de la
misma clase se ponen muy juntos en la proyección. Ejemplos de diferentes clases son
colocados muy lejos por la proyección.
Una técnica utilizada para analizar la similitud o disimilitud de los datos como distancias en un
espacio geométrico. Proyecto los datos a una dimensión inferior de manera que los puntos de
datos que están cerca unos de otros, en términos de distancia euclidiana, en la dimensión
superior también estén cerca en la dimensión inferior.
Proyecta los datos a una dimensión inferior al tiempo que preserva la distancia geodésica, en
lugar de la distancia euclidiana como en el MDS. La distancia geodésica es la distancia más
corta entre dos puntos de una curva.
Recupera la estructura global no lineal de los ajustes lineales. Cada parche local del colector
puede escribirse como una suma lineal y ponderada de sus vecinos con datos suficientes.
Proyecto los datos a una dimensión más baja mientras preserva el vecindario local como LLE,
pero utiliza el operador Hessian para lograr mejorar este resultado y de ahí el nombre.
Calcula la probabilidad de que pares de puntos de datos en el espacio de alta dimensión estén
relacionados y luego elige una inserción de baja dimensión que produce una distribución
similar.
La reducción de dimensionalidad no es necesaria hacerlo en cada uno de los proyectos que
trabajamos, todo dependerá la situación.
Diapositiva 20
Completitud
En algunos casos, los datos que no están son irrelevantes, pero cuando se vuelven
Conformidad
Los datos que están en los campos de la tabla deben estar en un formato estándar y
legible.
Consistencia
contradictoria.
Precisión / Exactitud
Si los datos no son precisos, estos no pueden ser utilizados. En este sentido, para
detectar si estos son precisos, se compara el dato con una fuente de referencia.
Duplicación
dentro de la tabla.
Integridad