Está en la página 1de 10

Introducción a la

Ciencia de los Datos y


aplicación a las
finanzas Una breve aproximación a
Data Science
¿Qué es Data Science?

• No existe una definición de consenso, sino que difiere según las fuentes.
• Podemos decir que trata del estudio de la extracción generalizada de
conocimiento a partir de información, de datos.
• En los últimos años los especialistas han tratado de definir a la ciencia de
datos y big data pero hasta el momento no se han puesto de acuerdo. Para
muchos, ciencia de datos y big data es lo mismo: una ciencia que engloba e
integra diferentes campos de conocimiento; en este caso, teorías aplicadas,
computación, estadística y el área de dominio relacionada con los datos que
están requiriendo.

• ¿Esto es algo nuevo? ¿No se parece a alguna ciencia con la que ya estamos
familiarizados?
Data Science y Estadística

• La Estadística consiste en el estudio de la recolección, análisis,


interpretación, presentación y organización de datos.
• La Ciencia de Datos trata del estudio de la extracción
generalizada deconocimiento a partir de información, de
datos.
Data Science y Estadística

• El enfoque de Data Science es más holístico, más global, para


partiendo de grandes volúmenes de datos poder extraer conocimiento
que aporte valor a una determinada organización del tipo que sea.
• El foco principal se sitúa en la extracción de conocimiento, empleando
para ello lasherramientas que estén al alcance.
Proceso del Big Data
 Los datos recogen un conjunto de hechos ( bases de datos BD) y los patrones son
expresiones que describen un subconjunto de los datos, las BD involucra un
proceso iterativo e interactivo de búsqueda de modelos, patrones o parámetros.

 Etapas del proceso del Big Data:


 Compresión del dominio de aplicación.
 Creación del conjunto de datos.
 Limpieza y preprosicionamiento.
 Reducción de datos y proyección.
 Elegir la tarea de minería de datos.
 Elección de algoritmos.
 Minería de datos.
 Interpretación de los patrones encontrados.
 Consolidación del conocimiento descubierto.
Banca y finanzas
 Detectar patrones de usos fraudulento de tarjetas.
 Identificar clientes leales.
 Predecir clientes con probabilidad de cambios de afiliación.
 Determinar el gasto en tarjetas de crédito por grupos.
 Encontrar correlaciones entre indicadores financieros.
 Identificar reglas de mercado de valores a partir de datos históricos.
Algoritmos y finanzas
 Los algoritmos en economía y gestión empresarial se utilizan básicamente para: –
Predecir – Clasificar – Agrupar •

 Los algoritmos más utilizados son: – Regresión


 La regresión lineal es un algoritmo de aprendizaje supervisado que se utiliza en
Machine Learning y en estadística.

K-NN (k “nearest neighbor”)


 K-Nearest-Neighbor es un algoritmo basado en instancia de tipo supervisado de
Machine Learning. Puede usarse para clasificar nuevas muestras (valores discretos) o
para predecir (regresión, valores continuos). Al ser un método sencillo, es ideal para
introducirse en el mundo del Aprendizaje Automático
K-means es un algoritmo
 de clasificación no supervisada (clusterización) que agrupa objetos en k grupos
basándose en sus características. El agrupamiento se realiza minimizando la suma de
distancias entre cada objeto y el centroide de su grupo o cluster. Se suele usar la
distancia cuadrática.
Algoritmos y finanzas

 Regresión: Regresión Lineal Simple (R, Scala, Python, Spark-Python) R. Lineal


Múltiple (R), R. Logística (R, Python), Redes Neuronales (R con keras), ANOVA (R),
MANOVA (R), Cuantificador Bayesiano Ingenuo (R), Análisis discriminante (R), Arboles
de Decisión (R, Spark-Python)
 Aprendizaje No Supervisado
 El aprendizaje no supervisado es un conjunto de técnicas que permiten inferir
modelos para extraer conocimiento de conjuntos de datos donde a priori se
desconoce.
 Análisis clúster: Análisis de Correspondencias Simple y Múltiple (R), Escalamiento
Multidimensional (R), Análisis Clúster Jerárquico y No Jerárquico (R, Spark-Python),
Análisis de componentes principales (R), Análisis Factorial (R)
Nuestra caja de herramientas
• Muchos de los conocimientos
tienen que ver con la Matemática
y la Estadística, pero además se
precisa de diversos
conocimientos tecnológicos:
• Bases de datos
relacionales, SQL
• Bases de datos no
relacionales, Big Data,
NoSQL…
• Lenguajes de programación:
R, Python
• Machine Learning
• Programación de altas
prestaciones, programación
distribuida, Hadoop

También podría gustarte