Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Informe final
Objetivo principal
Describir e identificar los retos actuales en el campo del análisis de datos con especial énfasis en las
dificultades matemáticas.
Objetivos específicos
• Reconocer los retos de frontera en el análisis de datos.
• Identificar los avances y líneas de investigación que proponen alguna solución a estos retos.
• Conocer las limitantes técnicas y tecnológicas en esta área.
• Entender la perspectiva que tiene la comunidad científica
Metodología
Herramientas
La selección y recopilación de la información serán llevadas a cabo en sitios de publicaciones científicas
arbitradas a nivel internacional. La recopilación documental será totalmente en recursos online y los
artículos obtenidos serán en su totalidad artículos de divulgación sobre el tema de investigación. El
contenido recuperado de esta búsqueda se presenta en la sección de bibliografía. La búsqueda se llevo a
cabo en Google Scholar, Redalyc, Scielo, Springer, Elsevier, CRC Press y ResearchGate. El análisis y
abstracción de la información se llevó a cabo sobre los artículos seleccionados, que sirven de base para
el los antecedentes y el marco teórico.
La investigación de campo se llevó a cabo en dos instituciones: una institución financiera y una
institución de investigación de mercado. Ambas son instituciones donde pudimos observar las limitantes
de las técnicas en ciencias de datos, ya que ambas cuentan con áreas especializadas en el tema. Se realizó
la bitácora de ambas visitas de campo.
Se entrevistó al Dr. Horacio González y al M.C. Mario Becerra con una entrevista en formato escrito.
La integración final de la información será llevada a cabo en LibreOffice Writer. La presentación
multimedia será elaborada en LibreOffice Impress.
Investigación documental
Antecedentes
El verdadero valor de los datos se basa en poder extraer información útil para la toma de decisiones o la
exploración, y en la comprensión del fenómeno gobernante en la fuente de datos. (Riquelme, 2006). La
estructura del minado de esta información debe satisfacer ciertos criterios para poder ser considerado
conocimiento: validez, utilidad, novedad e inteligibilidad. (Bradley, 1999).
Data Science
La ciencia de datos es un nuevo campo de investigación que se dedica a solucionar problemas
relacionados con el Big Data (Chen, 2015), la extracción de conocimiento e información para ganar
insights a partir de los datos, los cuales pueden originarse de manera experimental, observacional o
simulada, pueden ser datos estructurados o no, y ser colectados de múltiples fuentes, ambientes,
poblaciones o circunstancias (Nongxa, 2017).
Los científicos de datos tienen una íntima relación con otras disciplinas como las matemáticas, la
estadística y las ciencias de la computación. El interés académico de la ciencia de datos abarca el
desarrollo de nuevas teorías, algoritmos y metodologías (Nongxa, 2017; Chen, 2015).
La ciencia de datos se diferencia de las matemáticas, ya que en esta última ajusta los datos a un modelo;
en cambio, la primera, usa las matemáticas para encontrar propiedades fundamentales en los datos, tales
como las reglas y propiedades de un conjunto de datos o la conectividad entre diferentes conjuntos de
datos. (Chen, 2015). Algunos campos de las matemáticas que abarca la ciencia de datos son: análisis
numérico, teoría de gráficas, incertidumbre y autómatas celulares (Chen, 2015), álgebra lineal,
optimización, topología, análisis de series de tiempo y teoría de aproximación (Nongza, 2017).
Big Data
A inicios del 2014, la ciencia de datos toma importancia debido a la Big Data, recolectada por la industria,
la cual requiere de las técnicas adecuadas para obtener información útil (Chen, 2015). Esta nueva era se
caracteriza por la facilidad para obtener una cantidad masiva de datos de alta dimensionalidad o no
estructurados que son producidos de manera continua a un muy bajo costo (Jin, 2014; Riquelme, 2006).
La capacidad de obtener conocimiento a partir de estos datos es una presión común en la industria, desde
los negocios, hasta el gobierno (Bradley, 1999). Esto ha llevado a la comunidad científica a reexaminar
sus metodologías de investigación, lo cual a disparado una revolución en el pensamiento y métodos
científicos (Jin, 2015), y establece nuevos retos para proponer nuevas técnicas permitan trabajar con este
tipo datos (Riquelme, 2006; Bradley, 1999).
Las 5V's
La Big Data generalmente se obtiene de múltiples fuentes, formatos y metodologías (Chen, 2015; Fan,
2014; Nongxa, 2017). Lo cual aumenta la posibilidad de sesgo y errores de medición, que a su vez llevan
a ser caracterizadas por (Chen, 2015; Jin, 2015; Fan, 2014; Nongxa, 2017):
• Volumen: Petabytes de información de alta dimensionalidad
• Variedad: Múltiples fuentes, formatos, metodologías y orígenes.
• Velocidad: Altos tiempos de cómputo
• Veracidad: Ruido, datos perdidos y otras fuentes de incertidumbre
• Valor: valor para el negocio.
Estas características nos llevan a problemas como (Fan 2014; Nongxa, 2017):
• Heterogeneidad.
• Incompletitud.
• Baja escalabilidad.
• Acumulación de ruido.
• Relaciones espurias.
• Endogeneidad incidental.
Heterogeneidad
Dato que los datos vienen de diferentes orígenes, de diferentes subpoblaciones, cada subpoblación puede
mostrar características únicas que no son observables con pocos datos. El entendimiento de esta
heterogeneidad es un reto en la era de la Big Data.
Correlaciones espurias
La alta dimensionalidad de datos puede generar correlaciones espurias - alta correlación entre variables
independientes - las cuales provocan falsas inferencias estadísticas (Fan, 2014). Las propiedades de estos
espacios hiperdimensionales son vagamente entendidos e inadecuadamente consideradas (Nongxa,
2017).
Endogeneidad incidental
En el contexto de la regresión, la endogeneidad se refiere a covariables que están correlacionadas con los
residuales (Fan, 2014). A diferencia de las correlaciones espurias, la endogeneidad implica una existencia
genuina de correlación. Aunado a la heterogeneidad de los datos, los avances científicos nos han
permitido recolectar tantas covariables como sean posibles, lo que aumenta la dimensionalidad y con ello
la probabilidad de encontrar relaciones accidentales. Dentro de los problemas que surgen por estas
relaciones están el sesgo e inconsistencia en la selección de modelos.
Otros retos en el análisis de big data
Estas características hacen difícil la aplicación de métodos tradicionales, los cuales no pueden basarse en
las aproximaciones tradicionales de los antiguos algoritmos o estadística (Jin, 2015; Fan, 2014), ya que
procedimientos estándar en la ciencia de datos, tales como: descubrimiento de temas, análisis semántico
y de sentimiento, se vuelven completamente intratables con el advenimiento de la Big Data, debido a la
falta de conocimiento sobre las leyes de distribución y asociación de los datos.
Nongxa (2015) sugiere atender los siguientes temas principales:
• Modelación estadística sofisticada para la predicción de datos
• Herramientas y teorías de nueva generación para la inferencia y aprendizaje estadístico
• Estudio de las propiedades estadísticas y estocásticas de las redes
• Nuevas técnicas para la cuantificación de la incertidumbre
• Desarrollo de teoría estadística y numérica para el estudio de estructuras
analíticas, topológicas, algebraicas, geométricas y numéricas relevantes en la adquisición masiva
de datos
Bases Teóricas
Modelos predictivos
El objetivo de los modelos predictivos es estimar una función g que mapee vectores de covariables de
un espacio de inputs X a un espacio de outcomes Y, dada únicamente una muestra del mapeo,
Por lo tanto, queremos predecir el valor de Y dados X, y construir una función g que represente
precisamente f.
Dentro de los problemas comunes dentro de los modelos predictivos encontramos la transformación del
espacio de inputs (Bradley, 1999), el bajo performance del modelo en datos fuera del conjunto de
entrenamiento, el sobreentrenamiento y el sobreajuste de los modelos.
Clasificación
Este tipo de modelos predictivos tienen como objetivo predecir una variable categórica.
Fundamentalmente es un problema de estimación de densidad. Si podemos estimar la probabilidad de
una clase Y dato el valor de x∈X, entonces podríamos calcular esta probabilidad a partir de la distribución
conjunta de X y Y. Sin embargo, esta distribución no es conocida y es difícil de estimar (Bradley, 1999).
El problema de clasificación binaria se reduce a estimar la función de clasificación que asigna un vector
x∈Rn a uno de dos conjuntos disjuntos, A y B, en un espacio n-dimensional de covariables. Es decir,
dados X=Rn y Y={0,1}, la función de clasificación tiene la siguiente forma:
con normal w∈Rn y distancia al origen |γ|||w||2. Deseamos determinar w y γ tal que el plano defina dos
subespacios abiertos, {x|x∈Rn, xTw>γ} conteniendo puntos de A, y {x|x∈Rn, xTw<γ} conteniendo
puntos de B. Dicho plano existe solo si A y B son conjuntos disjuntos, por lo tanto, tratamos de encontrar
el mejor plano que separe dichos conjuntos. Es de notar que este problema tiene solución solo si existe
un numero finito de particiones dobles de A∪B que son linealmente separables (Bradley, 1999).
Entre algunos de los problemas que existen para los problemas de clasificación es encontrar el mejor
método que separe m diferentes clases de manera eficiente. Como hemos hecho notar, es requerido que
ambos conjuntos sean linealmente separables, lo cual, no siempre es el caso.
Con el advenimiento de los métodos obre Big Data, surge el problema adicional de encontrar dichas
particiones en tiempos creíbles (Chen, 2015). Adicional, en conjuntos de datos de alta dimensionalidad,
la existencia de covariables que aportan poco a la discriminación de clases empobrece el poder predictivo
de los modelos, debido a la acumulación de ruido (Fan, 2014).
Segmentación
Dado un número finito de puntos de una muestra del un espacio X, {xi}Mi=1, el objetivo de la
segmentación es agrupar datos en conjuntos de puntos parecidos. El objetivo es obtener segmentos que
otorguen un alto nivel de caracterización de las observaciones. A diferencia de los modelos predictivos,
la segmentación no tiene conocimientos a priori acerca de los datos, por lo tanto, se trata de un método
de aprendizaje no supervisado.
Uno de los mayores problemas de la segmentación es definir la cantidad de segmentos que deben existir.
Adicional, determinar de las métricas correctas para medir las distancias de vectores hiperdimensionales
es un problema que debe recibir mayor atención (Bradley, 1999)
Modelos causales
Podemos obtener información acerca de la estructura causal dentro de los datos. Los métodos de
estimación de densidad, en general, caen dentro de esta categoría.
En los problemas de estimación de densidad, tenemos una cantidad de n-dimensionales, {x1, x2,..., xM},
asumimos que cada uno de estos puntos son una muestra de alguna función de densidad de probabilidad
desconocida que mapea un punto en Rn al intervalo [0,1]. El objetivo es estimar la función de densidad
de probabilidad. Para ello nos valemos un modelo semiparamétrico considerando un mixture model. En
este caso nuestra estimación de la PDF, p(x), es una combinación de k funciones base:
Como podemos observar, en su mayoría, las personas que fueron encuestadas se dedican principalmente
a la modelación matemática de los datos (52%). En segundo lugar, tenemos a programadores que se
dedican a escribir el código para analizar los datos (23%) y en tercer lugar tenemos personas que
presentan esta información a un público menos técnico (11%). También encuestamos 1 persona que se
dedica a la manipulación de datos y 1 persona que se dedica a crear la visualización de datos correcta.
Aunque pareciera que los problemas se encuentran relativamente balanceados. y todos son frecuentes en
al menos el 30% de las personas encuestadas, el problema más común fue la heterogeneidad de los datos,
seguido de las relaciones espurias, alta dimensionalidad y la falta de investigación.
Básicamente todos los encuestados consideran que se requiere mayor investigación en el área de ciencia
de datos. Una persona comenta que la investigación ya existe, lo que no existe es el plan de integración
con la industria.
Básicamente el área de la ciencia de datos donde la mayoría de los encuestados opina que se requiere
mayor investigación es en el cómputo científico. Lo que implica que las matemáticas por si solas no son
el área donde se requiere mayor énfasis para esta comunidad de personas, más una mezcla entre
matemáticas y ciencias de la computación. En segundo lugar, empatan los problemas de optimización,
análisis numérico, estadística bayesiana y series de tiempo, cada uno con dos individuos.
Sobre las fuentes más consultadas, empatan en primer lugar páginas de Q&A como Stackoverflow con
artículos y libros científicos. Esto sugiere que las actividades de los científicos de datos se apoyan
fuertemente en la comunidad online y en la academia para resolver sus problemas. En segundo lugar,
tenemos cursos y tutoriales, en tercer lugar, tenemos foros.
Contundentemente, casi todas las personas creen que se requiere impulsar planes y programas
académicos en la ciencia de datos que sean impartidos en universidades públicas o privadas. Dos personas
consideran que ya existen dichos planes en las principales universidades del país.
Finalmente, las perspectivas sobre la investigación en ciencia de datos en México son en general malas
tanto en cantidad, calidad como en diversidad.
Conclusiones
A lo largo de este trabajo hemos documentado los problemas de frontera que enfrenta la ciencia de
datos, tanto a nivel teórico como práctico. A consideración de los expertos, la introducción de la Big
Data ha sido un tema trascendental para la formación de nuevos paradigmas en
la ciencia de datos, involucrando nuevos retos en procesamiento y análisis.
Los problemas más comunes a los que se enfrentan los científicos de datos son las relaciones espurias,
el volumen de los datos y alta dimensionalidad de los datos. Lo cual, como hemos visto, conlleva a
problemas de reducción de dimensiones, colapso de distancias, sobreajuste de datos y deterioro de la
calidad de los modelos de predicción.
La investigación en el área de ciencia de datos es uno de los principales temas que han sido abordados
en las últimas décadas, sin embargo, en nuestra investigación hemos notado que la investigación en
México requiere un impulso y respaldo. Este respaldo puede venir en la creación de planes de estudio
especializados y enfocarnos en la calidad y cantidad de investigación sobre estos temas.
Bibliografía
Bradley, P. S., Fayyad, U. M., & Mangasarian, O. L. (1999). Mathematical programming for data mining:
Formulations and challenges. INFORMS Journal on Computing, 11(3), 217-238.
Chen, L. M., Su, Z., & Jiang, B. (2015). Mathematical Problems in Data Science. Cham: Springer
International Publishing
Fan, J., Han, F., & Liu, H. (2014). Challenges of big data analysis. National science review, 1(2), 293-
314
Jin, X., Wah, B. W., Cheng, X., & Wang, Y. (2015). Significance and challenges of big data research. Big
Data Research, 2(2), 59-64.
Mahoney, M. W., Lim, L. H., & Carlsson, G. E. (2008). Algorithmic and statistical challenges in modern
large-scale data analysis are the focus of MMDS 2008. arXiv preprint arXiv:0812.3702
Nongxa, L. G. (2017). Mathematical and statistical foundations and challenges of (big) data sciences.
South African Journal of Science, 113(3-4), 1-4
Pardalos, P. M., & Migdalas, A. (Eds.). (2018). Open Problems in Optimization and Data Analysis (Vol.
141). Springer
Riquelme Santos, J. C., Ruiz, R., & Gilbert, K. (2006). Minería de datos: Conceptos y tendencias.
Inteligencia Artificial: Revista Iberoamericana de Inteligencia Artificial, 10 (29), 11-18
Anexos