Está en la página 1de 26

Investigación documental y de campo

Informe final

La necesidad de nuevas técnicas para el


análisis de datos

Jhosse Paul Márquez Ruíz

28 de mayo del 2019


Contenido
Introducción ...............................................................................................................................................3
Objetivo principal ..................................................................................................................................3
Objetivos específicos.............................................................................................................................3
Metodología ...............................................................................................................................................4
Herramientas .........................................................................................................................................4
Diseño de la muestra y población objetivo para las encuestas ..............................................................4
Plan de trabajo .......................................................................................................................................5
Resultados ..................................................................................................................................................6
Investigación documental ......................................................................................................................6
Antecedentes .....................................................................................................................................6
Bases Teóricas ..................................................................................................................................8
Entrevistas ...........................................................................................................................................12
Entrevista a Dr. Horacio Gonzalez Duhart .....................................................................................12
Entrevista con M.C. Mario Becerra ................................................................................................13
Aplicación de encuesta y análisis de resultados ..................................................................................15
Conclusiones .......................................................................................................................................22
Bibliografía ..............................................................................................................................................23
Anexos .....................................................................................................................................................24
Anexo 1: Instrumento de medición .....................................................................................................24
Anexo 2: Guión para la entrevista .......................................................................................................26
Introducción
Desde principios de esta década, el poder computacional nos ha permitido desarrollar gran cantidad de
avances en la ciencia, en específico en el poder de cálculo de las operaciones matemáticas. Cada vez
podemos resolver problemas más complejos y más exigentes, inclusive algunos que parecían
completamente imposibles.
El rol del entendimiento de los patrones de conocimiento en la información se ha convertido en una de
las actividades mejor pagadas y más solicitadas en todos los mercados del mundo: la ciencia de datos
(Davenport & Patil, 2012).
Dentro de este campo, existe una rica gama de líneas de investigación que se dedican a resolver los
problemas actuales en la ciencia de datos. Muchos de estos problemas, de índole tecnológica, y muchos
otros, que nos competen en este trabajo de investigación, del desarrollo de herramientas matemáticas que
nos permitan analizar datos de fuentes cada vez más diversas, en estructuras cada vez más complejas y
cada vez con mayor volumen.
El presente trabajo versa sobre en la descripción los retos actuales en el área de ciencia de datos y la
necesidad de continuar el desarrollo académico sobre los mismos.

Objetivo principal
Describir e identificar los retos actuales en el campo del análisis de datos con especial énfasis en las
dificultades matemáticas.

Objetivos específicos
• Reconocer los retos de frontera en el análisis de datos.
• Identificar los avances y líneas de investigación que proponen alguna solución a estos retos.
• Conocer las limitantes técnicas y tecnológicas en esta área.
• Entender la perspectiva que tiene la comunidad científica
Metodología

Herramientas
La selección y recopilación de la información serán llevadas a cabo en sitios de publicaciones científicas
arbitradas a nivel internacional. La recopilación documental será totalmente en recursos online y los
artículos obtenidos serán en su totalidad artículos de divulgación sobre el tema de investigación. El
contenido recuperado de esta búsqueda se presenta en la sección de bibliografía. La búsqueda se llevo a
cabo en Google Scholar, Redalyc, Scielo, Springer, Elsevier, CRC Press y ResearchGate. El análisis y
abstracción de la información se llevó a cabo sobre los artículos seleccionados, que sirven de base para
el los antecedentes y el marco teórico.
La investigación de campo se llevó a cabo en dos instituciones: una institución financiera y una
institución de investigación de mercado. Ambas son instituciones donde pudimos observar las limitantes
de las técnicas en ciencias de datos, ya que ambas cuentan con áreas especializadas en el tema. Se realizó
la bitácora de ambas visitas de campo.
Se entrevistó al Dr. Horacio González y al M.C. Mario Becerra con una entrevista en formato escrito.
La integración final de la información será llevada a cabo en LibreOffice Writer. La presentación
multimedia será elaborada en LibreOffice Impress.

Diseño de la muestra y población objetivo para las encuestas


La población objetivo de esta encuesta son científicos de datos que se encuentren laborando o que hayan
trabajado con un equipo de Data Science en los últimos 5 años. La selección de la muestra fue totalmente
dirigida, ya que la población objetivo es muy específica. Los datos fueron recabados vía SurveyMonkey,
en una encuesta completamente online. La muestra mínima objetivo fue de 10 personas, iniciando la
encuesta el 21 de mayo del 2019 a las 18:00 horas y terminando el 22 de mayo del 2019 a las 15:00 horas
con un total de 17 encuestas.
Plan de trabajo
Delimitación del tema y plan de investigación 3-7 de mayo
Selección y recopilación de la información 8-9 de mayo
Análisis y abstracción de la información 10-12 de mayo
Bitácora de investigación 13-15 de mayo
Planeación y aplicación de entrevista 16-17 de mayo
Aplicación de encuesta 22-24 de mayo
Integración y redacción del informe final 25-27 de mayo
Presentación multimedia 28-29 de mayo
Resultados

Investigación documental
Antecedentes
El verdadero valor de los datos se basa en poder extraer información útil para la toma de decisiones o la
exploración, y en la comprensión del fenómeno gobernante en la fuente de datos. (Riquelme, 2006). La
estructura del minado de esta información debe satisfacer ciertos criterios para poder ser considerado
conocimiento: validez, utilidad, novedad e inteligibilidad. (Bradley, 1999).
Data Science
La ciencia de datos es un nuevo campo de investigación que se dedica a solucionar problemas
relacionados con el Big Data (Chen, 2015), la extracción de conocimiento e información para ganar
insights a partir de los datos, los cuales pueden originarse de manera experimental, observacional o
simulada, pueden ser datos estructurados o no, y ser colectados de múltiples fuentes, ambientes,
poblaciones o circunstancias (Nongxa, 2017).
Los científicos de datos tienen una íntima relación con otras disciplinas como las matemáticas, la
estadística y las ciencias de la computación. El interés académico de la ciencia de datos abarca el
desarrollo de nuevas teorías, algoritmos y metodologías (Nongxa, 2017; Chen, 2015).
La ciencia de datos se diferencia de las matemáticas, ya que en esta última ajusta los datos a un modelo;
en cambio, la primera, usa las matemáticas para encontrar propiedades fundamentales en los datos, tales
como las reglas y propiedades de un conjunto de datos o la conectividad entre diferentes conjuntos de
datos. (Chen, 2015). Algunos campos de las matemáticas que abarca la ciencia de datos son: análisis
numérico, teoría de gráficas, incertidumbre y autómatas celulares (Chen, 2015), álgebra lineal,
optimización, topología, análisis de series de tiempo y teoría de aproximación (Nongza, 2017).
Big Data
A inicios del 2014, la ciencia de datos toma importancia debido a la Big Data, recolectada por la industria,
la cual requiere de las técnicas adecuadas para obtener información útil (Chen, 2015). Esta nueva era se
caracteriza por la facilidad para obtener una cantidad masiva de datos de alta dimensionalidad o no
estructurados que son producidos de manera continua a un muy bajo costo (Jin, 2014; Riquelme, 2006).
La capacidad de obtener conocimiento a partir de estos datos es una presión común en la industria, desde
los negocios, hasta el gobierno (Bradley, 1999). Esto ha llevado a la comunidad científica a reexaminar
sus metodologías de investigación, lo cual a disparado una revolución en el pensamiento y métodos
científicos (Jin, 2015), y establece nuevos retos para proponer nuevas técnicas permitan trabajar con este
tipo datos (Riquelme, 2006; Bradley, 1999).
Las 5V's
La Big Data generalmente se obtiene de múltiples fuentes, formatos y metodologías (Chen, 2015; Fan,
2014; Nongxa, 2017). Lo cual aumenta la posibilidad de sesgo y errores de medición, que a su vez llevan
a ser caracterizadas por (Chen, 2015; Jin, 2015; Fan, 2014; Nongxa, 2017):
• Volumen: Petabytes de información de alta dimensionalidad
• Variedad: Múltiples fuentes, formatos, metodologías y orígenes.
• Velocidad: Altos tiempos de cómputo
• Veracidad: Ruido, datos perdidos y otras fuentes de incertidumbre
• Valor: valor para el negocio.
Estas características nos llevan a problemas como (Fan 2014; Nongxa, 2017):
• Heterogeneidad.
• Incompletitud.
• Baja escalabilidad.
• Acumulación de ruido.
• Relaciones espurias.
• Endogeneidad incidental.
Heterogeneidad
Dato que los datos vienen de diferentes orígenes, de diferentes subpoblaciones, cada subpoblación puede
mostrar características únicas que no son observables con pocos datos. El entendimiento de esta
heterogeneidad es un reto en la era de la Big Data.
Correlaciones espurias
La alta dimensionalidad de datos puede generar correlaciones espurias - alta correlación entre variables
independientes - las cuales provocan falsas inferencias estadísticas (Fan, 2014). Las propiedades de estos
espacios hiperdimensionales son vagamente entendidos e inadecuadamente consideradas (Nongxa,
2017).
Endogeneidad incidental
En el contexto de la regresión, la endogeneidad se refiere a covariables que están correlacionadas con los
residuales (Fan, 2014). A diferencia de las correlaciones espurias, la endogeneidad implica una existencia
genuina de correlación. Aunado a la heterogeneidad de los datos, los avances científicos nos han
permitido recolectar tantas covariables como sean posibles, lo que aumenta la dimensionalidad y con ello
la probabilidad de encontrar relaciones accidentales. Dentro de los problemas que surgen por estas
relaciones están el sesgo e inconsistencia en la selección de modelos.
Otros retos en el análisis de big data
Estas características hacen difícil la aplicación de métodos tradicionales, los cuales no pueden basarse en
las aproximaciones tradicionales de los antiguos algoritmos o estadística (Jin, 2015; Fan, 2014), ya que
procedimientos estándar en la ciencia de datos, tales como: descubrimiento de temas, análisis semántico
y de sentimiento, se vuelven completamente intratables con el advenimiento de la Big Data, debido a la
falta de conocimiento sobre las leyes de distribución y asociación de los datos.
Nongxa (2015) sugiere atender los siguientes temas principales:
• Modelación estadística sofisticada para la predicción de datos
• Herramientas y teorías de nueva generación para la inferencia y aprendizaje estadístico
• Estudio de las propiedades estadísticas y estocásticas de las redes
• Nuevas técnicas para la cuantificación de la incertidumbre
• Desarrollo de teoría estadística y numérica para el estudio de estructuras
analíticas, topológicas, algebraicas, geométricas y numéricas relevantes en la adquisición masiva
de datos

Bases Teóricas
Modelos predictivos
El objetivo de los modelos predictivos es estimar una función g que mapee vectores de covariables de
un espacio de inputs X a un espacio de outcomes Y, dada únicamente una muestra del mapeo,

Por lo tanto, queremos predecir el valor de Y dados X, y construir una función g que represente
precisamente f.

Dentro de los problemas comunes dentro de los modelos predictivos encontramos la transformación del
espacio de inputs (Bradley, 1999), el bajo performance del modelo en datos fuera del conjunto de
entrenamiento, el sobreentrenamiento y el sobreajuste de los modelos.
Clasificación
Este tipo de modelos predictivos tienen como objetivo predecir una variable categórica.
Fundamentalmente es un problema de estimación de densidad. Si podemos estimar la probabilidad de
una clase Y dato el valor de x∈X, entonces podríamos calcular esta probabilidad a partir de la distribución
conjunta de X y Y. Sin embargo, esta distribución no es conocida y es difícil de estimar (Bradley, 1999).
El problema de clasificación binaria se reduce a estimar la función de clasificación que asigna un vector
x∈Rn a uno de dos conjuntos disjuntos, A y B, en un espacio n-dimensional de covariables. Es decir,
dados X=Rn y Y={0,1}, la función de clasificación tiene la siguiente forma:

Representamos los m elementos de un conjunto finito de puntos A⊂Rn como la matriz


A∈Rk×n.Tratamos de discriminar entre los conjuntos A y B construyendo un plano que los separe:

con normal w∈Rn y distancia al origen |γ|||w||2. Deseamos determinar w y γ tal que el plano defina dos
subespacios abiertos, {x|x∈Rn, xTw>γ} conteniendo puntos de A, y {x|x∈Rn, xTw<γ} conteniendo
puntos de B. Dicho plano existe solo si A y B son conjuntos disjuntos, por lo tanto, tratamos de encontrar
el mejor plano que separe dichos conjuntos. Es de notar que este problema tiene solución solo si existe
un numero finito de particiones dobles de A∪B que son linealmente separables (Bradley, 1999).
Entre algunos de los problemas que existen para los problemas de clasificación es encontrar el mejor
método que separe m diferentes clases de manera eficiente. Como hemos hecho notar, es requerido que
ambos conjuntos sean linealmente separables, lo cual, no siempre es el caso.
Con el advenimiento de los métodos obre Big Data, surge el problema adicional de encontrar dichas
particiones en tiempos creíbles (Chen, 2015). Adicional, en conjuntos de datos de alta dimensionalidad,
la existencia de covariables que aportan poco a la discriminación de clases empobrece el poder predictivo
de los modelos, debido a la acumulación de ruido (Fan, 2014).
Segmentación
Dado un número finito de puntos de una muestra del un espacio X, {xi}Mi=1, el objetivo de la
segmentación es agrupar datos en conjuntos de puntos parecidos. El objetivo es obtener segmentos que
otorguen un alto nivel de caracterización de las observaciones. A diferencia de los modelos predictivos,
la segmentación no tiene conocimientos a priori acerca de los datos, por lo tanto, se trata de un método
de aprendizaje no supervisado.
Uno de los mayores problemas de la segmentación es definir la cantidad de segmentos que deben existir.
Adicional, determinar de las métricas correctas para medir las distancias de vectores hiperdimensionales
es un problema que debe recibir mayor atención (Bradley, 1999)
Modelos causales
Podemos obtener información acerca de la estructura causal dentro de los datos. Los métodos de
estimación de densidad, en general, caen dentro de esta categoría.
En los problemas de estimación de densidad, tenemos una cantidad de n-dimensionales, {x1, x2,..., xM},
asumimos que cada uno de estos puntos son una muestra de alguna función de densidad de probabilidad
desconocida que mapea un punto en Rn al intervalo [0,1]. El objetivo es estimar la función de densidad
de probabilidad. Para ello nos valemos un modelo semiparamétrico considerando un mixture model. En
este caso nuestra estimación de la PDF, p(x), es una combinación de k funciones base:

donde P(ℓ) es la probabilidad de la probabilidad a priori de que el dato


haya sido generado por el componente ℓ de la mezcla y p(x|ℓ) sin las densidades condicionales. Las
funciones base son estas densidades condicionales p(x|ℓ), ℓ=1, ..., k y los coeficientes lineales son las
probabilidades a piori, P(ℓ), ℓ=1, ..., k. Las probabilidades a priori satisfacen:

De la misma manera, las funciones base son normalizadas, tal que:


Uno de los problemas fundamentales es encontrar uçla cantidad k adecuada de
funciones base.
Reducción de dimensionalidad
Un punto representa un objeto con p covariables, donde p puede ser un entero muy grande.
Geométricamente, los datos viven en un espacio de vectores hiperdimensional. La geometría de los
espacios vectoriales hiperdimensionales exhiben características particulares que son contraintuitivas
cuando uno trata de extrapolarlas a dimensiones menores. A este problema se le conoce en la literatura
como la "maldición de la dimensionalidad" (Nongxa, 2017).
Dada la una cantidad alta de dimensiones en la Big Data, la visualización y análisis humano se vuelve
prácticamente imposible. Una de las soluciones a este problema es proyectar la información a una
dimensión menor con la menor perdida de información posible y construir los modelos en este
subespacio. Conforme la cantidad de dimensiones aumenta, el número de combinaciones para cada
reducción de dimensiones crece exponencialmente. Además, una proyección a menor dimensión puede
convertir un problema de clasificación relativamente sencillo en uno prácticamente sin solución (Bradley,
1999), ya que los ejes de máxima discriminación, no necesariamente son los ejes de máxima varianza
(Mahoney, 2018).
En términos de la calidad de modelos estadísticos, la selección de variables y la reducción de dimensiones
juega un rol principal, ya que solucionan el problema de la acumulación de ruido, sin embargo, en
espacios hiperdimensionales, es un reto, dadas las correlaciones espurias, heterogeneidad, endogeneidad
incidental y errores de medición inherentes al Big Data (Fan, 2014; Jin, 2015).
Uno de los principales problemas actuales de la ciencia de datos es desarrollar métodos efectivos de
muestreo, reducción de datos y de dimensionalidad que operen en una mezcla de datos categóricos y
numéricos. Nuestro entendimiento de espacios hiperdimensionales y la estimación dentro de ellos es un
tema de investigación de frontera (Bradley, 1999).
Sobreajuste
El sobreajuste, es un fenómeno que surge al memorizar los datos a partir de una gran cantidad de
parámetros. A diferencia del aprendizaje, al memorizar los datos, no es posible generalizarlos a otro
conjunto de datos (Riquelme, 2006).
Todos los algoritmos de aprendizaje automático tienen que tomar en consideración este problema, ya
que, al tener una cantidad grande de modelos, podemos encontrar uno que ajuste muy bien de manera
aleatoria, sin que este generalice a otro conjunto de datos. Definiendo la cantidad de modelos en función
de la cantidad de dimensiones que tenemos disponibles, mientras mayor sea nuestra dimensionalidad,
mayores es la probabilidad de sobre ajustar por azar (Bradley, 1999).
Inferir mixture models a partir de grandes conjuntos de datos requieren métodos computacionales y
estadísticos sofisticados, ya que en altas dimensiones tenemos que introducir métodos de regularización
para evitar el sobreajuste y la acumulación de ruido (Fan, 2014)
Acumulación de ruido
La inferencia de mixture models, y en general, la mayoría de los métodos de inferencia probabilística,
estiman simultáneamente o prueban múltiples parámetros. Los errores de estimación se acumulan cuando
una regla de decisión o predicción depende de una gran cantidad de parámetros. El efecto se multiplica
en espacios hiperdimensionales e incluso puede llegar a ocultar los efectos
reales de otras covariables (Fan, 2014; Mahoney, 2018). Esto motiva el desarrollo de métodos de
selección de variables y modelos tolerantes al error, ya sea debido a la acumulación de ruido o por una
representación inadecuada del problema real (Bradley, 1999).
Entrevistas
Entrevista a Dr. Horacio Gonzalez Duhart
¿Podrías contarnos un poco sobre tu trabajo y a qué te dedicas?
Trabajo en una empresa de marketing. Es difícil decir a qué se dedica porque estamos en un proceso de
transición en el que por un lado se están fusionando varias empresas y por otro estamos cambiando de
dueño. Lo que sí puedo decir con certidumbre es que yo he estado trabajando en una parte que se dedica
al desarrollo de marcas; es decir, a como hacer que los consumidores conozcan, prueben, y amen las
marcas.
En particular, yo soy matemático de formación y he estado en el área que se dedica a análisis estadísticos
avanzados o lo que hoy se conoce como Data Science. Desde diseños muestrales para estudios de
investigación de mercados, segmentación y clasificación de consumidores, cálculos de retorno sobre
inversión de actividades de mercadotecnia hasta optimización de presupuestos en mercadotecnia.
Recientemente fui promovido y ahora veo más la parte de análisis de datos sin estructura, que se refiere
a texto, voz, imágenes y video.
¿Qué técnicas de ciencias de datos ocupas?
Si tuviera que mencionar un subconjunto del contenido de un libro de ciencia de datos diría que métodos
de segmentación no supervisados (como el algoritmo de k medias), métodos de clasificación
supervisados. Regresiones logísticas y normales, simples y multivariadas, estáticas y dinámicas. Análisis
de discriminantes o maquinas de soporte vectorial. Modelos ARIMA para series de tiempo. Redes
neuronales: CNN, RNN y GAN.
No me gusta cerrarme a que los problemas se tengan que resolver de una forma en particular. Me gusta
estar leyendo sobre nuevos métodos en estadística Bayesiana, teoría de control estocástica e inteligencia
artificial para ver si podemos implementar nuevos métodos. Un ejemplo de esto es que antes usábamos
un método que se llama escalamiento multidimensional como forma de visualizar espacios
multidimensionales en un plano cartesiano y ahora también usamos una técnica que se llama t-Student
Neighbour Embedding (o simplemente t- SNE) para lo mismo.
Lo que espero de mi equipo es que propongan nuevas cosas que podamos intentar y no se queden solo
con lo que a mí se me ocurra. De esa manera podemos siempre estar innovando.
¿Qué problemas recurrentes te encuentras en tu trabajo relacionado con las matemáticas?
En particular, creo que uno de los problemas que más frecuentemente he visto es el de como una cierta
cantidad de dinero, x, afecta una métrica de marca, y. Para empezar, nos gusta pensar que lo invertido
hoy no afecta simplemente a lo que ocurre hoy, sino lo que ocurre mañana, pasado, etc. Hay estrategias
matemáticas en las que optimizamos parámetros para que el modelo se parezca lo más posible a los datos
observados, pero me parece que no son modelos consistentes. Siento que hace falta una teoría matemática
solida sobre el comportamiento de marcas en la mente de los consumidores.
Otro problema en el que he estado pensando recientemente es la visualización de varias series de tiempo
que hablan de la misma marca, como esta visualización evoluciona en el tiempo y como este dinamismo
puede ser diferente en marcas que se encuentran en distintos puntos de su desarrollo. Por ejemplo:
métricas como conocimiento de marca y marca favorita son métricas distintas
para marcas como Coca-Cola y Dr. Pepper. Todo el mundo conoce Coca-Cola mientras que poca gente
conoce Dr. Pepper, por lo tanto, algunas personas dirán que Coca-Cola es su marca favorita y nadie lo
dirá́ para Dr. Pepper. Pero ambas marcas invierten y trabajan en mejorar sus métricas. Lo que quiero es
ver una forma en la que podamos ver el desarrollo de ambas de forma rápida y evidente.
¿Consideras que el trabajo académico y la investigación en el área de ciencia de datos sea
necesaria?
¡Por supuesto! Para empezar, me parece que hay dos vertientes en las cuáles uno puede hablar de la
ciencia de datos: desde la perspectiva estadística: en la cuál uno puede investigar sobre nuevos modelos,
cómo estimar los parámetros y su interoperabilidad; así́ como la perspectiva computacional: en la que
estudiamos como implementar numéricamente los modelos de manera estable, paralelizarlos y hacer
algoritmos escalables. Me parece que ambas formas de investigación son muy valiosas.
¿En qué área de las matemáticas consideras que se requiere mayor investigación para solucionar
algunos problemas que se te presentan?
Definitivamente las áreas de estadística, análisis numérico, optimización, redes neuronales y ahora
procesamiento de lenguaje natural, son fundamentales. Pero como mencioné anteriormente, no me gusta
cerrarme a la idea de que ciertos problemas se tienen que resolver forzosamente por ciertos métodos.
Unos ejemplos claros de esto hay como el hecho de que la demostración más sencilla del teorema
fundamental del álgebra se hace usando técnicas del análisis de variable compleja; la demostración del
ultimo teorema de Fermat, que tiene que ver con ecuaciones diofánticas, fue resuelta gracias a la relación
de formas modulares con curvas elípticas. Mi punto es que uno nunca sabe dónde va a estar la siguiente
rama de la que habrá́ que colgarse, así́ que no hay que echar nada en saco roto.

Entrevista con M.C. Mario Becerra


¿Podrías contarnos un poco sobre tu trabajo? ¿A qué te dedicas?
Soy científico de datos. La mayor parte del trabajo que hago es para el área de marketing. Usualmente
hago análisis y modelos estadísticos que se traducen en listados de clientes para campañas de marketing.
¿Qué técnicas de ciencia de datos ocupas?
En general, me dedico a hacer análisis estadístico, por lo que uso mucho mis conocimientos de estadística
y aprendizaje de máquina. Por ejemplo, las campañas las medimos usando ideas de diseño experimental
y pruebas A/B Bayesianas. Otro ejemplo es el medir la regularidad con la que los clientes hacen compras,
así como otras medidas, para estimar cuándo es probable que vuelvan a comprar.
Todos estos datos están en forma de muchas tablas en un lago de datos, por lo que requiero de
conocimientos de programación en SQL para extraerlos y transformarlos. El modelado lo hago usando
el lenguaje de programación R.
¿Qué problemas recurrentes te encuentras en tu trabajo relacionados con las matemáticas?
Algunos de los modelos que hemos implementado son el estado del arte, por lo que debo de leer artículos
científicos para poder entender cómo implementar los modelos. Estos artículos científicos suelen ser en
el área de estadística, por lo que se necesitan conocimientos de estadística y
probabilidad para poderlos entender.
¿Consideras que el trabajo académico y la investigación en el área de datos sea necesaria?
La investigación definitivamente sí. Al menos un poco. Sobre todo, si se quiere estar actualizado en los
conocimientos. Sin embargo, uno científico de datos puede perfectamente utilizar técnicas clásicas ya
depuradas. Aún así, los problemas en la vida real no siempre se traducen exactamente a lo que uno
aprende en la escuela o en los libros, por lo que hay que hacer investigación sobre los datos que uno usa,
o ver si existe una implementación más actual o más rápida, etc.
En cuanto al trabajo académico, no creo que sea necesario. Hay distintos tipos de científicos de datos,
desde alguien muy teórico que se dedica a investigar nuevos modelos, a alguien que crea reportes o
análisis ad-hoc de algún fenómeno. En este amplio espectro, hay distintas necesidades de trabajo
académico, por lo que creo que en general el trabajo académico no es necesario, pero sí útil en algunas
áreas.
¿En qué área de las matemáticas consideras que se requiere mayor investigación para solucionar
algunos de los problemas que se te presentan?
Es difícil decir. Este trabajo involucra muchas áreas: desde cómputo científico y numérico, a
optimización de funciones de pérdida, a mejora de programación probabilística, a uso eficiente del
hardware disponible. Además, como los proyectos son cambiantes, no las necesidades no siempre son
las mismas. Por ejemplo, para un proyecto me hacía falta hacer uso del hardware de forma más eficiente
porque el algoritmo era lento y ocupaba mucha RAM. En otro podría hacer uso de paquetes que reduzcan
la complejidad de la programación probabilística de un problema Bayesiano. Pero si tuviera que contestar
algo, daría una respuesta general inclinada a que siempre es bueno encontrar maneras de acelerar el
cómputo. Este cómputo puede ser muchas cosas, como un algoritmo de optimización, o cómo encontrar
la forma de paralelizar otro algoritmo para así poderlo escalar con muchos procesadores.
Aplicación de encuesta y análisis de resultados

Como podemos observar, en su mayoría, las personas que fueron encuestadas se dedican principalmente
a la modelación matemática de los datos (52%). En segundo lugar, tenemos a programadores que se
dedican a escribir el código para analizar los datos (23%) y en tercer lugar tenemos personas que
presentan esta información a un público menos técnico (11%). También encuestamos 1 persona que se
dedica a la manipulación de datos y 1 persona que se dedica a crear la visualización de datos correcta.
Aunque pareciera que los problemas se encuentran relativamente balanceados. y todos son frecuentes en
al menos el 30% de las personas encuestadas, el problema más común fue la heterogeneidad de los datos,
seguido de las relaciones espurias, alta dimensionalidad y la falta de investigación.
Básicamente todos los encuestados consideran que se requiere mayor investigación en el área de ciencia
de datos. Una persona comenta que la investigación ya existe, lo que no existe es el plan de integración
con la industria.
Básicamente el área de la ciencia de datos donde la mayoría de los encuestados opina que se requiere
mayor investigación es en el cómputo científico. Lo que implica que las matemáticas por si solas no son
el área donde se requiere mayor énfasis para esta comunidad de personas, más una mezcla entre
matemáticas y ciencias de la computación. En segundo lugar, empatan los problemas de optimización,
análisis numérico, estadística bayesiana y series de tiempo, cada uno con dos individuos.
Sobre las fuentes más consultadas, empatan en primer lugar páginas de Q&A como Stackoverflow con
artículos y libros científicos. Esto sugiere que las actividades de los científicos de datos se apoyan
fuertemente en la comunidad online y en la academia para resolver sus problemas. En segundo lugar,
tenemos cursos y tutoriales, en tercer lugar, tenemos foros.
Contundentemente, casi todas las personas creen que se requiere impulsar planes y programas
académicos en la ciencia de datos que sean impartidos en universidades públicas o privadas. Dos personas
consideran que ya existen dichos planes en las principales universidades del país.
Finalmente, las perspectivas sobre la investigación en ciencia de datos en México son en general malas
tanto en cantidad, calidad como en diversidad.

Conclusiones
A lo largo de este trabajo hemos documentado los problemas de frontera que enfrenta la ciencia de
datos, tanto a nivel teórico como práctico. A consideración de los expertos, la introducción de la Big
Data ha sido un tema trascendental para la formación de nuevos paradigmas en
la ciencia de datos, involucrando nuevos retos en procesamiento y análisis.
Los problemas más comunes a los que se enfrentan los científicos de datos son las relaciones espurias,
el volumen de los datos y alta dimensionalidad de los datos. Lo cual, como hemos visto, conlleva a
problemas de reducción de dimensiones, colapso de distancias, sobreajuste de datos y deterioro de la
calidad de los modelos de predicción.
La investigación en el área de ciencia de datos es uno de los principales temas que han sido abordados
en las últimas décadas, sin embargo, en nuestra investigación hemos notado que la investigación en
México requiere un impulso y respaldo. Este respaldo puede venir en la creación de planes de estudio
especializados y enfocarnos en la calidad y cantidad de investigación sobre estos temas.
Bibliografía
Bradley, P. S., Fayyad, U. M., & Mangasarian, O. L. (1999). Mathematical programming for data mining:
Formulations and challenges. INFORMS Journal on Computing, 11(3), 217-238.
Chen, L. M., Su, Z., & Jiang, B. (2015). Mathematical Problems in Data Science. Cham: Springer
International Publishing
Fan, J., Han, F., & Liu, H. (2014). Challenges of big data analysis. National science review, 1(2), 293-
314
Jin, X., Wah, B. W., Cheng, X., & Wang, Y. (2015). Significance and challenges of big data research. Big
Data Research, 2(2), 59-64.
Mahoney, M. W., Lim, L. H., & Carlsson, G. E. (2008). Algorithmic and statistical challenges in modern
large-scale data analysis are the focus of MMDS 2008. arXiv preprint arXiv:0812.3702
Nongxa, L. G. (2017). Mathematical and statistical foundations and challenges of (big) data sciences.
South African Journal of Science, 113(3-4), 1-4
Pardalos, P. M., & Migdalas, A. (Eds.). (2018). Open Problems in Optimization and Data Analysis (Vol.
141). Springer
Riquelme Santos, J. C., Ruiz, R., & Gilbert, K. (2006). Minería de datos: Conceptos y tendencias.
Inteligencia Artificial: Revista Iberoamericana de Inteligencia Artificial, 10 (29), 11-18
Anexos

Anexo 1: Instrumento de medición


1. ¿Qué tipo de Data Scientist eres?
1. Programmer
2. Modeller
3. Wrangler
4. Technologist
5. Visualiser
6. Communicator
2. En mi labor profesional me encuentro frecuentemente con:
1. Insuficiencia de recursos por la cantidad de los datos
2. Datos extremadamente heterogéneos, originados de múltiples fuentes y tiempos
3. Datos no estructurados (vídeos, imágenes, texto)
4. Relaciones espurias en los datos
5. Modelos complejos y sofisticados
6. Alta dimensionalidad en los datos
7. Modelos con muchos hiperparámetros
8. Problemas que no han sido investigados lo suficiente
9. Dificultad para hacer interpretable un modelo
10. Presentando visualizaciones complejas a personas no técnicas
3. ¿Consideras que se requiere mayor investigación en el área de la ciencia de datos?
1. Si
2. No
4. ¿Cuál consideras que es el área donde se requiere mayor énfasis en la investigación con respecto
a la ciencia de datos?
1. Optmización
2. Inferencia
3. Probabilidad
4. Análisis numérico
5. Cómputo científico
6. Análisis multivariado
7. Estadística bayesiana
8. Muestreo
9. Series de tiempo
10. Teoría de la medida
5. ¿Qué fuentes de información consultas regularmente para resolver problemas en tu actividad
profesional
1. Stackoverfloe
2. Artículos y libros
3. Cursos y tutoriales
4. Vídeos
5. Foros
6. Wikis
7. Directamente con colaboradores
6. ¿Te has encontrado con problemas relacionados con la ciencia de datos que no hayas podido
solucionar? ¿Cuál o cuáles?
7. ¿Consideras que se debería impulsar la creación de programas educativos en ciencia de datos en
las principales universidades del país?
8. Siendo 1, completamente en desacuerdo, y 5 completamente deacuerdo, califica las siguientes
afirmaciones. La investigación en ciencia de datos en mi país es...
1. Abundante
2. De calidad
3. Diversa
9. ¿Cuál es tu sexo?
10. ¿Cuál es tu edad?
Anexo 2: Guión para la entrevista
• Buenas tardes ____, ¿Podrías contarnos un poco sobre tu trabajo? ¿A qué te dedicas?

• ¿Qué técnicas de ciencia de datos ocupas?


• ¿Qué problemas recurrentes te encuentras en tu trabajo relacionados con las matemáticas?
• ¿Consideras que el trabajo académico y la investigación en el área de datos sea necesaria?
• ¿En qué área de las matemáticas consideras que se requiere mayor investigación para solucionar
algunos de los problemas que se te presentan?

También podría gustarte