Está en la página 1de 3

Cada vez vemos más ofertas de empleo en las que piden un Científico

de datos, un “Big Data Scientist” que ayude a analizar la información


recogida en empresas de todo tipo.
Si lo analizamos de forma superficial parece que estamos hablando de
una especialización de estadística, peor no podemos caer en ese error.
Un Big Data Scientist es un profesional que tiene muy buen conocimiento
de matemáticas, pero también bastante habilidad a la hora de programar
y de obtener información de bases de datos.
En Internet se recoge una enorme cantidad de información a diario, y
esos datos deben ser analizados para poder obtener conclusiones sobre
los más diversos temas. Desde las estadísticas incluidas en los informes
de Google Analytics hasta las que se pueden obtener a partir de
formularios de entrada de datos en tiendas online, la información que
tenemos que gestionar es cada vez mayor, y los productos que se deben
ofrecer tienen que tener en cuenta esos datos.

Si saltamos al mundo de la inteligencia artificial y el aprendizaje


automático, con ordenadores que aprenden solos a medida que se usan,
la importancia del Científico de Datos aumenta. Los sensores no paran
de recoger información de forma automática, y las acciones que se
toman a partir de esos datos deben ser extremadamente bien calculadas.
Este nuevo perfil profesional se ha ido generando poco a poco. Muchos
autodidactas han ido completando su currículo para transformarse en un
científico de datos, aprovechando la formación obtenida ya en otras
áreas. En  Burtch Works, por ejemplo, comentan que 1 de cada 3 de los
Big Data Scientist vienen de las matemáticas y la estadística, mientras
que 1 de cada cinco llega de informática.

Qué hay que aprender


Entendiendo así que estamos hablando de una ciencia extremadamente
relacionada con las matemáticas, es obvio que hay que tener buenos
conocimientos sobre estadística, pero también es importante apostar por
lenguajes de programación y consultas en bases de datos.
Cuando hablamos de consultar información en bases de datos,
rápidamente nos viene a la cabeza SQL, ideal para trabajar con bases de
datos relacionales, y cuando pensamos en programar no podemos evitar
recordar uno de los lenguajes más utilizados en todo el mundo Python,
pero en este punto tenemos que hablar de otro lenguaje mucho más
específico, muy usado en el mundo de la estadística: R.
El gráfico que veis arriba corresponde al resultado de una encuesta
realizada en 2014, donde los entrevistados comentaban lo más
importante en el mundo de la Ciencia de los Datos.
Además de estos grandes protagonistas, podemos ver cómo otros
siempre presentes aparecen, como : Scala, Perl, C#, Matlab, Java…
incluso el viejo conocido Excel no falta en este tipo de encuestas.
Si analizamos el currículo de un gran Big Data Scientist nos encontramos
con elementos como:

 Inteligencia artificial: clasificación, regresión, clustering…


 Métodos estadísticos: series de tiempo, modelos de regresión,
intervalos de confianza y pruebas de hipótesis, análisis de
componentes principales y la reducción de dimensionalidad,
ecuaciones diferenciales estocásticas (SDES)
 Software y lenguajes de programación: Python (scikit-learn, numpy,
scipy, pandas, gensim), R, SQL, Hadoop (Colmena, MapReduce),
Linux, Oracle, Microsoft Excel, LaTeX
 Otros: Procesos estocásticos, estocástico de simulación, Random
Matrix Theory, álgebra lineal, probabilidad y estadística.

Como veis, no parece sencillo transformarse en un experto en el tema,


pero nada que no se pueda aprender dentro y fuera de Internet.
Aquí os explicamos el motivo por el cual es necesario aprender a usar
estos lenguajes:
– SQL: Es obligatorio saber SQL par apoder obtener datos de bases de
datos relacionales, como MySQl, por ejemplo. Realizar consultas de
forma eficiente y exportar el contenido para posterior análisis es parte del
día a día del científico de datos.
– Python: Es uno de los lenguajes de programación más utilizado en
cualquier sector. En muchas ocasiones es el primer lenguaje aprendido
por un profesional, ya que es muy legible. Contiene también una gran
cantidad de bibliotecas que aumentan sus posibilidades de forma
impresionante.
– R: El lenguaje de programación más usado por los profesionales de
estadística. Es una versión del lenguaje S pero con soporte de alcance
estático, siendo muy popular en el campo de la minería de datos,
la investigación biomédica, la bioinformáticay las matemáticas
financieras.
– Javascript: Contiene bibliotecas de representación de datos que
permite la creación de informes con los datos obtenidos, siendo posible
publicarlos en diferentes plataformas para su visualización, incluyendo
plataformas web.

Dónde se pueden hacer cursos sobre este tema


En las principales ciudades del mundo existen escuelas especializadas
en programación, y allí podemos encontrar cursos intensivos sobre
muchas de las áreas que se necesitan en este sector (Python, SQL,
Java, etc.). En Internet también se ofrecen con frecuencia cursos en
formato MOOC con la Ciencia de Datos como protagonista, cursos que
solemos publicar siempre aquí, en WWWhatsnew.
Desde la propuesta de skylabcoders.com en Barcelona, especializados
en Javascript y diseño de informes con DS3, a los cursos online
especializados en Coursera, existen varias alternativas que pueden
ayudarnos a completar nuestro currículo para transformarnos en un
científico de datos.

¿Cuánto gana un Científico de Datos?


La pregunta del salario es inevitable, y aunque la media es de 55.000
euros al año en Europa occidental, la  cantidad depende mucho del
empleador y del tipo de relación que se tiene con la empresa (freelance,
empleado, etc.).

También podría gustarte