Está en la página 1de 5

Máster Data Science UOC

Fundamentos de Ciencia de Datos


(PEC1)

Autor: Curso 2020/2021


Kyrylo Morozov Fecha: 5/10/2020

1
Kyrylo Morozov PEC1

Ejercicio 1
¿Qué es y qué hace un/a científico/a de datos?

Un científico de datos es aquella persona capaz de, con el uso de los datos, dar solución aun
problema concreto, ya sea enfocado a negocios, ciencia, economía, sociedad, entretenimiento,
etc. Debe tener un perfil multidisciplinar que le permita manejar programación, y matemá-
ticas, además de tener un enfoque innovador hacia el problema propuesto. También debe ser
conocedor del negocio propiamente dicho al cual esta ofreciendo su servicio.
¿Qué herramientas utiliza un/a científico/a de datos?

El científico de datos usa diversas herramientas del ámbito de las matemáticas y la informática
para dar solución a los problemas propuestos. Diversos lenguajes de programación, estadística,
teoría de la información y un largo etc.
Cita dos de las aportaciones realizadas en el Debate 1 del aula que destaquen
por su originalidad y/o profundidad.

Stefanie Kobsar Rodríguez RE: CIencia de datos: Modelos predefinidos y cajas negras
En sintonía con Kyrylo y Jaime, yo creo que es fundamental y necesario conocer las mate-
máticas que existen detrás de los modelos. Creo que este punto es el que diferenciará entre
los científicos de dato capaces de innovar y aquellos que no puedan implemetar sus ideas
innovadoras.
Creo que, por empezar por algún sitio, es necesario entender el funcionamiento del algoritmo
de Back Propagation, en el que se hace un estimación del error computado por las capas de
la red neuronal y se reduce mediante el calculo del gradiente negativo de este mismo error,
para así poder encontrar el valor mínimo en una superficie n dimensional.
No creo que haga falta saber deducir matemáticamente este algoritmo...¿pero no compren-
derlo?¿no preocuparse por el significado intrínseco de cómo se realizan los cálculos de los
resultados que se obtienen?
Quizás usar una red neuronal como si de un juego se tratara puede dar resultados signifi-
cativos algunas veces, pero a largo plazo trabajar con "la excusa de la caja negra" creo que
puede dar lugar a obtener resultados mediocres.

2
Kyrylo Morozov PEC1

Rodrigo García Valiente ¿Qué no debe olvidar nunca un data scientist?


-La mayoría de las distribuciones no son normales, hay que evitar asumirlo.
-Hay que estar actualizado y leer papers, blogs y noticias del sector. A cada momento surgen
técnicas nuevas, aproximaciones diferentes, etc. Es un dolor tener que lidiar con eso, pero a
la vez es... refrescante, es un trabajo muy dinámico.
-Maneja varios lenguajes de programación, no sólo uno.
-Ser buen data scientist es la mitad del trabajo, la otra mitad es conocer bien el tema en el
que trabajas para poder implementar todas las técnicas que se necesiten.
Me gustaría mucho saber qué opináis. ¡Un saludo a todos!
Rodrigo García Valiente Alumno del Máster universitario en Ciencia de Datos

Ejercicio 2
¿Qué es la transformación digital?

La transformación digital es el proceso de impulsar el despliegue de insfraestructuras que se


esta produciendo en las empresas con el fin de basar sus decisiones y estrategias en el «dato».
¿Cuál es el papel fundamental de la ciencia de datos en la transformación
digital?

Una de las consecuencias de la transformación digital es el hecho de que las empresas generan
una ingente cantidad de éstos a diario. Esto hace que su manipulación sea imprescindible y
además nace la necesidad de hacer uso de estos en la toma de decisiones, haciendo previo
análisis de estos. Todo esto forma parte de la ciencia de datos.
Identifica los ejes de la agenda que tengan relación directa con la ciencia de
datos.

-La propuesta europea, compartida por España, se apoya en la creación de un ecosistema


de excelencia para la economía del dato y la IA, que integre los esfuerzos de la UE, de los
Estados Miembros y de las regiones, así como del sector privado, a lo largo de toda la cadena
de valor.
-El Gobierno de España aprobó en el año 2019 la estrategia española de I+D+i en Inteligencia
Artificial.
-Convertir a España en un referente en la transformación hacia una Economía del Dato
-Impulsar la Inteligencia Artificial como motor de innovación y crecimiento económico social,
inclusivo y sostenible
-Preparar a España para las transformaciones socioeconómicas que origina la IA

3
Kyrylo Morozov PEC1

Ejercicio 3
Una vez entendida la importancia de la ciencia de datos y el rol del/a cien-
tífico/a de datos en la transformación digital, expón brevemente algunos de los
ámbitos que se han visto más transformados en los últimos años por la emergencia
de esta disciplina, así como sus perspectivas de futuro.

El comercio online ha sido uno de los ámbitos más afectados puesto que tiene que implementar
estrategias de marketing cada vez más rápidas y efectivas. La competitividad de éste sector
y la necesidad de la «inmediatez» en la toma de decisiones ha hecho que empresas de este
sector sean muy sensibles a la tecnología big data.
La educación en línea ha permitido la aparición de una gran cantidad de datos
que pueden ayudar a mejorar la experiencia de los/as estudiantes. La aplicación
de la ciencia de datos en el ámbito educativo se denomina Learning Analytics
y será especialmente relevante para determinar el futuro de formación. Explica
brevemente en qué consiste y determina las ventajas que aportará al sistema
educativo.

Learning analytics, es un marco en el cual se almacenan los datos de organizaciones dedicadas


a la educación con el fin de hacer análisis de éstos. Con esto se busca mejorar la educación
tanto online como presencial, entendiendo factores que puedan influir en el rendimiento del
alumnado.

Ejercicio 4
¿Qué es una organización orientada al dato?

Una organización orientada al dato es aquella que se gestiona fundamentada en hechos y


datos. (Extraído de los apuntes de la asignatura)
¿Podríamos considerar que la Administración Pública de España y en concreto
el Ministerio de Educación y Formación Profesional es una organización data
driven?

Podríamos localizar a dicho ministerio en una posición inicial respecto a la estrategia enfocada
a los datos. Cierto es que, actualmente la infraestructura de esta administración pública
permite el acopio de datos y el uso de estos de una forma eficiente. Permite realizar todo tipo
de gestiones de forma digital y cada usuario de dicha administración tiene su lugar asignado en
los discos duros de esta organización. Pero falta dar el paso hacía la transformación completa

4
Kyrylo Morozov PEC1

donde la toma de decisiones estaría basada en dichos datos que se almacenan en sus bases
de datos.
¿En qué fase situarías a dicho Ministerio dentro del modelo de madurez DEL-
TA?

Fase3: Aspiración por conversión en una compañía analítica. La organización empieza a dar
los primeros pasos para coordinar tareas de manera conjunta.

Ejercicio 5
Diseña un modelo de datos sencillo para realizar un estudio de Learning Analy-
tics en una escuela de Educación Secundaria que abarca cuatro años de escolari-
zación y dispone de un entorno virtual de aprendizaje.

Yo propondría un modelo con el fin de desgranar la necesidad de las tareas en casa y el papel
que juegan estas en el rendimiento y la educación de nuestro alumnado. Dividiría las clases
disponibles de la ESO en dos categorías que adoptarían estrategias ligeramente distintas en
la educación. Una categoría estaría más enfocada a las tareas en casa obligatorias y una
educación más supervisada. Y la otra estrategia estaría centrada en la auto gestión y una
educación más autodidacta. Recopilaría datos de evaluaciones, es decir, exámenes, encuestas
de bienestar del alumnado, test psicológicos, evaluación de rendimiento, asistencia, interés
por actividades extraescolares y almacenaría esto en una base de datos. Posteriormente haría
un análisis exhaustivo de dichos datos proponiendo una solución a nuestra pregunta principal.
Describe y explica brevemente las fases del ciclo de vida de los datos. Aplica
el ciclo de vida de los datos al modelo propuesto.

Recopilación de datos, mediante el uso de encuestas, evaluaciones, etc.


Almacenamiento eficiente y anónimo de éstos. Importancia del anonimato ya que en nuestro
caso dichos datos pueden ser sensibles.
Procesado de estos y análisis de consistencia. Limpieza de datos, eliminación de outliers,
casos de niños con dificultades etc.
Preparación para análisis. Daríamos formato a los datos para su «cómoda» manipulación.
Análisis y Modelado. Proceso de desgranamiento y modelado de datos con técnicas de minería.
Conclusiones y presentación. Visualización de estos para poder comprenderlos de forma in-
tuitiva.

También podría gustarte