Ciencia de Datos y La Generacion de Valor

INTERNAL
MÓDULO 1
Guía de trabajo 3
La Ciencia de Datos como Elemento que Genera Valor en las Empresas
David Martinez Lopez
Introduccion
La ciencia de datos permite a través de la integración de herramientas provenientes de distintos ámbitos
del conocimiento, dar respuesta a necesidades de negocio en distintos sectores de la economía, estas
herramientas son la programación, la estadística, el machine learning y el story telling que es básicamente
la manera en la que se presenta el output obtenido del proceso de análisis de los datos y a partir del cual
estos toman sentido generando decisiones que representen ventajas competitivas para las compañías o
eficiencias en el uso de sus recursos, sin embargo las herramientas no se limitan únicamente a las antes
mencionadas, existe una creciente generación de ideas, software, algoritmos, librerías mucho mas
complejos que a su vez permiten analizar información más robusta y que implica mayores desafíos de una
manera adecuada y generar respuestas que agreguen valor a las empresas que se deciden por entrar en
esta corriente cada vez mas amplia y en constante crecimiento, se revisaran 3 casos que ofrecen una
diversidad en cuanto a las aplicaciones de la ciencia de datos y sirven como preámbulo al camino a recorrer
para vincularse activamente a este naciente pero determinante campo del conocimiento.
Netflix, ciencia de datos para la generacion de sugerencias para los

usuarios de la plataforma streaming
Netflix como plataforma de streaming, se vio obligado desde sus inicios a establecer una manera confiable
y adecuada de generar sugerencias para los usuarios de manera que estos tuviesen acceso de manera más
eficaz a los contenidos más afines a sus intereses y gustos particulares, esto porque Netflix es una empresa
que basa su valor en lo que se podría denominar la economía de la atención, que básicamente es el tiempo
que cada usuario pasa frente a la pantalla consumiendo el contenido disponible, inicialmente el modelo
con el que la empresa contaba se basaba en dos alternativas para generar las sugerencias, de acuerdo al
tipo de contenido que el usuario viese la plataforma recomendaría contenidos similares (Contend base
filtering), es decir que al ver un stand up, el sistema sugeriría otros stand ups, la otra alternativa era el
(collaborative filtering) [1], que era básicamente la comparación entre dos usuarios que habían visto un
contenido similar y posteriormente se hacían referencias cruzadas entre ambos usuarios, es decir que el
sistema tomaba al usuario A que había visto un contenido similar al del B, y le mostraba al segundo otros
contenidos que A había explorado y viceversa.
El modelo inicial no era preciso por lo que Netflix lanzo un concurso en el cual el premio era 1 millos USD
para quien pudiera incrementar la precisión del sistema Cinamatch en un 10%, el ganador del concurso
Bellkor team, presento una solución que aumento la precisión en un 10,06% después de 200 horas de
trabajo y el ensamble de 107 algoritmos, sin embargo Netflix debió ajustar el resultado obtenido ya que
el concurso se hizo tomando como base 100 millones de ratings, cantidad distante de los 5 billones de
[1] Data-flair, «data-flair.training,» 30 12 2021. [En línea]. Available: https://data-flair.training/blogs/data-science-at-netflix/.

[Último acceso: 17 02 2022].
INTERNAL
Guía de trabajo 3 | MÓDULO 1
ratings a los contenidos que en realidad almacenaban sus bases de datos al momento del concurso,
adicionalmente el modelo ganador era estático, por lo que no tenia en cuenta los nuevos registros ni
ajustaba las sugerencias a las nuevas tendencias de la plataforma, Netflix internamente ajusto estos
elementos y empezó a tomar en cuenta variables explicitas como, ubicación del usuario, idioma, hora del
día en la que consumía el contenido y tipo de dispositivo, adicionalmente incluyo variables inferidas como
el patrón de enganche, es decir que contenidos eran vistos de manera continua por mas tiempo y la
información demográfica que pudiese establecer el algoritmo para determinar el perfil de los posibles
acompañantes del usuario registrado, hoy el valor de mercado de Netflix es de más de doscientos noventa
y un mil millones de dólares y produce buena parte de su propio contenido a partir de las tendencias y
gustos de sus usuarios.
Oakland A’s Major League Baseball

Es quizás el caso más conocido de aplicación de la ciencia de datos en el deporte, gracias a que dio lugar
a un libro y una película, sin embargo, este lejos de ser el único. En el año 2002 el equipo de beisbol
Oakland A’s perdió tres de sus jugadores mas importantes gracias a la transferencia de estos a otros
equipos, con el tercer presupuesto para nomina mas bajo de la liga 41 millones de USD frente a 125
millones de los New york Yankees. El gerente del equipo decidió vincular a Paul DePodesta un economista
de Yale que definió un modelo de análisis de datos basado en regresión lineal, bajo el principio de que lo
que necesitaba un equipo para ganar es anotar mas carreras y son las carreras lo que se debe comprar a
través de los jugadores que se obtienen y no las estadísticas individuales que usualmente son las que
determinan el valor de un jugador, como numero de bateos efectivos , home runs, entre otros, DePodesta
estableció que el principio mas determinante para establecer el valor de un jugador era su capacidad para
avanzar a la siguiente base y las bases totales divididas por turnos al bate ya que de esta manera se
obtienen más carreras. DePodesta utilizo los data sets de Sabermetrics, que es el repositorio oficial de
estadística de la Major League Baseball [2], y definió un modelo en el que el valor de cada jugador estaba
definido por su capacidad de aportar desde su posición a la consecución de las carreras del equipo,
estableció que los Oakland A’s necesitarían 90 victorias para llegar a las finales y determino que jugadores
con valores de mercado muy inferiores a la media pero con mejores posibilidades de acuerdo a su modelo,
le permitirían alcanzar ese número de victorias. Gracias al modelo de DePodesta los Oakland A’s llegaron
a un promedio de 95 victorias por temporada entre 2002 y 2006, alcanzando 20 victorias consecutivas en
una temporada, 4 campeonatos de la división oeste. Este rendimiento hizo que hoy en día 15 de los 30
equipos de la liga utilicen activamente la ciencia de datos como parte de su estrategia y de estos 15, 8 han
conseguido ganar la serie mundial, estos hechos cambiaron por completo el estilo de reclutamiento de
talentos y el manejo que se le da a este deporte.
2] University of Wisconsin , «datasciencedegree.wisconsin.edu,» UW DATA SCIENCE TEAM, 24 08 2016. [En línea]. Available:
https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/. [Último acceso: 17 2 2022].
[3] University of Wisconsin , «datasciencedegree.wisconsin.edu,» UW DATA SCIENCE TEAM, 24 08 2016. [En línea].
Available: https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/. [Último
acceso: 17 2 2022].
Página 2|3
INTERNAL
Guía de trabajo 3 | MÓDULO 1
Amazon Sistema de Prdiccion de compras

En la ciencia de datos existen posibilidades casi infinitas a medida que se desarrollan
herramientas tanto de software como de hardware, sin embargo también existen elementos
éticos a tener en cuenta, Amazon es el líder mundial en ventas online por retail, controla cerca
del 50% del mercado electrónico de Estados Unidos y países como Alemania, [3]han desarrollado
a través de sus modelos de ciencia de datos y machine learning, la capacidad de establecer
cuando elementos que un usuario compra de manera recurrente están próximos a acabarse para
el cliente y puede hacer sugerencias sobre en qué momento el usuario debe reabastecerse, esta
capacidad a nivel tecnico es impresionante, sin embargo el acceso a los datos ilimitado que puede
tener la aplicación abre la puerta a la privacidad de las personas sin que estas puedan determinar
qué información otorgan o no a la app, de hecho es más económico a nivel de gestión que
Amazon grabe cada click a que exista una clasificación de que está permitido o no.
Adicionalmente Amazon basa su sistema de sugerencias en la recolección de metadatos, que son
los datos asociados a los datos, es decir el usuario da click en un producto, el sistema almacenara
la hora de conexión, la ip de la cual se realizo la conexión, la ubicación y a través de elementos
asociados como la app de Amazon Prime Video, elabora un perfil psicológico del usuario y esto
asociado a los datos de registro de usuario, les permite establecer si el usuario está planeando
salir de vacaciones, si esta embarazada o si esta deprimido. Es decir que, aunque el sistema y sus
componentes técnicos son evidencia de un avance muy importante en este campo, también es
una perdida de la privacidad de los usuarios que compromete varios aspectos de su vida.
Conclusiones
La ciencia de datos es como se ha denominado en muchas instancias, la profesión más sexy del
siglo XXI, el capitalismo de los datos y el nuevo petróleo, permite optimizar los recursos de una
empresa, maximizar sus utilidades, mejorar las experiencias de usuarios, garantizar que un
equipo deportivo sin presupuesto venza al Goliat con mas dinero, ha abierto campos en todos los
campos, la medicina y la investigación científica, sin embargo también establece un dilema ético,
y es en muchos casos que datos de usuarios individuales no deberían hacer parte de la
recopilación de las empresas tecnológicas. La ciencia de datos y sus experiencias de uso ofrecen
posibilidades y respuestas, a la vez que interrogantes, todo es ahora más cómodo y eficiente, sin
embargo, como usuarios de aplicaciones de redes sociales o de compras por internet ya no
estamos solos en nuestras casas, alguien puede vernos y saber quiénes somos a través de las
huellas que dejan nuestros datos.
2] University of Wisconsin , «datasciencedegree.wisconsin.edu,» UW DATA SCIENCE TEAM, 24 08 2016. [En línea]. Available:
https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/. [Último acceso: 17 2 2022].
[3] University of Wisconsin , «datasciencedegree.wisconsin.edu,» UW DATA SCIENCE TEAM, 24 08 2016. [En línea].
Available: https://datasciencedegree.wisconsin.edu/blog/moneyball-proves-importance-big-data-big-ideas/. [Último
acceso: 17 2 2022].
Página 3|3

Ciencia de Datos y La Generacion de Valor

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Ciencia de Datos y La Generacion de Valor

Cargado por

Copyright:

Formatos disponibles

INTERNAL

Netflix, ciencia de datos para la generacion de sugerencias para los

[1] Data-flair, «data-flair.training,» 30 12 2021. [En línea]. Available: https://data-flair.training/blogs/data-science-at-netflix/.

Guía de trabajo 3 | MÓDULO 1

Oakland A’s Major League Baseball

Guía de trabajo 3 | MÓDULO 1

Amazon Sistema de Prdiccion de compras

También podría gustarte