Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Programación.
Estadística.
Comunicación.
Conocimiento de dominio.
Según Hadley Wickham:
Beneficios de la ciencia de datos
- - Jupyter
--RStudio
-- Zepplin
Otras herramientas son:
Python
Pandas
Scikit-Learn
Funciones científicos de datos
¿Por qué surge?
Como especialidad, la ciencia de datos aún es nueva. Surgió de los campos del análisis
estadístico y de la minería de datos. The Data Science Journal debutó en 2002, a través
de la publicación del Consejo Internacional para la Ciencia: Comité de Información
para Ciencia y Tecnología.
A mediados del 2008, surgía el título de científico de datos y rápidamente prosperaba s
u campo.
Desde entonces, ha habido una escasez de científicos de datos, a pesar de que cada vez
más colegios y universidades han comenzado a ofrecer títulos en ciencia de datos.
El método de transformación empresarial actual de la ciencia
de datos
Las organizaciones están utilizando equipos de ciencia de datos para convertir los datos
en una ventaja competitiva al perfeccionar los productos y servicios. Por ejemplo, las
empresas analizan datos recopilados provenientes de los centros de llamadas para
identificar a los clientes con posibilidad de retirarse, entonces el marketing puede tomar
medidas para retenerlos. Las empresas de logística analizan los patrones de tráfico, las
condiciones climáticas y otros factores para mejorar los tiempos de entrega y reducir
costos.
Cómo se lleva a cabo la ciencia de datos
El proceso de analizar y utilizar los datos es iterativo en lugar de lineal, pero así
es como el trabajo fluye normalmente para un proyecto de modelado de datos:
• Planificación: Definir un proyecto y sus posibles resultados
• Preparación: Desarrollo del entorno de trabajo, asegurando que los científicos
de datos cuenten con las herramientas adecuadas, así como también con el
acceso a los datos correctos y otros recursos como el poder de cómputo
• Asimilación: Carga de datos en el entorno de trabajo
• Exploración: Análisis, exploración y visualización de datos
• Modelado: Construcción, capacitación y validación de modelos para que
funcionen según sea necesario
• Implementación: Implementación de modelos en producción
Estadística inferencial
La minería de datos es el
proceso de hallar anomalías,
patrones y correlaciones en
grandes conjuntos de datos
para predecir resultados.
Empleando una amplia
variedad de técnicas, puede
utilizar esta información
para incrementar sus
ingresos, recortar costos,
mejorar sus relaciones con
clientes, reducir riesgos y
más.
¿Quién supervisa el proceso de ciencia
de datos?
Gerentes comerciales: Estos gerentes trabajan con el equipo de ciencia de datos para
definir el problema y desarrollar una estrategia para el análisis. Pueden ser los jefes
de una línea de negocios como marketing, finanzas o ventas y contar con un equipo de
ciencia de datos que les informe. Trabajan en codo a codo con el gerente de ciencia
de datos y Tecnología Informática para garantizar que se entreguen los proyectos.
Gerentes de Tecnología Informática: Los gerentes senior de Tecnología Informática
son responsables de la planificación de la infraestructura y de la arquitectura que
asistirá a las operaciones de ciencia de datos. Monitoreando continuamente las
operaciones y la utilización de recursos para garantizar que los equipos de ciencia de
datos operen de manera eficiente y segura. También pueden ser responsables de la
creación y actualización de entornos para equipos de ciencia de datos.
Gerentes de ciencia de datos: Estos gerentes supervisan el equipo de ciencia de
datos y su trabajo diario. Son creadores de equipos que pueden equilibrar el
desarrollo del equipo con la planificación y el monitoreo del proyecto.
El surgimiento de la plataforma de
ciencia de datos
Las compañías se percataron de que si no se contaba con una plataforma
integrada, el trabajo de la ciencia de datos era ineficiente, inseguro y difícil
de escalar. Esto causó la aparición de plataformas de ciencia de datos. Estas
plataformas son centros de software, alrededor de los cuales se lleva a cabo
todo el trabajo de ciencia de datos. Una buena plataforma alivia muchos de
los desafíos de la implementación de la ciencia de datos y ayuda a las
empresas a convertir sus datos en información de forma más rápida y
eficiente.Con una plataforma centralizada, los científicos de datos pueden
trabajar en un entorno de colaboración a través de sus herramientas favoritas
de código abierto, con todo su trabajo sincronizado por un sistema de control
de versiones.