Está en la página 1de 21

Ciencia de datos

Yesica Mesa Pérez


Brayan Camilo Ibáñez
Luis Fernando Pedrozo Herrera
Jhoan Sebastián Sánchez Rubio
María Luisa Guevara Castañeda
¿Que es Ciencia de Datos?

 Es el estudio de dónde proviene la información, qué


representa y cómo se puede convertir en un recurso
valioso para la creación de estrategias empresariales y
de TI.
 La extracción de grandes cantidades de datos
estructurados y no estructurados para identificar
patrones puede ayudar a una organización a controlar
los costos, aumentar la eficiencia, reconocer nuevas
oportunidades de mercado y aumentar la ventaja
competitiva de la organización.
 Emplea matemáticas, estadística y disciplinas
informáticas, e incorpora técnicas como el aprendizaje
automático, el análisis de conglomerados, la extracción
de datos y la visualización.
¿Qué significa hacer ciencia de datos?

La ciencia de datos se trata de emplear técnicas de programación para analizar


datos
La ciencia de datos aplicada requiere el desarrollo de habilidades en cuatro áreas:

 Programación.
 Estadística.
 Comunicación.
 Conocimiento de dominio.
Según Hadley Wickham:
Beneficios de la ciencia de datos

 La principal ventaja es el empoderamiento y


la facilitación de la toma de decisiones.

 Puede ayudar al reclutamiento: el


procesamiento interno de aplicaciones y las
pruebas de aptitud basadas en datos y los
juegos pueden ayudar al equipo de recursos
humanos de una organización a realizar
selecciones más rápidas y precisas durante el
proceso de contratación.
Mas beneficios

 Los beneficios específicos de la ciencia de datos varían según el objetivo de la


empresa y la industria. Los departamentos de ventas y marketing, por ejemplo, pueden
extraer datos de clientes para mejorar las tasas de conversión o crear campañas de
marketing individuales.
 Minado de datos bancarios Identificación de fraudes
 Minado de datos de Netflix
1. Intereses de los usuarios
2. Recomendaciones personalizadas basadas en historial
 DHL, Fedex, UPS Encontrar las mejores rutas, horarios de entrega y modos
de entrega
Herramientas para científicos de datos

 Libretas de código abierto como por ejemplo:

 - - Jupyter
 --RStudio 
 -- Zepplin
Otras herramientas son:

 Python
 Pandas
 Scikit-Learn
Funciones científicos de datos
¿Por qué surge?

 Ya que la tecnología moderna ha permitido la creación y almacenamiento de cantidades


cada vez mayores de información, el volumen de datos se ha incrementado. Se estima
que el 90% de los datos en el mundo se creados en los últimos dos años. Por ejemplo,
los usuarios de Facebook suben 10 millones de fotos por hora. Se estima que la
cantidad de dispositivos conectados en el mundo y el Internet of Things (IoT) 
crezcan a más de 75 mil millones para el 2025.
Orígenes

 Como especialidad, la ciencia de datos aún es nueva. Surgió de los campos del análisis
estadístico y de la minería de datos. The Data Science Journal debutó en 2002, a través
de la publicación del Consejo Internacional para la Ciencia: Comité de Información
para Ciencia y Tecnología. 
A mediados del 2008, surgía el título de científico de datos y rápidamente prosperaba s
u campo.
 Desde entonces, ha habido una escasez de científicos de datos, a pesar de que cada vez
más colegios y universidades han comenzado a ofrecer títulos en ciencia de datos.
El método de transformación empresarial actual de la ciencia
de datos

 Las organizaciones están utilizando equipos de ciencia de datos para convertir los datos
en una ventaja competitiva al perfeccionar los productos y servicios. Por ejemplo, las
empresas analizan datos recopilados provenientes de los centros de llamadas para
identificar a los clientes con posibilidad de retirarse, entonces el marketing puede tomar
medidas para retenerlos. Las empresas de logística analizan los patrones de tráfico, las
condiciones climáticas y otros factores para mejorar los tiempos de entrega y reducir
costos. 
Cómo se lleva a cabo la ciencia de datos

 El proceso de analizar y utilizar los datos es iterativo en lugar de lineal, pero así
es como el trabajo fluye normalmente para un proyecto de modelado de datos:
• Planificación: Definir un proyecto y sus posibles resultados
• Preparación: Desarrollo del entorno de trabajo, asegurando que los científicos
de datos cuenten con las herramientas adecuadas, así como también con el
acceso a los datos correctos y otros recursos como el poder de cómputo
• Asimilación: Carga de datos en el entorno de trabajo
• Exploración: Análisis, exploración y visualización de datos
• Modelado: Construcción, capacitación y validación de modelos para que
funcionen según sea necesario
• Implementación: Implementación de modelos en producción
Estadística inferencial

 La estadística inferencial observa una


muestra de datos y extrae conclusiones que
aplica al conjunto a través de inferencias.
Este tipo de enfoque, al ser resultado de
un cálculo de tipo probabilístico, conlleva
cierto margen de error.
 Los análisis que ejecuta este tipo de
estadística quieren ser capaces de predecir
el comportamiento de unas informaciones
determinadas. Es en este punto donde
entran los modelos de probabilidades y las
técnicas de machine learning e inteligencia
artificial, así como los modelos predictivos.
Machine Learning

 El aprendizaje automático (machine


learning) se incorpora a menudo en la
ciencia de datos. El aprendizaje
automático es una herramienta de
inteligencia artificial (IA) que
esencialmente automatiza la parte de
procesamiento de datos de la ciencia
de datos. El aprendizaje automático
integra algoritmos avanzados que
aprenden por sí mismos y pueden
procesar grandes cantidades de datos
en una fracción del tiempo que le
tomaría a un humano.
Minería de datos

 La minería de datos es el
proceso de hallar anomalías,
patrones y correlaciones en
grandes conjuntos de datos
para predecir resultados.
Empleando una amplia
variedad de técnicas, puede
utilizar esta información
para incrementar sus
ingresos, recortar costos,
mejorar sus relaciones con
clientes, reducir riesgos y
más.
¿Quién supervisa el proceso de ciencia
de datos?
 Gerentes comerciales: Estos gerentes trabajan con el equipo de ciencia de datos para
definir el problema y desarrollar una estrategia para el análisis. Pueden ser los jefes
de una línea de negocios como marketing, finanzas o ventas y contar con un equipo de
ciencia de datos que les informe. Trabajan en codo a codo con el gerente de ciencia
de datos y Tecnología Informática para garantizar que se entreguen los proyectos.
 Gerentes de Tecnología Informática: Los gerentes senior de Tecnología Informática
son responsables de la planificación de la infraestructura y de la arquitectura que
asistirá a las operaciones de ciencia de datos. Monitoreando continuamente las
operaciones y la utilización de recursos para garantizar que los equipos de ciencia de
datos operen de manera eficiente y segura. También pueden ser responsables de la
creación y actualización de entornos para equipos de ciencia de datos.
 Gerentes de ciencia de datos: Estos gerentes supervisan el equipo de ciencia de
datos y su trabajo diario. Son creadores de equipos que pueden equilibrar el
desarrollo del equipo con la planificación y el monitoreo del proyecto.
El surgimiento de la plataforma de
ciencia de datos
 Las compañías se percataron de que si no se contaba con una plataforma
integrada, el trabajo de la ciencia de datos era ineficiente, inseguro y difícil
de escalar. Esto causó la aparición de plataformas de ciencia de datos. Estas
plataformas son centros de software, alrededor de los cuales se lleva a cabo
todo el trabajo de ciencia de datos. Una buena plataforma alivia muchos de
los desafíos de la implementación de la ciencia de datos y ayuda a las
empresas a convertir sus datos en información de forma más rápida y
eficiente.Con una plataforma centralizada, los científicos de datos pueden
trabajar en un entorno de colaboración a través de sus herramientas favoritas
de código abierto, con todo su trabajo sincronizado por un sistema de control
de versiones.

También podría gustarte