Data Science

UNIVERSIDAD NACIONAL DEL ALTIPLANO
FACULTAD DE INGENIERÍA MECÁNICA

ELÉCTRICA, ELECTRÓNICA Y SISTEMAS
ESCUELA PROFESIONAL DE INGENIERÍA DE SISTEMAS
“DATA SCIENCE”
CURSO: MARKETING Y NEGOCIOS
PRESENTADO POR: NESTOR ARMANDO QUISPE QUISPE
YOMARA LIZBETH QUISPE ALANOCA
LIZETH CAMPOS ALVAREZ
DONCENTE: ING. ZULEMA LILIAN MAMANI HUACANI
PUNO-PERU
2021
ÍNDICE
Introducción ........................................................................................................................3
CAPITULO I. DATA SCIENCE ...................................................................................................4
1. Ciencia de datos........................................................................................................4
1.1. Definición: .........................................................................................................4
2. El proceso de la ciencia de datos ................................................................................4
2.1. Pasos:................................................................................................................4
3. Ciclo de vida de la ciencia de datos.............................................................................5
4. Científico de datos.....................................................................................................6
5. Analista de datos e ingeniero de datos .......................................................................8
5.1. Analista de datos................................................................................................8
5.2. Ingeniero de datos .............................................................................................9
6. Herramientas para data science .................................................................................9
Conclusiones...................................................................................................................... 14
2
Introducción
En el presente trabajo se explica cómo funciona Data Science (Ciencia de datos).
Podremos ver cuáles son sus procesos también ver cuál es el ciclo de vida de Data
Science con el objetivo de poder entender cuál es el propósito de los procesos que este
realiza.
La ciencia se datos se da mediante procesos, y estos se dividen en seis pasos los cuales
tienen una secuencia, para lo Cual primero se establece los objetivos para luego hacer
la obtención de datos, después preparamos los datos para su exploración, luego se
construye modelos para poder finalizar con el resultado.
Este también cuenta con un ciclo de vida para su ejecución, en este ámbito también
encontramos los analizadores de datos entre los cuales están los analistas de datos e
ingenieros de datos.
Para el análisis de datos contamos con distintas herramientas orientadas a el campo

de marketing, las cuales nos poyan a estos procesos.
3
CAPITULO I. DATA SCIENCE
1. Ciencia de datos
1.1. Definición:
La Ciencia de Datos es un campo interdisciplinario que involucra métodos
científicos, procesos y sistemas para extraer conocimiento o un mejor
entendimiento de datos en sus diferentes formas, ya sea estructurados o no
estructurados. Es una continuación de algunos campos de análisis de datos como
la estadística, la minería de datos, el aprendizaje automático y el análisis
predictivo. Comprende tres áreas distintas y superpuestas: las habilidades de un
estadístico que sabe cómo modelar y resumir conjuntos de datos (los cuales cada
vez tienen mayor tamaño); las habilidades de un informático que pueda diseñar y
utilizar algoritmos para almacenar, procesar y visualizar eficientemente estos
datos; Y la experiencia sobre el campo o dominio, lo que podríamos pensar como
una formación clásica en un tema; la cual es necesaria tanto para formular las
preguntas correctas como para poner sus respuestas en contexto.
2. El proceso de la ciencia de datos
En general, el proceso que utiliza la Ciencia de Datos para explorar el mundo usando
datos es el siguiente:
2.1. Pasos:
• El primer paso:
Consiste en establecer un objetivo de investigación. El propósito principal aquí es
asegurarse de que todos los interesados comprendan el qué, cómo y por qué del
proyecto. Siempre debemos tener bien en claro cuál es la pregunta que queremos
responder con la ayuda de los datos.
• El segundo paso
Consiste en la obtención de los datos. Los datos deben estar disponibles para poder
ser analizados. Este paso incluye encontrar los datos adecuados y obtener acceso
a los mismos. El resultado de esta etapa suelen ser los datos en su forma cruda,
que probablemente necesitarán ser pulidos y transformados antes de que puedan
ser utilizados.
• El tercer paso
Ahora que ya tenemos los datos sin procesar, el siguiente paso es prepararlos. Esto
incluye la transformación de los datos de una forma cruda a una forma en la que
4
puedan ser utilizados directamente en los modelos. Para poder lograr esto, debemos
detectar y corregir diferentes tipos de errores en los datos, combinar datos de
diferentes fuentes y transformarlos. Una vez completado este paso, podemos
avanzar hacia la visualización de datos y el modelado.
• El cuarto paso
Es la exploración de datos. El objetivo de esta etapa es obtener una comprensión
profunda de los datos. Buscaremos patrones, correlaciones y desvíos basados en
técnicas visuales y descriptivas. Los conocimientos adquiridos en esta fase nos
permitirán comenzar con el armado del modelo.
• El quinto paso
Finalmente llegamos al paso principal y más importante: la construcción de modelos.
En esta etapa intentamos obtener los conocimientos o hacer las predicciones de
acuerdo a los lineamientos establecidos en la primera etapa. Aquí podemos utilizar
todas las técnicas y herramientas que nos proporciona el Machine Learning. El
objetivo es obtener el modelo o la combinación de modelos que mejor resultados
nos proporcionen.
• El sexto paso
El último paso del proceso de la Ciencia de Datos es presentar los resultados y
automatizar análisis. Un buen modelo no sirve de nada si no es utilizado para
mejorar la eficiencia y obtener mejores resultados. En esta última etapa debemos
presentarle los resultados del análisis a las personas responsables de tomar las
decisiones en las organizaciones para que los modelos puedan ser adoptados.
En general, estas etapas no siguen una progresión lineal desde el paso 1 al 6. Si no

que, a menudo, debemos regresar e iterar entre las diferentes etapas de acuerdo a los
resultados que vayamos obteniendo. Actualmente, a los profesionales que se dedican
a esta disciplina, se los conoce como Científicos de datos
3. Ciclo de vida de la ciencia de datos
El ciclo de vida de data science o ‘’Data Science Pipeline’’, incluye alrededor de 5 a 16

procesos continuos que están superpuestos. Dependiendo a quién le preguntes varía el
número de procesos, más los más populares son los siguientes:
• Capturar:
Consiste en la recopilación de datos sin procesar, de cualquier fuente e
ingresados por cualquier método. Los datos pueden ser estructurados o no
5
estructurados, las fuentes solo deben de ser relevantes y su ingreso puede
ser casi cualquier método - desde un método de entrada manual, web
scrapping, hasta recopilar datos de sistemas y equipos en tiempo real.
• Preparar y mantener:
Esto involucra poner los datos sin procesar en un formato consistente para
su procesamiento via analytics, machine learning o deep learning. Este
proceso puede incluir limpiar, eliminar duplicados, re-formatear los datos,
utilizar ETL (extract, transform, load) u otras tecnologías de integración para
combinar esos datos en un data warehouse, data lake u otro tipo de almacén
unificado para análisis.
• Pre-proceso o proceso:
Los data scientists examinan sesgos, patrones, rangos y distribuciones de
valores dentro de los datos para determinar qué tan sustentables son para
su uso en análisis productivos, machine learning, algoritmos de deep learning
u otros métodos analíticos.
• Analizar:
Aquí es donde los descubrimientos ocurren. Los data scientists realizan
análisis estadísticos y productivos, regresiones, algoritmos de machine y
deep learning, y más para extraer información de los datos previamente
preparados.
• Comunicación:
Finalmente, los insights descubiertos son presentados en forma de reportes,
gráficas y otros tipos de visualización de datos que convierten estos insights
y su impacto en el negocio en una representación más fácil de entender para
los stakeholders. Un lenguaje de programación de Data Science como’’R’’ o
‘’Python’’ (encuentra más información de estos lenguajes debajo de este
párrafo) incluyen componentes para generar visualizaciones;
alternativamente los Data Scientists pueden utilizar herramientas de
visualización dedicadas.
4. Científico de datos
Los Data Scientists o Científicos de datos son profesionales, generalmente con

conocimientos multidisciplinarios, que poseen el entrenamiento y la curiosidad
necesarias para realizar descubrimientos en el intrincado mundo de la Big Data. Ellos
son capaces de darle forma a la enorme cantidad de datos desestructurados que
generamos día a día y hacer su análisis posible. Se encargan de identificar potenciales
fuentes de información, unirlas y depurar el conjunto de resultados; los Científicos de
6
datos ayudan a los encargados de tomar las decisiones a moverse de un análisis ad hoc
de los datos hacia una constante conversación con ellos.
Los Científicos de datos se encargan de encontrar patrones en los datos, hacer

descubrimientos en base a ellos, y comunicar las implicaciones de lo que han aprendido
a través de su análisis, para indicar nuevas oportunidades de negocios. Ellos aconsejan
a los ejecutivos y gerentes de productos sobre las implicaciones de los datos para los
productos, procesos y decisiones.
Si bien, una primera impresión, se imaginaría a los Científicos de datos como personas
con un fuerte perfil analítico y mucho conocimiento estadístico y matemático, esta
impresión estaría por demás errada. Ellos se caracterizan más por su parte científica;
una de las facetas dominantes de su personalidad es su intensa curiosidad, el deseo
por ir más allá de la superficie de los problemas, encontrar las preguntas en lo más
profundo de ellos, e ir depurándolas hasta crear un claro conjunto de hipótesis que
puedan ser probadas con datos concretos. Es por esto, que algunos de los más
renombrados Científicos de datos en las principales empresas de tecnología del mundo,
vienen de campos poco convencionales como la Física y las Ciencias Sociales.
Lo que motiva a los Científicos de datos no es armar hermosos reportes con información
estructurada, para eso ya existen los analistas financieros; lo que realmente motiva a
los Científicos de datos es crear nuevas cosas, no solo dar consejo; ellos quieren crear
soluciones que funcionen y generen un impacto innovador para el negocio y los
consumidores.
Una podría pensar a los Científicos de datos como un híbrido entre hacker, analista,
comunicador y consejero; personas que tengan el conocimiento técnico necesario para
manejar y analizar grandes cantidades de datos, pero que a su vez tengan la suficiente
noción y entendimiento de los negocios y la habilidad para comunicar los datos de una
forma efectiva. ¡Una combinación realmente rara de darse, pero sumamente efectiva!
En lo que hace al apartado técnico, una de las habilidades básicas que todo buen
Científicos de datos debería tener, es sin duda la habilidad de escribir código,
programar. Un buen Científicos de datos debería ser eficiente con al menos un lenguaje
de programación de alto rendimiento (como C, C++ o Java) y tener nociones sobre los
principales lenguajes que se manejan en internet (HTML, CSS3, Javascript, PHP).
También debería poseer buenos conocimientos sobre probabilidad y estadística, aquí

lenguajes de programación con R y Python, pueden resultar realmente útiles.
7
Y finalmente, debería poseer conocimientos sobre los principales frameworks para el
manejo de la Big Data, como por ejemplo Hadoop; conocimientos sobre la
infraestructura de la computación en la nube; y sobre las principales bases de datos,
tanto SQL como NoSQL.
Los siguientes son ejemplos del trabajo realizado por los Científicos de datos:
• Evaluación de modelos estadísticos para determinar la validez de los

análisis.
• Utilizar el aprendizaje automático para construir mejores algoritmos
predictivos.
• Pruebas y mejora continua de la precisión de los modelos de aprendizaje
automático.
• Construir visualizaciones de datos para resumir la conclusión de un
análisis avanzado.
Los Científicos de datos aportan un enfoque y una perspectiva totalmente nuevos a la

comprensión de los datos.
5. Analista de datos e ingeniero de datos
5.1. Analista de datos

Los Analistas de datos aportan valor a sus empresas mediante la obtención de
datos, su utilización para responder preguntas y la comunicación de los
resultados para ayudar a tomar decisiones. Las tareas más comunes realizadas
por los analistas de datos incluyen la limpieza de datos, la realización de análisis
y la creación de visualizaciones. Dependiendo de la industria, el Analista de
datos puede tener varios títulos diferentes (por ejemplo, analista de negocios,
analista de inteligencia de negocios, analista de operaciones, analista de bases
de datos). Independientemente del título, el Analista de datos es un generalista
que puede encajar en muchos roles y equipos para ayudar a otros a tomar
mejores decisiones basadas en datos.
La naturaleza de las habilidades requeridas dependerá de las necesidades

específicas de la empresa, pero estas son algunas de ellas:
✓ Limpieza y organización de datos en bruto.

✓ Uso de estadísticas descriptivas para obtener una vista panorámica de
sus datos.
✓ Análisis de tendencias interesantes encontradas en los datos.
8
✓ Creación de visualizaciones y cuadros de mando para ayudar a la
empresa a interpretar y tomar decisiones con los datos.
✓ Presentación de los resultados de un análisis técnico a clientes
empresariales o equipos internos.
El Analista de datos aporta un valor significativo tanto a los aspectos técnicos

como no técnicos de una organización.
5.2. Ingeniero de datos

Los Ingenieros de datos construyen y optimizan los sistemas que permiten a los
científicos y analistas de datos realizar su trabajo. Cada empresa depende de
los datos sean exactos y accesibles, para que las personas puedan trabajar con
ellos. El Ingeniero de datos se asegura de que cualquier dato sea recibido,
transformado, almacenado y hecho accesible para otros usuarios.
Los Ingenieros de datos son responsables de construir las herramientas para

trabajar con datos y, a menudo, tienen que usar técnicas complejas para manejar
los datos a escala. A diferencia de los científicos y analistas de datos, la
ingeniería de datos se inclina mucho más hacia un conjunto de habilidades de
desarrollo de software.
Un buen Ingeniero de datos debe permitir que los científicos o analistas de datos
puedan concentrarse en resolver problemas, en lugar de tener que preocuparse
por aspectos más técnicos de la disciplina, como por ejemplo mover los datos de
una fuente a otra.
La mentalidad del Ingeniero de datos suele estar más centrada en la

construcción y la optimización. Los siguientes son ejemplos de tareas en las que
un ingeniero de datos podría estar trabajando:
✓ Creación de APIs para el consumo de datos.

✓ Integración de conjuntos de datos externos o nuevos en los procesos de
datos existentes.
✓ Aplicación de transformaciones de atributos para los modelos de
aprendizaje automático.
✓ Supervisar y probar continuamente los sistemas para asegurar un
rendimiento optimizado.
6. Herramientas para data science
9
Los Data Scientists deben de ser capaces de construir y ejecutar código para crear
modelos. Los lenguajes de programación más populares son las herramientas de código
abierto que incluyen o admiten capacidades gráficas, de machine learning y estadística
predefinida. Estos lenguajes son:
➢ R: Lenguaje de programación de código abierto y un entorno para el

desarrollo de gráficas y computación estadística, ’’R’’ es el lenguaje de
programación más popular entre los Data Scientists y proporciona una
amplia cantidad de librerías y herramientas para limpiar y preparar datos,
crear visualizaciones, entrenar y evaluar algoritmos de machine y deep
learning.
➢ Python: Lenguaje de programación interpretado de alto nivel, orientado
a objetos y propósito general que enfatiza la legibilidad de código a través
de su generoso uso de espacio en blanco. Muchas de las librerías de
Python admiten tareas de Data Science, incluido ‘’Numpy’’ para manejar
grandes matrices dimensionales, ‘’Pandas’’ para la manipulación y
análisis de datos y ‘’Matplotlib’’ para construir visualizaciones de datos.
7. Aplicaciones para data science en el marketing
a) Estrategia de precios dinámicos

La mayoría de los marketers basan su estrategia de precios en factores
como el coste de fabricación del producto, los márgenes y los precios de
la competencia. También entran en juego aspectos más subjetivos, como
el posicionamiento que queremos dar a la marca.
Utilizar el data science en este proceso nos permite no tener que hacer
estimaciones a ojo y dar en la diana, adaptando el precio a lo que está
ocurriendo en tiempo real. Así, podremos tener en cuenta elementos como
el comportamiento global del mercado, las preferencias individuales del
cliente, las reacciones ante descuentos anteriores y un largo etcétera.
b) Lead scoring avanzado

El lead scoring es una técnica que nos permite asignar una puntuación a
cada lead en función de sus probabilidades de convertirse en cliente, a fin
de poder centrar nuestros recursos en los contactos más rentables.
Gracias al data science, podemos crear algoritmos avanzados de lead

scoring predictivo que tienen en cuenta múltiples factores para segmentar
10
a tus contactos en listas y darles un tratamiento especializado para
multiplicar las posibilidades de conversión.
c) Email marketing
El data science puede utilizarse para averiguar qué emails resultan más
atractivos para qué clientes en concreto. Por ejemplo, podemos saber con
qué frecuencia se leen los emails, cuándo enviarlos, qué tipo de contenido
funciona mejor con cada segmento de audiencia, etc. Así, podemos
enviar campañas de email marketing contextualizado y llegar a los
clientes con las mejores ofertas para ellos.
d) Marketing de contenidos
El marketing de contenidos supone una inversión elevada de tiempo y
esfuerzo, así que es fundamental asegurarnos de que estamos
creando los contenidos adecuados para llegar a nuestra audiencia e influir
en su comportamiento.
El data science puede ayudarnos a averiguar datos sobre nuestra

audiencia que nos ayudan a crear los mejores contenidos para cada
cliente. Por ejemplo, si un usuario ha llegado buscando una palabra clave
concreta a través de Google, sabemos que tenemos que usarla en los
contenidos. Yendo aún más allá, podemos usar el data science para
ayudarnos a crear sitios web dinámicos y personalizados, que muestran
contenidos diferentes a cada persona que los visita.
e) Elaboración de perfiles de usuario

Uno de los mayores retos del marketing digital de hoy en día es elaborar
perfiles de usuario coherentes a través de diferentes dispositivos, que
además tengan en cuenta que los usuarios se interesan por diferentes
productos en diferentes momentos.
Gracias al data science, cada vez avanzamos más en este sentido. Ahora
podemos crear buyer personas usando datos del comportamiento del
usuario en diferentes dispositivos e incluso asignarles roles en función de
lo que estén haciendo en ese momento (por ejemplo, el comportamiento
online de un usuario varía durante su jornada de teletrabajo o cuando está
buscando opciones de entretenimiento).
f) Optimización de los presupuestos
11
A los marketers nos preocupa asignar el presupuesto de la manera más
optimizada posible para obtener el mayor retorno de la inversión.
El data science permite analizar los patrones de gasto y adquisición para

poder hacer modelos predictivos que nos ayuden a distribuir mejor el
presupuesto entre diferentes ubicaciones, canales, formatos y campañas
y conseguir la máxima eficiencia posible.
g) Experiencia de cliente
Analizar los datos nos ayuda a decidir cuál es el momento y el canal
adecuados para comunicarnos con los clientes. Por ejemplo, podemos
saber si un usuario no es muy receptivo a los SMS, pero sí a los correos
electrónicos enviados fuera del horario laboral. Todo ello nos
permite optimizar su experiencia a la hora de relacionarse con la marca.
Además, el data science también recopila y analiza patrones de

comportamiento que predicen cuándo necesita un usuario un producto o
servicio determinado. Así podemos adelantarnos a sus necesidades y
crear una experiencia lo más fluida posible.
h) Definición de audiencias
La segmentación de audiencias es fundamental para conseguir los
objetivos de marketing de la marca sin pasarnos del presupuesto
establecido. Lo ideal es enviar nuestros mensajes solo a los usuarios que
más se asemejan a nuestro cliente ideal y que más probabilidades tienen
de convertir.
Dado que ahora podemos analizar las interacciones de cada usuario con
nuestra marca, el data science nos puede ayudar a crear segmentos
hiperespecíficos y adecuar los mensajes que les enviemos para lograr la
máxima efectividad.
i) Análisis de opiniones
Los expertos en marketing digital tenemos una oportunidad sin
precedentes para saber qué piensa nuestro público objetivo. En muchos
casos, ni siquiera tenemos que preguntarles: sus opiniones están en
internet al alcance de todos. El problema está en ser capaces de
analizarlas y atribuir correctamente el sentiment de los mensajes.
12
Por suerte, la evolución de data science y la inteligencia artificial hacen
que ya sea posible analizar una gran cantidad de mensajes para obtener
insights sobre las creencias, opiniones y actitudes de los clientes.
También podemos monitorizar cómo reaccionan a las campañas de
marketing y cómo interactúan con la marca.
j) Fidelización
Por último, pero no menos importante, podemos aplicar el data science a
un aspecto crítico de cualquier negocio: la fidelización.
Al elaborar perfiles individuales para cada cliente basados en datos,

podemos saber cuáles son las ofertas que más les interesarán en cada
momento y enviarles los mensajes adecuados por los canales adecuados.
Así, iremos desarrollando una relación a largo plazo que dará lugar a
recomendaciones y compras repetidas.
13
Conclusiones
La ciencia de datos es un campo el cual involucra métodos científicos con el objetivo de
extraer conocimiento, es un campo muy importante para realizar el análisis de datos,
podemos decir también que este tiene una secuencia de procesos para realizar este
análisis, estos datos pueden ser analizados por analistas de datos e ingenieros de datos.
Los analistas de datos, aportan en el entorno de obtención de datos, estos no deben
tener un grado exacto ya que son llamados de distintas formas, como: analista de
negocios, analista de inteligencia de negocios, analista de operaciones, analista de
bases de datos.
El ingeniero de datos construye y optimizan los sistemas que permiten a los científicos
y analistas de datos realizar su trabajo, las empresas en su mayoría dependen de estos.
Estos datos pueden ser orientados a el marketing, mediante las estrategias de precios
dinámicos, y entre otros.
14

Data Science

Cargado por

Información del documento

Descripción original:

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Data Science

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DEL ALTIPLANO

FACULTAD DE INGENIERÍA MECÁNICA

CURSO: MARKETING Y NEGOCIOS

PRESENTADO POR: NESTOR ARMANDO QUISPE QUISPE

YOMARA LIZBETH QUISPE ALANOCA

LIZETH CAMPOS ALVAREZ

DONCENTE: ING. ZULEMA LILIAN MAMANI HUACANI

Para el análisis de datos contamos con distintas herramientas orientadas a el campo

2. El proceso de la ciencia de datos

En general, estas etapas no siguen una progresión lineal desde el paso 1 al 6. Si no

3. Ciclo de vida de la ciencia de datos

El ciclo de vida de data science o ‘’Data Science Pipeline’’, incluye alrededor de 5 a 16

Los Data Scientists o Científicos de datos son profesionales, generalmente con

Los Científicos de datos se encargan de encontrar patrones en los datos, hacer

También debería poseer buenos conocimientos sobre probabilidad y estadística, aquí

• Evaluación de modelos estadísticos para determinar la validez de los

Los Científicos de datos aportan un enfoque y una perspectiva totalmente nuevos a la

5. Analista de datos e ingeniero de datos

5.1. Analista de datos

La naturaleza de las habilidades requeridas dependerá de las necesidades

✓ Limpieza y organización de datos en bruto.

El Analista de datos aporta un valor significativo tanto a los aspectos técnicos

5.2. Ingeniero de datos

Los Ingenieros de datos son responsables de construir las herramientas para

La mentalidad del Ingeniero de datos suele estar más centrada en la

✓ Creación de APIs para el consumo de datos.

6. Herramientas para data science

➢ R: Lenguaje de programación de código abierto y un entorno para el

7. Aplicaciones para data science en el marketing

a) Estrategia de precios dinámicos

b) Lead scoring avanzado

Gracias al data science, podemos crear algoritmos avanzados de lead

El data science puede ayudarnos a averiguar datos sobre nuestra

e) Elaboración de perfiles de usuario

f) Optimización de los presupuestos

El data science permite analizar los patrones de gasto y adquisición para

Además, el data science también recopila y analiza patrones de

Al elaborar perfiles individuales para cada cliente basados en datos,

También podría gustarte