Está en la página 1de 9

UNIVERSIDAD TÉCNICA DE

MANABÍ
CARRERA DE INGENIERÍA
EN SISTEMAS DE INFORMACIÓN

ASIGNATURA:

Minería de Datos

PARALELO:

“B”

Medio de Ciclo

DOCENTE:

Ing. Jorge Párraga

INTEGRANTES:
Anchundia Rodríguez Erick Fabricio
Ismael Fernando Pérez Chevez
Menendez Pico Williams Daniel
Mero Castro Jordan Lenin
Zambrano Lucas Kevin Joel

Octubre 2022 – febrero 2023


Ciencia de Datos y su relación con Minería de Datos, Machine Learning y Big Data

Introducción

La ciencia de datos es hoy en día la herramienta fundamental para la explotación de datos


y la generación de conocimiento. Es un área que ha experimentado un enorme crecimiento
al extenderse el acceso a grandes volúmenes de datos e incluso su tratamiento en tiempo
real, requiriendo de técnicas sofisticadas que puedan tratar con los problemas prácticos
como escalabilidad, robustez ante errores, adaptabilidad con modelos dinámicos, etc.
Conociendo esto cómo podemos relacionar la ciencia de datos con otras disciplinas como
el big data, la minería de datos y machine Learning disciplinas que van muy de la mano
pero que a su vez abarcan campos completamente diferentes de cada una.

Desarrollo

Primero hablando acerca de ciencia de datos que es La ciencia de datos es un campo


interdisciplinario que involucra métodos científicos, procesos y sistemas para extraer
conocimiento o un mejor entendimiento de datos en sus diferentes formas, ya sea
estructurados o no estructurados, lo cual es una continuación de algunos campos de
análisis de datos como la estadística, la minería de datos, el aprendizaje automático, y la
analítica predictiva.

¿Por qué es importante la ciencia de los datos?

La ciencia de los datos es importante debido a que se pueden combinar herramientas,


métodos y tecnologías que permiten generar un significado a partir de los datos, Hoy en
día existen muchas organizaciones modernas que manejan un sin número de datos y
manejan dispositivos que les permiten recopilar y almacenar informaciones de manera
automática como los sistemas en línea o portales de pago que realizan capturas de datos
en los campos comerciales, electrónicos, medicina, finanzas, etc.

¿Para qué son utilizadas la ciencia de datos?

son utilizadas para estudiar los datos y de cuatro maneras principales:

• Análisis descriptivo. - examina los datos para poder obtener información sobre
lo que ha ocurrido u ocurre en el entorno de los datos, estas se caracterizan por
las visualizaciones de datos, como gráficos circulares, de barras o lineales.

• Análisis de diagnóstico. - realizan un examen profundo o mejor detallado sobre


los datos para entender por qué ha ocurrido algo. Estas se caracterizan por sus
técnicas como el análisis detallado para los descubrimientos de la minería de datos
o las correlaciones.

• Análisis predictivo. - se utilizan los datos históricos para hacer previsiones


precisas sobre patrones de datos que pueden producirse a futuro. Estas se
caracterizan por sus técnicas como el machine learning, previsiones,
coincidencias de patrones y modelos predictivos.
• Análisis prescriptivos. - lleva los datos predictivos al siguiente nivel, es decir no
solo predice lo que probables que ocurra, sino que sugiere respuestas óptimas para
los resultados, esta puede analizar posibles implicaciones de las diferentes
alternativas y recomendar el mejor uso de acción ya que utilizan análisis gráficos,
simulación.

La minería de datos es el proceso de hallar anomalías, patrones y correlaciones en


grandes conjuntos de datos para predecir resultados. Esto nos ayuda bastante para la toma
de decisiones, reducir riesgos o para obtener más ingresos, empleado una amplia variedad
de técnicas que están se encargan de perseguir el descubrimiento automático del
conocimiento contenido en la información almacenada de forma ordenada.

Como ventajas de estos procesos de análisis de datos es que los podemos aplicar a una
gran cantidad de escenarios, por ejemplo, tenemos.

• predicción. - Pronósticos de ventas de una


compañía.
• probabilidad. - seleccionar a los mejores
clientes para tener contacto directo ya sea
vía telefónica o correo electrónico.
• Análisis de secuencias. - analizar los
productos que el cliente de un almacén ha
comprado y comprobar las interrelaciones
entre ellos.
Técnicas para la minería de datos.

Estas pueden clasificarse según su utilidad, como técnica tenemos:

• La clasificación. - estas definen unas series de clases en la que se pueden


agrupar a los diferentes casos en donde se encuentran técnicas como
árboles de decisiones y regla de inducción.
• La predicción. - esta permite obtener pronósticos de comportamientos
futuros a partir de datos recopilados y aplicados frecuentemente, estas
técnicas suelen resultar útiles por ejemplo en aplicaciones para predecir el
clima o mejor dicho meteorológicas o en tomas de decisiones de una
persona sobre algún caso.
• La asociación. - estas permiten establecer las posibles relaciones o
correlaciones de distintas acciones o sucesos aparentemente
independientes para reconocer la ocurrencia de un suceso o acción que
puede incluir o generar una aparición de otros.
• Los agrupamientos(clustering). - esta concentra los datos dentro de un
número de clases preestablecidas o no de manera que la clase sea similar
entre sí y distinta a otras clases, estas han proporcionado significativos
resultados en los que respecta a clasificadores de patrones como el
modelado de un sistema.

El Machine Learning es una ciencia que permite a los ordenadores aprender con cuenta
propia esto sin necesidad de programarlos, es muy fácil de diferenciar el machine learning
con el Big data y de la ciencia de los datos. Para poder obtener las informaciones se
necesitan dos elementos imprescindibles. El primero es un conjunto de grandes datos para
poder analizarlos y el segundo elemento es un algoritmo que se encarga del proceso de
análisis.

El Machine Learning es utilizado en la ciencia de los datos para analizar datos de manera
automatizada y así una vez identificados y comprendidos dichos datos importantes y
relevantes para nuestro problema, ya que el sistema los procesa e identifica los patrones.

tenemos tres tipos de algoritmo del machine learning


• Aprendizaje supervisado. - el operador proporciona al algoritmo un conjunto de
datos conocidos que incluyen las entradas y salidas deseadas y se debe encontrar
un método para determinar cómo llegar a esas entradas y salidas de información.
• Aprendizaje sin supervisión. - Aquí el algoritmo estudia los datos para
identificar patrones en donde no hay una clave de respuesta o un operador humano
para proporcionar instrucciones, en cambio las máquinas determinan las
correlaciones y relaciones mediante un análisis de los datos disponibles.
• aprendizaje por refuerzo. - esta se centra en los procesos de aprendizajes
reglamentados en donde se proporcionan algoritmos de aprendizaje automático
con un conjunto de acciones, parámetros y valores para definir las reglas e intenta
explorar diferentes opciones y posibilidades, monitorizados y evaluados cada
resultado para poder determinar cuál es el óptimo.

El big data se pueden resumir en el conjunto de datos cuyo tamaño supera


considerablemente la capacidad de captura, almacenado, gestión y análisis del software
convencional de bases de datos, pero no solo eso hace que sea característico el big data si
no viene también a la variedad del contenido y a la velocidad que se genera esta son las
3 dimensiones que tiene el big data “3V” sin embargo hay casos en que las empresas
incluyan un 4 y 5 V, veracidad y valor.

¿Por qué el Big Data es tan importante?

Lo que hace que Big Data sea tan útil para muchas empresas es el hecho de que
proporciona respuestas a muchas preguntas que las empresas ni siquiera sabían que
tenían. En otras palabras, proporciona un punto de referencia. Con una cantidad tan
grande de información, los datos pueden ser moldeados o probados de cualquier manera
que la empresa considere adecuada. Al hacerlo, las organizaciones son capaces de
identificar los problemas de una forma más comprensible.

La recopilación de grandes cantidades de datos y la búsqueda de tendencias dentro de los


datos permiten que las empresas se muevan mucho más rápidamente, sin problemas y de
manera eficiente. También les permite eliminar las áreas problemáticas antes de que los
problemas acaben con sus beneficios o su reputación.
Cuadro comparativo

Ciencia de datos Minería de datos Machine Big Data


Learning

Es un campo Es el proceso de El Machine Big Data es un


interdisciplinario que hallar anomalías, Learning es una término que
involucra métodos patrones y disciplina del describe el gran
científicos, procesos y correlaciones en campo de la volumen de datos,
sistemas para extraer grandes conjuntos Inteligencia tanto estructurados
Concepto conocimiento o un de datos para Artificial que, a como no
mejor entendimiento de predecir resultados. través de estructurados, que
datos en sus diferentes Esto nos ayuda algoritmos, dota a inundan los
formas, ya sea bastante para la los ordenadores negocios cada día.
estructurados o no toma de decisiones, de la capacidad de Pero no es la
estructurados. reducir riesgos o identificar cantidad de datos lo
para obtener más patrones en datos que es importante.
ingresos, empleado masivos y Lo que importa con
una amplia elaborar el Big Data es lo
variedad de predicciones que las
técnicas (análisis organizaciones
predictivo). hacen con los datos.
Big Data se puede
analizar para
obtener ideas que
conduzcan a
mejores decisiones
y movimientos de
negocios
estratégicos.
Es encontrar patrones Su objetivo es
Gracias al Analizar millones
en los datos, utilizando encontrar patrones,
Machine de millones de datos
varias técnicas tendencias o reglas
Learning es y orientar con ellos
Objetivos estadísticas pana que expliquen los
posible, de la toma humana de
analizar y extraer comportamientos
acuerdo con decisiones acerca de
información. A partir de de los datos en un
Gutiérrez, grandes problemas
la extracción de datos se contexto especifico.
optimizar transversales, son
deben examinar a procesos, reducir los principales
fondo. costos y objetivos del Big
maximizar la data, una
sostenibilidad de herramienta
los negocios, con tecnológica en
un mejor manejo pleno desarrollo
de los datos y su gracias a su sólido
máximo fundamento
aprovechamiento. científico.
- Puede predecir las - Permite descubrir - - Velocidad en las
necesidades de los información que no Comportamiento tomas de
clientes y ayudar a crear esperábamos decisiones.
las innovaciones o obtener debido a su del cliente --Planes
mejoras. funcionalidad con predilecto. estratégicos
- Identifica los algoritmos. - inteligentes de
Ventajas comportamientos clave, - Es capaz de Recomendaciones marketing
patrones que pasan por analizar bases de de productos - Mejora en la
alto de los datos con una - Mejorar las eficiencia
consumidores que enorme cantidad de estrategias de - Variables en el
todavía no son parte de datos almacenados. marketing. entorno feedback y
la estadística. - Los resultados son - Asistencia para retroalimentación
- Ayuda a tomar fáciles de el ingreso de
mejores decisiones al interpretar y no es datos.
utilizar estadística y necesario tener
matemáticas para conocimiento
interpretar los datos. profundo de la
- Es una buena informática.
herramienta para - Permite encontrar,
aumentar valores de la atraer y retener
organización con clientes.
implementaciones de
procesos de selecciones
y búsqueda.
- La información - La mayoría de las El principal Falta de personal
obtenida de los datos herramientas que se inconveniente del capacitado. Al ser
estructurados o no emplean para la Machine una ciencia en
estructurados pueden minería de datos so Learning es que desarrollo con un
Desventajas ser utilizados complejas y hay que guiar al mercado también en
indebidamente contra requieren del programa en todas expansión, aún
otros grupos de persona manejo de las fases del hacen falta expertos
de un país u profesionales sistema para que calificados para
organización. formados y sepa identificar cubrir las
- Las herramientas especializados. cada categoría necesidades de ese
utilizadas para la - La minería de automáticamente, mercado.
ciencia de datos pueden datos no es por lo tanto, esta Ciberseguridad y
costar mucho a una infalibles y no modalidad políticas de
organización debido a siempre se necesita de un protección de datos.
que algunas proporcionan aprendizaje
herramientas son información supervisado.
complejas y requieren totalmente precisa.
de las personas
capacitadas para su uso.
Conclusión

Considerando los objetivos planteados para la realización de este estudio, la principal


contribución que logra el artículo es caracterizar en un solo documento los trabajos,
enfoques y herramientas recientes relacionados con el concepto moderno de Big Data,
que puede servir como obra de referencia y consulta a los investigadores.

Los grandes datos no son solo grandes volúmenes de datos, sino que también incluyen
otras dimensiones importantes del procesamiento de datos, como la versatilidad, la
velocidad y la precisión. Sin embargo, la implementación de big data requiere altos
costos, mayor tiempo de adaptación tecnológica, dificultades para implementar nuevos
análisis y comprensión limitada para los expertos. Big Data no tiene como objetivo
reemplazar los sistemas tradicionales, sino construir una nueva tendencia en la que las
arquitecturas de sistemas se construyen para abordar todas las preguntas. Y ya ha
logrado motivar a la comunidad académica y empresarial a desarrollar tecnologías
habilitadoras que toman paradigmas fundamentales y los utilizan para crear soluciones
personalizadas en entornos reales de investigación y producción.

Bibliografía
- [1] De Jesús José Manuel Molina López, Á. L. B. W. P. R. M. Á. P. G. J. G. H. A. B.
(2018). Ciencia de datos : técnicas analíticas y aprendizaje estadístico en un enfoque
práctico. Altaria.

- [2] https://es.wikipedia.org/wiki/Ciencia_de_datos

- [3] https://www.sas.com/es_mx/insights/analytics/data-mining.html

- [4] Daniel, P. L. C. S. (2007). Minería de datos. Técnicas y herramientas: técnicas y


herramientas. Paraninfo.

- Amador, Y. R. (RCCI Vol. 3, No. 3-4 JULIO-DICIEMBRE, 2009 p. 73-80). Data


Mining Tools. Universidad de las Ciencias Informáticas, Carreterra a San Antonio de
los Baños km 2 1/2. Rpato Torrens, Boyeros, La Habana, C.P.: 19370. Cuba.

- Agenciab12.com. 2020. Qué Es Data Mining O Minería De Datos. [online] Available


at: <https://agenciab12.com/noticia/que-es-data-mining-mineria-datos> [Accessed 19
November 2020] Abellán, J. L. (2018). Minería de datos. España: Economipedia.com.

También podría gustarte