Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Fuente
: quora
Ciclo vital:
Ciclo vital:
A continuación se muestra el proyecto Ciclo de vida de ciencia de datos / aprendizaje
automático.
1. Comprensión empresarial
La comprensión empresarial juega un papel muy importante en el éxito de cualquier proyecto,
ya que todo el ciclo de vida gira en torno al objetivo empresarial. Para adquirir los datos
correctos, debemos poder comprender el negocio. Hacer preguntas sobre el conjunto de datos
y un objetivo comercial adecuado ayudará a que el proceso de adquisición de datos sea
mucho más fácil.
2. Comprensión de datos
Después de la comprensión empresarial, el siguiente paso es la comprensión de los datos.
Este paso implica la recopilación de todos los datos disponibles. Si está trabajando en un
proyecto en tiempo real en su empresa, entonces, necesita trabajar en estrecha colaboración
con el equipo comercial, ya que saben qué datos están presentes, qué datos podrían usarse
para este problema comercial y otra información, o si tratando de construir su propio proyecto
de ciencia de datos / aprendizaje automático, puede
encontrar conjuntos de datos gratuitos en muchos sitios web disponibles.
Este paso implica describir los datos, su estructura, su tipo de datos y mucha otra información.
Explore los datos utilizando diagramas gráficos. Básicamente, extraer cualquier información
que pueda obtener sobre los datos simplemente explorando los datos.
3. Preparación de datos
Después del paso Comprensión de datos, el siguiente paso que viene en los pasos del ciclo
de vida es la Preparación de datos. Este paso también se conoce como limpieza
de datos o reorganización de datos. Incluye pasos como seleccionar los datos relevantes,
integrar los datos fusionando los conjuntos de datos, limpiarlos, manejar los valores faltantes
eliminándolos o imputarlos con datos relevantes, tratar los datos erróneos eliminándolos,
también verificar los valores atípicos y manejarlos . Construyendo nuevos datos, obtenga
nuevas características de las existentes mediante la ingeniería de características. Formatee
los datos en la estructura deseada, elimine columnas y características no deseadas. La
preparación de datos es la que lleva más tiempo, ya que toma hasta un 70% -90% del tiempo
total del proyecto, pero es el paso más importante en todo el ciclo de vida.
El análisis de datos exploratorios (EDA) juega un papel importante en esta etapa, ya que el
resumen de datos limpios ayuda a identificar la estructura, valores atípicos, anomalías y
patrones presentes en los datos. Estos conocimientos podrían ayudar a encontrar el conjunto
correcto de características, el algoritmo que se utilizará para la creación del modelo y la
construcción del modelo.
4. Modelado de datos
El modelado de datos se considera el corazón del análisis de datos. Un modelo toma los datos
preparados del paso anterior (preparación de datos) como entrada y proporciona la salida
deseada. Este paso incluye elegir el tipo apropiado de modelo, ya sea que el problema sea un
problema de clasificación, un problema de regresión o un problema de agrupamiento.
Después de elegir el modelo, entre los distintos algoritmos presentes. Necesitamos ajustar los
hiperparámetros de cada modelo para lograr el rendimiento deseado.
Al final, necesitamos evaluar el modelo midiendo la precisión (qué tan bien se desempeña el
modelo, es decir, describe los datos con precisión) y la relevancia (responde a la pregunta
original que se propone responder). También debemos asegurarnos de que haya un equilibrio
correcto entre el rendimiento y la generalización, lo que significa que el modelo creado no
debe estar sesgado y debe ser un modelo generalizado.
Pero ¿nos hemos puesto a pensar que es lo que sustenta todas estas tecnologías
revolucionarias?
Todo se centra en una sola cosa: los datos.
Desde las redes sociales, hasta los dispositivos IoT, generan una gran cantidad de
datos a considerar.
Podemos ver aplicaciones muy grandes, como Youtube o Facebook, y la mayoría
pertenecen a empresas “digitales” más grandes, y es que sus aliados más
grandes son los datos, los cuales son utilizados para obtener información útil y
resolver problemas.
Ahí es donde entra la ciencia de datos, la cual es el proceso utilizando los datos
para encontrar soluciones a problemas o predecir resultados.
Funcionamiento de la Ciencia de Datos
La ciencia de datos es un termino que puede llegar a ser un poco confuso para
alguien que no esté tan puesto en el área, de hecho, la ciencia de datos que se
introdujo por primera vez en la década de 1980, sigo siendo confusa para muchas
personas incluso en la actualidad.
El gran numero de personas, particular mente estas que están fuera del campo,
luchan por comprender cómo los científicos de datos ayudan a las empresas de
todo el mundo y se preguntan por qué sus servicios tienen una demanda tan alta.
Hay varias razones claves para que esto se así. En primer lugar, la ciencia de
datos es un campo interdisciplinario, sus verdaderos fundamentos están en la
estadística, las matemáticas, la informática, y en los negocios, por lo que es un
poco difícil identificar que cosas se encuentran en el ámbito de la ciencia de datos
y cuáles no.
En algunas ocasiones, las personas pueden pensar que la ciencia de datos y las
estadísticas son lo mismo, sin embargo, esto no es así, puesto que la ciencia de
datos es aún más amplia debido a que surge de la estadística e incluso otros
temas como los datos digitales y el big data.
Otro error frecuente es que la ciencia de datos y la inteligencia artificial son
términos intercambiables, pero no es así. A través de la IA es posible designar un
modelo, una máquina, y otros dispositivos para tratar de imitar el comportamiento
de los seres humanos y producir decisiones similares a las humanas.
Dentro de los aspectos importantes del trabajo que tienen los científicos de datos
están los siguientes:
1. El tipo de datos usados
2. Actividades realizadas en el trabajo
3. Asignación del tiempo
4. Habilidades claves
5. Métodos usados frecuentemente en la Ciencia de Datos
CICLO DE VIDA EN LA CIENCIA DE DATOS: QUE PASOS
SEGUIR EN UN PROYECTO
La gestión del ciclo de vida de los datos, conocida también como Database Lifecycle
Management (DLM), consiste en la realización y/o mejora de una base de datos y todo lo que ésta
abarca desde un enfoque técnico y empresarial, de forma que se puedan tratar y gestionar los datos de
una determinado forma, dándoles así un valor y utilidad que pueda ser aplicado en empresas y
organizaciones.
Un DLM hace énfasis en los distintos aspectos que se encuentran relacionados con los datos: el diseño
de la arquitectura, el desarrollo de la base de datos, los procesos que experimenta un dato en una
determinada empresa, sus medidas de seguridad y su forma de almacenaje, etc.
Así pues, una correcta gestión del ciclo de vida de los datos otorga una serie de ventajas significativas:
ayuda a que los procesos organizacionales sean más sencillos de planificar y ejecutar y a que la
identificación y optimización de las oportunidades y recursos sea una realidad.
Los datos objetivos son la única y mejor forma de hacer que un indicador mida y controle que todo va
acorde con lo planificado, siendo así la base fundamental para el apoyo en la toma de decisiones clave de
una empresa u organización.
Un ciclo de vida de los datos está compuesto por distintas fases:
Creación y captura
Esta primera fase en la gestión del ciclo de vida de los datos consiste en la creación y captura de
aquellos que eran virtualmente no existentes en la empresa. Existen diversas formas para adquirir datos,
destacándose tres de las más usadas:
Conseguir datos ya existentes que han sido creados por entes ajenos a tu negocio.
Creación de datos por parte del factor humano y/o dispositivos de tu propio negocio.
Obtención de datos por parte de dispositivos a través del conocido Internet de las Cosas (IoT).
Este tipo de datos son muy importantes para la infraestructura de sistemas de información de una
empresa.
Una vez que los datos han sido creados o capturados, éstos deben ser capaces de moverse, guardarse y
que estén seguros. Todos estos aspectos son de una gran importancia y se encuentran razonados por los
siguientes motivos:
Transmisión. De la misma manera que puedes conseguir una vía de transmisión entre los datos
ajenos a tu negocio y traerlos, estos mismos datos deben ser capaces de moverse según las necesidades
de la empresa, independientemente de si se trata de un movimiento interno organizacional o externo.
Almacenamiento. Los datos ocupan un espacio y deben de ser almacenados en unos
repositorios adecuados para ellos, las bases de datos. Esta característica es clave puesto que la
organización, acceso y control de datos es indispensable para el correcto funcionamiento de una empresa
hoy día.
Seguridad. Los datos contienen información privada útil para las organizaciones, surgiendo así
la necesidad de establecer diversos sistemas y elementos de seguridad para ayudar a que éstos no puedan
ser sustraídos, o incluso si lo fuesen, para que fuesen ilegibles y no se pueda acceder a la información
por parte de personas no autorizadas.
Gestión y trabajo colaborativo
Los datos deben de poder ser gestionados por determinados usuarios en un ciclo de vida de los datos.
Debe existir uno o varios usuarios que sean capaz de acceder a diversos datos almacenados en la base de
datos para poder interactuar con ellos: mover, realizar copias, exportar, dar o eliminar accesos para
otros usuarios, etc.
Especialmente, si se plantea una forma de trabajo colaborativo, muy estandarizada en la actualidad.
Los miembros de un determinado equipo o departamento necesitan tener acceso a una serie de datos con
el fin de poder desempeñar sus tareas y funciones pertinentes, ya que de lo contrario
la productividad estaría paralizada.
Por último, muchos datos contienen una información de un carácter bruto. Una correcta gestión del ciclo
de vida de los datos tiene presente que los datos deben de poder ser tratados o refinados con la
intención de transformar la información en un conocimiento útil y valioso para la empresa.
Estos procesos de tratamiento de los datos son vitales y se emplea generalmente software por las
facilidades que aporta y por los enormes volúmenes de datos que se generan en las organizaciones, de
forma que los analistas puedan estudiar las grandes cantidades de información y plasmar las ideas y
resultados en forma de un conocimiento asequible que apoye principalmente a las mediciones y
controles de lo planificado por parte de un negocio y a la posterior toma de
decisiones correspondiente.
Desde Clase10 queremos ayudarte y asesorarte con cualquier duda o pregunta que tengas, por lo que te
animamos a que a través del siguiente enlace contactes con nosotros.
COMPARTIR: