Está en la página 1de 4

MAESTRÍA EN TECNOLOGÍAS DE LA INFORMACIÓN

CON MENCIÓN EN SEGURIDAD DE REDES


Y COMUNICACIÓN
________________________________________________________________________________________________________________

MINERÍA DE DATOS

VÁSQUEZ LENIN ALBERTO


2018-ABR-25
Paralelo A

TAREA 1- CICLO DE VIDA DE LOS PROYECTOS DE ANALÍTICA DE DATOS

Hoy en día la información se constituye en un factor importante para toda empresa,


llevando a un análisis de datos con, aspectos sensibles del uso del Big Data (datos
masivos) en el marco de políticas públicas, tales como seguridad, propiedad de
datos, privacidad y marco ético de uso [1].

Es por tal razón que los datos sin ser procesados tienen poco valor, cambiando esta
perspectiva luego de su procesamiento en base al giro del negocio sobre el cual se
requiere establecer la analítica de los datos y su posterior estudio.

Para el procesamiento y análisis de los datos masivos ha surgido un ciclo de vida de


Datos [1],en la figura 1 se visualiza El ciclo de vida del análisis de datos que
contempla la Ciencia de Datos.
MAESTRÍA EN TECNOLOGÍAS DE LA INFORMACIÓN
CON MENCIÓN EN SEGURIDAD DE REDES
Y COMUNICACIÓN
________________________________________________________________________________________________________________

Figura 1. Ciclo de Vida del análisis de Datos [1]

Como muestra las Figuras 1, el ciclo de vida del análisis de datos es un proceso
iterativo, permitiendo el retroceso a etapas previas si se requiere reformular la
hipótesis del estudio en función de la disponibilidad de datos, o reinterpretar los
resultados a la luz de nueva evidencia. El procesamiento de los datos masivos se
puede sintetizar a partir de dos etapas principales: la gestión de los datos y la
analítica de datos

Los pasos que debe cumplir el ciclo de vida son:

1. EXPLORAR O DEFINIR EL PROBLEMA: En esta etapa se define el


problema en base a los datos que se dispone y que estén acorde a los
requisitos de la empresa, se formulan preguntas tales como: ¿Que estamos
buscando?, ¿Qué tipo de datos tenemos?, ¿Qué deseo predecir o
demostrar?, para definir la Hipótesis que se desea probar.

2. PREPARAR LOS DATOS: En esta etapa se determinan los datos necesarios


a utilizar, lo cual consiste en consolidar y limpiar los datos identificados en la
etapa previa, todos los datos que se tienen pueden estar dispersos y
almacenados en formatos distintos uno de otro. La limpieza de datos no
solamente implica quitar los datos no válidos o interpolar valores que faltan,
sino también buscar las correlaciones ocultas en los datos, identificar los
orígenes de datos que son más precisos y determinar qué columnas son las
más adecuadas para el análisis.

3. PLANIFICAR MODELO O EXPLORAR LOS DATOS: En esta etapa se


determinan qué variables se utilizan y cuáles se pueden predecir, así como
también seleccionar posibles modelos y algoritmos a utilizar que permitan
definir métricas de desempeño. Entre las técnicas de exploración de
variables se incluyen calcular los valores mínimos y máximos, calcular la
media y las desviaciones estándar, y examinar la distribución de los datos.
Las desviaciones estándar y otros valores de distribución pueden
proporcionar información útil sobre la estabilidad y exactitud de los
resultados. Una desviación estándar grande puede indicar que agregar más
datos podría ayudarle a mejorar el modelo.
MAESTRÍA EN TECNOLOGÍAS DE LA INFORMACIÓN
CON MENCIÓN EN SEGURIDAD DE REDES
Y COMUNICACIÓN
________________________________________________________________________________________________________________

4. ELABORAR O GENERAR MODELO: En este paso consiste en generar o


elaborar el modelo a utilizar en minería de datos para lo cual aplicaremos la
información adquirida en el paso anterior, determinando el mejor modelo
según su ajuste y significancia. También puede utilizarse los parámetros para
ajustar cada algoritmo aplicando filtros a los datos de entrenamiento para
utilizar un subconjunto de los datos.

5. COMUNICAR O VALIDAR MODELOS: En este paso se interpretan los


resultados obtenidos al ejecutar el modelo seleccionado, mediante la
generación gráfica adecuada de presentación de datos, con el objetivo
principal de comprobar su eficacia y ver si el modelo implementado crea
predicciones correctamente mediante herramientas del diseñador como el
gráfico de mejora respecto al modelo predictivo y la matriz de clasificación.

Para comprobar si el modelo es específico de sus datos o se puede usar


para realizar inferencias en la población general, puede usar la técnica
estadística denominada validación cruzada para crear automáticamente
subconjuntos de los datos y probar el modelo con cada uno; sii ninguno de
los modelos que ha creado en el paso Generar modelos funciona
correctamente, es muy probable que deba regresar a un paso anterior del
proceso y volver a definir el problema o volver a investigar los datos del
conjunto de datos original.

6. UTILIZAR O IMPLEMENTAR Y ACTUALIZAR MODELOS: En este paso se


realiza la toma de decisiones basadas en resultados, definiendo estándares
de servicio, metas para alcanzar dichos estándares y también planificación y
asignación de recursos.

Conclusión

La gran cantidad de datos que se manejan hoy en día gracias al crecimiento


tecnológico, han permitido que muchas empresas pueda solventar todas las
inquietudes que necesitaban saber, para establecer un punto de partida como
referencia para el modelamiento de los datos que cada empresa necesite.

El análisis a través de un modelo establecido de grandes cantidades de datos ayuda


a las organizaciones a aprovechar su información y utilizarlos para identificar nuevas
oportunidades, conduciendo a movimientos de negocios más inteligentes, operaciones
más eficientes, mayores ganancias y clientes más felices.

Adicional las empresas con los resultados de los análisis tienden a crear nuevos
productos para satisfacer las necesidades de los clientes.

Bibliografía
● [1] P. Rodríguez, N. Palomino, J. Moncada. El uso de datos masivos y sus
técnicas analíticas para el diseño e implementación de políticas públicas en
Latinoamérica y el Caribe. Julio 2017. [Online]. Disponible:
https://publications.iadb.org/bitstream/handle/11319/8485/El-uso-de-datos-
masivos-y-sus-tecnicas-analiticas-para-el-diseno-e-implementacion-de-
politicas-publicas-en-Latinoamerica-y-el-Caribe-resumen-de-
politicas.PDF?sequence=3 [ Acceso: 20 Abril 2018]
MAESTRÍA EN TECNOLOGÍAS DE LA INFORMACIÓN
CON MENCIÓN EN SEGURIDAD DE REDES
Y COMUNICACIÓN
________________________________________________________________________________________________________________

● [2] I. Perversi. Aplicación de Minería de Datos para la exploración y detección


de patrones delictivos en Argentina. 2007.[Online]. Disponible:
http://laboratorios.fi.uba.ar/lsi/rgm/tesistas/PERVERSI-
tesisdegradoeningenieria.pdf [ Acceso: 21 Abril 2018 ]

● [3] Gestionando del ciclo de vida analíticopara la toma de decisiones a gran


escala. SAS. [Online]. Disponible:
https://www.sas.com/content/dam/SAS/es_es/doc/whitepaper1/analytics-
lifecycle-es.pdf [ Acceso: 21 Abril 2018 ]