Documentos de Académico
Documentos de Profesional
Documentos de Cultura
CURSO:
ANALISIS Y DISEÑO DE ALGORITMOS
TEMA:
ESTADO DEL ARTE DE DATA MINING
ALUMNO:
PETER NEGRON YUCRA
DOCENTE:
MGR. WILDON ROJAS PAUCAR
ILO – PERU
2019
1
INDICE
Contenido
INDICE................................................................................................2
ESTADO DEL ARTE..............................................................................3
DATA MINING.....................................................................................3
INVESTIGACIONES..............................................................................4
O PROCESSO DA BIBLIOMINERAÇÃO: REPOSITÓRIO DE DADOS E
MINERAÇÃO DE DADOS PARA TOMADA DE DECISÃO EM
BIBLIOTECAS.......................................................................................4
TÉCNICAS DE MINERÍA DE DATOS APLICADAS AL DIAGNÓSTICO
DE ENTIDADES CLÍNICAS....................................................................5
MINERAÇÃO DE DADOS PARA ESTIMATIVAS DE MORTALIDADE
PRÉ-ABATE DE FRANGOS DE CORTE..................................................7
APLICACIÓN DE LA MINERÍA DE DATOS SOBRE BASES DE DATOS
TRANSACCIONALES............................................................................8
VISUALIZACIÓN EN UN ENTORNO DE MINERÍA DE DATOS DESDE
UNA PERSPECTIVA INTERACCIÓN HUMANO COMPUTADOR.........10
BIBLIOGRAFIA..................................................................................12
2
ESTADO DEL ARTE
El análisis del estado del arte que aquí se realiza se agrupan en dos tipos: la primera es sobre
programas de prevención de la violencia escolar y la segunda sobre las investigaciones que se
han realizado considerando diferentes variables del problema.
DATA MINING
3
INVESTIGACIONES
O PROCESSO DA BIBLIOMINERAÇÃO:
REPOSITÓRIO DE DADOS E MINERAÇÃO DE
DADOS PARA TOMADA DE DECISÃO EM
BIBLIOTECAS
-EL PROCESO DE BIBLIOTECOLOGÍA: REPOSITORIO DE DATOS Y EXTRACCIÓN DE DATOS PARA LA
TOMA DE DECISIONES EN BIBLIOTECAS-
CONCLUSION: El principal objetivo de este articulo fue explicar un proceso de análisis que fue
sugerido por bibliomineration. Se enfatizo la importancia de construir un repositorio de datos,
sin comprometer la privacidad de los usuarios, un problema que debe resolverse antes de
iniciar cualquier actividad en el área. Por lo tanto, es necesario capturar datos de los archivos
de la institución, sin violar los derechos del usuario. A través de un repositorio, la biblioteca
tendrá una gran cantidad de informes y herramientas analíticas, valiosos subsidios para poder
conocer mas a fondo sus comunidades de usuarios y poder adaptar mejor el uso de sus
recursos.
4
TÉCNICAS DE MINERÍA DE DATOS APLICADAS
AL DIAGNÓSTICO DE ENTIDADES CLÍNICAS
Revista Cubana de Informática Médica Dic 2012, Volumen 4 Nº 2 Paginas 174 – 183
Disminuir el error médico y mejorar los procesos de salud es prioridad de todo el personal
sanitario. En este contexto surgen los "Sistemas Clínicos de Soporte para la Toma de
Decisiones" (CDSS), los cuales son un componente fundamental en la informatización de la
capa clínica. Con la evolución de las tecnologías gran cantidad de datos han podido ser
estudiados y clasificados a partir de la minería de datos. Una de las principales ventajas de la
utilización de esta, en los CDSS, ha sido su capacidad de generar nuevos conocimientos. Con
este fin se propone, mediante la combinación de dos modelos matemáticos, cómo se puede
contribuir al diagnóstico de enfermedades usando técnicas de minería de datos. Para mostrar
los modelos utilizados se tomó como caso de estudio la hipertensión arterial. El desarrollo de la
investigación se rige por la metodología más utilizada actualmente en los procesos de
Descubrimiento de Conocimiento en Bases de Datos: CRISP-DM 1.0, y se apoya en la
herramienta de libre distribución WEKA 3.6.2, de gran prestigio entre las utilizadas para el
modelado de minería de datos. Como resultados se obtuvieron diversos patrones de
comportamiento con relación a los factores de riesgo a sufrir hipertensión mediante técnicas
de minería de datos.
PALABRAS CLAVE: CRISP-DM, hipertensión arterial, KDD, minería de datos, diagnóstico clínico,
WEKA.
CONTENIDO: Lo primero será crear una vista minable, para ello se deben realizar con
anterioridad, según CRISP-DM, varios pasos que posibilitarán la adecuada configuración de los
registros que se desean analizar. Los mismos se describen brevemente a continuación. Para
recolectar los datos necesarios en la investigación se hizo un análisis de la hipertensión arterial,
para lo cual se le realizaron encuestas a los especialistas en este tema. Cada una de las
variables que se tuvieron en cuenta fue localizada en las tablas del almacén de HCE y
posteriormente descritas para optimizar la comprensión de estas. Los datos contenidos en el
almacén fueron sometidos a un riguroso análisis basado fundamentalmente en cuanto a
representación de la realidad, consistencia, campos innecesarios, campos vacíos y datos de
naturaleza híbrida o poco genuina. Una vez efectuada la recolección inicial de datos, se
procede a su preparación para adaptarlos a las técnicas de minería de datos que se utilicen
posteriormente. La preparación de datos incluye las tareas generales de selección de datos a
los que se va a aplicar una determinada técnica de modelado, limpieza de datos, generación de
variables adicionales, integración de diferentes orígenes de datos y cambios de formato. En
5
este punto se deciden seleccionar los atributos y tuplas que serán incluidos en el proceso de
minería.
6
MINERAÇÃO DE DADOS PARA ESTIMATIVAS DE
MORTALIDADE PRÉ-ABATE DE FRANGOS DE
CORTE
MINERÍA DE DATOS PARA ESTIMAR LA MORTALIDAD ANTES DEL SACRIFICIO DE POLLOS DE
ENGORDE
DATAMINING PARA LA PREVISIÓN DE MORTALIDAD DE SACRIFICIO DE POLLOS DE ENGORDE
El objetivo de este estudio fue analizar la eficiencia de un sistema de información simple para
diagnosticar escenarios de mortalidad en condiciones previas al sacrificio, utilizando árboles de
regresión y clasificación, y estudiar datos de un matadero comercial de pollos de engorde en el
estado de São Paulo. utilizando un sistema de minería de datos (CART, clasificación y árboles de
regresión). Este árbol de decisiones, a través de un conjunto de datos históricos, es capaz de
predecir variables categóricas y clasificar efectos, y presentó un 77% de precisión y demostró
ser un medio práctico y rápido para las predicciones, además de ser fácil de interpretar para
uso directo. de técnicos.
INTRODUCCIÓN: Las operaciones de sacrificio previo son uno de los principales problemas en
la producción de pollos de engorde, debido a las pérdidas de mortalidad antes de la llegada. El
sistema de reproducción industrial tiene una alta densidad animal, condiciones bioclimáticas
inadecuadas, como altas temperaturas y humedad relativa, la mayor parte del tiempo en
países tropicales. El momento del viaje, la distancia entre las granjas y el matadero y los
aspectos relacionados con la espera en el matadero afectan las pérdidas al final del proceso,
utilizamos el modelo lineal doble generalizado que se considera como predictores:
temperatura externa, humedad relativa externa, tiempo de espera, cambio, número de aves
por caja y temporada del año.
CONTENIDO: Mediante la formación del árbol, es posible afirmar que el sistema reconoció
como una variable de mejor retracción de los grupos el desplazamiento, ya que el algoritmo
logró separar dos grupos bien delimitados. Comenzando desde el nodo superior del árbol,
también llamado la raíz, fue posible observar que para el turno 1 (mañana) el apoyo a la
decisión viene dado por la rama izquierda del árbol. Por lo tanto, la interpretación del sistema
de soporte de decisiones muestra que la variable de desplazamiento se seleccionó como la
ganancia más alta (índice de Gini) para respaldar la otra información, por lo que para los
cambios 1 y 2, la información se encuentra en la rama izquierda del árbol, donde se muestran
mayores detalles para la necesaria separación de clases. Para el turno 3, es decir, turno
nocturno, el orden de las variables predictoras fue diferente en comparación con los turnos 1 y
2. Así, el rendimiento predictivo del árbol de clasificación fue del 77%. Había 167 conjuntos de
datos ordenados apropiadamente.
CONCLUSION: El sistema de apoyo a las decisiones fue eficiente y fácil de analizar. Para
aumentar el rendimiento del sistema, se deben utilizar otros algoritmos para lograr una
precisión de más del 77%. Se debe considerar que la herramienta presentada tiene una gran
utilidad en la producción animal como una nueva herramienta para evaluar datos de
producción reales e históricos.
7
APLICACIÓN DE LA MINERÍA DE DATOS SOBRE
BASES DE DATOS TRANSACCIONALES
Troche Clavijo, Alvaro. Fides et Ratio - Revista de Difusión cultural y científica de la Universidad
La Salle en Bolivia Mar 2014, Volumen 7 Nº 7 Paginas 58 – 66
PALABRAS CLAVE: Minería de Datos, KDD, Integridad de información, Data Warehousing, OLAP,
OLTP
OBJETIVO: El objetivo del presente artículo es identificar y discutir aspectos que sería
importante tomar en cuenta en el caso de que se tenga la necesidad de aplicar técnicas de
minería de datos sobre bases de datos que no hayan sido procesadas previamente (bases de
datos transaccionales) debido al tiempo que tomaría crear bases de datos alternas con
información pre tratada para su análisis OLAP. Además se pretende resaltar las consecuencias
de no aplicar ciertas consideraciones sobre la información antes de que la misma sea utilizada
como insumo para inferir resultados.
8
Deshabilitar triggers o disparadores que probablemente hayan estado habilitados en la
base de datos de producción, ya que su utilidad en la base de datos alterna ya no es
preponderante.
Este tipo de consideraciones no son el recurso único para crear accesos rápidos, pero desde mi
humilde punto de vista, son la base para llegar a un acercamiento a las consultas OLAP.
Finalizando podemos aplicar ya sobre esta información pretratada (entre comillas) procesos de
análisis, que desde ningún punto de vista serán exactamente iguales que un análisis de datos
realizado directamente sobre repositorios OLAP. Pero el apoyo a la toma de decisiones en
mayor o menor grado podrá ser visible. El proceso de "minería de datos" podrá ser realizado en
todas sus etapas sobre una base de datos con márgenes de error aceptables, los cuales no
deberían afectar en las predicciones y la construcción de modelos predictivos.
CONCLUSION: Para concluir queda mencionar que estos aspectos no son más que parámetros
y consideraciones importantes capaces de darme otras posibilidades para aplicar técnicas de
"minería de datos" si pasar por ciertas etapas (saltos que muchos expertos considerarían
riesgosas), que conllevan a utilizar grandes cantidades de tiempo y recursos, pero que son
importantes al fin. Con el presente análisis no se quiere desmerecer la importancia innegable
de la construcción de los repositorios de Data Warehouse ya que como es de conocimiento
público, en su proceso está inmerso un aspecto importante que es la de depurar, filtrar y
consolidar información en sus procesos denominados ETL, aspecto que es de suma utilidad
para cualquier empresa hoy en día.
9
VISUALIZACIÓN EN UN ENTORNO DE MINERÍA
DE DATOS DESDE UNA PERSPECTIVA
INTERACCIÓN HUMANO COMPUTADOR
CONTENIDO: Cuando las personas y los ordenadores interactúan lo hacen por medio de una
interfaz. “La interfaz es el punto en que las personas y los ordenadores se ponen en contacto y
se transmiten mutuamente tanto información, órdenes y datos como sensaciones, intuiciones
y nuevas formas de ver las cosas. A la vez se menciona la definición comúnmente aceptada de
la disciplina Interacción Persona Computador, según el Grupo SIGCHI (Special Interest Group on
Human-Computer Interaction), creado en el ámbito de la ACM (Association for Computer
Machinery), como “la disciplina relacionada con el diseño, la evaluación y la implementación
de sistemas informáticos interactivos para uso de seres humanos, y con el estudio de los
fenómenos más importantes con los que está relacionado”.
Se debe también proveer un entendimiento de la forma en que los usuarios trabajan, las tareas
que necesitan ejecutar y la forma en que los sistemas computacionales necesitan ser
estructurados para facilitar el logro de dichas tareas. Un aspecto importante para considerar
cuando hay individuos involucrados, es lo relativo a la percepción humana. Los primeros
estudios de la percepción se centraron en la visión y sus capacidades, mientras que enfoques
posteriores consideraron los problemas cognitivos y de reconocimiento.
Los seres humanos perciben los datos que se les presentan a través de visualizaciones. Se
estudia entonces la percepción para mejorar la presentación de los datos. La mayoría de las
definiciones y teorías de la percepción la consideran como el proceso de reconocimiento (ser
consciente de), organización (recopilar y almacenar), e interpretación (la construcción de
conocimiento), de la información sensorial. La percepción es el proceso mediante el cual el ser
humano interpreta el mundo que lo rodea formando una representación mental del entorno,
que no es isomorfa con el mundo real.
La percepción tiene en cuenta los sentidos que detectan señales del entorno, tales como vista,
oído, tacto, olfato y gusto. De ellos la visión y audición son los más tratados. Algunas
propiedades perceptivas, tales como color, textura y movimiento, han sido usadas en
visualización.
10
CONCLUSION: El trabajo propone un análisis de diversas formas de presentar la información o
conocimiento extraído desde los datos, destacando diferentes etapas en la tarea de
preprocesamiento.
11
BIBLIOGRAFIA
https://sites.google.com/site/infobasededatos288/deliverables
https://comunidad.iebschool.com/michellebenitez/2016/11/23/mineria-de-datos/
https://es.calameo.com/read/0046383461d8e74c1e36b
http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0103-
37862004000300005&lang=e
http://scielo.isciii.es/scielo.php?script=sci_arttext&pid=S0004-
05922013000300015&lang=es
http://www.scielo.org.bo/scielo.php?script=sci_arttext&pid=S2071-
081X2014000100005&lang=es
http://www.scielo.org.mx/scielo.php?script=sci_arttext&pid=S1405-
55462018000100279&lang=es
http://scielo.sld.cu/scielo.php?script=sci_arttext&pid=S1684-
18592012000200007&lang=es
12