Está en la página 1de 16

Introduccin a la Minera de Datos

Ernesto Valdez Gmez


Instituto Tecnolgico de
Ciudad Jurez
30 de Marzo del 2017
Introduccin a la Minera de Datos
Esto es bsicamente una lo que hace la minera de datos:

Los modelos son el producto de la minera de datos y dan soporte a las estrategias de decisin
que se tomen

Qu es la Minera de Datos?
La minera de datos se encarga de preparar, sondear y explorar los datos para sacar la informacin
oculta y til en ellos. Si los datos son ledos y analizados, pueden proporcionar, en conjunto, un
verdadero conocimiento (futuras tendencias y comportamientos) que ayude en la toma de
decisiones, ya que para el responsable de un sistema, los datos en s no son lo ms relevante, sino
la informacin que se encierra en sus relaciones, fluctuaciones y dependencias.

Se conoce como minera de datos a todo un conjunto de tcnicas encargas de la extraccin de


conocimiento procesable, implcito en las bases de datos (ayuda a comprender su contenido). Est
fuertemente ligada con la supervisin de procesos industriales, pues resulta muy til para
aprovechar los datos almacenados en las bases de datos.

Tareas de Minera de Datos


La principal fase del proceso de la minera de datos es el descubrimiento de reglas, las cuales
mostrarn nuevas relaciones entre las variables o excepciones segn el negocio que utilice este
proceso. Puede ocurrir que algunas de las reglas descubiertas no puedan ser cambiadas, pero si
modificadas para mejorar su desempeo.

Una vez descubiertas reglas importantes, pueden ser utilizadas para estimar algunas variables de
salida. En esta tcnica se complementan las tcnicas estadsticas tradicionales con aquellas
provenientes de la inteligencia artificial

Entre las principales tareas de la minera de datos se encuentran:

1. Tareas descriptivas: Orientadas a describir un conjunto de datos.


- Clasificacin: Se asigna una categora a cada caso. Cada caso tiene un conjunto de atributos,
donde uno de ellos es el atributo clase. Se busca un modelo que describa el atributo clase como
una funcin de los atributos de salida.
Existen principalmente dos tipos de clasificacin:

- Clasificacin basada en rboles de decisin.

- Clasificacin neuronal.

- Segmentacin (agrupacin): Esta tarea tambin es conocida como segmentacin, y se encarga


de identificar grupos naturales basndose en un conjunto de atributos.

Existen diversas tcnicas:

Clustering: El nmero de segmentos se determina durante la ejecucin del algoritmo.


Procesa bien tanto las variables cualitativas como las cuantitativas.
Segmentacin neuronal: Es necesario definir antes de la ejecucin del algoritmo el nmero
de segmentos y su distribucin bidimensional. Procesa mejor las variables cuantitativas
que las cualitativas
Asociacin: Organizar segn relaciones entre atributos (Anlisis de la cesta de la compra).
Expresa las afinidades entre elementos siguiendo el modelo de las reglas de asociacin
XY, facilitando una serie de mtricas como el soporte y confianza.
Regresin: Tarea muy similar a la de clasificacin pero con el objetivo de buscar patrones
para determinar su valor nico.

2.- Tareas Predictivas: Orientadas a estimar valores de salida.


-Previsin: A partir de la entrada, conjunto de valores obtenidos a lo largo de un tiempo
determinado de los que se extrae un comportamiento futuro. Para la estimacin de variables
cuantitativas, los mtodos ms usados son:

Funciones de base radial: Tienen la capacidad de poder procesar variables cualitativas y


cuantitativas a la vez.
Prediccin neuronal.

-Anlisis de secuencia: Se encarga de la bsqueda de patrones en una serie de eventos


denominados secuencias o transacciones, lo que permite optimizar las ventas a lo largo del tiempo

La minera de datos se puede dividir en:


Minera de datos predictiva (mdp): Usa primordialmente tcnicas estadsticas.

Minera de datos para descubrimiento de conocimiento (mddc): Usa principalmente tcnicas


de inteligencia artificial.
Tcnicas
Como ya se ha comentado, las tcnicas de la minera de datos provienen de la Inteligencia artificial
y de la estadstica, dichas tcnicas, no son ms que algoritmos, ms o menos sofisticados que se
aplican sobre un conjunto de datos para obtener unos resultados.

Segn el objetivo del anlisis de los datos, los algoritmos utilizados se clasifican en:

Forecasting (Prediccin): Dada una tendencia de los datos se busca cul ser su previsin.
Supervisados (o predictivos): Predicen un dato (o un conjunto de ellos) desconocido a
priori, a partir de otros conocidos.
No supervisados (o del descubrimiento del conocimiento): Se descubren patrones y
tendencias en los datos.

Las tcnicas ms representativas son:

Redes neuronales: Son un paradigma de aprendizaje y procesamiento automtico inspirado en


la forma en que funciona el sistema nervioso de los animales, es decir, un sistema de
interconexin de neuronas en una red que colabora para producir un estmulo de salida.

rboles de decisin: Algoritmo de aprendizaje por induccin supervisada que pretende modelar
los datos de ejemplo mediante un rbol. Un rbol de decisin se describe como un modelo de
prediccin utilizado en el mbito de la inteligencia artificial, ya que dada una base de datos se
construyen diagramas de construcciones lgicas, muy similares a los sistemas de prediccin
basados en reglas, que sirven para representar y categorizar una serie de condiciones que suceden
de forma sucesiva, para la resolucin de un problema.

Modelos estadsticos: Es una expresin simblica en forma de igualdad o ecuacin que se


emplea en todos los diseos experimentales y en la regresin para indicar los diferentes factores
que modifican la variable de respuesta.

Agrupamiento o Clustering: Se trata de un algoritmo no supervisado, cuyo objetivo es detectar


agrupamientos o estructuras intrnsecas en el conjunto de datos, identificando grupos
homogneos de individuos parecidos.

Algoritmos genticos: Los Algoritmos Genticos, ni inductivos ni deductivos, en general, los


mtodos basados en la evolucin nos suministran nuevas maneras de trabajar con cierto tipo de
problemas. Estos se inspiran en las leyes sobre la evolucin de Darwin y en los conceptos bsicos
de la biologa gentica.
Tipos de aplicacin de la minera de datos:
Deteccin de fraudes:

Deteccin de transacciones de blanqueo de dinero o de fraude en el uso de tarjetas de crdito o


de servicios de telefona mvil, donde estas operaciones fraudulentas o ilegales suelen seguir
patrones caractersticos que permiten, con cierto grado de probabilidad, distinguirlas de las
legtimas y desarrollar as mecanismos para tomar medidas rpidas frente a ellas. Por todo ello, el
algoritmo, puede ser considerado como una tcnica de clasificacin, que analiza una gran cantidad
de transacciones, tratando de categorizar aquellas que sean ilegtimas mediante la identificacin
de ciertas caractersticas que estas ltimas tengan en comn.

Recursos humanos:

La minera de datos tambin puede ser de gran utilidad en los departamentos de recursos
humanos de cualquier empresa, en la identificacin de las caractersticas y capacidades de sus
mejores empleados. La informacin obtenida mediante estas tcnicas puede ayudar al personal de
recursos humanos a la hora de la contratacin de personal, centrndose en los esfuerzos de sus
empleados y los resultados obtenidos por stos. Adems dicha ayuda ofrecida por la minera de
dato (conocimiento), se traduce en la obtencin de ventajas a nivel corporativo, como mejoras en
las decisiones corporativas: desarrollo de planes de produccin o gestin de mano de obra

Terrorismo:

La minera de datos es la tcnica por la cual la unidad de Able Danger del ejrcito de los EE.UU.
haba identificado al lder de la banda terrorista autora de los atentados del 11 de septiembre de
2001, Mohammed Atta, y a otros tres secuestradores, como posibles miembros de una clula de
Al Qaeda que operaba en los EE.UU. un ao antes del ataque. Juegos: A comienzos de la dcada de
1960, se dispona de orculos para determinados juegos combi nacionales, se ha abierto un nuevo
camino en la minera de datos que consiste en la extraccin de estrategias utilizadas por personas
para la implantacin en dichos orculos. Los planteamientos actuales sobre reconocimiento de
patrones, no parecen poder aplicarse con xito al funcionamiento de estos orculos.

Gentica:

En el estudio de la gentica humana, el objetivo principal es entender la relacin cartogrfica


entre las partes y la variacin individual en las secuencias del ADN del ser humano y los cambios
que puedan producirse en la susceptibilidad a las enfermedades. Es decir, como los cambios en la
secuencia del ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes (como
por ejemplo el cncer). La minera de datos puede ayudar a mejor de esta forma el diagnstico,
prevencin y tratamiento de enfermedades. Generalmente la tcnica de minera de datos que se
utiliza en este tipo de aplicaciones se conoce como reduccin de dimensionalidad multifactorial.

Ingeniera elctrica:

Las tcnicas de minera de datos en este mbito han sido utilizadas principalmente para
monitorizar las condiciones de las instalaciones de alta tensin. La finalidad de esta aplicacin es
obtener informacin valiosa sobre el estado de aislamiento de los equipos, vigilar las vibraciones
producidas o por ejemplo para analizar los cambios de carga en los transformadores.
Generalmente se usan tcnicas encargadas de detectar condiciones anormales (Anlisis de
anomalas).

Esquema bsico de Minera de datos


INSTITUTO
TECNOLGICO
DE CIUDAD
JUREZ

Tcnicas para identificacin de


conceptos, reglas y relaciones

No. Matricula:
13111674

Alumno:
Aguirre Recendez Jesus Antonio

Materia:
Ingeniera del conocimiento
Tcnicas para identificacin de conceptos, reglas y relaciones.

Adquisicin del conocimiento:

Aplicacin de un conjunto de tcnicas por la que un ingeniero del conocimiento


obtiene informacin de expertos, libros de texto, y otras fuentes autorizadas para
incluirla en una base de conocimiento. Esta informacin est compuesta por un
conjunto de hechos especializados, procedimientos, y reglas de valoracin acerca
del conocimiento en el dominio en cuestin. Por lo tanto, podramos considerar la
adquisicin del conocimiento como una serie de procesos encadenados por los que
se extrae, estructura, organiza, y codifica el conocimiento experto con ayuda de
personal cualificado.

El conocimiento de un sistema experto se puede adquirir de mltiples maneras,


siendo generalmente el experto humano la fuente comn del conocimiento experto.
El proceso de trasladar el conocimiento desde la fuente hasta el programa puede
ser realizado por un ingeniero del conocimiento o por un programa. Los primeros
mtodos de adquisicin que implican a un ingeniero del conocimiento consisten en
que este interacta con el experto estructurando la informacin en una base de
conocimiento a partir de distintas tcnicas de entrevistas y de formalizacin.

Identificacin de conceptos:

Al mtodo de adquisicin convencional del conocimiento, en el que el ingeniero del


conocimiento interacta con uno o varios expertos, el ingeniero realizara
bsicamente cuatro tareas en secuencia:

Primero el ingeniero se asegura de que el experto entiende los propsitos y


los objetivos del sistema de manera que tenga una visin completa de la
amplitud del proyecto.
En segundo lugar, desarrollan un conocimiento de trabajo del dominio
mediante la confeccin de un diccionario de trminos. Se identifican las
fuentes de conocimiento clave para esta tarea: libros de texto, artculos,
informes tcnicos, manuales, cdigos de prcticas, etc incluyendo a los
expertos.
En tercer lugar el ingeniero del conocimiento interacta con los expertos a
travs de encuentros o entrevistas para adquirir, verificar y validar su
conocimiento.
Finalmente, genera una 'base de conocimiento en papel'; un documento o
conjunto de documentos que conforman un estado intermedio en la
traduccin del conocimiento de la fuente a un programa de computador.
Estos incluyen las transcripciones de las entrevistas, el anlisis de la
informacin que contienen y una descripcin completa de las principales
entidades (ej.: tareas, reglas y objetos).

Identificacin de reglas:

La induccin es un proceso de razonamiento que va de lo particular a lo general.


Los mtodos de induccin utilizan diversos algoritmos para convertir una matriz de
conocimiento de atributos, valores y selecciones de reglas, donde los algoritmos
pueden variar respecto a los mtodos estadsticos de las redes neuronales.

Los atributos irrelevantes son eliminados y los atributos relevantes son organizados
de una manera eficiente. Un sistema de induccin para generar reglas ofrece
algunas ventajas de las cuales se destacan:

Permite que los SE sean usados en campos ms complicados.


El experto humano o el analista pueden ser los constructores.
Puede generar nuevo conocimiento.

Existen varias desventajas que con la implementacin del mtodo de induccin de


reglas tales como:

La generacin de reglas muy complejas para un humano ya que la forma en


la cual se clasifican los atributos y propiedades de los problemas no es como
normalmente se realizara.
EL experto humano debe especificar los atributos ms significativos para que
el sistema genere las reglas.
Para obtener mejores resultados se deben tener grandes cantidades de
reglas por lo que depende de la capacidad del sistema la cantidad de reglas
que se usarn.
El mtodo es bueno slo para problemas basados en reglas.
El nmero de atributos de los objetos que generan las reglas debe ser muy
pequeos.
El nmero de ejemplos necesarios puede ser muy grande.
El mtodo es limitado para situaciones con certeza (determinsticos).

Lgica proporcional:

La forma ms bsica de la representacin formal del conocimiento es la booleana o


proposicional, en la cual cada proposicin o hecho es representado por un smbolo
y se evala su verdad (V) o su falsedad (F). Como resultado de la evaluacin de
una proposicin sencilla o compuesta, se pueden generar las tablas de verdad. Las
sentencias son Frmulas Bien Definidas (FBD) se construyen usando los smbolos
(p, q, r,) y una serie de operadores lgicos o conectivos booleanos como:

La lgica de predicados:

Se refiere a la forma en la que la lgica se relaciona con la forma de las frases


lgicas ms que con su significado, es decir, est relacionado con la sintaxis ms
que con la semntica de dichas las frases. La lgica de predicados es un lenguaje
formal con sintaxis y gramtica propias, capaz de valorar enunciados lgicos y
extraer conclusiones para la creacin de nuevos enunciados.
Identificacin relacional:

Redes Semnticas. Segn (Vzquez, 2009, p.81). Una red semntica, tambin
llamada red asociativa, se basa en la representacin grfica de las relaciones entre
los elementos de un dominio, los componentes bsicos son los nodos y los enlaces.
Los nodos son usados para representar elementos del dominio, un atributo, un
estado, una entidad o un evento y grficamente se muestran como rectngulos
rotulados con los nombres de los elementos representados. Los enlaces (ligas o
arcos) simbolizan las relaciones entre los elementos, la forma grfica de ubicar un
enlace es como un vector desde un nodo a otro, titulado con el nombre de las
relaciones representadas.

Existen dos relaciones ms utilizadas en las redes semnticas las cuales son:

ES-UN.

Es un enlace que se emplea para representar el hecho de que un elemento es


miembro de una clase de elementos que tienen un conjunto de propiedades
distintivos, en comn. Un nodo que representa una ilustracin de una clase es una
instancia (ejemplo) de la clase. Los conceptos de una clase y de un enlace ES-UN
se utilizan tambin para representar situaciones, acciones y eventos.

ES-SUBCONJUNTO.

Las redes semnticas son una representacin grfica de saber sobre objetos y sus
relaciones. El razonamiento con redes semnticas es directo puesto que las
asociaciones se pueden hacer simplemente rastreando los enlaces en el sistema, a
este mecanismo se le llama propagacin de la activacin.

Desafortunadamente, ninguna regla semntica rigurosa gua tal razonamiento. La


interpretacin de las estructuras de la red depende solamente del programa que las
manipula, es decir, que no existe ninguna convencin del significado, por esta razn,
las inferencias que se derivan de la manipulacin de la red no son necesariamente
vlidas
Referencias.

A. Rodrguez Rodrguez, J. Hernndez Cabrera, A. Plcido Castro. (2006).


Ingeniera del conocimiento . G.C.

Ingeniera del conocimiento . (s.f.). Obtenido de


http://www.ptolomeo.unam.mx:8080/xmlui/bitstream/handle/132.248.52.100/
219/A5.pdf?sequence=5

Ruano, D. J. (2003). Tecnicas de agrupamiento para identificacion y control por


modelos locales. Valencia: Universidad Politecnica de Valencia.
Tcnicas para el pre-
procesamiento de datos:
limpiado, reduccin y
normalizacin.
Ingeniera del conocimiento
Jess Gerardo Ramrez Venzor
4.2 Tcnicas para el pre-procesamiento de datos: limpiado,
reduccin y normalizacin.
Limpieza de datos

Para la deteccin de valores anmalos existen varias tcnicas como el algoritmo de


agrupacin jerrquica (CURE-Clustering Using Representatives) y el algoritmo DBSCAN,
basado en clustering.

Las opciones para el manejo de datos faltantes son:

Ignorar la tupla, generalmente esto se hace cuando falta la etiqueta de la clase.


Llenar los valores faltantes manualmente.
Llenar los valores faltantes automticamente, con constantes globales, la media
del atributo, el valor ms probable (basado en la inferencia como el rbol de
decisin).

Para el manejo de datos con ruido, uno de los mtodos que existen es el Binning, que
permite reducir la numerosidad, donde primero se ordenan los datos y se realiza la
particin en bins del mismo tamao o de la media o de los extremos.

Uno de los algoritmos de clustering ms utilizados es el algoritmo K-Medias, que se puede


usar para el relleno de datos faltantes. Este es un mtodo de agrupamiento por vecindad
en el que se parte de un nmero determinado de prototipos y de un conjunto de ejemplos
por agrupar.

Reduccin de datos

Las diferentes tcnicas de reduccin de datos son utilizadas para obtener muestras o
representaciones ms pequeas de los datos manteniendo la integridad de los mismos.
Las estrategias para la reduccin de datos son las siguientes:

Agregacin de cubos de datos: las operaciones de agregacin de datos son


aplicadas a los datos en la construccin de cubos.
Reduccin de dimensin: donde se eliminan atributos irrelevantes o redundantes.
Compresin de datos: usa mecanismos de codificacin para reducir el tamao del
conjunto de datos.
Reduccin de numerosidad: los datos son reemplazados por representaciones de
datos pequeos como modelos paramtricos, de los cuales se guardan
los parmetros y no los datos, o los no paramtricos como el clustering, el muestro
y los histogramas.
Desratizacin y generacin del concepto de jerarqua: los valores son
reemplazados por rangos o datos conceptuales de nivel superior.
Normalizacin

La normalizacin o estandarizacin es la redaccin y solo aprobacin de normas que se


establecen para garantizar el acoplamiento de elementos construidos
independientemente, as como garantizar el repuesto en caso de ser necesario, garantizar
la calidad de los elementos fabricados, la seguridad de funcionamiento y trabajar con
responsabilidad social. La normalizacin es el proceso de elaborar, aplicar y mejorar las
normas que se aplican a distintas actividades cientficas, industriales o econmicas con el
fin de ordenarlas y mejorarlas. La asociacin estadounidense para pruebas de materiales
(ASTM) define la normalizacin como el proceso de formular y aplicar reglas para una
aproximacin ordenada a una actividad especfica para el beneficio y con la cooperacin
de todos los involucrados. Segn la ISO (International Organization for Standarization) la
normalizacin es la actividad que tiene por objeto establecer, ante problemas reales o
potenciales, disposiciones destinadas a usos comunes y repetidos, con el fin de obtener
un nivel de ordenamiento ptimo en un contexto dado, que puede ser tecnolgico, poltico
o econmico. La normalizacin persigue fundamentalmente tres objetivos:

Simplificacin: se trata de reducir los modelos para quedarse nicamente con los
ms necesarios.
Unificacin: para permitir el intercambio a nivel internacional.
Especificacin: se persigue evitar errores de identificacin creando un lenguaje
claro y preciso.

Para normalizar datos tambin se puede decir que:

Normalizacin Min-Max: ejecuta una transformacin lineal de los datos originales,


con base en los valores mnimos y mximos de un atributo, se calcula un valor de
normalizacin v con base en el valor v. Este mtodo conserva las relaciones entre
los datos originales.
Normalizacin z-core: los valores para un atributo A son normalizados basados en
la media y la desviacin estndar de A. Este mtodo se utiliza cuando el mximo y
el mnimo son desconocidos o cuando hay valores anmalos que predominan al
usar la normalizacin min-Max.
Normalizacin de escala decimal: normaliza moviendo los puntos decimales de los
valores del atributo A.

Hay que considerar que la normalizacin cambia un poco los datos con los que se cuenta
al principio. Adems es interesante guardar los parmetros como media o
desviacin estndar para uso futuro.
Bibliografa
IngDelConocimiento. (22 de 05 de 2016). Ingdelconocimiento.blogspot.es/2. Recuperado el 31 de
03 de 2017, de http://ingdelconocimiento.blogspot.es/2

yoshibauco.wordpress. (21 de 03 de 2011). yoshibauco.wordpress.com. Recuperado el 31 de 03 de


2017, de https://yoshibauco.wordpress.com/2011/03/21/pre-procesamiento-de-datos-
tecnicas/

También podría gustarte