Está en la página 1de 11

2013

indic

Ensayo
Minería de Datos
Este Documento, tratara sobre algunos temas de suma importancia para la
minería de datos, tales como cuales son los nuevos retos y las nuevas técnicas de
la minería de datos.

Jorge Flores de Ángel


Universidad Politécnica de Tlaxcala
08/02/2013
Índice.

Introducción……………………………………………………………………………………………………………………..Pág. 03

Problemáticas de MD..……………………………………………………………………………………………………..Pág. 04

Desarrollo de la DKK.………………………………………………………………………………………………………..Pág. 04

Áreas de Interés de la MD.………………………………………………………………………………………………..Pág. 06

Tareas de la Minería de Datos…………………………………………………………………………………………..Pág. 08

OLAP..……………………………………………………………………………………………………………………………….Pág. 09

Conclusión..………………………………………………………………………………….…………………………………..Pág. 10

Bibliografía..………………………………………………………………………………….…………………………………..Pág. 11

2
Introducción.

La minería de datos es un proceso de extracción de tendencias y patrones de un archivo de datos


previamente elaborado.

A medida que se almacenan más datos, la cantidad de datos se duplica, la minería de datos se está
convirtiendo en una herramienta cada vez más importante para transformar esos datos en
información.

Si bien la minería de datos se utiliza para descubrir patrones en las muestras de datos al igual que
cualquier otra herramienta, sólo funciona en relación con la materia prima adecuada: en este
caso, indicativa y datos representativos, que el usuario primero debe recoger.

Además, el descubrimiento de un patrón particular en un determinado conjunto de datos no


significa necesariamente que el patrón es representativo.

3
Desarrollo.

Problemática de MD.

Dentro de los principales problemas de la minería de datos, es que las técnicas empleadas no nos
ayuden a identificar patrones, que permitan al usuario contar con la información necesaria para la
toma de decisiones.

Desarrollo de KDD.

El proceso de minería de datos pertenece a un esquema más amplio denominado extracción o


descubrimiento de conocimiento en bases de datos, en inglés, Knowledge Discovery in Databases,
más conocido por las siglas KDD.

El proceso KDD tiene como núcleo principal la minería de datos, que mediante una preparación
previa de una cantidad inmensa de datos, por lo general almacenados en muchas veces de datos,
se aplica un algoritmo de minería de datos para sacar el conocimiento implícito en estos y poder
ser utilizado en la vida real para poder ayudar a multitud de campos.

Las etapas a seguir en el proceso KDD son las siguientes:

1. Determinación de objetivos: Es necesario identificar que datos seleccionamos para que sean
compatibles para aplicar minería de datos y además precisar qué objetivos quieren cumplirse
desde el punto de vista del usuario.

4
2. Preparación de los Datos: Depurar la fuente de datos para evitar problemas comunes, pueden
contener ambigüedades, ruido o, simplemente, no estar en el formato adecuado para su posterior
procesamiento.

3. Minería de Datos: Todas las etapas anteriores son necesarias para que la aplicación de un
algoritmo de minería sea exitoso y se puede sacar el conocimiento implícito en los datos que nos
interesan.

Estructura interna de la Minería de datos

El aprendizaje automático o machine learning es una rama de la Inteligencia Artificial que estudia
el desarrollo de técnicas para extraer de forma automática conocimiento subyacente en infinidad
de información, en minería se utilizan dos tipos: Supervisado y No Supervisado.

Una vez terminada la fase del aprendizaje, se procede a representar el conocimiento mediante un
modelo.
La fase de la validación del conocimiento es la encargada de verificar si los resultados obtenidos
del aprendizaje y representados posteriormente mediante un modelo de visualización han sido
obtenidos de forma totalmente al azar, o de otro modo el resultado obtenido tiene una razón de
ser que es difícilmente de ver a simple vista. Aquí es donde entra en juego el Análisis estadístico
que nos ayudará a evaluar estos casos.

Una vez terminada la validación, se deben haber eliminado aquellos casos que mediante el análisis
estadístico se consideró que surgieron totalmente al azar.

Después de esto se vuelve a entrar de nuevo en el ciclo de la minería de datos hasta que la

5
depuración de todos los datos sea tal, que podamos salir de este ciclo con todos los casos
verdaderos que tienen un porqué.

4. Análisis e Interpretación: En esta etapa se estudia, interpreta y evalúa el modelo de


conocimiento generado por el algoritmo de minería de datos. El uso de técnicas de visualización
facilita al usuario la comprensión, permitiendo la aplicación de este en la toma de decisiones.

Ejemplo de modelo de visualización.

5. Aplicación: Integración del conocimiento adquirido al campo real para su aplicación, si procede.

Áreas de Interés de MD

Negocios
La minería de datos puede contribuir significativamente en las aplicaciones de administración
empresarial basada en la relación con el cliente. En lugar de contactar con el cliente de forma
indiscriminada a través de un centro de llamadas o enviando cartas, sólo se contactará con

6
aquellos que se perciba que tienen una mayor probabilidad de responder positivamente a una
determinada oferta o promoción.
Por lo general, las empresas que emplean minería de datos ven rápidamente el retorno de la
inversión, pero también reconocen que el número de modelos predictivos desarrollados puede
crecer muy rápidamente.
Hábitos de compra en supermercados
El ejemplo clásico de aplicación de la minería de datos tiene que ver con la detección de hábitos
de compra en supermercados. Un estudio muy citado detectó que los viernes había una cantidad
inusualmente elevada de clientes que adquirían a la vez pañales y cerveza. Se detectó que se debía
a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de
semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza
en la mano. El supermercado pudo incrementar sus ventas de cerveza colocándolas próximas a los
pañales para fomentar las ventas compulsivas.
Patrones de fuga
Un ejemplo más habitual es el de la detección de patrones de fuga. En muchas industrias —como
la banca, las telecomunicaciones, etc.— existe un comprensible interés en detectar cuanto antes
aquellos clientes que puedan estar pensando en rescindir sus contratos para, posiblemente,
pasarse a la competencia. A estos clientes —y en función de su valor— se les podrían hacer ofertas
personalizadas, ofrecer promociones especiales, etc., con el objetivo último de retenerlos. La
minería de datos ayuda a determinar qué clientes son los más proclives a darse de baja estudiando
sus patrones de comportamiento y comparándolos con muestras de clientes que, efectivamente,
se dieron de baja en el pasado.
Fraudes
Un caso análogo es el de la detección de transacciones de lavado de dinero o de fraude en el uso
de tarjetas de crédito o de servicios de telefonía móvil e, incluso, en la relación de los
contribuyentes con el fisco. Generalmente, estas operaciones fraudulentas o ilegales suelen seguir
patrones característicos que permiten, con cierto grado de probabilidad, distinguirlas de las
legítimas y desarrollar así mecanismos para tomar medidas rápidas frente a ellas.
Recursos humanos
La minería de datos también puede ser útil para los departamentos de recursos humanos en la
identificación de las características de sus empleados de mayor éxito. La información obtenida
puede ayudar a la contratación de personal, centrándose en los esfuerzos de sus empleados y los
resultados obtenidos por éstos. Además, la ayuda ofrecida por las aplicaciones para Dirección
estratégica en una empresa se traducen en la obtención de ventajas a nivel corporativo, tales
como mejorar el margen de beneficios o compartir objetivos; y en la mejora de las decisiones
operativas, tales como desarrollo de planes de producción o gestión de mano de obra.
Comportamiento en Internet

7
También es un área en boga el del análisis del comportamiento de los visitantes —sobre todo,
cuando son clientes potenciales— en una página de Internet. O la utilización de la información —
obtenida por medios más o menos legítimos— sobre ellos para ofrecerles propaganda adaptada
específicamente a su perfil. O para, una vez que adquieren un determinado producto, saber
inmediatamente qué otro ofrecerle teniendo en cuenta la información histórica disponible acerca
de los clientes que han comprado el primero.
Ciencia e Ingeniería
En los últimos años la minería de datos se está utilizando ampliamente en diversas áreas
relacionadas con la ciencia y la ingeniería. Algunos ejemplos de aplicación en estos campos son:

Genética
En el estudio de la genética humana, el objetivo principal es entender la relación cartográfica entre
las partes y la variación individual en las secuencias del ADN humano y la variabilidad en la
susceptibilidad a las enfermedades. En términos más llanos, se trata de saber cómo los cambios en
la secuencia de ADN de un individuo afectan al riesgo de desarrollar enfermedades comunes
(como por ejemplo el cáncer). Esto es muy importante para ayudar a mejorar el diagnóstico,
prevención y tratamiento de las enfermedades. La técnica de minería de datos que se utiliza para
realizar esta tarea se conoce como "reducción de dimensionalidad multifactorial".2
Ingeniería eléctrica
En el ámbito de la ingeniería eléctrica, las técnicas minería de datos han sido ampliamente
utilizadas para monitorizar las condiciones de las instalaciones de alta tensión. La finalidad de esta
monitorización es obtener información valiosa sobre el estado del aislamiento de los equipos. Para
la vigilancia de las vibraciones o el análisis de los cambios de carga en transformadores se utilizan
ciertas técnicas para agrupación de datos (clustering) tales como los Mapas Auto-
Organizativos (SOM, Self-organizing map). Estos mapas sirven para detectar condiciones
anormales y para estimar la naturaleza de dichas anomalías.3
Análisis de gases
También se han aplicado técnicas de minería de datos para el análisis de gases
disueltos (DGA, Dissolved gas analysis) en transformadores eléctricos. El análisis de gases disueltos
se conoce desde hace mucho tiempo como herramienta para diagnosticar transformadores.
Los Mapas Auto-Organizativos (SOM) se utilizan para analizar datos y determinar tendencias que
podrían pasarse por alto utilizando las técnicas clásicas DGA.

8
Tareas de la Minería de Datos

 Clasificación

 Se asigna una categoría a cada caso. Cada caso tiene un conjunto de atributos uno
de ellos es el atributo clase.

 Se busca un modelo que describa el atributo clase como una función de los
atributos de salida

 Agrupación

 También conocido como segmentación

 Identifica grupos naturales basándose en un conjunto de atributos

 Asociación

 También conocido como análisis de cesta de la compra

 Regresión

 Similar a clasificación pero con el objetivo de buscar patrones para determinar un


valor numérico

 Ej.: Predicción de la velocidad del viento basada en temperatura presión de aire y


humedad

 Previsión

 La entrada es un conjunto de valores a lo largo del tiempo de los que extrae


valores futuros

 Análisis de secuencia

 Busca patrones en una serie de eventos llamada secuencia

 Ej. Secuencia de navegación en Web

 Análisis de desviaciones

 Busca casos «raros» diferentes a los demás

9
OLAP

Actualmente los data warehouse y las técnicas olap son las maneras más efectivas y
tecnológicamente más avanzadas para integrar, transformar y combinar los datos para facilitar al
usuario o a otros sistemas el análisis de la información.

La tecnología OLAP generalmente se asocia a los almacenes de datos, aunque se puede tener
almacenes de datos sin OLAP y viceversa. Habitualmente se utilizan herramientas OLAP (On-line
Analytical Processing) como herramientas frontales para el acceso a los datos. Las herramientas
OLAP, como los almacenes de datos y bases de datos multidimensionales, están basadas en el
modelo multidimensional. Las técnicas de modelado conceptual y los modelos conceptuales
utilizados para las aplicaciones OLTP (On-line Transaction Processing) no son adecuados para las
aplicaciones OLAP ya que no son capaces de representar los requisitos básicos de este tipo de
aplicaciones.

Definición de Sistemas OLAP

Es un método para buscar en los datos de diferentes maneras. Con OLAP los datos son clasificados
en diferentes dimensiones las que pueden ser vistas unas con otras en cualquier combinación para
obtener diferentes análisis de los datos que contienen.

Beneficios de OLAP

• Es de fácil uso y acceso flexible para el usuario.

• Los datos están organizados en varias dimensiones lo que permite que los usuarios hagan un
mejor análisis.

• Ahorro generado por la productividad de personal altamente profesional y caro que usa
permanentemente software y sistemas de información.

• Permite encontrar la historia en los datos

Conclusión.

Desde mi opinión la Minería de Datos constituye una parte muy importante en todo el ciclo de la
creación, organización, recuperación y difusión de nuevo conocimiento en el Ciclo de la Gestión
del Conocimiento en las organizaciones.

Esto le permite a una organización mejorar significativamente en su eficiencia y en su eficacia. La


Minería de Datos interviene a lo largo de todo el proceso, en la Adquisición, Captura,
Organización, Almacenamiento y en la Recuperación del Conocimiento de las organizaciones.

10
No obstante, es importante tomar en consideración que tipo de conocimiento, tácito o explícito se
ha descubierto, analizar la forma de generación, organización y recuperación del mismo para
lograr una potenciación del papel de la Minería de Datos en el Ciclo de la Gestión del
Conocimiento.
La Minería de Datos se usa tanto en la búsqueda de la información, como en el análisis de la
misma para descubrir relaciones ocultas entre los datos, brinda métodos de procesamiento de la
información, de clasificación automática y de almacenamiento.

Sirve para fomentar el planeamiento estratégico, entendiéndose por tal, el proceso sistemático de
identificación, adquisición, análisis, registro y presentación de las oportunidades y amenazas de
una organización, para apoyar de esta manera, la toma de decisiones por parte de los directivos.

La Gestión del Conocimiento aliada con la Minería de Datos debe permitirle a la organización la
creación continua de capital intelectual para generar un valor agregado en los servicios que la
organización brinda a sus clientes, aportando de esta forma, un plus de competitividad a la
organización en comparación con otras organizaciones del mismo nicho.

Bibliografía.

http://www.buenastareas.com/ensayos/Mineria-De-Datos/434747.html

http://es.wikipedia.org/wiki/Miner%C3%ADa_de_datos

http://www.slideshare.net/pattsul/019

http://html.rincondelvago.com/mineria-de-datos.html

11

También podría gustarte