Está en la página 1de 4

¿Qué es minería de datos?

Proceso de seleccionar, explorar, modificar, modelar, y valorar grandes cantidades de


datos con el objetivo de descubrir patrones desconocidos que pueden ser utilizados
como soporte de toma de decisiones utilizando herramientas de análisis de datos.
Minería de datos es la evolución de la tecnología de la información.

Abundancia de datos + carencia de herramientas = Riqueza de datos, pobreza de


información.

KDD (Knowledge Discovery from Data): Descubrimiento de Conocimiento en Bases


de Datos o KDD se refiere al proceso de identificar patrones válidos, novedosos,
potencialmente útiles y principalmente entendibles.
Pasos: Más importantes:

 Limpieza de datos 1. Integración de datos


 Integración de datos 2. Selección de datos
 Selección de datos 3. Limpieza de datos
 Transformación 4. Transformación de datos
 Minería de datos
 Evaluación de los patrones
 Presentación de conocimiento.

Los datos que pueden ser minados se puede aplicar a cualquier tipo: bases de datos,
dbms, base de datos relacional.
Tipos de modelos:
 Un modelo predictivo: se entrena (estima) un modelo usando los datos
recolectados para hacer predicciones futuras. Nunca es 100% precisa y lo que
más importa es el rendimiento del modelo cuando es aplicado a nuevos datos.
 Un modelo descriptivo sirve para identificar patrones que permiten explorar las
propiedades de los datos examinados no para predecir sino para describir
futuros datos. Este modelo permite descubrir las características más
importantes de la BD.
Data warehouse: usualmente son modelados bajo una estructura de datos
multidimensional llamada cubo de datos, en donde cada dimensión corresponde a un
atributo o conjunto de ellos y cada celda almacena valores.
BD transaccional: Base de datos transaccionales registran el día a día de un
proceso o de una compañía.
Patrones que pueden ser minados.
Descriptivos: Representan propiedades de un conjunto de datos específico.
Predictivos: Desarrollan inducciones con los datos actuales para realizar predicciones
de comportamientos

Caracterización de datos: Agrupación de los datos de las clases de estudio. “Agrupar


las características de los clientes que gastan más de $5,000.00 USD al año”
Discriminación de datos: Comparación de las características generales de los datos
de la clase de estudio vs una o varias clases contrastantes. “Comparar las
características generales de los productos de software que sus ventas aumentaron un
10% el año pasado vs los que disminuyeron sus ventas en un 30%”.
Patrones frecuentes: conjunto de elementos frecuentes (elementos que a menudo
aparecen juntos en una transacción <lecha + pan>), subsecuencias frecuentes (patrón
de los clientes <laptop + cámara digital + tarjeta de memoria) y subestructuras
frecuentas (formas estructurales).
Asociaciones y correlaciones entre los datos.
Segmentación (cluster): La segmentación analiza los datos sin consultar las
etiquetas de la clase. intentan identificar de forma automática grupos (o clústeres) de
elementos en un dado conjunto de datos basándose en una medida de similitud. Tanto
la segmentación como el clustering tienen como objetivo común crear grupos lo más
homogéneos posibles (con la mayor similitud entre los miembros del grupo o
segmento) y que a su vez sean diferenciables de los otros grupos.
Clasificación (discriminación): Analizan la formación de conjuntos de datos
etiquetados. Empareja o asocia datos a grupos predefinidos (aprendizaje
supervisado). Encuentra modelos (funciones) que describen y distinguen clases o
conceptos para futuras predicciones.
 Precisión en la predicción
 Eficiencia: costos computacionales
 Robustez: Habilidad para funcionar con ruido y ausencia de ciertos
valores
 Escabilidad: Habilidad para trabajar con grandes cantidades de datos
 Interpretabilidad: Entendimiento y comprensión que brinda.
Regresión: Analizan la formación de conjuntos de datos etiquetados. Consiste en
aprender una función real que asigna a cada instancia un valor real, de manera que el
objetivo es minimizar el error entre el valor predicho y el valor real.
Análisis de valores atípicos.
Conjunto de datos puede contener valores que no cumplen con el comportamiento
general o de modelo de datos. El análisis de los datos atípicos se conoce como
minería anómala.
Entrada: conceptos, instancias y atributos. Conjunto de instancias.
Instancia: valores de atributos, miden aspectos de las instancias. También se le da el
nombre de ejemplo a una instancia. Caracterizadas por los valores de un conjunto de
atributos predeterminados
Tipos de atributos.
Se puede tener diferentes tipos de atributos:

 De cantidad, es decir, numérico entero o real, e incluso puede haber con a


escala con intervalo o a escala de proporciones;
 Los textos estadísticos en los cuales tenemos también los nominales, ordinales,
podemos incluir de proporción, y los binarios.
 Los nominales también se denominan categóricos ya que cada valor
representa algún tipo de categoría: caliente, tibio, frío; o por el tipo de
color de pelo de una persona como rubio, moreno, pelirrojo, castaño, etc.
 Los atributos ordinales son aquellos con posibles valores que tienen un
orden significativo o que se clasifican entre ellos: el tamaño de una
bebida con nombre personalizado según la tienda, el sistema de
calificación como A+, A-, B, etc.
 Los atributos de intervalo son cuantitativos, es una cantidad
mensurable, representada en valores enteros o reales: la temperatura,
fechas del calendario, etc.
 Los atributos de proporción son aquellos que pueden ser calculados
como un valor como un múltiplo (o ratio) de otro valor: cómo si mide el
sistema monetario, calcular una temperatura a partir de otra, etc.
 Los atributos binarios son aquellos que solo pueden tener 2 valores: 0
o 1, verdadero o falso, se encuentra o no: por ejemplo, si un usuario es
administrador o no, si tiene alguna discapacidad o no, etc.

Preparación de entradas: consumen la mayor parte del esfuerzo, reúnen los datos,
identificar que grado de agregación es apropiado (nivel de cliente, si será mensual o
trimestral, etc.).

Atributos discretos o continuos.


 Con discretos se refiere a conjunto de valores finitos o infinitos, que puede o no
se representen como números enteros, ya que podemos tener valores como
color de pelo, tamaño de un producto, si está dado de alta en la institución o
no, etc., cada uno de los ejemplos anteriores tiene un conjunto finito de valores,
por lo tanto, son discretos.
 Un atributo es continúo si tenemos un conjunto infinito de valores posibles,
pero que corresponden a un conjunto real de valores, por ejemplo, el
identificador de un cliente puede crecer indefinidamente dependiendo en qué
momento se vuelve un cliente para la empresa, sin embargo, es contable.

Medidas de similitud y diferencia (faltan fórmulas).


La medida numérica más común y efectiva del "centro" de un conjunto de datos es la
media, sin embargo, un gran problema con la media es su sensibilidad a los valores
extremos (por ejemplo, atípicos), por ejemplo, la puntuación media de una clase en un
examen podría ser bajado bastante por unos pocos puntajes muy bajos

Para los datos sesgados (asimétricos), una mejor medida del centro de los datos es la
mediana, que es el valor medio en un conjunto de valores de datos ordenados, sin
embargo, está más enfocada en los datos o atributos ordinales.

La moda para un conjunto de datos es la que se produce con mayor frecuencia en el


conjunto. Por lo tanto, puede determinarse para los atributos cualitativos y cuantitativos.
Es posible que la mayor frecuencia corresponda a varios valores diferentes, lo que
resulta en más de una moda.

El rango del conjunto es la diferencia entre el valor más grande (max) y el más pequeño
(min), mientras que Los cuartiles son puntos tomados a intervalos regulares de una
distribución de datos, dividiéndola en conjuntos consecutivos que en esencia sean
iguales

También podría gustarte