Mineria de Datos

- TRAYECTO: FORMACIÓN TÉCNICO-PROFESIONAL
- MÓDULO III
- PROFUNDIZACIÓN: INFORMÁTICA
Tecnologías de la Información.
Infraestructura, Seguridad
y Análisis de datos.
 Trabajo del Profesor Carlos Gustavo Sáez
 DNI: 17.369.291
 Docente de la EET 24 “Simón de Iriondo”
 ESPECIALIDAD: Informática
 TÍTULO: Analista Programador
 Nº de Registro: 254.986
 ANTIGÜEDAD EN LA DOCENCIA: 27 años
1
CUESTIONARIO:
1) Qué es, y Qué no es la minería de datos.
2) Las áreas del saber que conforman la “Minería de datos”.
3) Los modelos y técnicas en que se basa la “Minería de datos”.
4) La diferencia en entre “Minería de datos” y “Estadística”.
5) La diferencia entre Minería de datos y análisis de grandes volúmenes de

datos (BIG DATA)
RESPUESTAS:
1) La “Minería de datos” es un conjunto de técnicas y tecnologías que permiten explorar

grandes bases de datos, de manera automática o semiautomática, con el objetivo de
encontrar patrones repetitivos, tendencias o reglas que expliquen el comportamiento de
los datos en un determinado contexto.
Básicamente, la “Minería de Datos” surge para intentar ayudar a comprender el

contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y,
en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las
redes neuronales.
De forma general, los datos son la materia prima bruta. En el momento que el usuario les
atribuye algún significado especial pasan a convertirse en información. Cuando los
especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge
entre la información y ese modelo represente un valor agregado, entonces nos referimos
al conocimiento.
Los anglosajones la llaman “DATAMINING” y lo definen como: “La extracción no

trivial de información implícita, previamente desconocida y potencialmente útil a partir
de datos. Otra manera de definirlo podría ser: la exploración y el análisis -por medios
automáticos o semiautomáticos- de grandes cantidades de datos con el fin de descubrir
patrones con significado.”
El “DATAMINIG” nació con la idea de aprovechar dos cosas:

I. La ingente cantidad de datos que se almacenaban en áreas como el comercio, la
banca o la sanidad.
II. La potencia de los nuevos ordenadores para realizar operaciones de análisis sobre
esos datos.
2
- ¿Qué NO es “Minería de Datos”?:
No hay que confundir “Minería de Datos” con el simple análisis de los datos, o con la
búsqueda de datos, o con patrones de estudio de base de datos, o con el estudio de
“Muestreos estadísticos”, o con la gestión y procesamiento de datos o con el desarrollo
de técnicas de “Búsqueda y Análisis” (SEARCH&BREAKDOWN).
La “Minería de Datos” es mucho más que “Analizar” datos, ya que hoy más que nunca
en el siglo XXI con las TIC’S y la revolución de Internet se vuelve crucial el manejo de
los datos para la toma de decisiones, el manejo de los datos para encontrar patrones,
relaciones, hacer predicciones y analizar ese gran flujo de información que hoy fluye no
sólo por Internet, sino en soportes digitales, celulares y TV.
En otras palabras, lo que busca la “Minería de Datos” es un análisis exhaustivo y
profundo de la información en todas sus plataformas, para extraer conocimiento de los
datos.
En la “Minería de Datos” hay una: BÚSQUEDA DE CONOCIMIENTO. Y este proceso

de obtención de conocimiento utilizando “Minería de Datos” se compone de los
siguientes pasos:
 Selección de los datos.

 Preproceso.
 Transformación.
 Interpretación.
 Evaluación
El esquema gráfico sería el siguiente:
2) Aéreas del saber que conforman a la “Minería de Datos”:
Las áreas del saber que abarca la minería de datos son cinco disciplinas dentro de la
informática que se han estado desarrollando en los últimos años con una tremenda
fuerza, y que seguirán creciendo mucho más durante los próximos años, como son la
BIG DATA o al análisis de los grandes volúmenes de datos. En un mundo sacudido por
la velocidad de los cambios tecnológicos, por el fenómeno que muchos llaman la
globalización digital, por el entramado increíble que se de las redes sociales, la
computación móvil y las TIC’S
Se han dado profundos cambios sociológicos, económicos y hasta políticos que se

empieza a dar en las empresas y en el mundo de los negocios, llamado la
“Transformación digital” (DX), por los nuevos patrones de consumos, por los nuevos
hábitos, lenguajes y nuevos patrones sociológicos.
3
Entre las principales “Áreas del saber” que se involucran en la “Minería de Datos” se
pueden mencionar las siguientes:
 El Análisis de base de datos y soporte de decisiones.
 Análisis y gestión de mercado.
 Detección de Fraudes.
 Análisis de riesgos crediticios.
 La minería de texto.
 Análisis de flujos de datos.
Por otro lado, también existen técnicas tradicionales de explotación de datos basadas en
la existencia de hipótesis o modelos previos a diferencia entre el análisis utilizando
minería que buscan el descubrimiento del conocimiento sin una hipótesis preconcebida.
3) Modelos y técnicas en que se basa la “Minería de datos”:
Entre las principales técnicas de minería se encuentran las siguientes:

a) Técnicas de Árbol.
b) Redes Neuronales
c) Reglas de Clasificación.
d) Modelos descriptivos donde se muestran relaciones entre variables como
asociaciones o correlaciones.
e) Modelos predictivos en los cuales se obtienen patrones de agrupamientos,
clasificaciones y la capacidad de predecir hechos futuros.
f) Extracción de conocimiento a partir de información almacenada en BBDD o
KDD (Knowledge Discovery in Databases).
Otros modelos de “Minería de Datos” pueden ser de dos tipos:

 Métodos descriptivos– Buscan patrones interpretables para describir
datos. Son los siguientes: clustering, descubrimiento de reglas de
asociación y descubrimiento de patrones secuenciales. Los métodos
descriptivos se han utilizado, por ejemplo, para ver que productos suelen
adquirirse conjuntamente en el supermercado.
 Métodos predictivos- Usan algunas variables para predecir valores
futuros o desconocidos de otras variables. Son los siguientes:
clasificación, regresión y detección de la desviación. Los métodos
predictivos pueden emplearse en tareas como clasificar tumores en
benignos o malignos.
Al igual que otros muchos procesos, la “Minería de Datos” posee su propio estándar, o
protocolo llamado CRISP-DM (Cross-Industry Standar Process for Data Mining), que
establece los seis pasos a seguir para aplicar la “Minería de Datos”, a saber:
1. Entender el área en el que queremos usar data mining para
definir con claridad el problema.
2. Recolectar y entender los datos.
3. Preparación de los datos: hacer tablas con los campos
requeridos, eliminar datos innecesarios.
4. Selección de la técnica de modelado, construcción del modelo y
puesta a prueba del modelo. Data mining.
5. Evaluación de los resultados y revisión del proceso.
4
6. Despliegue: implementación de un proceso de data mining
repetible.
4) Diferencia entre minería de datos y estadística:
La estadística es la ciencia que utiliza conjuntos de datos numéricos que tienen una
determinada característica en común para obtener, a partir de ellos, inferencias basadas
en el cálculo de probabilidades para poder llegar a conclusiones a partir de los datos
numéricos extraídos.
Mientras que la minería de datos es la extracción y análisis de información previamente

desconocida y potencialmente útil a partir de datos por medios automáticos de grandes
cantidades de datos con el fin de descubrir patrones con significado.
La “Minería de Datos”, remite a un concepto mucho más “Profundo” y a un Análisis

mucho más exhaustivo de la información, en donde se persigue la búsqueda de un
CONOCIMIENTO a partir de una serie de pasos.
El uso “Metafórico” de la palabra MINERÍA se refiere a buscar en la

“PROFUNDIDAD” en forma concienzuda y a través de millones de datos (BIG DATA)
información que es analizada a través de un proceso de “Destilación” para la obtención
de UN SABER.
La estadística es mucho más SUPERFICIAL y no involucra muchas técnicas, mientras

que la “Minería de Datos” pone en juego y necesita de muchas herramientas y técnicas,
para buscar en profundidad la información, analizarla y clasificarla.
5
La siguiente imagen representa en forma cabal el concepto de “Minería de Datos”:
La metáfora del ICEBERG se refiere a que en la superficie están los datos primarios e
intuitivos. Mientras que en la “Minería de Datos”, se refiere a la búsqueda en
PROFUNDIDAD de análisis de datos muy grandes en todo el “Campo Virtual” y de
clasificación de esos miles de datos recolectados a través de varias técnicas y usando
distintos tipos de herramientas.
5) Diferencia entre Minería de datos y análisis de grandes volúmenes de datos (Big Data):
La “Big Data” es un nuevo concepto, el cual se refiere a conjuntos de datos cuyo

tamaño está más allá de las herramientas de software que se usan comúnmente para
capturar, almacenar, manejar y procesar dentro de los límites de tiempos aceptables.
Incluye datos tanto estructurados como no estructurados generados por una variedad de
fuentes, incluyendo transacciones de negocios, ambientes web, videos, imágenes, mails,
redes sociales, etc. Estos conjuntos de datos típicamente requieren una captura en tiempo
real o actualizaciones para el análisis, el modelaje predictivo y la toma de decisiones.
Según Gnanasundaram,S. y Shrivastava, el ecosistema de BIG DATA está conformado

por:
- Dispositivos que colectan datos de múltiple fuentes y generan nuevos datos a partir del
dato (Metadata).
- Colectores de datos de dispositivos y usuarios.
- Agregadores de datos, que compilan los datos capturados para extraer información
significativa; y usuarios y compradores de datos que se benefician de la información
colectada y agregada por otros en la cadena de valor del dato.
6
Mientras que la “Minería de Datos” se entiende como el análisis de datos y como el
proceso de obtener conocimiento a partir del análisis de los mismos.
Yo pienso que la “Minería de datos” es el proceso que se utiliza para detectar

información procesable de los conjuntos grandes de datos y para ello se utiliza el análisis
matemático para deducir los patrones y tendencias que existen en los
datos. Normalmente, estos patrones no se pueden detectar mediante la exploración
tradicional de los datos porque las relaciones son demasiado complejas o porque hay
demasiado datos.
Estos patrones y tendencias se pueden recopilar y definir como un “Modelo de minería

de datos”.
Las infraestructuras, las metodologías y herramientas de procesamiento de datos son

inadecuadas para manejar el volumen, la variedad, el dinamismo y la complejidad de
BIG DATA. Los análisis en tiempo real de grandes volúmenes de datos requieren de
nueva técnicas, arquitecturas y herramientas que provean alta performance,
procesamiento paralelo y análisis avanzado de los conjuntos de datos.
Esta situación impulsó la aparición de una disciplina emergente llamada Data Science,
la cual permite que las organizaciones puedan derivar valor del negocio a partir del
análisis de grandes datos. Data Science representa la síntesis de varias disciplinas como
estadística, matemáticas, visualización de datos, y ciencias de la computación que
posibilita desarrollar algoritmos avanzados con el propósito de analizar enormes
cantidades de información para generar nuevo valor y mejorar la toma de decisiones.
Es decir, resumiendo: Yo creo que la “Minería de Datos” usa al BIG DATA, como lugar
o fuente desde donde abreva, busca y analiza la información.
Es decir que el BIG DATA sería la “Materia prima”, mientras que la “Minería de
Datos” es la ciencia que a través de una serie de pasos y de técnicas “bucea” en ese gran
caudal de datos para analizar, depurar y clasificar la información y adquirir
CONOCIMENTO.
En los siguientes esquemas se aprecia la diferencia:
7
8

Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

- TRAYECTO: FORMACIÓN TÉCNICO-PROFESIONAL

 Trabajo del Profesor Carlos Gustavo Sáez

 Docente de la EET 24 “Simón de Iriondo”

 TÍTULO: Analista Programador

 ANTIGÜEDAD EN LA DOCENCIA: 27 años

1) Qué es, y Qué no es la minería de datos.

2) Las áreas del saber que conforman la “Minería de datos”.

3) Los modelos y técnicas en que se basa la “Minería de datos”.

4) La diferencia en entre “Minería de datos” y “Estadística”.

5) La diferencia entre Minería de datos y análisis de grandes volúmenes de

1) La “Minería de datos” es un conjunto de técnicas y tecnologías que permiten explorar

Básicamente, la “Minería de Datos” surge para intentar ayudar a comprender el

Los anglosajones la llaman “DATAMINING” y lo definen como: “La extracción no

El “DATAMINIG” nació con la idea de aprovechar dos cosas:

En la “Minería de Datos” hay una: BÚSQUEDA DE CONOCIMIENTO. Y este proceso

 Selección de los datos.

El esquema gráfico sería el siguiente:

2) Aéreas del saber que conforman a la “Minería de Datos”:

Se han dado profundos cambios sociológicos, económicos y hasta políticos que se

3) Modelos y técnicas en que se basa la “Minería de datos”:

Entre las principales técnicas de minería se encuentran las siguientes:

Otros modelos de “Minería de Datos” pueden ser de dos tipos:

4) Diferencia entre minería de datos y estadística:

Mientras que la minería de datos es la extracción y análisis de información previamente

La “Minería de Datos”, remite a un concepto mucho más “Profundo” y a un Análisis

El uso “Metafórico” de la palabra MINERÍA se refiere a buscar en la

La estadística es mucho más SUPERFICIAL y no involucra muchas técnicas, mientras

La “Big Data” es un nuevo concepto, el cual se refiere a conjuntos de datos cuyo

Según Gnanasundaram,S. y Shrivastava, el ecosistema de BIG DATA está conformado

Yo pienso que la “Minería de datos” es el proceso que se utiliza para detectar

Estos patrones y tendencias se pueden recopilar y definir como un “Modelo de minería

Las infraestructuras, las metodologías y herramientas de procesamiento de datos son

En los siguientes esquemas se aprecia la diferencia:

También podría gustarte