Está en la página 1de 8

Universidad Juárez Autónoma de Tabasco

División Académica de Ciencias y Tecnologías de la Información

Asignatura:
Minería de datos

Profesor:
Ernesto Rafael León Cornelio

Carrera:
Lic. Tecnologías de la Información

Producto:
Ensayo

Alumno(a):
Priscila Arias Rosales

Matricula:
182H15002
Índice

Introducción:..............................................................................................................3
1. Introducción a la minería de datos.....................................................................4
2. Tipo de datos......................................................................................................4
Estructurada...........................................................................................................4
No estructurada......................................................................................................4
Semi-estructurada..................................................................................................5
3. Las tareas de la minería de datos......................................................................5
4. Procesos de minería de datos............................................................................5
5. Técnicas de aprendizaje supervisado................................................................7
Conclusiones:............................................................................................................8
Introducción:

La minería de datos es algo que hoy en día ocupan mucho las empresas, ya que
la minería de datos se encarga de usar diferentes técnicas y herramientas para
poder extraer información útil y llegar a una conclusión como la toma de
decisiones de acuerdo a los análisis de dicha información, es muy importante lo
que son las minerías de datos, ya que en diferentes empresas pueden saber
cosas que a simple vista no se puede ver, sin embargo, con las técnicas y
herramientas de la minería de datos, puedes lograr tomar una buena o mala
decisión, dependiendo de toda la información que analizas. En este documento, se
mencionará algunos puntos esenciales de lo que es la minería de datos.
1. Introducción a la minería de datos

La minería de datos es un proceso donde se extrae información de cualquier parte


utilizando ciertas técnicas y herramientas que nos ayudan a obtener la información
que necesitamos para que estas sean analizadas y se llegue a una conclusión
como la toma de decisiones. Este proceso se centra en lo que son tres actividades
fundamentales, las cuales son: extracción de datos, descubrimiento de patrones y
soporte para el desarrollo de modelos.
La minería de datos estudia lo que son algoritmos y métodos, ya que esto nos
permite que la información que está sintetizada, lo extraiga de manera automática,
y que esta información la representa mediante patrones o modelos.

2. Tipo de datos

Estructurada

Cuando se habla de datos estructurados, se refiere a la información que


normalmente se encuentran en la mayoría de las bases de datos. Son archivos de
estilo de texto que suelen aparecer en filas y columnas con encabezados. Son los
datos que pueden clasificarse y procesarse fácilmente con todas las herramientas
de minería de datos. Los datos estructurados usan el lenguaje de programación
SQL, ya que en este lenguaje se gestionan, en ello se pueden realizar consultas a
las bases de datos y así extraer la información que se desea.
Los datos estructurados son fáciles de gestionar y tiene una mayor predicción que
otros tipos de datos, lo cual hace el procesamiento sea más fácil utilizando las
herramientas de minería de datos. Otros ejemplos de este tipo de datos son las
hojas de Excel, los formularios web o fichas de clientes estandarizadas.

No estructurada

Los datos no estructurados constituyen la mayor parte de la información esencial


sobre una empresa u organización. Por lo general, se trata de datos binarios sin
una estructura interna reconocible. En otras palabras, tienen una estructura interna
pero no está limitada por un esquema o modelo de datos predefinido, por lo que
es una colección desordenada de unos pocos objetos sin valor hasta que se
identifican y almacenan de manera organizada. Este tipo de base requiere una
base de datos que no sea tradicional, en este caso, sería una base de datos no
relacionales o NoSQL.
Los datos estructurados son más de tipo textual y también puede no serlo, algunos
ejemplos de este tipo de dato vienen siendo lo que son archivos de imágenes, los
archivos de audio, PDF, datos de redes sociales, mensajería instantánea, etc.

Semi-estructurada

En este tipo de dato, se podría decir que es una posición intermedia entre lo que
son los tipos de datos estructurados y no estructurados, porque los datos que son
parcialmente estructurados tienen cierto grado de estructura, también cierto grado
de jerarquía y de organización, pero carecen de un esquema fijo, aunque a
menudo en forma de árbol para facilitar el procesamiento.
Algunos ejemplos de este tipo de dato son: los correos electrónicos, el lenguaje
XML que es un lenguaje de etiquetado o marcado y los ejecutables binarios.

3. Las tareas de la minería de datos

Las principales tareas que maneja la minería de datos son:


Agrupamiento o identificación de clases. Se busca identificar un grupo de
categorías o conjuntos para describir los datos.
Clasificación. Cada instancia pertenece a una clase con un tipo de propiedad.
Las propiedades de instancia adicionales se utilizan para predecir la clase de
nuevas instancias.
Condensación o descripción de conceptos. Implica encontrar un método que
permita encontrar descripciones compactas de subconjuntos de datos.
Detección de desviaciones. Encuentra cambios significativos en los datos a
valores pasados o normales. Sirven para filtrar grandes volúmenes de información
que son menos probables de ser interesantes.
Modelado de dependencias. Se trata de encontrar un modelo que describa las
relaciones importantes entre las variables.
Regresión. Se trata de aprender una función real que asigna un valor verdadero a
cada caso de modo que el objetivo sea minimizar el error entre el valor predicho y
el valor verdadero.

4. Procesos de minería de datos

 Comprensión del negocio.


Aquí es donde comienza el proceso. Se centra en la comprensión de los objetivos
y requisitos del proyecto desde una perspectiva empresarial.
Este conocimiento de los datos (repetimos, siempre desde el punto de vista
empresarial) debe traducirse luego en la definición del problema de minería de
datos, trazando un plan aproximado acorde con el objetivo del plan.

 Comprensión de los datos.


La fase de comprensión de los datos comienza con la recopilación inicial de datos
y continúa con la familiarización con los datos para identificar problemas de
calidad de los datos.
La calidad de los datos tiene muchas dimensiones: precisión (refleja lo que está
sucediendo), integridad (datos completos en el sistema), puntualidad (disponible
cuando sea necesario), relevancia, granularidad y consistencia (en todos los
dominios o sistemas de los mismos datos) necesita verificar qué los datos se ven
como en cada dimensión.
 Preparación de los datos

En esta fase de preparación de datos, queremos incluir todas las operaciones


necesarias para ajustar los datos fuente originales y acercarlos al conjunto de
datos final, que será la fuente del motor de modelado químico.
Las tareas de preparación o limpieza de datos se repiten, sin ningún orden en
particular. Entre estas tareas, hemos seleccionado tablas, registros y atributos, así
como datos transformados y depurados, herramientas de modelado preparadas.
 Modelado.
En esta fase se buscan cuatro tipos de relaciones:
Clases: Asignar observaciones a grupos predefinidos.
Clusters: construcción de grupos de observaciones similares basadas en criterios
predeterminados.
Asociaciones: Las observaciones se utilizan para determinar asociaciones entre
variables. Modelado
Patrones secuenciales: Se trata de identificar patrones y tendencias de
comportamiento.
Entre estas técnicas podemos encontrar: caracterización o resumen,
discriminación o contraste, análisis de asociación, clasificación, predicción,
detección de agrupamientos, detección de anomalías, evolución y análisis de
sesgos.
 Evaluación.
Como resultado de la fase anterior, se creó un modelo en esta etapa del proyecto.
Para garantizar que se cumplan los estándares de calidad propuestos para el
proyecto, es necesario evaluarlo desde el punto de vista del análisis de datos. En
otras palabras, antes de la implementación final y el lanzamiento de la producción,
es importante ejecutar una serie de pruebas y revisar cada paso en el proceso de
creación del modelo para ayudar a alinear el modelo resultante con los objetivos
comerciales de su empresa.
 Despliegue o exploración.
En esta etapa, se desarrolla y utiliza el resultado del proceso de minería de datos
que, según los requisitos, puede ser tan simple como generar un informe o tan
complejo como iterar en la minería de datos. a través de la empresa. Por lo tanto,
en muchos casos es el cliente, no el analista de datos, quien realiza el minado.

5. Técnicas de aprendizaje supervisado

El aprendizaje supervisado se utiliza a menudo para:


 Problemas de clasificación (identidad digital, diagnóstico o detección de
fraude de identidad).

 Problema de regresión (pronóstico del tiempo, esperanza de vida, altura,


etc.). Se distinguen dos tipos principales de aprendizaje supervisado,
clasificación y regresión, según el tipo de variable objetivo. Para la
clasificación, es categórico y para la regresión, el campo objetivo es
numérico.

Los algoritmos que usualmente se aplican para el aprendizaje supervisado son:


 Los arboles de decisiones.
 Clasificación de Naive Bayes.
 Regresión por mínimos cuadrados.
 Regresión logística.
 Support Vector Machines (SVM).
 Métodos “Ensemble” (Conjuntos de clasificadores).
Conclusiones:

Básicamente, la minería de datos es una herramienta de desarrollo y análisis que


implica encontrar y extraer información valiosa de grandes cantidades de datos.
Las operaciones de minería de datos combinan técnicas de base de datos y
almacenamiento de datos con aprendizaje automático y estadísticas.

También podría gustarte