Está en la página 1de 5

Universidad de Guadalajara Centro Universitario de la Ciénega

Ingeniera en Informática

Clasificación Inteligente de Datos (Modulo 1)

Isaac Said López Valadez (213673926)

2ª: Los datos en IDA

Juan Enrique Macías Rico

22/08/2019
Los datos en IDA.

El análisis inteligente de datos es un área de la informática que trata de generar o adquirir


conocimiento. El conocimiento consiste en la destilación de la información que ha sido
colectada, clasificada, organizada, integrada, y a la que se añadió valor. El conocimiento
está a un nivel de abstracción más alto que los datos y las informaciones sobre los que se
basa. Además, el conocimiento se puede usar para deducir nuevas informaciones u otros
conocimientos nuevos.

La adquisición de conocimiento, del cual forma parte el análisis inteligente de datos, es


el proceso de análisis, transformación, clasificación, organización e integración de la
información y el hecho de representar el conocimiento en una forma apropiada para que
un sistema informático lo use.

En muchos procesos de toma de decisión, que sean decisiones de diseño de un producto


o decisiones comerciales, el análisis inteligente de datos siempre da una visión de la
problemática que no se puede conseguir de otra manera, y proporciona soluciones para
prever las consecuencias de potenciales decisiones. Además, es una herramienta poderosa
de modelización y previsión de eventos usando las experiencias pasadas.

Tipos de datos

 Estructurados
1. Cuantitativos
2. Cualitativos
3. Simbólicos
4. Ordenados jerárquicamente
 Bloques de datos binarios
1. Imágenes
2. Sonido
 No Estructurados
1. Textos

Hoy en día, los datos no están restringidos a tuplas representadas únicamente con números
o caracteres. El avance de la tecnología para la gestión de bases de datos hace posible
integrar diferentes tipos de datos, tales como imagen, video, texto, y otros datos
numéricos, en una base de datos sencilla, facilitando el procesamiento multimedia. Como
resultado, la mezcla tradicional ad hoc de técnicas estadísticas y herramientas de gestión
de datos no son adecuadas por más tiempo para analizar esta vasta colección de datos
desiguales.

LIMPIEZA DE DATOS

Limpieza de Datos

• Resuelve redundancias

• Chequea y resuelve problemas de ruido, valores perdidos, elimina outliers.

• Resuelve inconsistencias/conflictos entre datos

Proceso de limpieza

• Al obtener la información desde distintas fuentes se debe procurar que datos


sobre el mismo objeto se unifiquen.

Posibles errores:

 Dos o más datos de diferentes individuos se mezclan → nuevos individuos que


pueden ocasionar ruido en el modelo.
 Dos o más fuentes del mismo individuo se replican → ocasiona menos ruido
pero si es recurrente llevara a resultados inesperados.

Soluciones:

 Identificar patrones similares durante el proceso de mezclado. Por ejemplo:


 {hombre, varón, masculino} → hombre

VISUALIZACION

Como todo proceso, la minería de datos también se lleva a cabo en distintas fases, y
como sucede en la minería tradicional, también existen varias técnicas de extracción (en
nuestro caso, para extraer esa información considerada relevante para el negocio y
mostrarla de un modo comprensible).

Los pasos que incluye cualquier proceso de data mining empiezan con una selección de
los datos a tratar en función de variables de predicción y cálculo, es decir, de un
conjunto de variables objetivas y otro de variables independientes: las primeras son las
que guían la elección en función de los objetivos que se persiguen con el análisis, y las
segundas determinan de qué modo se llevará a cabo el proceso.

Transformación de coordenadas: componentes principales.

Es una técnica utilizada para describir un conjunto de datos en términos de nuevas


variables ("componentes") no correlacionadas. Los componentes se ordenan por la
cantidad de varianza original que describen, por lo que la técnica es útil para reducir la
dimensionalidad de un conjunto de datos.

Técnicamente, el ACP busca la proyección según la cual los datos queden mejor
representados en términos de mínimos cuadrados. Esta convierte un conjunto de
observaciones de variables posiblemente correlacionadas en un conjunto de valores de
variables sin correlación lineal llamadas componentes principales.

El ACP se emplea sobre todo en análisis exploratorio de datos y para construir modelos
predictivos. El ACP comporta el cálculo de la descomposición en autovalores de la
matriz de covarianza, normalmente tras centrar los datos en la media de cada atributo.

Debe diferenciarse del análisis factorial con el que tiene similaridades formales y en el
cual puede ser utilizado como un método de aproximación para la extracción de
factores.

Cambios de escala.

Modelo: Consiste en una estructura en gran escala que resume las relaciones sobre
muchos casos

Patrón: Consiste en una estructura local satisfecha por algunos pocos casos o una
pequeña región del espacio de los datos.

(Universidad privada telesup, s.f.)

(QuestionPro, s.f.)

(Wikipedia, 2019)

(wikipedia, 2019) (Vidal, 2009)

Referencias
QuestionPro. (s.f.). QuestionPro. Obtenido de https://www.questionpro.com/es/analisis-de-
datos.html
Universidad privada telesup. (s.f.). escuela privada telesup. Obtenido de
https://escueladeposgrado.edu.pe/blog/analisis-inteligente-de-datos/

Vidal, C. V. (5 de marzo de 2009). utfsm.cl. Obtenido de https://www.inf.utfsm.cl/~cvalle/INF-


390/Introduccion.pdf

wikipedia. (6 de julio de 2019). Obtenido de


https://es.wikipedia.org/wiki/Análisis_de_componentes_principales

Wikipedia. (15 de julio de 2019). Obtenido de


https://es.wikipedia.org/wiki/Limpieza_de_datos

También podría gustarte