Está en la página 1de 27

Facultad de ciencias económicas

Sistemas de Información

DATA MINING

RELACIONES INSOSPECHADAS DE LOS DATOS Y PREDICCIONES

Sistemas de Información - Prof. Marcelo Tadey Pág. 1


Bibliografía

Libro: Sistemas de Información como Herramienta Competitiva


Capítulo 4
Pungitore

Sistemas de Información - Prof. Marcelo Tadey Pág. 2


Sistemas de Información - Prof. Marcelo Tadey Pág. 3
Niveles de Conocimiento
• Exploratorio: Es el paso inicial. Recolección de datos sin análisis
de relación entre variables.
• Descripciones: Intentan dar respuestas a lo que ocurrió
• Explicaciones: Explica cómo ocurrió. Qué variables fueron las que
ocasionaron el evento
• Predicciones: A partir de eventos del pasado, y probables
variables externas, se intenta anticipar el nuevo conocimiento,
contrastar hipótesis de trabajo, constituyéndose en guías para la
acción
• Retrodicciones: relación entre variables que apunta a un hecho
en el pasado
• Conocimiento para la acción: a partir del análisis de las diferentes
variables, se intenta influir sobre alguna de ellas

Sistemas de Información - Prof. Marcelo Tadey Pág. 4


Data Mining

Búsqueda de relaciones insospechadas


Data mining:
Búsqueda de patrones de conducta

Entre los datos de un repositorio


(Datawarehouse o Big Data)

Para obtener ganancias, reducir costos de


operación u otros aspectos del conocimiento

Sistemas de Información - Prof. Marcelo Tadey Pág. 5


Data Mining: en qué consiste?

Generar
modelos o
Seleccionar
Limpiarlos y Solucionar descubrir
un conjunto Prepararlos
depurarlos las omisiones patrones de
de datos
comporta-
miento

Sistemas de Información - Prof. Marcelo Tadey Pág. 6


Modelos y Técnicas de Data Mining
Análisis de Datos

Datawarehousing • Analytics

Business Intelligence • Data Mining

Fundamentalmente Fundamentalmente
DESCRIPTIVO PREDICTIVO

Visualización y
OLAP Minería de Datos
Representación

Sistemas de Información - Prof. Marcelo Tadey Pág. 7


Data Mining
Grupos Dan respuestas a preguntas tales como:

a) Clasificación y ¿Cuál es la probabilidad de que un determinado


Predicción de Valores suceso ocurra?

b) Regresión ¿Cuáles son las principales causas (X) que


influencian el suceso a predecir o pronosticar (Y)?
¿Qué relaciones de dependencia entre variables
existen?
c) Clustering ¿Qué distintos grupos existen?
¿Qué características en común reúnen?
d) Análisis de Relaciones / ¿Qué relaciones existen entre ciertos sucesos?
Asociaciones
¿Qué hace que un suceso ocurra siempre a
continuación de otro?

Sistemas de Información - Prof. Marcelo Tadey Pág. 8


Aplicaciones de Data Mining
• Investigación de Mercado,
• Planeamiento y Control,
• Marketing,
• Estudio de Tendencias,
• Pronósticos de Demanda,
• Prevención y Detección de Fraudes,
• Análisis Crediticio,
• Medicina / Cuidado de la Salud
• Entre otros…
Sistemas de Información - Prof. Marcelo Tadey Pág. 9
Aplicaciones Usuales
Descubrimiento de clientes potenciales (por ejemplo, en zonas geográficas no cubiertas
adecuadamente por la empresa ni por su competencia).

Descubrimiento de productos.

Clasificación / Segmentación: apuntando al conocimiento de grupos (de afinidad, familia,


amigos, etc.) y sus hábitos de consumo.

Estudio de Lealtad de Clientes, a los fines de Retención y /o Recupero (Win back)

Prevención de enfermedades y accidentes: patrones comunes de aquellos individuos que


ya poseen una enfermedad o sufrieron un determinado tipo de accidente.

Estudio de riesgos: en compañías de seguros, tarjetas de crédito, empresas de


telecomunicaciones, y en general cualquier empresa que tome el riesgo de entregar un
producto antes de su pago.

Sistemas de Información - Prof. Marcelo Tadey Pág. 10


Aplicaciones Usuales
Cross selling: ofrecer otros productos a clientes actuales, con mayor probabilidad de
respuesta a una determinada oferta.

Pronósticos: análisis longitudinales (series de tiempo) y transversales (variables


predictoras), para pronosticar comportamientos futuros.

Detección temprana de fraudes con tarjetas de crédito y de llamadas: búsqueda de


patrones de conducta no habituales en los clientes).

Rastreo y cruce de llamadas telefónicas: identificación de patrones de conducta que


permite el cruce de información y posterior identificación de los celulares.

Revisiones de auditoría: Técnicas de Auditoría Asistidas por Computador: pieza de


software que se utiliza a los efectos de colaborar con el profesional experto en esa rama,
en la obtención de evidencia de auditoría, que no podría obtenerla de otra forma, o le
resultaría muy costoso.

Sistemas de Información - Prof. Marcelo Tadey Pág. 11


Text Mining
• El text mining se centra en el conocimiento en grandes volúmenes de datos no estructurados.

• Se trata de un proceso semiautomático o automático de extraer patrones de grandes


volúmenes de fuentes de datos no estructurados.

• Ayuda a tareas tales como:

• Encontrar contenido significativo

• Relacionar documentos

• Agrupar documentos por tareas comunes

Sistemas de Información - Prof. Marcelo Tadey Pág. 12


Software SAS
• SAS es uno de los productos más importantes de
Data Mining en el mercado.

• Sostienen que la analítica predictiva ayuda a


evaluar lo que sucederá en el futuro

• “Sostienen que se necesita una combinación


integrada de datos, descubrimiento e
implementación para impulsar y poner en
acción los conocimientos necesarios para tomar
decisiones escalables en poco tiempo” *
* SAS – La Minería de Datos de la A a la Z

Sistemas de Información - Prof. Marcelo Tadey Pág. 13


SAS – Ciclo de vida analítico de un proceso iterativo
Todo empieza
Recolecte y Ponga en acción el modelo
aquí. Haga una
transforme los pregunta de
5 seleccionado usando procesos
datos. ETL.
2 automáticos y repetibles
Negocio que
impulse la
innovación
Explore los datos y 6
vea si debe refinar 1 Actúe en base a
la hipótesis del las respuesta de
paso 1. los modelos
iterativos. Las
3 decisiones
podrán ser
estratégicas
(humanos) u
operativas
(automáticas)

Aplique varios algoritmos de


4 7 Evalúe si el proceso produjo resultados
modelado analítico para identificar
representaciones robustas que tangibles (por ejemplo aumento de
ayuden a responder la pregunta de ingresos o reducción de costos)
negocio. Experimente.
Y todo vuelve a
8 * SAS – La Minería de Datos de la A a la Z
empezar…
Sistemas de Información - Prof. Marcelo Tadey Pág. 14
Sistemas de Información - Prof. Marcelo Tadey Pág. 15
Introducción
• Big Data supone la confluencia de una multitud de tendencias tecnológicas:
• Movilidad
• Redes sociales
• Aumento de la banda ancha y reducción de su costo
• Internet de las cosas
• Geolocalización
• Cloud Computing
• Existen conceptos en los que casi todas las
definiciones están de acuerdo:
• Crecimiento exponencial de grandes volúmenes de
datos.
• Necesidad de captura.
• Diferentes orígenes y tipos de datos.

Sistemas de Información - Prof. Marcelo Tadey Pág. 16


Definición

Según la Definición IDC, Big data es


una nueva generación de tecnologías,
arquitecturas y estrategias diseñadas
para capturar y analizar grandes
volúmenes de datos provenientes de
múltiples fuentes heterogéneas a una
alta velocidad con el objeto de extraer
valor económico de ellos.

Sistemas de Información - Prof. Marcelo Tadey Pág. 17


Tipos de Datos
• Los Big Data son diferentes de las fuentes de datos tradicionales que almacenan
datos estructurados en bases de datos tradicionales.

• Podemos dividir los tipos de datos en dos grandes categorías:

• Estructurados (datos tradicionales)

• No estructurados (Big data)

• Las nuevas herramientas de Big data están introduciendo una nueva categoría
dentro de los datos no estructurados: los datos Semiestructurados. Entonces:

• No estructurados

• Semiestructurados

• No estructurados propiamente dichos


Sistemas de Información - Prof. Marcelo Tadey Pág. 18
Tipos de Datos
• Datos estructurados:
• Son los que poseen la mayoría de las fuentes de datos, con campos fijos
• Conforman las bases de datos relacionales
• El formato de la información se conoce de antemano
• El formato ya está especificado

• Datos semiestructurados:
• Tienen un flujo y formato que pueden ser definidos
• No son fácilmente comprensibles por el usuario Web logs
• No tienen formato fijo pero contienen etiquetas y marcadores que permiten separarlos
• Se utilizan reglas complejas para proceder luego de la lectura de la información

• Datos no estructurados:
Videos,
• No tienen un tipo predefinido
audios y
• Se almacenan como documentos u objetos si estructura uniforme fotos
• Se tiene poco o ningún control sobre ellos
Sistemas de Información - Prof. Marcelo Tadey Pág. 19
Oportunidades de Negocio
• En un Big Data, la pieza clave es la integración de los
datos

• La integración facilita la organización para combinar


Big Data y datos transaccionales

• Esto genera valor y mayor eficacia

• Es importante desarrollar una estrategia de Big Data


que no sea diferente a la estrategia de los datos
transaccionales, porque de lo contrario puede fallar
la estrategia del negocio

Sistemas de Información - Prof. Marcelo Tadey Pág. 20


Las 7V del Big Data - el Inst. de Ingeniería del Conocimiento

Sistemas de Información - Prof. Marcelo Tadey Pág. 21


Las 7V del Big Data - el Inst. de Ingeniería del Conocimiento

Sistemas de Información - Prof. Marcelo Tadey Pág. 22


Las 7V del Big Data - el Inst. de Ingeniería del Conocimiento

Sistemas de Información - Prof. Marcelo Tadey Pág. 23


Las 7V del Big Data - el Inst. de Ingeniería del Conocimiento

Sistemas de Información - Prof. Marcelo Tadey Pág. 24


Las 7V del Big Data - el Inst. de Ingeniería del Conocimiento

Sistemas de Información - Prof. Marcelo Tadey Pág. 25


Fuentes de Datos del Big Data
• Web y Social media

• Los datos proceden de los flujos de clics, tuits, entradas de Facebook, contenidos diversos,
ejemplo YouTube, Picasa, Dropbox, One Drive. Etc.

• Machine to machine (M2M) / Internet de las cosas (IOT)


• M2M: tecnologías que permiten que dispositivos se comuniquen con otros.
• Se utilizan sensores o medidores (humedad, velocidad, temperatura, presión, etc.)
• Los datos se transmiten a través de redes cableadas, inalámbricas y móviles a otras aplicaciones
• Los eventos se traducen en información significativa
• Se usan chips, etiquetas RFID, chips NFC, medidores inteligentes, GPS…
• M2M dio origen a IOT, que representa a los miles de millones de dispositivos que se comunican
entre si, y de ser necesario, pueden acceder a internet

Sistemas de Información - Prof. Marcelo Tadey Pág. 26


Fuentes de Datos del Big Data
• Transacciones de grandes datos
• Registros de facturación, telecomunicaciones, registros de llamadas. Estos datos tradicionales
pueden ser estructurados, semiestructurados o no estructurados

• Biometría
• Huellas digitales, iris, escaneo de retina, reconocimiento facial, genética, ADN, reconocimiento
de voz, pulso y escritura a mano.

• Datos generados por las personas


• Llamadas a call centers, mensajes de voz, correos electrónicos, documentos, estudios médicos,
recetas médicas, etc.

• Esta información tiene adicionalmente el problema de la confidencialidad, lo que exige cifrarla


de algún modo para proteger la privacidad.

Sistemas de Información - Prof. Marcelo Tadey Pág. 27

También podría gustarte