Expo Mineria de Datos

MODELADO DE
D AT O S
MODELADOS DE
D AT O S P O R
CLUSTERING
¿QUÉ
S I G N I F I C A C L U S T E R I N G ?
 El clustering es una de las técnicas de machine

learning basadas en análisis estadístico que se
utiliza para analizar los datos en entornos Big
Data. En práctica, el clustering consiste en
agrupar ítems en grupos con características
similares que se conocen como clústeres,
generalmente con el objetivo de identificar
patrones, aunque también se utiliza en tareas
de segmentación.
 Cada clúster está formado por una colección de objetos o
datos similares entre sí, pero con aspectos que los
diferencian de otros objetos pertenecientes al conjunto de
datos que forman parte de un clúster independiente. En la
actualidad existen diferentes algoritmos de clustering, pero
uno de los más extendidos es k-medias.
 En este método se determina un número de grupos y el
algoritmo se encarga de buscar los mejores centroides para
realizar el agrupamiento, de manera que los elementos de
cada grupo estén lo más cerca posible de sus centroides.
Como el algoritmo funciona iterativamente, va actualizando
el centro de los clústeres para ir reduciendo las distancias
entre los elementos de cada clúster y el centro.
¿QUÉ TIPOS DE CLUSTERING EXISTEN?
 El clustering se puede clasificar de diferentes maneras según la relación de los clústeres

entre sí y con los objetos de la base de datos. Una clasificación general hace referencia
al clustering duro, en cuyo caso cada objeto pertenece a un solo clúster, y
el clustering blando, en el que los objetos pertenecen a los clústeres según un grado de
confianza o pertenencia.
 Existen clasificaciones más específicas relacionadas con la partición que tienen en cuenta otros detalles:
 Partición estricta. Cada objeto pertenece única y exclusivamente a un clúster.
 Clustering con superposiciones. Un objeto puede pertenecer a más de un clúster.
 Partición estricta con outliers. Existen objetos que no pertenecen a ningún clúster, los cuales son llamados outliers.
 Clustering jerárquico. Los clústeres siguen una jerarquía, de manera que los objetos que pertenecen a un clúster
también pueden pertenecer a su clúster padre.
¿ PA R A Q U É S E U T I L I Z A
E L C L U S T E R I N G ?
 En la actualidad, una de las aplicaciones más extendidas

del clustering es la segmentación de mercado, para agrupar
una base de datos de clientes en distintos segmentos o grupos
con características similares, de manera que se les pueda
ofrecer productos y servicios personalizados según sus
necesidades e intereses.
 Otra de las aplicaciones más interesantes
del clustering se centra en el machine learning.
El clustering permite a los algoritmos de aprendizaje
automatizado entrenar y conocer de forma adecuada los
datos con los que desarrollan sus actividades.
Básicamente, ayuda a las máquinas a desarrollar
capacidades de análisis rápidamente, usando grandes
volúmenes de datos y cometiendo la menor cantidad de
errores posible.
 el clustering se puede aplicar prácticamente en todos los
sectores. Por ejemplo, puede ayudar a determinar los distintos
patrones climáticos de una región o descubrir las zonas más
peligrosas en los terremotos. En el sector urbanístico se puede
usar para agrupar viviendas y estudiar sus valores en función de
su ubicación geográfica u otros factores.
 También permite detectar las zonas con mayores tasas de
criminalidad o estudiar mejor las diferentes especies de plantas
y animales a través de clústeres. Eso significa que los
especialistas en Data Science tienen amplias salidas laborales,
sobre todo porque cada vez más sectores de la economía
comprenden la importancia de los datos y quieren aprovechar
todo su potencial con técnicas de análisis avanzadas como
el clustering.
MODELADO DE
D AT O S P O R
CLASIFICACION Y
PREDICCION
M O D E L A D O D E D AT O S P O R C L A S I F I C A C I O N
 ¿Cuáles son los tipos de modelado de datos?

•Los tres principales modelos de datos son relacional,
dimensional, y de entidad-relación (E-R). También hay otros
cuyo uso no está generalizado, incluyendo jerárquico, en red,
orientado a objetos, y multivalor. El tipo de modelo define la
estructura lógica –el modo en que se almacenan, organizan y
recuperan los datos–.
RELACIONAL
 •Aunque el enfoque es "más antiguo", el modelo de

base de datos más común que aún se usa hoy en día
es relacional, que almacena los datos en registros de
formato fijo y organiza los datos en tablas con filas
y columnas.
DIMENSIONAL
 •Menos rígido y estructurado, el enfoque dimensional

favorece una estructura de datos contextual que está más
relacionada con el uso o contexto de negocio. Esta
estructura de base de datos está optimizada para consultas
online y herramientas de almacenamiento e datos.
ENTIDAD-RELACIÓN
 •Un modelo E-R representa una estructura de datos de

negocio en forma gráfica que contiene cuadros de varias
formas para representar actividades, funciones o
"entidades" y líneas para representar asociaciones,
dependencias o "relaciones".
M O D E L A D O D E D AT O S P O R P R E D I C C I O N
 En el modelado de
datos por prediccion se
busca predecir el valor
de una variable
continua en funcion de
las variables
predictoras
T E C N I C A S PA R A L A P R E D I C C I O N D E D AT O S
 Permiten modelar la relacion entre las variables predictoras y

la variable de interes y predecir el valor de la variable de
interes para nuevas observaciones.
 Por ejemplo, si se desea predecir el precio de una casa
se puede conocer con variables como el tamaño y
la ubicacion
REGRESION
 La regresión es una técnica de modelado estadístico que se utiliza

para predecir el valor de una variable continua en función de una o
más variables predictoras. El objetivo de la regresión es encontrar
la mejor ecuación matemática que describa la relación entre las
variables.
ARBOLES DE DECISION
 Son una técnica de aprendizaje supervisado que se utiliza para
clasificar y predecir observaciones en función de una serie de
decisiones binarias basadas en las variables predictoras. Los árboles
de decisión son especialmente útiles cuando las variables predictoras
tienen un impacto significativo en la variable de interés.
REDES NEURONALES
 Las redes neuronales consisten en múltiples capas de nodos
interconectados que procesan y transmiten información entre ellas.
Las redes neuronales son especialmente útiles para modelar datos no
lineales o para reconocer patrones en imágenes y videos.
CONCLUSION

Expo Mineria de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Expo Mineria de Datos

Cargado por

Copyright:

Formatos disponibles

MODELADO DE

 El clustering es una de las técnicas de machine

 El clustering se puede clasificar de diferentes maneras según la relación de los clústeres

 Partición estricta. Cada objeto pertenece única y exclusivamente a un clúster.

 Clustering con superposiciones. Un objeto puede pertenecer a más de un clúster.

 En la actualidad, una de las aplicaciones más extendidas

 ¿Cuáles son los tipos de modelado de datos?

 •Aunque el enfoque es "más antiguo", el modelo de

 •Menos rígido y estructurado, el enfoque dimensional

 •Un modelo E-R representa una estructura de datos de

 Permiten modelar la relacion entre las variables predictoras y

 La regresión es una técnica de modelado estadístico que se utiliza

También podría gustarte