Documentos de Académico
Documentos de Profesional
Documentos de Cultura
PERÚ
Universidad Nacional de Huancavelica
TABLA DE CONTENIDOS
2. DATA MINING 21
4. MODELOS DESCRIPTIVOS 59
-1-
Universidad Nacional de Huancavelica
Modeling
Select
Modeling
Technique
Generate
Test
Design
Assess
Model
-126-
Universidad Nacional de Huancavelica
Esta fase es la más característica del KDD y, por esta razón, muchas veces se
utiliza esta fase para nombrar todo el proceso. El objetivo de esta fase es
modelo es una descripción de los patrones y relaciones entre los datos que
pueden usarse para hacer predicciones, para entender mejor los datos o para
en forma de reglas.
existen muchos métodos para construir los modelos. Por ejemplo, para
-127-
Universidad Nacional de Huancavelica
resultados de este análisis para definir los parámetros del modelo de minería
de datos.
incluyendo:
una transacción.
producto.
de un conjunto de datos.
algoritmos que puede usar en las soluciones de DM. Estos algoritmos son un
especificación OLE DB para DM. Para obtener más información sobre los
-128-
Universidad Nacional de Huancavelica
CASO DE ESTUDIO
-129-
Universidad Nacional de Huancavelica
de compras de un cliente.
en un carro de compras.
-130-
Universidad Nacional de Huancavelica
en Siguiente.
de Microsoft.
Anexo B.
-131-
Universidad Nacional de Huancavelica
de Decisión de Microsoft.
hacer clic en Examinar… para ver las tablas de la vista del origen de
-132-
Universidad Nacional de Huancavelica
en la fila BikeBuyer.
columnas relacionadas.
-133-
Universidad Nacional de Huancavelica
la fila CustomerKey.
11. Active las casillas de la columna Entrada en las filas siguientes. Puede
Age
CommuteDistance
EnglishEducation
EnglishOccupation
Gender
GeographyKey
HouseOwnerFlag
MaritalStatus
NumberCarsOwned
NumberChildrenAtHome
Region
TotalChildren
YearlyIncome
-134-
Universidad Nacional de Huancavelica
siguientes.
AddressLine1
AddressLine2
City
DateFirstPurchase
EmailAddress
FirstName
LastName
StateProvinceName.
-135-
Universidad Nacional de Huancavelica
-136-
Universidad Nacional de Huancavelica
-137-
Universidad Nacional de Huancavelica
el asistente.
-138-
Universidad Nacional de Huancavelica
-139-
Universidad Nacional de Huancavelica
-140-
Universidad Nacional de Huancavelica
-141-
Universidad Nacional de Huancavelica
conjunto de datos.
-142-
Universidad Nacional de Huancavelica
-143-
Universidad Nacional de Huancavelica
CASO DE ESTUDIO
En las pantallas finales del Asistente para minería de datos dividirá los
el modelo.
escriba 1000.
parámetros que pueden ser ajustados. Listar los parámetros y sus valores
-145-
Universidad Nacional de Huancavelica
TM_Decision_Tree.
el modelo.
-146-
Universidad Nacional de Huancavelica
-147-
Universidad Nacional de Huancavelica
-148-
Universidad Nacional de Huancavelica
14. Agregar y Procesar los modelos
sugerirá los clientes que tienen una mayor probabilidad de serlo entre una lista
de clientes potenciales.
Modelos de minería de datos del Diseñador de minería de datos. Para crear los
Microsoft.
-149-
Universidad Nacional de Huancavelica
Crear un modelo Microsoft Clustering
-150-
Universidad Nacional de Huancavelica
-152-
Universidad Nacional de Huancavelica
Crear un modelo Microsoft Naive Bayes
continuas.
-153-
Universidad Nacional de Huancavelica
Aparece un nuevo modelo en la ficha Modelos de minería de datos. Aunque
puede modificar el uso y las propiedades de la columna para todos los modelos
TM_NaiveBayes.
Para poder examinar o trabajar con los modelos de minería de datos que ha
-154-
Universidad Nacional de Huancavelica
una estructura de minería de datos mediante los menús y botones de las fichas
local.
empezar a trabajar con ellos. También debe volver a procesar los modelos de
-155-
Universidad Nacional de Huancavelica
Asegurarse de la coherencia con HoldoutSeed
fines de este tutorial, para asegurarse de que los resultados son los mismos
-156-
Universidad Nacional de Huancavelica
1. Haga clic en la pestaña Estructuras de minería de datos o Modelos
Propiedades.
KeepTrainingCases.
4. Escriba 12 en HoldoutSeed.
-157-
Universidad Nacional de Huancavelica
Implementar el proyecto y Procesar TODOS los modelos de minería de
datos
modelos que estén asociados a esa estructura. Para esta tarea, procesaremos
-158-
Universidad Nacional de Huancavelica
Targeted Mailing, haga clic en Ejecutar.
-159-
Universidad Nacional de Huancavelica
15. Explorar los modelos Targeted Mailing
datos visualmente suele ser la manera más fácil de entender las reglas y
que funciona con todos los tipos de modelo. El Visor de árbol de contenido
varía en función del algoritmo utilizado. Para obtener más información, vea Ver
Microsoft.
-160-
Universidad Nacional de Huancavelica
En esta sección se examina los mismos datos utilizando los tres
compra de bicicletas.
seleccionados.
diferentes atributos.
del modelo y proporciona datos más detallados como las fórmulas, los
-161-
Universidad Nacional de Huancavelica
I. Explorar el modelo de Árbol de Decisión
-162-
Universidad Nacional de Huancavelica
Pestaña Árbol de Decisión
En este caso, el modelo predice solo una columna, Bike Buyer, por lo que
solo hay un árbol para ver. Si hubiera más árboles, podría utilizar el
decisión, puede ver los atributos más importantes en la parte izquierda del
gráfico. "Más importantes" significa que estos atributos son los que más
-163-
Universidad Nacional de Huancavelica
árbol.
muestra los primeros tres niveles del árbol. Si el árbol contiene menos
de tres niveles, el visor mostrará sólo los niveles existentes. Puede ver
Expansión predeterminada.
-164-
Universidad Nacional de Huancavelica
-165-
Universidad Nacional de Huancavelica
4. Cambie el valor de la lista Fondo (Segundo plano) a 1.
Cuanto más oscuro sea el sombreado del nodo, mayor será el porcentaje
-166-
Universidad Nacional de Huancavelica
Número total de casos.
También puede colocar el cursor sobre cualquier nodo del árbol para ver
de datos.
-167-
Universidad Nacional de Huancavelica
muestra que es probable que los clientes con edades mayores o iguales
-168-
Universidad Nacional de Huancavelica
Para obtener información detallada de los datos del caso
columnas de modelos.
datos.
anexadas al final.
-169-
Universidad Nacional de Huancavelica
Pestaña Red de Dependencias
La ficha Red de Dependencias muestra las relaciones entre los atributos que
-170-
Universidad Nacional de Huancavelica
-171-
Universidad Nacional de Huancavelica
más influyente.
deslizante, descubrirá que Year Income y Number Cars Owned son los
bicicleta.
de color situada en la parte inferior de la ficha para ver cuáles son los
nodo seleccionado.
-172-
Universidad Nacional de Huancavelica
II. Explorar el modelo de Agrupación en Clústeres
de predicciones.
-173-
Universidad Nacional de Huancavelica
Pestaña Diagrama del Clúster
La ficha Diagrama del clúster permite explorar las relaciones entre los
TM_Clustering.
cualquier atributo del modelo con el fin de determinar los clústeres que
-174-
Universidad Nacional de Huancavelica
-175-
Universidad Nacional de Huancavelica
4. Seleccione 1 en el cuadro Estado para explorar esos casos donde se
6. Elija el clúster con mayor densidad, haga clic con el botón secundario en
-176-
Universidad Nacional de Huancavelica
7. Busque el clúster que tiene el sombreado más ligero (y la densidad más
Aceptar.
8. Haga clic en el clúster Bike Buyers High y arrástrelo hacia una área del
panel que le dará una vista clara de sus conexiones a los otros clústeres.
con otros para que pueda ver todas las relaciones existentes para el
-177-
Universidad Nacional de Huancavelica
9. Use el control deslizante situado en la parte izquierda de la red para filtrar
-178-
Universidad Nacional de Huancavelica
Pestaña Perfiles del Clúster
La ficha Perfiles del Clúster proporciona una vista global del modelo
contiene una columna por cada clúster del modelo. La primera columna
clúster.
variable.
-179-
Universidad Nacional de Huancavelica
de la columna Población.
Bike Buyer High. Por ejemplo, es muy probable que en todas ellas la
columna.
-180-
Universidad Nacional de Huancavelica
-181-
Universidad Nacional de Huancavelica
Pestaña Características del Clúster
La ficha Características del clúster le permite examinar con más detalle las
de todos los clústeres (como en la pestaña Perfiles del clúster), puede explorar
un clúster a la vez.
Por ejemplo, si selecciona Bike Buyers High en la lista Clúster puede ver las
características de los clientes en este clúster. Se ve que son los clientes que
más han comprado una bicicleta en el pasado, tienden a compartir las mismas
-182-
Universidad Nacional de Huancavelica
Aunque la presentación es diferente del visor Perfiles del clúster, los resultados
tutorial, podrá ver que son los clientes que menos han comprado una bicicleta
-183-
Universidad Nacional de Huancavelica
Pestaña Distinción del Clúster
entre los clústeres y las mostrará según el orden de los atributos que más
-184-
Universidad Nacional de Huancavelica
-185-
Universidad Nacional de Huancavelica
Otro ejemplo, compare el clúster 3 y el clúster 9 del modelo
años, mientras que las personas del clúster 3 no tienen carros propios y
recorren una distancia menor, entre 0 y 1 millas los del clúster 9 tienen 4 hijos
-186-
Universidad Nacional de Huancavelica
III. Explorar el Modelo Microsoft Naive Bayes
Red de Dependencias,
naive de Microsoft, vea Ver un modelo de minería de datos con el Visor Bayes
naive de Microsoft.
-187-
Universidad Nacional de Huancavelica
Pestaña Red de Dependencias
La ficha Red de dependencias funciona igual que la ficha del mismo nombre
del Visor de Árboles de Microsoft. Cada nodo del visor representa un atributo
y las líneas entre los nodos representan relaciones. En el visor, puede ver
todos los atributos que afectan al estado del atributo de predicción, Bike Buyer.
TM_NaiveBayes.
de bicicletas.
-188-
Universidad Nacional de Huancavelica
-189-
Universidad Nacional de Huancavelica
Pestaña Perfiles del Atributo
La ficha Perfiles del atributo describe la forma en que los diferentes estados
variable.
con la etiqueta 1) y los no compradores (la columna con la etiqueta 0). Una
persona que no tenga automóvil o que tenga uno tiene mucha más
-190-
Universidad Nacional de Huancavelica
Pestaña Características del Atributo
y un valor para ver la frecuencia con la que aparecen los valores de otros
2. Establezca el Valor en 1.
En el visor, verá que los clientes que no tienen ningún hijo conviviendo
-191-
Universidad Nacional de Huancavelica
Pestaña Distinción del Atributo
La ficha Distinción del atributo le permite examinar las relaciones entre dos
En el visor, podrá ver que las personas que no tienen un coche tienden a
comprar bicicletas y las personas que tienen dos coches no suelen comprar
bicicletas.
-192-
Universidad Nacional de Huancavelica
El modelo ahora debería ser evaluado para asegurar que se encontró criterios
modelado.
Resumir los resultados de esta tarea, listar las calidades de los modelos
-193-
Universidad Nacional de Huancavelica
Evaluation
Evaluate
Results
Review
Process
de negocio por qué este modelo sería deficiente. Acá se compara resultados
-194-
Universidad Nacional de Huancavelica
Un buen modo de definir las salidas totales de un proyecto de KDD es
solamente los modelos (aunque ellos sean importantes) pero también las
conclusiones, las que definimos como algo (aparte del modelo) que es
-195-
Universidad Nacional de Huancavelica
No se debe implementar un modelo en un entorno de producción sin
haya creado varios modelos y deba decidir cuál funciona mejor. Si ninguno de
correctamente, puede que deba volver a un paso anterior del proceso y volver
original.
mediante los Visores del Diseñador de minería de datos del Data Tools de
-196-
Universidad Nacional de Huancavelica
CASO DE ESTUDIO
cada modelo. Un gráfico de dispersión compara los valores reales con los
-197-
Universidad Nacional de Huancavelica
Puede utilizar una Matriz de Clasificación para tabular las predicciones
Según el tipo de gráfico que elija, puede seguir configurando las opciones,
Excel.
Gráfico de Elevación
Después de configurar las opciones para los modelos y los datos de prueba,
minería de datos.
-198-
Universidad Nacional de Huancavelica
Gráfico de Beneficios
Gráfico de Dispersión
-199-
Universidad Nacional de Huancavelica
Matriz de Clasificación
los modelos y los datos de prueba y, a continuación, haga clic en la ficha Matriz
Sin embargo, el contenido del informe difiere según sea el tipo de modelo que
Excel.
-200-
Universidad Nacional de Huancavelica
-201-
Universidad Nacional de Huancavelica
Gráfico de Elevación
Puede crear dos tipos de gráficos de elevación: uno en el que se especifique
1, lo que significa que el cliente compró una bicicleta o que es probable que
bicicleta.
-202-
Universidad Nacional de Huancavelica
de prueba que se usa para comparar las predicciones. El eje Y del gráfico
línea base con la cual evaluar la elevación. Con cada modelo que agrega a un
-203-
Universidad Nacional de Huancavelica
modelo.
marino (/) y la línea para la elevación real en amarillo. Puede deducir del
gráfico que la línea ideal alcanza el máximo cerca al 40%, lo que significa
clientes.
cualquier punto de las curvas. Puede cambiar el lugar que se mide haciendo
tanto el modelo filtrado como el modelo sin filtrar parecen ser más
Población Probabilidad
Serie, Modelo Puntuación
de destino de predicción
Correo destinado a todos 0.71 47.40% 61.38%
Correo destinado a menores
0.85 51.81% 46.62%
de 30
-204-
Universidad Nacional de Huancavelica
Modelo de estimación
31.00%
aleatoria
Modelo ideal para: correo
62.48%
destinado a todos
Modelo ideal para: correo
65.28%
destinado a menores de 30
para incluir un cliente entre los casos "con probabilidad de comprar". Para
valor, que puede utilizar para filtrar o elegir clientes. Por ejemplo, para
identificar los clientes del modelo básico que son compradores probables,
utilizaría una consulta para recuperar los casos con una probabilidad de
modelo filtrado, crearía una consulta que recuperara los casos que
al menos el 46.6 %.
capturar más clientes potenciales, pero al elegir a los clientes con una
-205-
Universidad Nacional de Huancavelica
modelo básico.
el modo en que el modelo se comporta para todos los estados del atributo
modelo predice bien tanto a los clientes que es probable que compren una
-206-
Universidad Nacional de Huancavelica
Población Probabilidad
Serie, Modelo Puntuación
correcta de predicción
TM_Decision_Tree 0.79 47.50% 73.35%
Modelo ideal 50.00%
-207-
Universidad Nacional de Huancavelica
éste un modelo bastante preciso. Sin embargo, recuerde que este modelo
Nota
-208-
Universidad Nacional de Huancavelica
En Resumen:
que son datos separados del conjunto de datos original, para comparar las
situación.
-209-
Universidad Nacional de Huancavelica
I. Probar la Exactitud con Gráficos de mejora respecto al modelo
predictivo
-210-
Universidad Nacional de Huancavelica
Seleccionar el Conjunto de datos
datos consiste en seleccionar el origen de datos que usará para realizar las
datos.
-211-
Universidad Nacional de Huancavelica
Seleccionar Modelos, Columnas de predicción y Valores
específico, pero para este tutorial deje todos los modelos seleccionados.
predicción.
-212-
Universidad Nacional de Huancavelica
-213-
Universidad Nacional de Huancavelica
continuos.
gráfico.
modelo ideal. Los modelos de minería de datos que creó se situarán entre
-214-
Universidad Nacional de Huancavelica
-215-
Universidad Nacional de Huancavelica
6. Utilice la leyenda para buscar las líneas coloreadas que representan el
Gráfico de Beneficios
Un gráfico de beneficios muestra el incremento estimado de beneficios que
-216-
Universidad Nacional de Huancavelica
Población
Costo fijo
de correo promocional.
Costo individual
Los costos adicionales al costo fijo y que se pueden asociar con cada
llamadas de teléfono.
-217-
Universidad Nacional de Huancavelica
que para conseguir los máximos beneficios sólo debe ponerse en contacto
con aquellos clientes cuya respuesta se predice con una posibilidad del 20%
o superior.
-218-
Universidad Nacional de Huancavelica
II. Probar un Modelo Filtrado
decidir qué revistas utilizar para los anuncios y qué productos ofrecer en sus
campañas.
Para obtener más información sobre los filtros, vea Crear filtros para modelos
de minería de datos.
Usar Filtros
-219-
Universidad Nacional de Huancavelica
Copiar el modelo del árbol de decisión
BasicBusinessAnalytics.
Luego, cree un filtro para seleccionar los clientes para el modelo basados
en su género.
-220-
Universidad Nacional de Huancavelica
Crear un filtro de casos en un modelo de minería de datos
O bien
de datos.
tabla.
seleccione Gender.
El icono en la parte izquierda del cuadro de texto cambia para indicar que
-221-
Universidad Nacional de Huancavelica
4. Haga clic en el cuadro de texto Operador y seleccione el operador igual (=)
en la lista.
8. Repita los pasos anteriores, pero esta vez asigne al modelo el nombre
minería de datos.
-222-
Universidad Nacional de Huancavelica
Procesar los modelos filtrados
correo directo.
ventanas de procesamiento.
-223-
Universidad Nacional de Huancavelica
Evaluar los resultados
manera que hizo con los tres modelos anteriores. Para obtener más
información, vea:
de minería de datos.
TM_Decision_Tree_Male.
-224-
Universidad Nacional de Huancavelica
5. Coloque el cursor sobre el nodo con la etiqueta Todos para ver el número
marketing.
de minería de datos.
-225-
Universidad Nacional de Huancavelica
4. En la columna Nombre de columna de predicción, compruebe que Bike
-226-
Universidad Nacional de Huancavelica
-227-
Universidad Nacional de Huancavelica
TERCERA UNIDAD
-228-
Universidad Nacional de Huancavelica
tres capas:
bancario?
-229-
Universidad Nacional de Huancavelica
¿Por qué los semáforos de tráfico no pueden ser más flexibles basados
tratamiento.
-230-
Universidad Nacional de Huancavelica
y consumo de energía.
-231-
Universidad Nacional de Huancavelica
-232-
Universidad Nacional de Huancavelica
oportunidades.
preguntas como: qué pasó, ¿cuántos, con qué frecuencia, dónde está el
PBA puede responder a preguntas como por qué ocurre esto, qué pasa si
puede pasar?.
-233-
Universidad Nacional de Huancavelica
invirtió mucho más dinero aún en lograr esta victoria). (Ver Video)
una "caja negra" (black box) en la que se introducen por un lado las
condiciones financieras actuales del entorno y por otro salen las decisiones
-234-
Universidad Nacional de Huancavelica
tipo de elemento.
a cada predicción.
-235-
Universidad Nacional de Huancavelica
Qué se
Organizaciones Ejemplo y Resultados
Predice
Tarjeta de crédito PREMIER: Redujo los costos en
correos publicitarios en más de 9 millones de euros.
Banco First Tenessee: Redujo los costos en correos
publicitarios en un 20 % y aumentó las respuestas en un
3.1 % con un beneficio del 600 % respecto a lo invertido
en AP.
Target: Aumentó sus ingresos de un 15 a un 30 % con
los modelos predictivos.
Harbor Sweets: Identificaron mediante analítica a los
clientes que ya no compraban para intentar recuperarlos,
con una impresionante tasa de respuesta del 40 %.
Fingerhut: Redujeron la publicidad directa en un 20 %
mediante la selección de objetivos, lo que les hizo ahorrar
unos 2.3 millones de euros cada año, incrementando de
Compras, para este modo sus ganancias.
hacer Vermont Country Store: Una mayor precisión en la
marketing selección de objetivos para el envío de sus catálogos les
dirigido proporcionó unos ingresos 11 veces superiores a la
inversión necesaria para ello.
Harrah's Las Vegas: Este casino predice cuánto se va a
gastar un cliente a largo plazo (en toda su vida).
Cox Communications: Aumentó la tasa de respuesta a
sus correos directos en más del triple prediciendo la
propensión a comprar.
Empresa de gestión de fondos de inversión: Identificó
a los clientes que tenían cinco veces más probabilidades
que la media de realizar inversiones adicionales.
Supermercado de UK: Puede predecir la fecha exacta
en que volverán los clientes y la cantidad que se gastarán
con un margen de 8 euros, para un 19 % de los clientes.
Elie Tahari: Predice la demanda para productos de moda
femenina.
-236-
Universidad Nacional de Huancavelica
-237-
Universidad Nacional de Huancavelica
Qué se
Organizaciones Ejemplo y Resultados
Predice
Allstate: Con una competición de modelos predictivos
El daño realizada en 2012 triplicó la precisión en la predicción
corporal en los de los daños corporales, basándose únicamente en las
accidentes de características del vehículo asegurado. Se estima que
coche esto podría suponer para la compañía más de 30
millones de euros al año.
Fondo de seguro de accidentes: Determina los
Lesiones síntomas médicos secundarios (como la obesidad y la
graves en el diabetes) a partir de las hojas de reclamación de
puesto de indemnizaciones de los trabajadores. Estos síntomas
trabajo predicen las lesiones que supondrán un alto costo para
que, por ejemplo, se puedan establecer medidas
preventivas para estos trabajadores.
Reclamacione Principal proveedor internacional de líneas de seguro
s a las comercial: Los modelos predictivos redujeron el
compañías de porcentaje de pérdidas en medio punto, contribuyendo a
seguros un ahorro de casi 39 millones de euros.
Compañías de seguros de vida: Predicen la edad de
la muerte para tomar decisiones sobre la aprobación de
políticas y de precios.
Muerte Una de las cinco principales empresas de seguros de
salud de los EE.UU.: La predicción de la muerte no está
dentro del campo habitual de los seguros de vida.
Consulte la tabla sobre salud que se incluye más
adelante para conocer la naturaleza de este trabajo.
Chase: Generó cientos de millones de euros con
Pago modelos predictivos que preveían qué propietarios
anticipado de iban a refinanciar sus hipotecas y por tanto llevarse
hipotecas todos los ingresos por el cobro de intereses futuros a
un banco de la competencia.
-238-
Universidad Nacional de Huancavelica
Qué se
Organizaciones Ejemplo y Resultados
Predice
Fraudes: Servicio Postal de los EE.UU.: Clasifica de manera
Contratos del predictiva los casos de contratos sospechosos, como
gobierno aquellos en los que puede haber conspiraciones o tratos
preferentes, para poder dirigir las investigaciones.
Citizens Bank: Predijo qué cheques son fraudulentos,
Cheques con la suficiente precisión como para reducir las pérdidas
por fraude en un 20 %.
Compañía de seguros de EE.UU. de más de 30.000
millones de euros: Clasificando de manera predictiva
las reclamaciones sospechosas, los auditores pudieron
Reclamaciones encontrar 6,5 veces más fraudes con el mismo número
al seguro del de investigaciones.
automóvil Seguros Aviva: Mejoró la detección de reclamaciones
automovilísticas fraudulentas que incluían daños
corporales, y que ascendían a casi 600.000 euros al
mes.
Hewlett-Packard: Ahorró más de 50 millones de euros
Reclamaciones en cinco años detectando reclamaciones en garantía
en garantía fraudulentas enviadas por los partners de HP y sus
servicios técnicos.
-239-
Universidad Nacional de Huancavelica
-240-
Universidad Nacional de Huancavelica
Qué se
Predice
Organizaciones Ejemplo y Resultados
-241-
Universidad Nacional de Huancavelica
Dentro de esta larga lista, la aplicación por antonomasia para los negocios
es el marketing masivo:
Ejemplo: Imagine que tiene una empresa con una lista de correo de un millón
-242-
Universidad Nacional de Huancavelica
etc.), sus notas en literatura frente a las de matemáticas (para saber si se trata
-243-
Universidad Nacional de Huancavelica
El dispositivo que hace las predicciones, que sabe cómo debe considerar
todos estos factores y darles forma de una única predicción para el individuo
es:
comportamiento predicho.
-244-
Universidad Nacional de Huancavelica
Los modelos predictivos son el medio a través del cual se procesan los
SI el individuo
está aún en secundaria
Y
espera graduarse en la universidad dentro de tres años
Y
muestra cierto interés militar
Y
no ha visto aún este anuncio
ENTONCES la probabilidad de hacer clic en el anuncio del Art Institute es
del 13,5 %.
-245-
Universidad Nacional de Huancavelica
Hay varios tipos de modelo que compiten por hacer la predicción más
acabamos de ver son de los más simples. Podemos complicar más los
predicen con más eficacia. Pero todos los modelos predictivos comparten el
obtener una única puntuación predictiva para dicho individuo. Esta puntuación
-246-
Universidad Nacional de Huancavelica
modelado predictivo.
predictivo.
-247-
Universidad Nacional de Huancavelica
sus trabajos.
iba a trabajar allí sólo para pasar el verano en esta bonita ciudad y comunicar
solicitantes de empleo.
-248-
Universidad Nacional de Huancavelica
su trabajo.
contratar".
-249-
Universidad Nacional de Huancavelica
MODELOS PREDICTIVOS
¿QUÉ ES UN MODELO PREDICTIVO?
entrenamiento, los datos son presentados a un modelo predictivo con los datos
que el modelo aprende la función de correlación entre las entradas dadas y las
decisión.
-250-
Universidad Nacional de Huancavelica
LA CLASIFICACIÓN
cada uno de los cuales corresponde a una clase. El resto de los atributos de
(correctas e incorrectas).
-251-
Universidad Nacional de Huancavelica
Técnicas
Reglas de Clasificación
Árboles de Decisión
Análisis de discriminante
Redes neuronales
La K más cercana
Algoritmos genéticos.
-252-
Universidad Nacional de Huancavelica
El Proceso
Algoritmo
de
aprendizaje
Inducción
Aprender
modelo
Modelo
Conjunto de
entrenamiento Aplicar
modelo
Deducción
Conjunto de prueba
-253-
Universidad Nacional de Huancavelica
Reglas de Clasificación
Etapa 2: Pruebas
-254-
Universidad Nacional de Huancavelica
90 <= nota A
Nota < 60 F
-255-
Universidad Nacional de Huancavelica
Tipo de Resultado de
Edad …
Problema la Operación
Ok
Ok
No
-256-
Universidad Nacional de Huancavelica
desertar. Primero se revisa los datos históricos para buscar data que pueda
con los clintes que ya desertaron. Puede incluir: el número de quejas en los
clientes juntos con la data obtenida para cada uno de ellos. El cliente 1 es
ha desertado.
-257-
Universidad Nacional de Huancavelica
datos demográficos, etc.) para los clientes así como el resultado asociado.
modelo puede aprender las diferencias, o los patrones, entre dos grupos:
operacionalmente.
-258-
Universidad Nacional de Huancavelica
21 muestra los datos para uno de estos clientes, identificado como cliente
-259-
Universidad Nacional de Huancavelica
Un banco por Internet desea obtener reglas para predecir qué personas
datos personales como el salario del cliente, si posee casa propia, etc.
Tabla 15.
-260-
Universidad Nacional de Huancavelica
ENTONCES Devuelve-crédito = sí
-261-
Universidad Nacional de Huancavelica
Árboles de Decisión
nuevos. El modelo obtenido puede servir para clasificar casos cuyas clases se
disponemos.
IDE3, el C4.5 que es el sucesor del IDE3, el J4.8 que es una implementación
del C4.5, entre otros. Todos estos algoritmos siguen ayudando gracias a sus
nuevas versiones.
Se utilizan para:
Explorar datos.
-262-
Universidad Nacional de Huancavelica
Ciudades
producto no
está bien
Ciudades
producto
está bien
-263-
Universidad Nacional de Huancavelica
Ventajas
Fácil de entender.
Desventajas
Otros algoritmos pueden tratar variables “target” con más de dos valores
-264-
Universidad Nacional de Huancavelica
LA REGRESIÓN
función real que asigna a cada instancia un valor real. Ésta es la principal
regresión múltiple.
-265-
Universidad Nacional de Huancavelica
-266-
Universidad Nacional de Huancavelica
REGRESIÓN LINEAL
mínima.
-267-
Universidad Nacional de Huancavelica
sea mínimo
-268-
Universidad Nacional de Huancavelica
es decir:
dependiente.
-269-
Universidad Nacional de Huancavelica
REGRESIÓN NO LINEAL
datos en una forma compatible con la regresión lineal. Este es el caso del
-270-
Universidad Nacional de Huancavelica
Regresión No Lineal-Simple
-271-
Universidad Nacional de Huancavelica
-272-
Universidad Nacional de Huancavelica
Regresión No Lineal-Múltiple
clientes. Para ello, la empresa dispone de las ventas efectuadas cada mes
del último año de cada producto, tal y como se refleja en la Tabla 16.
predecir cuáles van a ser las ventas de cada producto en el siguiente mes
los pedidos necesarios a sus proveedores para disponer del stock necesario
-273-
Universidad Nacional de Huancavelica
caso desarrollado para Descriptive DM, por eso en este proyecto de Predictive
Modeling
Seleccionar
Técnica de
Modelamiento
-274-
Universidad Nacional de Huancavelica
Works Cycles. En esta lección creará una consulta para predecir qué clientes
alta de comprar una bicicleta, obtendrá detalles de los casos del modelo de
correspondiente.
Crear predicciones
-275-
Universidad Nacional de Huancavelica
CASO DE ESTUDIO
Organización en estudio
-276-
Universidad Nacional de Huancavelica
I. Crear Predicciones
Una vez que haya probado la precisión de los modelos de minería de datos y
Diseño
Consulta
Resultado
vista Resultado.
en Seleccionar modelo.
-277-
Universidad Nacional de Huancavelica
tabla de casos.
-278-
Universidad Nacional de Huancavelica
vTargetMail.
-279-
Universidad Nacional de Huancavelica
menos una columna de la estructura debe coincidir con una columna de los
datos externos.
Importante
Los datos que usa para determinar la precisión de los modelos
predicción.
Modificar conexiones.
-280-
Universidad Nacional de Huancavelica
-281-
Universidad Nacional de Huancavelica
nacimiento.
-282-
Universidad Nacional de Huancavelica
Advertencia
-283-
Universidad Nacional de Huancavelica
-284-
Universidad Nacional de Huancavelica
PredictProbability.
-285-
Universidad Nacional de Huancavelica
Criterios o argumento.
Buyer.
escriba = 1.
-286-
Universidad Nacional de Huancavelica
ProspectiveBuyerKey.
predicción para que pueda identificar quién es más y menos probable que
10. Agregue cinco filas más a la cuadrícula. Para cada fila, seleccione
calcAge
LastName • FirstName
AddressLine1 • City • StateProvinceCode
-287-
Universidad Nacional de Huancavelica
-288-
Universidad Nacional de Huancavelica
hace más de cinco años. En esta lección, identificará los clientes con compras
utilizará para revelar los nombres y direcciones de los clientes con compras de
bicicletas anteriores.
-289-
Universidad Nacional de Huancavelica
True.
-290-
Universidad Nacional de Huancavelica
de minería de datos.
-291-
Universidad Nacional de Huancavelica
7. Para copiar los datos en el Portapapeles, haga clic con el botón secundario
Excel.
de secuencias.
-292-
Universidad Nacional de Huancavelica
ANEXO A:
1. Índice
2. Introducción
CAPÍTULO I: GENERALIDADES
3. Objetivos del Trabajo de Aplicación
4. Integrantes: Nombre, e-Mail
CAPÍTULO II: DESCRIPTIVE ANALYTICS
5. Fase 1: Entendimiento del Negocio
6. Descripción de la Empresa Diversificada
7. Organigrama Actual
8. Identificación del Proceso Crítico
9. Flujograma del Proceso
10. Objetivos de Data Mining
11. Fase 2: Entendimiento de los Datos
12. Recopilación inicial de datos: OLTP y Data Mart
13. Descripción de los datos: Tablas y Vistas
14. Fase 3: Preparación de los Datos
15. Selección y Limpieza de los datos.
16. Fase 4: Modelamiento
17. Selección de la técnica de modelado.
18. Construcción de los modelos Descriptivos.
19. Evaluación del modelo.
20. Fase 5: Evaluación del Modelo
21. Evaluación de resultados.
22. Revisar el proceso.
23. Fase 6: Utilización del Modelo (Conocimiento)
24. Planificación de despliegue.
CAPÍTULO III: PREDICTIVE ANALYTICS
25. Fase 4: Modelamiento
26. Selección de la técnica de modelado.
27. Construcción de los modelos Predictivos.
28. Evaluación de los modelos.
29. Fase 5: Evaluación del Modelo
-303-
Universidad Nacional de Huancavelica
33. Conclusiones
34. Recomendaciones
35. Bibliografía
36. Apéndices (si es necesario)
-304-