Documentos de Académico
Documentos de Profesional
Documentos de Cultura
de la Data
Introducción
• El proceso de extracción de conocimiento (KDD) está aquí y está
provocando cambios profundos en diversas industrias. Desde el punto
de vista tecnológico ya existen sectores empresariales que han adoptado de
forma masiva proyectos y productos.
Datos Semi
Estructurados
Presentan una
caracteristica entidad –
relación semi definida
TIPOS DE DATOS
PROCESO DE EXTRACCIÓN DE
CONOCIMIENTO (KDD)
• Paso 1: Integración y Recopilación.
• Paso 2: Selección, Limpieza y
Transformación.
• Paso 3: Minería de Datos.
• Paso 4: Evaluación e Interpretación
• Paso 5: Difusión y Uso
Paso 1: Integración y Recopilación
OLAP se utiliza para hechos que se necesita conocer, como los informes
regionales de ventas estratificados por el tipo de negocios, mientras que el DM
automático se basa en la necesidad de descubrir los factores que influyen en
estas ventas.
Paso 2: Selección, Limpieza y
Transformación
• Definición de los Outliers
• Datos Perdidos
• Selección de los datos adecuados
• Númerizar atributos
• Discretizar atributos continuos
Paso 3: Minería de Datos
Aplicaciones: Aprobación de
créditos, mercados,
enfermedades, etc
Definición del Problema
Acción
Muestra no Rechazada Muestra Rechazada
Estado Natural Error Tipo I o riesgo del
Decisión productor
La muestra no Correcta a = P(Tipo I)
debería ser
rechazada
El análisis de correlación pone una magnitud cuantificable en la relación gráfica del diagrama de
dispersión.
50
muy elevado. El r es un número
positivo para representar la
inclinación hacia arriba.
30
Interpretación: mientras haya
más representantes en una
30
central telefónica, mayor será el
10
tiempo de llamada. 100 110 120
100 110 120 N.º de representantes
N.º de representantes r = +0.96
50
Indica una fuerte correlación Indica que no existe
Tiempo de llamada
Velocidad de respuesta
v Un equipo quería ver si la cantidad de
representantes de centrales telefónicas
afectaba en la velocidad de respuesta.
Pasos tomados: Y
v Con sus datos realizaron en primer lugar un
diagrama de dispersión y obtuvieron un
valor-r.
v Después, realizaron un análisis de
regresión en un programa de software X1
estadístico para crear una línea de curva N.º de reps. de central telefónica
ajustada.
v Finalmente obtuvieron el valor R-sq y el
Interpretación:
valor P
§El número de representantes de la central telefónica afecta
Los resultados:
considerablemente en la velocidad de respuesta (95.4%
v R-sq = 95.4% de la variación en la velocidad de respuesta se explica con
la cantidad de representantes).
v Valor-p = 0.0
§Esto es X fundamental (ya que p < 0.05,se rechaza H0, y
se determina que Y cambia cuando X cambia)
Regresión múltiple
Y= f (X1, X2, X3, etc.)
v La regresión múltiple es el mismo concepto que la regresión lineal, pero es una
ecuación para mostrar la relación matemática entre varias X y una Y.
v La regresión múltiple se usa para seleccionar entre muchas X (variables de aporte y
del proceso) al mismo tiempo para encontrar la variable más importante que afectan a
Y (la variable del resultado). Esto permite seleccionar la mejor solución para la mejora.
Ecuación de regresión múltiple:
Y= b0 + b1 X1 + b2 X2 + b3 X3 + …etc.
Donde…
Y = variable de resultado
XS = variables predictivas (variables de aporte o del proceso)
b0 = intercepción (valor previsto de Y cuando cada X = 0)
b1 = inclinación de la relación lineal entre Y y X1,
o el cambio en Y por incremento de unidad en X1 que
sostienen todas las demás XS constantes
b2 = inclinación para X2
b3 = inclinación para X3
Ejemplo de regresión múltiple
Situación:
Un equipo que trabaja en una central
telefónica y enfocado en mejorar la
velocidad de respuesta deseaba
comprobar si la cantidad de llamadas Hoja de datos:
dirigidas al área de atención al cliente
Velocidad de Número de Número de
y la cantidad de preguntas sobre las respuesta llamadas preguntas
cuentas activas estaban (segundos) (por hora) (por hora)
correlacionadas con la velocidad de 21 503 45
respuesta.
24 654 52
Acción
Muestra no Rechazada Muestra Rechazada
Estado Natural Error Tipo I o riesgo del
Decisión productor
La muestra no Correcta a = P(Tipo I)
debería ser
rechazada
10000
1000
Sample size
100
10
1
1
7
1
4
0.
0.
0.
1.
1.
1.
2.
2.
2.
3.
3.
3.
Delta/Sigma
NO SIEMPRE ES TAN
SENCILLO
Basados en el ejemplo, busquemos otro ejemplo para
poder predecir el nivel del flujo de calor.
X1 = Nivel de Insolación
X2 = Hora del día
X3 = Sur
X4 = Norte
X5 = Este
Y = Flujo de Calor
240
HeatFlux
200
900
750
Insolation
600
37.0
34.5
East
32.0
40
36 South
32
19.5
18.0
North
16.5
15.0
12.5 Time
10.0
200 240 280 32.0 34.5 37.0 16.5 18.0 19.5
Y = b0 + b1 X 1 + b2 X 2 + b3 X 3 + b4 X 4 + b5 X 5
Pasos a Seguir: