Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Regresión logística
Distribución logística.
1. Valor p.
2. Estudiar la dirección (signo).
3. Magnitud a través del coeficiente.
p-value:
Cerca de cero, su variabilidad es tan pequeña que es imposible que llegue al cero absoluto.
Por cada dólar que deba, su chance de caer en mora, afectaba en lo mínimo pero porque era
$1.
Sexmale = El valor estimado es negativo. Se debe aplicar función exponencial para evitar
logaritmo y tener valores de ceros y unos.
Exp(-2.613) = 0.07331427
Age
Exp(-0.03812)
0.9625974
Por cada individuo que tenga mayor edad, tiene menoresprobabilidades de vivir.
Exp(-0.03812 * 30)
0.3186697
AIC se usa para comparar modelos y queremos que sea un valor menor.
Clúster = grupo cuyas observaciones dentro son similares entre sí, pero que se diferencian de
otros clúster.
Segmentación de mercado
Agrupamiento de K-medias
Agrupamiento jerárquico
Se utiliza el dendrograma.
K-means
2do supuesto: Intersección entre las clases es vacía. Una observación no estará en 2 grupos.
No hay objetos repetidos entre sí.
Detalles
Queremos crear grupos. Dentro de un grupo, las observaciones deben parecerse. Se debe
minimizar la variación dentro del grupo.
Se toma las distancias entre cada grupo con respecto a un centroide (punto de equilibrio) que
pertenece a la clase i.
Algoritmo
Agrupación jerárquica
Agrupamiento ascendente
Otras distancias.
Centroide.
Vinculación promedio.
Métrica de correlación.
Conclusiones
Es más difícil que aprendizaje supervisado porque el objetivo no es claro, solo tengo una nube
de datos.
Cap. 14 de James.
je
Árboles de decisión
Es un modelo de regresión.
Pros y contras
Método bagging.
Método boosting.
Árboles de clasificación
Detalles
Índice de Gini toma un valor pequeño si todos los p están cerca de cero o uno.
Los árboles no tienen el mismo número de variables. Es decir, cada árbol va a elegir una
selección aleatoria de m predictores (variables).
Boosting