Está en la página 1de 11

Mod.

Regresión logística

Distribución logística.

Función logarítmica = log(p/1-p) me permite llevar cualquier valor real a 0 y 1.

Cuando la varianza no es igual, se habla de un análisis discriminante cuadratico.

Cuando la varianza es igual, se habla de un análisis discriminante líneal.

Mod logístico se puede interpretar con estos pasos:

1. Valor p.
2. Estudiar la dirección (signo).
3. Magnitud a través del coeficiente.

p-value:

Cerca de cero, su variabilidad es tan pequeña que es imposible que llegue al cero absoluto.

Por cada dólar que deba, su chance de caer en mora, afectaba en lo mínimo pero porque era
$1.

Sexmale = El valor estimado es negativo. Se debe aplicar función exponencial para evitar
logaritmo y tener valores de ceros y unos.

Sexmale = genero masculino tiene un efecto negativo.

Exp(-2.613) = 0.07331427

Las probabilidades de sobrevivir se reducen en un 7.3%.

Age

Exp(-0.03812)

0.9625974

Por cada individuo que tenga mayor edad, tiene menoresprobabilidades de vivir.
Exp(-0.03812 * 30)

0.3186697

Sibsp = El hecho de tener familiares en el barco influyó negativamente (valor negativo).

AIC se usa para comparar modelos y queremos que sea un valor menor.

Pclass = relevel ( pclass, ref = “Lower”)

Relevel se usa para cambiar el factor de referencia.

Matriz de confusión me indicará cuántos se han predicho bien o mal.


Este error significa que hay multicole….
Agrupación

Clúster = grupo cuyas observaciones dentro son similares entre sí, pero que se diferencian de
otros clúster.

¿Observaciones similares o diferentes?

Se debe hacer con base en el conocimiento de los datos de estudio.

Se deben establecer métricas o distancias.

Una métrica es la segmentación del mercado.

Segmentación de mercado

Segmentar el mercado mediante la identificación de un subgrupo de personas.

Segmentación del mercado = agrupar a los clientes.

Dos métodos bases

Agrupamiento de K-medias

Dividir observaciones en K grupos.

Necesito indicar cuántas clases creo que van a existir.

Agrupamiento jerárquico

Se utiliza el dendrograma.

K-means

Ejemplo de agrupamiento de K-medias

Se observan 2 clústers (azul – naranja).


Se observan 3 clústers (verde – azul – naranja).

Se observan 4 clústers (verde – azul – naranja – fucsia).

No hay un orden en los grupos.

Detalles del agrupamiento de K-medias.

1er supuesto: Una observación está en al menos 1 grupo.

2do supuesto: Intersección entre las clases es vacía. Una observación no estará en 2 grupos.
No hay objetos repetidos entre sí.

Detalles

Queremos crear grupos. Dentro de un grupo, las observaciones deben parecerse. Se debe
minimizar la variación dentro del grupo.

Solución: Minimizar la varianza dentro de cada grupo.

¿Cómo definir la variación dentro de cada grupo?

Se toma las distancias entre cada grupo con respecto a un centroide (punto de equilibrio) que
pertenece a la clase i.

Algoritmo

Tengo todos los puntos (sin color).

Se selecciona de manera aleatoria los clústers.

Centroide = media en X y media en Y.

Propiedades del algoritmo.


Agrupamiento jerárquico

Agrupación jerárquica

Agrupamiento ascendente

Distancia euclidiana (leer).

Elección de la medida de disimilitud

Correlación: Ver si se correlaciona un individuo con otro. Se invierte la idea de la correlación.


La escala importa.
En el caso de la agrupación jerárquica

Medida de disimilitud = distancia.

¿Qué medida de disimilitud debe usarse?

Distancia de Manhattan (Distancia del taxista).

Otras distancias.

¿Qué tipo de vinculación se debe utilizar?

Centroide.

Ejemplo: estudio de microarrays de cáncer de mama.

Vinculación promedio.

Métrica de correlación.

Conclusiones

Aprendizaje no supervisado es importante para comprender la variación y estructura de


agrupación.

Es más difícil que aprendizaje supervisado porque el objetivo no es claro, solo tengo una nube
de datos.

Herramientas: mapas autoorganizados, análisis de componentes independientes y agrupación


espectral.

Cap. 14 de James.

je
Árboles de decisión

Es un modelo de regresión.

Métodos basados en árboles

Sirven para regresión (variables cualitativas) como para clasificación.

Métodos para regresión y clasificación.

Pros y contras

Métodos basados en árboles pueden ser mejorados.

Método bosques aleatorios.

Método bagging.

Método boosting.

Estos métodos hacen crecer múltiples árboles.

Combinar demasiados árboles puede complicar la interpretación.

Árboles de clasificación

Utilizan creando regiones en cada dimensión.

Detalles

Variables categóricas serán clasificadas con 0 y 1.

Métrica Índice de Gini y Deviance

Se utiliza para medir la desigualdad entre las observaciones.

K = denota el número de clases.

Índice de Gini toma un valor pequeño si todos los p están cerca de cero o uno.

Árboles vs Modelos lineales


Algoritmo Bagging

También conocido como agregación Bootstrap.

Los árboles no tienen el mismo número de variables. Es decir, cada árbol va a elegir una
selección aleatoria de m predictores (variables).

Boosting

Es como calcular el promedio de forma óptima.

También podría gustarte