APuntes

Mod.
Regresión logística
Distribución logística.
Función logarítmica = log(p/1-p) me permite llevar cualquier valor real a 0 y 1.
Cuando la varianza no es igual, se habla de un análisis discriminante cuadratico.
Cuando la varianza es igual, se habla de un análisis discriminante líneal.
Mod logístico se puede interpretar con estos pasos:
1. Valor p.
2. Estudiar la dirección (signo).
3. Magnitud a través del coeficiente.
p-value:
Cerca de cero, su variabilidad es tan pequeña que es imposible que llegue al cero absoluto.
Por cada dólar que deba, su chance de caer en mora, afectaba en lo mínimo pero porque era
$1.
Sexmale = El valor estimado es negativo. Se debe aplicar función exponencial para evitar
logaritmo y tener valores de ceros y unos.
Sexmale = genero masculino tiene un efecto negativo.
Exp(-2.613) = 0.07331427
Las probabilidades de sobrevivir se reducen en un 7.3%.
Age
Exp(-0.03812)
0.9625974
Por cada individuo que tenga mayor edad, tiene menoresprobabilidades de vivir.
Exp(-0.03812 * 30)
0.3186697
Sibsp = El hecho de tener familiares en el barco influyó negativamente (valor negativo).
AIC se usa para comparar modelos y queremos que sea un valor menor.
Pclass = relevel ( pclass, ref = “Lower”)
Relevel se usa para cambiar el factor de referencia.
Matriz de confusión me indicará cuántos se han predicho bien o mal.

Este error significa que hay multicole….
Agrupación
Clúster = grupo cuyas observaciones dentro son similares entre sí, pero que se diferencian de
otros clúster.
¿Observaciones similares o diferentes?
Se debe hacer con base en el conocimiento de los datos de estudio.
Se deben establecer métricas o distancias.
Una métrica es la segmentación del mercado.
Segmentación de mercado
Segmentar el mercado mediante la identificación de un subgrupo de personas.
Segmentación del mercado = agrupar a los clientes.
Dos métodos bases
Agrupamiento de K-medias
Dividir observaciones en K grupos.
Necesito indicar cuántas clases creo que van a existir.
Agrupamiento jerárquico
Se utiliza el dendrograma.
K-means
Ejemplo de agrupamiento de K-medias
Se observan 2 clústers (azul – naranja).

Se observan 3 clústers (verde – azul – naranja).
Se observan 4 clústers (verde – azul – naranja – fucsia).
No hay un orden en los grupos.
Detalles del agrupamiento de K-medias.
1er supuesto: Una observación está en al menos 1 grupo.
2do supuesto: Intersección entre las clases es vacía. Una observación no estará en 2 grupos.
No hay objetos repetidos entre sí.
Detalles
Queremos crear grupos. Dentro de un grupo, las observaciones deben parecerse. Se debe
minimizar la variación dentro del grupo.
Solución: Minimizar la varianza dentro de cada grupo.
¿Cómo definir la variación dentro de cada grupo?
Se toma las distancias entre cada grupo con respecto a un centroide (punto de equilibrio) que
pertenece a la clase i.
Algoritmo
Tengo todos los puntos (sin color).
Se selecciona de manera aleatoria los clústers.
Centroide = media en X y media en Y.
Propiedades del algoritmo.

Agrupamiento jerárquico
Agrupación jerárquica
Agrupamiento ascendente
Distancia euclidiana (leer).
Elección de la medida de disimilitud
Correlación: Ver si se correlaciona un individuo con otro. Se invierte la idea de la correlación.

La escala importa.
En el caso de la agrupación jerárquica
Medida de disimilitud = distancia.
¿Qué medida de disimilitud debe usarse?
Distancia de Manhattan (Distancia del taxista).
Otras distancias.
¿Qué tipo de vinculación se debe utilizar?
Centroide.
Ejemplo: estudio de microarrays de cáncer de mama.
Vinculación promedio.
Métrica de correlación.
Conclusiones
Aprendizaje no supervisado es importante para comprender la variación y estructura de

agrupación.
Es más difícil que aprendizaje supervisado porque el objetivo no es claro, solo tengo una nube
de datos.
Herramientas: mapas autoorganizados, análisis de componentes independientes y agrupación

espectral.
Cap. 14 de James.
je
Árboles de decisión
Es un modelo de regresión.
Métodos basados en árboles
Sirven para regresión (variables cualitativas) como para clasificación.
Métodos para regresión y clasificación.
Pros y contras
Métodos basados en árboles pueden ser mejorados.
Método bosques aleatorios.
Método bagging.
Método boosting.
Estos métodos hacen crecer múltiples árboles.
Combinar demasiados árboles puede complicar la interpretación.
Árboles de clasificación
Utilizan creando regiones en cada dimensión.
Detalles
Variables categóricas serán clasificadas con 0 y 1.
Métrica Índice de Gini y Deviance
Se utiliza para medir la desigualdad entre las observaciones.
K = denota el número de clases.
Índice de Gini toma un valor pequeño si todos los p están cerca de cero o uno.
Árboles vs Modelos lineales

Algoritmo Bagging
También conocido como agregación Bootstrap.
Los árboles no tienen el mismo número de variables. Es decir, cada árbol va a elegir una
selección aleatoria de m predictores (variables).
Boosting
Es como calcular el promedio de forma óptima.

APuntes

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

APuntes

Cargado por

Copyright:

Formatos disponibles

Mod.

Función logarítmica = log(p/1-p) me permite llevar cualquier valor real a 0 y 1.

Cuando la varianza no es igual, se habla de un análisis discriminante cuadratico.

Cuando la varianza es igual, se habla de un análisis discriminante líneal.

Mod logístico se puede interpretar con estos pasos:

Sexmale = genero masculino tiene un efecto negativo.

Las probabilidades de sobrevivir se reducen en un 7.3%.

Sibsp = El hecho de tener familiares en el barco influyó negativamente (valor negativo).

Pclass = relevel ( pclass, ref = “Lower”)

Relevel se usa para cambiar el factor de referencia.

Matriz de confusión me indicará cuántos se han predicho bien o mal.

¿Observaciones similares o diferentes?

Se debe hacer con base en el conocimiento de los datos de estudio.

Se deben establecer métricas o distancias.

Una métrica es la segmentación del mercado.

Segmentar el mercado mediante la identificación de un subgrupo de personas.

Segmentación del mercado = agrupar a los clientes.

Dos métodos bases

Dividir observaciones en K grupos.

Necesito indicar cuántas clases creo que van a existir.

Ejemplo de agrupamiento de K-medias

Se observan 2 clústers (azul – naranja).

Se observan 4 clústers (verde – azul – naranja – fucsia).

No hay un orden en los grupos.

Detalles del agrupamiento de K-medias.

1er supuesto: Una observación está en al menos 1 grupo.

Solución: Minimizar la varianza dentro de cada grupo.

¿Cómo definir la variación dentro de cada grupo?

Tengo todos los puntos (sin color).

Se selecciona de manera aleatoria los clústers.

Centroide = media en X y media en Y.

Propiedades del algoritmo.

Distancia euclidiana (leer).

Elección de la medida de disimilitud

Correlación: Ver si se correlaciona un individuo con otro. Se invierte la idea de la correlación.

Medida de disimilitud = distancia.

¿Qué medida de disimilitud debe usarse?

Distancia de Manhattan (Distancia del taxista).

¿Qué tipo de vinculación se debe utilizar?

Ejemplo: estudio de microarrays de cáncer de mama.

Aprendizaje no supervisado es importante para comprender la variación y estructura de

Herramientas: mapas autoorganizados, análisis de componentes independientes y agrupación

Métodos basados en árboles

Sirven para regresión (variables cualitativas) como para clasificación.

Métodos para regresión y clasificación.

Métodos basados en árboles pueden ser mejorados.

Método bosques aleatorios.

Estos métodos hacen crecer múltiples árboles.

Combinar demasiados árboles puede complicar la interpretación.

Utilizan creando regiones en cada dimensión.

Variables categóricas serán clasificadas con 0 y 1.

Métrica Índice de Gini y Deviance

Se utiliza para medir la desigualdad entre las observaciones.

K = denota el número de clases.

Árboles vs Modelos lineales

También conocido como agregación Bootstrap.

Es como calcular el promedio de forma óptima.

También podría gustarte