Está en la página 1de 60

INVESTIGACIÓN DE

MERCADO II
Magister en Marketing
Paola Andrea Vidal Brignole

Prof. Joaquín Ramírez


Trimestre II - 2015
ANÁLISIS PRELIMINAR DE LOS DATOS

A. EXÁMEN GRÁFICO DE LOS DATOS

El análisis gráfico de los datos permite detectar ciertas características importantes de


las variables: la forma de la distribución, las posibles relaciones entre variables, así
como revelar posibles diferencias entre grupos de individuos. La naturaleza de las
variables (métricas o categóricas), determina los tipos de gráficos posibles a utilizar:

a) Histogramas  sólo variables métricas. Se puede analizar la distribución de


probabilidades de cada una de las variables, posible normalidad, simetría, etc.
b) Diagrama de tallo y hojas  se observan las concentraciones de datos, simetría,
presencia valores atípicos. No recomendables para conjuntos grandes de datos.

c) Diagrama de Cajas  si es univariado es sólo variables métricas, si es bivariado es


numérica (eje Y) y categórica (eje X). Permiten estudiar la simetría de los datos,
detectar valores atípicos, y observar diferencias entre grupos.

d) Diagramas de Dispersión  se visualizan las posibles relaciones entre variables.

e) Gráficos de Barra  sólo variables categóricas, con previa obtención de tablas de


frecuencia.
*Porcentaje Válido: no considera los valores perdidos.
Ver la moda.

 TABLA DE FRECUENCIAS: Analizar, Estadísticos Descriptivos,


Frecuencias.
 GRÁFICOS: ídem, Gráficos, gráfico de barras

f) Gráficos circulares  sólo variables categóricas, con previa obtención de tablas de


frecuencia.

B. EXAMEN DE DATOS AUSENTES


Cuando hay datos ausentes, se puede eliminar las observaciones con datos ausentes, o
trabajar para el análisis sólo con aquellas observaciones que no tienen datos ausentes.

C. IDENTIFICACIÓN DE VALORES ATÍPICOS (OUTLIERS)

Los datos atípicos corresponden a observaciones cuyo comportamiento no corresponde


al normal de los datos. Pueden corresponder a un error de procedimiento, a un
acontecimiento extraordinario que es explicable por el investigador, o a un acontecimiento
extraordinario no explicable por el experimentador. Para saber si los datos atípicos son
influyentes debo hacer el análisis incluyendo y excluyendo esos datos y luego comparar los
resultados. Si son significativamente diferentes es porque los datos atípicos son
influyentes. En este caso se deberían quitar del modelo a menos que exista una razón para
incluirlos.
Detección de casos atípicos:
a) Caso univariado: Diagramas de caja, gráficas de control, valores Z.
b) Caso bivariado: Gráficos de cajas múltiples (distintos gráficos de una variable para los
niveles de otra variable), gráficas de dispersión (intervalos de predicción).

D. VERIFICACIÓN DE SUPUESTOS

a) NORMALIDAD DE LAS VARIABLES: la normalidad multivariante garantiza la


normalidad univariada. Sin embargo, la normalidad univariada de todas las variables
aleatorias es condición necesaria pero no suficiente para la normalidad multivariante
de este conjunto de variables.
- Gráficos de Probabilidad Normal  para detectar si un conjunto de datos se
ajusta razonablemente a una distribución normal.
- Normal Q-Q (P-P) Plots  comparan los cuantiles de la muestra con los
cuantiles que uno esperaría observar si las observaciones realmente se
distribuyen normalmente. Si los puntos del gráfico yacen muy cercanos a la
línea recta (normalidad teórica), el supuesto de normalidad es sostenible.
- Normal Q-Q (P-P) Plot sin tendencias  muestra las distancias verticales
existentes entre cada punto del Normal Q-Q plot y la recta diagonal. Si los
puntos están entre -0,2 y +0,2 se acerca a la distribución normal.

- Test de Normalidad de Kolmogorov-Smirnov  test de bondad de ajuste que


se adapta mejor al caso de variables continuas. Mide el ajuste entre la función
de distribución acumulativa empírica de la muestra F(Xi) y la función de
distribución acumulativa teórica F0(Xi).
𝑛ú𝑚𝑒𝑟𝑜 𝑑𝑒 𝑜𝑏𝑠𝑒𝑟𝑣𝑎𝑐𝑖𝑜𝑛𝑒𝑠 ≤ 𝑋𝑖
𝐹(𝑋𝑖 ) =
𝑛

Estadístico de la prueba se calcula a partir de la máxima diferencia:


𝐷𝑖 = | 𝐹(𝑋𝑖 ) − 𝐹0 (𝑋𝑖 )|
𝑯𝟎 : 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒔𝒆 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒚𝒆 𝒏𝒐𝒓𝒎𝒂𝒍𝒎𝒆𝒏𝒕𝒆
𝑯𝟏 : 𝒗𝒂𝒓𝒊𝒂𝒃𝒍𝒆 𝒏𝒐 𝒅𝒊𝒔𝒕𝒓𝒊𝒃𝒖𝒚𝒆 𝒏𝒐𝒓𝒎𝒂𝒍𝒎𝒆𝒏𝒕𝒆
Ej: A un nivel α = 0,05; no es sostenible el supuesto de normalidad de la
población.

- Test de normalidad de Jarque-Bera  usa el coeficiente de asimetría y la


curtosis para decidir acerca de la normalidad, y sigue la distribución Bowman-
Shelton.

(𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑑𝑒 𝑎𝑠𝑖𝑚𝑒𝑡𝑟í𝑎2 (𝑐𝑢𝑟𝑡𝑜𝑠𝑖𝑠)2


𝐵 = 𝑛[ + ]
6 24

b) HOMOGENEIDAD DE LAS VARIANZAS


- Test de Levene: análisis de varianza con un criterio (One-way ANOVA) en el
que se utiliza como variable dependiente, la diferencia en valor absoluto
entre cada puntuación y su media (u otra medida de tendencia central).
Factor es una variable independiente, queremos ver que haya igualdad o
desigualdad de la variable dependiente entre las distintas categorías.

𝑯𝟎 : 𝒊𝒈𝒖𝒂𝒍𝒅𝒂𝒅 𝒅𝒆 𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂𝒔 → 𝑯𝒐𝒎𝒐𝒔𝒄𝒆𝒅𝒂𝒔𝒕𝒊𝒄𝒊𝒅𝒂𝒅


𝑯𝟏 : 𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂𝒔 𝒏𝒐 𝒔𝒐𝒏 𝒊𝒈𝒖𝒂𝒍𝒆𝒔 → 𝑯𝒆𝒕𝒆𝒓𝒐𝒔𝒄𝒆𝒅𝒂𝒔𝒕𝒊𝒄𝒊𝒅𝒂𝒅
ANÁLISIS FACTORIAL

Estudia posibles interrelaciones existentes entre las variables de interés.

OBJETIVO GENERAL  Busca reducir el números de variables por medio de la


determinación de grupos de variables que presentan altas correlaciones entre ellas. Cada
uno de estos grupos de variables constituye un factor.

OBJETIVOS ESPECÍFICOS
 Resumir la información encerrada en la matriz de datos por medio de un conjunto
más pequeño (y manejable) de datos, el cual contenga un alto porcentaje de la
información contenida en la estructura original. De este modo, se podría conformar
una nueva matriz de datos, la que puede ser usada como entrada para otro análisis
cuantitativo.
 Definir factores mediante agrupaciones de las variables originales. Aquí es
relevante la búsqueda de variables sustitutas. Alternativamente, podrían utilizarse
estos factores para definir un nuevo conjunto de variables (y también una nueva
matriz de datos).
 Interpretar cada factor de acuerdo a los significados que tienen las variables que
lo conforman, siendo fundamental la interpretación de constructos. Se busca, para
cada grupo, el concepto común que mejor represente a las variables del grupo.

DISEÑO DEL ANÁLISIS FACTORIAL

 Sólo variables métricas (de escala de intervalo)


 Consideramos un cierto número de variables (3 o más) por cada factor hipotético.
 Regla general: 5 observaciones como mínimo por cada variable, siendo aceptable 10 o
más. De preferencia, 100 o más observaciones.

SUPUESTOS DEL ANÁLISIS FACTORIAL

 Supuesto Principal  existencia de una estructura común que está representada


por el conjunto de las variables originales. Existencia de gran cantidad de variables
que en su mayoría están correlacionadas.
Por lo tanto, la matriz de correlaciones debe presentar un buen número de
correlaciones de magnitud importante |r|≥ 0,3.
𝐻0 : 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑛𝑜 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎
𝐻1 : 𝑐𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝑠𝑖𝑔𝑛𝑖𝑓𝑖𝑐𝑎𝑡𝑖𝑣𝑎

OTROS ESTADÍSTICOS PARA MEDIR LA ADECUACIÓN DEL MUESTREO

 MSA – MEDIDA DE SUFICIENCIA MUESTRAL  corresponde a la diagonal de la


matriz de correlación anti imagen. Medida de suficiencia individual, para cada
variable.
∑𝑖≠𝑗 𝑟𝑖𝑗 2
𝑀𝑆𝐴(𝑋𝑖 ) =
∑𝑖≠𝑗 𝑟𝑖𝑗 2 + ∑𝑖≠𝑗 𝑎𝑖𝑗 2
*rij = coeficiente de correlación observado entre las variables Xi y Xj
*aij = coeficiente de correlación parcial observado entre las variables X i y Xj. Se
obtiene como la correlación existente entre estas dos variables después que se
ha eliminado el efecto lineal de las restantes variables.

Interpretación:
- Correlación Parcial: Si existe una estructura común subyacente en la data, las
correlaciones parciales en general deben ser bajas (menores a 0,3).
- MSA: Deben ser sobre 0,7 para que cada variable se adecue de manera
correcta al análisis (si es bajo esto significa que la variable no se
correlaciona con las otras). Si está bajo el corte, se evalúa si eliminar la(s)
variables, o no hacer el análisis factorial.
 KMO  para medir lo consecuente del análisis factorial (MSA general).
∑𝑖 ∑𝑖≠𝑗 𝑟𝑖𝑗 2
𝐾𝑀𝑂 𝑀𝑆𝐴 =
∑𝑖 ∑𝑖≠𝑗 𝑟𝑖𝑗 2 + ∑𝑖 ∑𝑖≠𝑗 𝑎𝑖𝑗 2

Debería ser mayor a 0,7 para aplicar este modelo. Si es bajo eso, no se adecua
bien el modelo, debido a que un factorial no es adecuado cuando la agrupación de
variables tiene una correlación baja entre sí. La recomendación es eliminar
variables con bajo MSA, para luego considerar la medida global.

 PRUEBA DE ESFERICIDAD DE BARTLETT  contrasta la matriz de correlaciones con


la matriz de correlación identidad. Se busca rechazar la hipótesis nula de que la
matriz de correlaciones es igual a la identidad (no correlacionadas).
𝐻0 : 𝑅 = 𝐼 𝐻1 : 𝑅 ≠ 𝐼

Se rechaza si el valor p < 0,05. A mayor tamaño muestral (n), tiende a rechazar H0.
TÉCNICAS DEL ANÁLISIS FACTORIAL
Dos principales procedimientos para la extracción de factores:
 Análisis factorial común  se utiliza cuando el objetivo es la interpretación.
 Componentes principales  se utiliza cuando el objetivo es la reducción de datos,
se toma en cuenta la varianza total de la nube de puntos. Es el más utilizado y el
que nosotros estudiaremos.

DETERMINACIÓN DE LOS FACTORES

Un factor F es una combinación lineal de las variables observadas. Las a corresponden a


los puntajes factoriales, que son los puntajes que cada factor asigna a los individuos
observados.
𝐹 = 𝑎1 𝑋1 + 𝑎2 𝑋2 +. . . +𝑎𝑚 𝑋𝑚

 Si los puntajes están estandarizados,


coinciden el origen O del sistema de coordenadas
y el centroide de la nube de puntos.
 La varianza total de la nube de puntos es
una constante del conjunto de observaciones. Si
los puntajes están estandarizados, varianza total:
𝑉𝑇 = ∑ 𝑠𝑋2 = 𝑚
*m = #total de factores obtenidos = suma de las
varianzas de los factores.
 Conviene elegir los pesos factoriales de
modo que 𝑎12 + 𝑎22 + . . . +𝑎𝑚
2
= 1. Así, el puntaje
factorial coincide con la distancia entre el origen
O y la proyección de P(X1, X2,.., Xm) sobre el eje
asociado a F.
MÉTODO DE LOS COMPONENTES PRINCIPALES

 El primer factor F1 se elige buscando el eje asociado que produzca la máxima varianza
de los puntajes factoriales. El cociente entre esta varianza S2F1 y la varianza total m es
el porcentaje de la varianza explicada por el primer factor.
 El segundo factor es elegido dentro de los factores cuyos ejes asociados son
perpendiculares al eje de F1. Específicamente, se elige aquel eje que contiene la
máxima varianza residual (no explicada por F1).
 Proceso se repite construyendo nuevos factores (ortogonales a los anteriores) que
expliquen el máximo posible de varianza residual. La ortogonalidad garantiza que la
covarianza entre cualquier par de factores es 0.

A lo más, se pueden generar tantos factores como variables originales se tiene.


Los factores se calculan de modo que, a diferencia de lo que sucede en las variables
originales, no haya correlación entre sus puntuaciones. Además el primer factor explica
la varianza más alta de los datos, el segundo factor la segunda más grande y así
sucesivamente.

VALOR PROPIO O AUTOVALOR: es la cantidad de varianza del sistema de datos que es


atribuible al factor. Se ordenan decrecientemente y suman m, la varianza total del
sistema de datos. Ej: 3 factores, ƩV.P = 3.

INTERPRETACIÓN DE LOS FACTORES

 CARGAS/PESOS FACTORIALES: correlaciones entre los factores y las variables


originales.
La suma de los cuadrados de las cargas factoriales de un componente (factor,
incluyendo todas las variables), es igual a la varianza explicada por el factor (valor
propio). De esta relación, se obtiene una medida de la participación que cada variable
original tiene en la varianza de Fi.
𝑟𝐹2𝑖 𝑋𝑗
𝐼𝑚𝑝𝑜𝑟𝑡𝑎𝑛𝑐𝑖𝑎 𝑑𝑒 𝑋𝑗 (𝑒𝑛 𝐹𝑖 ) =
𝑣𝑎𝑙𝑜𝑟 𝑝𝑟𝑜𝑝𝑖𝑜 𝑑𝑒 𝐹𝑖

 Conveniente que las cargas factoriales sean cercanas a 1 ó 0, para que cada
variable original esté altamente correlacionada con un único factor.
 Un factor podría estar ligado principalmente a dos o más variables originales.
 El concepto (constructo) que se asocia a cada factor proviene de considerar sus
variables relacionadas como un todo.

Matriz Componentes Rotados


Una manera de obtener mayor definición en las cargas factoriales es “rotando” las
componentes principales obtenidas por el análisis factorial. La rotación transforma la matriz
de componentes en una más sencilla y más fácil de interpretar. Existen varios procedimientos
que permiten rotar la matriz de cargas factoriales:
 Rotaciones ortogonales (para que los factores sean independientes entre sí, es decir,
que no estén correlacionados)  varimax, quartimax.
 Rotaciones oblicuas (entrega factores relacionados)  direct oblimin, promax.
Difiere con la matriz de componentes ya que redistribuye los pesos factoriales en los
factores seleccionados, con el fin de poder mostrar que variable se está correlacionando
más con el factor. Sin embargo, la varianza total explicada por los factores rotados sigue
siendo igual a la varianza total explicada por los factores seleccionados antes de la
rotación. En general, las varianzas explicadas por los factores rotados se redistribuyen de
manera que no necesariamente al primer factor le corresponderá la varianza máxima
explicada.

 La rotación se realiza una vez que los factores han sido seleccionados.
 Después de rotar; se obtienen nuevos puntajes factoriales.
 Las rotaciones ortogonales se visualizan mejor si se procede a graficar variables
originales y factores en un espacio particular (un espacio de transformaciones).
 Para obtener los valores de las variables originales a partir de los puntajes factoriales
se pueden utilizar ecuaciones de regresión.
𝑋𝑖 = 𝑟𝑋𝑖 𝐹1 𝐹1 + 𝑟𝑋𝑖 𝐹2 𝐹2 +. . +𝑟𝑋𝑖 𝐹𝑡 𝐹𝑡

Para la interpretación, debemos fijarnos si las variables son afirmaciones negativas o


positivas, y si las cargas son positivas o negativas:
Variables
+ -
Carga + + -
Factorial - - +
Esto influye en la interpretación del constructo, lo cual es importante para el mapa de
posicionamiento. Si es negativa la interpretación, se pueden multiplicar los puntajes
factoriales de ese factor por -1, para que cambie la interpretación a ser positiva y sea más
intuitiva la interpretación en el mapa.

Una vez realizado el análisis factorial, se podría querer realizar subsecuentes análisis
utilizando variables originales, en vez de factores. Con esta finalidad, se seleccionan
variables sustitutas. En general, se elige como variable sustituta a aquella variable que
tiene la carga más elevada en ese factor.

Gráfico de Cargas Factoriales Rotadas/ Gráfico de Componentes en Espacio Rotado


Los ejes son factores, mientras más largo y menor ángulo el vector (más apegado al eje),
más correlacionado a ese factor. Gráfico que representa la matriz de los componentes.
Mientras más cerca del eje, mayor la carga la factorial, por lo tanto mejor distribuido. Las
variables que se encuentren en la mitad (diagonal) no carga a ninguno de los dos factores
de mayor manera, y hay que evaluar sacarla o agregar factor.
Mapa de Posicionamiento
Al poner dos factores en un plano cartesiano, podemos ver posicionamientos según
categorías (variables no métricas). La categoría nos va a permitir agrupar los puntos en el
plano cartesiano, y por lo tanto sacar promedios, obteniendo centroides (promedios) por
cada grupo.
Primeramente, se obtienen los puntajes factoriales y se realiza una tabla dinámica (filas:
puntajes factoriales; columnas: variable categórica) para obtener los promedios. Luego, se
grafican.
Se deben analizar si las distancias son estadísticamente significativas a través de una
prueba T (H0: medias iguales) o un ANOVA de una vía. Si no hay diferencia estadística, las
estrategias a utilizar no deberían ser diferentes debido a que la percepción
estadísticamente es igual. A través de una prueba Post – hoc / Bonferroni se observan si
hay diferencias entre los grupos, y su significancia.
1. OBTENER PUNTAJES FACTORIALES: Analizar, Reducción de dimensiones,
Factor, Puntuaciones, Guardar como variables (método regresión).
2. SACAR PROMEDIOS DE LOS PUNTAJES PARA CADA CATEGORÍA:
Analizar, tablas, tablas personalizadas, agregar los factores a fila,
agregar la variable categórica a columnas.
3. COPIAR TABLA A EXCEL
4. GRAFICAR: seleccionar los puntajes de los factores a graficar, insertar,
gráfico dispersión.
5. DETALLES: balancear, nombrar ejes

CRITERIOS PARA ELEGIR CANTIDAD DE FACTORES

- PORCENTAJE MÍNIMO DE VARIANZA EXPLICADA  se selecciona el número de


factores que alcance el 67% de la varianza explicada acumulada (2/3).

- VARIANZA MÍNIMA EXPLICADA POR CADA FACTOR (AUTOVALOR > 1) conservar los
factores cuyo valor propio es mayor a 1, es decir, que represente/explique más de 1
variable; no es relevante un factor que explique menos de una variable ya que en ese
caso es mejor la variable por si sola (que es igual a un autovalor de 1). Ej: 2,2; significa
que explica 2,2 variables.
- Gráfico de Sedimentación: grafica la tabla de autovalores (número componentes;
autovalores). La cantidad de componentes (factores) a seleccionar corresponde al
punto en donde se quiebra notablemente la pendiente.

Una vez que se han seleccionado los factores, podemos calcular la varianza de cada
variable original que queda explicada por los factores seleccionados. Si se mantienen los
m factores, esta varianza es 1. Sin embargo, si el número de factores se ha reducido, esta
varianza podría cambiar.

- Comunalidades  es la varianza de Xi que continúa siendo explicada por los factores


seleccionados. Corresponden al porcentaje de información que contiene cada variable
principal y que queda expresada en la variable de extracción. Se obtiene sumando los
cuadrados de las correlaciones de Xi con cada uno de los factores seleccionados. (Las
comunalidades pueden ser entendidas como porcentajes, ya que la varianza de una
variable original es 1). Se trata de ver que no existan variables con bajas
comunalidades, ya que si es baja, significa que no está bien representada siendo
incluida en los factores. Debe ser mayor a 50%, y se evalúa la opción de agregar un
factor, o sacar una variable. (a mayor cantidad de factores, mayor comunalidad).
Cuando se agregan factores, solo cambian las comunalidades y la matriz de
componentes ya que las cargas se redistribuyen.
Si quitamos una variable, sacamos un autovalor y la distribución cambia.
Por lo tanto, cambia todo el análisis.

ANÁLISIS FACTORIAL
 Analizar, Reducción de Dimensiones, Factor, agregar las variables.
 DESCRIPTIVOS: solución inicial, coeficientes, niveles de significación,
determinante, KMO y prueba de esfericidad de Bartlett, Anti-imagen.
 EXTRACCIÓN: componentes principales, matriz de correlaciones
solución factorial sin rotar, gráfico de sedimentación, *basado en
autovalor o número de factores (según lo que se quiera hacer).
 ROTACIÓN: varimax, solución rotada, gráfico de sedimentación.
 PUNTUACIONES: *regresión
 OPCIONES: excluir casos según lista, ordenados por tamaño.
ANÁLISIS DE REGRESIÓN LINEAL

A. REGRESIÓN SIMPLE

OBJETIVOS:
 Realización de Pronósticos (Importante en este caso un valor grande de R2 error
estándar de la estimación se sea pequeño con respecto a sy).
 Estimar el porcentaje de la variabilidad que explica una variable numérica de otra
variable también numérica (respuesta)

VARIABLES
 Variable predictora/independiente: X
 Variable de criterio/depediente: Y

MODELO ESTADÍSTICO/POBLACIONAL DE REGRESIÓN

𝑌 = 𝛽0 + 𝛽1 𝑋 + 𝜀
*ε : error (variable aleatoria)

ECUACIÓN DE REGRESIÓN MUESTRAL


Expresión algebraica lineal en X (gráfico es una línea recta) que permite estimar la
respuesta promedio, dado un cierto valor de x.

Ŷ = 𝛽̂0 + 𝛽̂1 𝑋

- Ŷ: Valor pronosticado para la respuesta promedio


- 𝛽̂0: constante; intercepto de la recta. Valor pronosticado cuando X=0
- 𝛽̂1: coeficiente de regresión; pendiente de la recta. Cambio en Ŷ por unidad de cambio
en X.
MÉTODO DE LOS MÍNIMOS CUADRADOS

La ecuación de regresión muestral se obtiene mediante el método de los mínimos


cuadrados, que minimiza la suma de los cuadrados de los residuos.

𝑆 = ∑(𝑦𝑖 − ŷ𝑖 )2
1

∑𝒏𝟏(𝒙𝒊 − 𝒙
̅)(𝒚𝒊 − ȳ) 𝑪𝒐𝒗(𝒙, 𝒚)
̂𝟏 =
𝜷 = ̂𝟎 = 𝒚
𝜷 ̅ − 𝒃𝟏 𝒙
̅
𝒏
̅) 𝟐
∑𝟏 (𝒙𝒊 − 𝒙 𝒔𝟐𝒙

Se entiende que 𝛽̂0 y 𝛽̂1 en la ecuación de regresión muestral son estimaciones de los
parámetros β1 y β0 del modelo estadístico.

SUPUESTOS:
1. MEDIA CONDICIONADA NULA: Para cada x, la distribución de probabilidad de u
(residuos) es normal con media 0. E(u|X) = 0

Retener H0

Normalidad entre Y e Xi

2. HOMOCEDASTICIDAD: La varianza σ2 del error ε es constante e independiente del


valor de x. Var(u|X) = σ2
Retener H0 del Test de Levene
3. VALORES DE U SON INDEPENDIENTES ENTRE SÍ: no correlacionados.

Retener H0: X e Y son independientes

PROPIEDADES:
 Centroide punto (𝑥̅ , 𝑦̅), pertenece a la recta de regresión.
 ∑𝑛𝑖=1 𝜀̂𝑖 = 0
 ∑𝑛𝑖=1 𝑥𝑖 𝜀̂𝑖 = 0

RESIDUOS
Diferencia entre el valor observado de respuesta y la predicción entregada por el
modelo estimado.
𝒖 = 𝒚𝒊 − ŷ𝒊

ERROR ESTÁNDAR DE LA ESTIMACIÓN (se)


Da la medida de la dispersión de los valores de Y respecto de la recta de regresión.

Estimador Insesgado de la
̂ )𝟐
∑(𝒚 − 𝒚 varianza del error, σ2
𝒔𝒆 = √
𝒏−𝟐

ESTIMACIÓN ERROR ESTÁNDAR DE Ŷ


Si utilizamos la ecuación de regresión muestral para predecir la respuesta (dado un valor
X = Xp), obtenemos una estimación puntual ŷ del valor esperado de Y. Para estimar el error
estándar de ŷ:
1 (𝑥𝑝 − 𝑥̅ )2
𝑠𝑦̂ = 𝑠𝑒 √ +
𝑛 ∑(𝑥 − 𝑥̅ )2

El intervalo de confianza para la respuesta promedio, dado un cierto valor de X = Xp Se


construyen utilizando la distribución t, con n – 2 grados de libertad.

𝐼𝐶 = 𝑦̂ ± 𝑡𝑠𝑦̂

ERROR ESTÁNDAR DEL PRONÓSTICO


Nos indican los límites entre los cuales se encuentra la respuesta individual Y.
1 (𝑥𝑝 − 𝑥̅ )2
𝑠𝑝 = 𝑠𝑒 √1 + +
𝑛 ∑(𝑥 − 𝑥̅ )2

Los intervalos de predicción se construyen utilizando la distribución t, con n –2 grados de


libertad, y tienen la forma:
𝑦̂ ± 𝑡𝑠𝑝

COEFICIENTE DE DETERMINACIÓN R2 Porcentaje de la variabilidad total


no explicada por la variable x
𝑆𝐶𝐸 𝑆𝐶𝑅
𝑅2 = 1 − =
𝑆𝑇𝐶 𝑆𝑇𝐶

Porcentaje de la variabilidad de Y que queda explicado por la variable independiente X.


Se compone de las sumas totales de los cuadrados siguientes:
 SCT (Suma total de los cuadrados): variabilidad total (variación muestral del yi)
𝑛

𝑆𝑇𝐶 = ∑(𝑦𝑖 − 𝑦̅)2


𝑖=1
 SCR (suma explicada de los cuadrados): variación no explicada por la regresión.
(variación muestral de 𝑦̂𝑖 ). En tabla ANOVA representada como “REGRESIÓN”
𝑛

𝑆𝐶𝑅 = ∑(𝑦̂𝑖 − 𝑦̅)2


𝑖=1
 SCE (Suma de los residuos al cuadrado): variación no explicada por la regresión,
(variación muestral de 𝑢̂𝑖 ). En tabla ANOVA representada como “RESIDUAL”.
𝑛

𝑆𝐶𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2


𝑖=1
𝑆𝑇𝐶 = 𝑆𝐶𝐸 + 𝑆𝐶𝑅

Además, la raíz cuadrada de R2 es igual al valor absoluto del coeficiente de correlación.


√𝑅 2 = 𝑟𝑥𝑦

𝑠𝑦
𝛽1 = 𝑟
𝑠𝑥 𝑦𝑥
Una consecuencia de esta relación es que si los puntajes de X e Y están estandarizados,
entonces la ecuación de regresión que se obtiene es:
𝑦̂ = 𝑟𝑦𝑥 𝑥
PRUEBA DE HIPÓTESIS
La prueba T y la F son equivalentes en la regresión simple.
𝑯𝟎 : 𝜷 𝟏 = 𝟎 ; 𝑯 𝟏 : 𝜷 𝟏 ≠ 𝟎

̂
𝛽
Estadístico (gl= n – 2)  𝑇 = 𝑠 1
̂1
𝛽

Rechazo H0 cuando Tobs>Tc o cuando valor p < α.


Si el valor hipotético de β1(0) ≠ 0, entonces se utiliza el estadístico
𝑏1 − 𝛽1(0)
𝑇=
𝑠𝑏1

𝑆𝐶𝑅
1 𝐶𝑀𝑅
𝐹= =
𝑆𝐶𝐸 𝐶𝑀𝐸
(𝑛 − 2)

B. REGRESIÓN MÚLTIPLE

OBJETIVOS PRINCIPALES
 Predicción: se busca el máximo poder predictivo seleccionando un modelo que
presente el máximo R2 ajustado (o, equivalentemente, seleccionando un modelo que
presente una mínima varianza estimada del error).
 Explicación: se busca priorizar los predictores, según sean las magnitudes de sus
efectos individuales sobre la predicción. Es de interés:
– Analizar la naturaleza de las relaciones entre la variable de criterio y las
variables predictoras, por medio del estudio de diferentes transformaciones.
– Estudiar interrelaciones entre variables independientes con el objetivo de
buscar un conjunto óptimo de predictores que presenten baja
multicolinealidad.
La construcción de modelos de regresión múltiple, basada en la selección de variables
que presentan altas correlaciones con la variable de criterio (y bajas correlaciones entre sí)
es limitada ya que podría no reconocer modelos que tienen mayor poder predictivo. Sin
embargo, si es importante que ocurra este punto.

El tamaño de la muestra, debido al sesgo que presenta R2, debe cumplir una razón entre
los casos y variables de 5 a 1 (ideal 15 a 1 ó 20 a 1). Si se utiliza regresión por pasos, 50 a 1.

Considera más de una variable predictora, y podría realizar pronósticos más ajustados.
Modelo teórico:
𝑌𝑖 = 𝛽0 + 𝛽1 𝑋1 + 𝛽2 𝑋2 +. . +𝛽𝑛 𝑋𝑛 + 𝜀𝑖

La construcción de modelos de regresión lineales en los cuales la relación entre la


variable dependiente y las independientes son no lineales, se puede realizar simplemente
mediante la introducción de apropiadas transformaciones.

SUPUESTOS (con dos variables predictoras):


1. Media Condicionada Nula: Para cada x (x1,x2), la distribución de probabilidad de εi es
normal con media 0. E(ε|X) = 0  Estudiar gráficos de normalidad, histogramas, K-S.
2. Homocedasticidad: La varianza σ2 del error ε es constante e independiente del valor
de x. Var(ε|X) = σ2  Estudiar los residuos estudentizados versus variable
dependiente (gráficos de regresión parcial, si no hay una distribución uniforme, no es
constante la varianza)
3. Variables aleatorias εi son independiente entre sí.  Estudiar los gráficos de residuos
estudentizados versus la variable dependiente, Durbin-Watson (ver si hay algún
patrón)

Si se viola alguno de estos supuestos, la estimación va a estar sesgada.

ECUACIÓN DE REGRESIÓN MUESTRAL


Una vez que los datos han sido obtenidos, se procede a calcular los estimadores de
mínimos cuadrados de los parámetros 𝛽̂0 , 𝛽̂1 𝑦 𝛽̂2 , de los parámetros β0, β1, y β2.

Cambio en ŷ por unidad de cambio en X2,


𝑦̂ = 𝛽̂0 + 𝛽̂1 𝑋1 + 𝛽̂2 𝑋2 permaneciendo fijas las restantes variables.
Con dos variables predictoras, la ecuación de regresión muestral determina un plano en
el espacio. Este plano de predicciones ŷ, minimiza la suma de los cuadrados de los
residuales:
𝑆 = ∑(𝑦𝑖 − 𝑦̂)2
𝑖

PROCEDIMIENTOS COMPUTACIONALES

Método Enter/Combinatorial Regresión por Pasos


La ecuación de regresión contiene a todas Se busca un pequeño conjunto de variables
las variables predictoras. predictoras que expliquen un porcentaje
significativo de la variabilidad de y.
- Buscar el modelo con el menor Agrego una a una las variables. Calculo
estimador de la varianza del error. todas las regresiones posibles. C de
- Comparar la varianza con la suma de los Masllow.
errores cuadrado medio de cada
predicción del modelo con menos
variables
Desventajas:
- Los resultados son altamente inestables
cuando se utilizan procedimientos que
dividen la muestra en dos mitades.
- Aumenta la probabilidad de omitir del
modelo variables que son claves.
- Metodología inferior a cualquier otro
enfoque teórico.
- Las pruebas estadísticas podrían ser
inexactas ya que el procedimiento
selecciona variables que maximizan
tales test
Por lo tanto, debe usarse con gran
cuidado.

PROBLEMAS QUE SE PRESENTAN EN EL DISEÑO DE UN MODELO DE REGRESIÓN MÚLTIPLE

1. MULTICOLINEALIDAD: Existe un problema de multicolinealidad cuando dos o más


variables predictoras aparecen explicando una misma porción de la variabilidad de y
(está linealmente determinada por las restantes). Cuando esto ocurre, las
estimaciones de los coeficientes de regresión podrían presentar un alto grado de
inestabilidad. Opciones para seleccionar un subconjunto de variables predictoras con
bajo efecto de multicolinealidad:
 Si hay pocas variables predictoras, se eligen predictores que presenten alta
correlación con la variable de criterio y bajas correlaciones entre ellos.
 Variable proxi: si tenemos dos X correlacionadas entre sí, buscar una variable que
esté correlacionada con la variable con multicolinealidad pero no correlacionada
con las que no, e intercambiamos estas variables independientes.
 Regresión por pasos.

Si hay sospecha de que dos variables interactúan produciendo multicolinealidad, es


recomendable analizar un modelo de regresión conteniendo estas variables.

Se refleja en:
 Relativamente bajos valores t.
 Errores estándares de los coeficientes de regresión (𝛽̂ ) grandes.
 Aparición de valores no plausibles para los coeficientes de la regresión

¿Cómo medirlo?
1. R2j: obtener los R2 de las regresiones de cada uno de los predictores respecto a las
restantes variables predictoras. Si el mayor R2j es cercano a 1, se puede
tentativamente diagnosticar multicolinealidad aproximada.
2. TOLERANCIA (TI): porcentaje de la variabilidad del predictor Xi que no está
explicada por la variabilidad de los restantes predictores, es decir, cuánto por si
sola una variable está explicando a la variable dependiente. Una T muy pequeña
significa que la variable es prácticamente una combinación lineal de las otras.
Buscamos tolerancias altas para, que por sí sola, la variable independiente esté
aportando a la dependiente.
𝑇 = 1 − 𝑅𝑗 2

3. FACTOR DE INFLACIÓN DE LA VARIANZA: el error estándar de 𝛽̂𝑖 , por lo tanto el


valor recíproco de la tolerancia de una variable predictora (FIV) se utiliza como
una medida de la multicolinealidad presente en el modelo:
1
𝑉𝐼𝐹(𝑥𝑖 ) =
𝑇𝑖
Criterios:
 Multicolinealidad si 𝑉𝐼𝐹 ≥ 5, ya que la variable es explicada por las restantes
a lo menos por un 80%, R2j ≥ 0,8.
 Multicolinealidad si 𝑉𝐼𝐹 ≥ 10, ya que la variable es explicada por las
restantes a lo menos por un 90%, ya que R2j ≥ 0,9.

2. AUTOCORRELACIÓN
Cuando existe cierto tipo de correlación entre los residuales. Es positiva si la
tendencia es que el próximo residual tengo el mismo signo (en caso contrario, se dice
que la autocorrelación es negativa). SE BUSCA QUE NO HAYA AUTOCORRELACIÓN.

¿Cómo se mide?
 Estadístico de Durbin-Watson: permite detectar autocorrelación positiva.
𝑨𝒖𝒕𝒐𝒄𝒐𝒓𝒓𝒆𝒍𝒂𝒄𝒊ó𝒏 𝑵𝒆𝒈𝒂𝒕𝒊𝒗𝒂 > 𝟏, 𝟓

3. HETEROCEDASTICIDAD
Cuando la magnitud de los residuales está relacionada con el tamaño de una de las
variables independientes.

¿Cómo se mide?
 Se revela por medio de los gráficos de residuales (residuales v/s variable
dependiente o independiente).
 A través de los coeficientes de correlación entre los residuales y cada una de
las variables independientes.

ERROR ESTÁNDAR DE LA ESTIMACIÓN


Estima la dispersión del error en el modelo. Estimador insesgado de la varianza del error.
Por lo tanto, se interpreta como una medida del ajuste de los datos al plano de regresión.

∑(𝑦 − 𝑦̂)2
𝑠𝑒 = √
𝑛−𝑚−1
- m = número de variables predictoras.
- n = tamaño de la muestra.

Su tamaño se compara con sy.

COEFICIENTE DE DETERMINACIÓN MÚLTIPLE R2


Mide el porcentaje de variabilidad explicado por las variables predictoras.

∑(𝑦 − 𝑦̂)2 𝑆𝐶𝐸 𝑆𝐶𝑅


𝑅2 = 1 − 2
=1− =
∑(𝑦 − 𝑦̅) 𝑆𝑇𝐶 𝑆𝑇𝐶

No puede ser menor que el más grande de los r2 simples obtenidos correlacionando
cada uno de los predictores con la variable criterio.
Existe una variable supresora cuando esta variable xi presenta una correlación simple
muy baja; sin embargo, el R2 del modelo que contiene a xi y xj es sustancialmente más alto
que el r2 simple de la variable xj. Se evidencia esto cuando el coeficiente parcial de
regresión presenta un signo opuesto al esperado. Estas variables producen dificultades de
interpretación, por lo que si la finalidad principal del análisis es la explicación, lo
recomendable es remover tales variables del modelo.

COEFICIENTE DE CORRELACIÓN MÚLTIPLE


El coeficiente √𝑅 2 = 𝑅 coincide con el coeficiente de correlación múltiple 𝑟𝑦𝑦̂ .

R2 AJUSTADO
Considera el efecto de la inclusión de más variables predictoras controlando el posible
aumento del Se.
2
𝑛−1
𝑅𝐴𝑑𝑗 = 1 − (1 − 𝑅 2 )
𝑛−𝑚−1

COEFICIENTES ESTANDARIZADOS/TIPIFICADOS
Son los coeficientes de regresión que se obtienen cuando se estandarizan los puntajes
de cada una de las variables, tanto las predictoras como la de criterio. En este caso, la
constante de regresión es siempre igual a 0.
Muestran las correlaciones entre Xi e Y. Mientras más grande el beta, más importante
es, y este debe ser señalado como la variable más importante.

𝑠𝑥𝑖
𝑖 − é𝑠𝑖𝑚𝑜 𝑐𝑜𝑒𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑒 𝑒𝑠𝑡𝑎𝑛𝑑𝑎𝑟𝑖𝑧𝑎𝑑𝑜 = 𝑏𝑖
𝑠𝑦
COEFICIENTE DE REGRESIÓN SEMIPARCIAL
Es el coeficiente de correlación entre Y y los residuos obtenidos al regresar la variable
independiente Xj por las otras variables predictoras.
𝑟𝑦𝑥𝑗(𝑥𝑘,𝑥𝑙,… ) = 𝑟𝑦𝑒𝑥
𝑗

𝟐
𝒓𝒚𝒆𝒙 mide el porcentaje de la variabilidad total de Y que es explicado sólo por X j.
𝒋

2
𝑏
𝑟𝑦𝑒𝑥 =
𝑗 𝑎+𝑏+𝑐+𝑑
Se asocia al incremento de R2, cuando Xj se agrega al modelo con los otros predictores.

COEFICIENTES DE REGRESIÓN PARCIAL


Correlación entre Y y Xj al retirar, tanto de Y como de Xj, el efecto de las restantes
predictoras: correlación entre los residuos de Xj y los residuos de Y
𝑟𝑦𝑥𝑗●𝑥𝑙… = 𝑟𝑒𝑦 𝑒𝑥
𝑗

Las correlación parcial al cuadrado mide el porcentaje de variabilidad de Y no


explicada por los restantes predictores y que es atribuible sólo a Xj al ingresar al modelo.
Por lo tanto, tiene relación con el incremento porcentual del R2.
𝑏
𝑟𝑒𝑦 𝑒𝑥 2 =
𝑗 𝑏+𝑑

Para obtenerlos manualmente, se debe:


1) Regresar Y de X1, X2…., Xp
2) Se forman los residuos 𝑒𝑦 = (𝑦 − 𝑦̂)
3) Regresar Xj de todas las restantes variables independientes.
4) Se calculan los residuos 𝑒𝑥𝑗 (𝑋𝑗 − 𝑋̂𝑗 )
5) Correlacionar ambos residuos

|𝐶𝑜𝑟 𝑠𝑒𝑚𝑖𝑝𝑎𝑟𝑐𝑖𝑎𝑙 (𝑦, 𝑥𝑗 )| ≤ |𝐶𝑜𝑟 𝑝𝑎𝑟𝑐𝑖𝑎𝑙 (𝑦, 𝑥𝑗 )|

Además de ser la correlación semiparcial menor a la parcial, ambos siempre son del
mismo signo.

Cor semiparciales2: aumento neto de R2

Cor parciales2: incremento porcentual en R2


respecto a lo que queda por explicar.
PRUEBAS DE HIPÓTESIS EN REGRESIÓN MÚLTIPLE

REGLA UNIVERSAL:
Valor p < α  Rechazamos H0
Caso contrario Retenemos H0

1. El estadístico F de la tabla ANOVA es el estadístico de prueba de la hipótesis nula:


𝐻0 : 𝛽1 = 𝛽2 =. . . = 𝛽𝑚 = 0

La hipótesis alternativa establece que a lo menos uno de los coeficientes del modelo
de regresión es diferente de 0, es decir, a lo menos una de las variables predictoras
es significativa en la regresión.

SCR
SCE
STC

2. El estadístico t (gl = n – m – 1) correspondiente a xi es el estadístico de prueba de la


hipótesis nula (cuando la variable xi se integra en el último lugar al modelo construido
con las restantes variables predictoras):

𝐻0 : 𝛽𝑖 = 0

Esta prueba permite decidir si R2 se incrementa significativamente, cuando la variable


xi se integra al modelo construido con todas las restantes variables predictoras.

𝛽̂𝑖
𝑡=
𝑆𝐸(𝛽̂𝑖 )
 Si el R2 del modelo es pequeño entonces 𝑆𝐸(𝛽̂𝑖 ) tenderá a ser mayor
 Cuando la regresión es para definición de segmentos, es típico que la regresión
utilizada produzca R2 bajos; tan bajos como 0,1 o menor.

IMPORTANCIA RELATIVA DE LOS PREDICTORES DEL MODELO


1. Magnitudes de los coeficientes estandarizados de la regresión. Permiten comparar
los efectos marginales de las diferentes variables independientes, al medir estos
cambios en unidades de desviación estándar. Más grande, más importante.
2. Magnitudes Valores t. Miden el aporte marginal de cada variable en la explicación de
la variabilidad de la variable de criterio. A mayor t, mayor importancia.

El uso de variables categóricas podría ayudar en la construcción de un


modelo más ajustado. Con esta finalidad se representa la variable
categórica de c categorías por medio de c – 1 variables binarias.
En este caso, el análisis de regresión se desarrolla como es usual,
utilizando las variables binarias construidas.

AUMENTO DE VARIABLES INDEPENDIENTES


 Aumenta o mantiene SCR, es decir R2 a lo menos no disminuye.
 Podría aumentar el error estándar de la estimación

Por lo tanto, el ajuste del modelo se mide a través del Se2 y no del R2; sin embargo, existe
la alternativa del Radj2.

Aceptamos que hay contribución significativa de una cierta variable al modelo con todas
2
las variables si podemos inferir que ∆𝑝 > 𝜎(𝑝+1) . Es decir, que el incremento en el número
de variables sea mayor a la varianza estimada del error en el modelo con las p + 1
variables.
Pruebas F parciales: en el test F de Fisher con gl = 1 en el numerador y gl= n – p -1 en el
denominador, decide si el decrecimiento en SCE cuando una variable se agrega al modelo
formado por p variables, contribuye significativamente al mejoramiento de tal modelo
cuando esta variable ingresa como última variable al modelo formado por las restantes. Es
equivalente a las pruebas t.
𝑆𝐶𝐸(𝑝−1) − 𝑆𝐶𝐸(𝑝)
𝐹=
𝑆𝐶𝐸(𝑝−1)
(𝑛 − 𝑝 − 1)

C DE MASLLOWS
Número aleatorio que muestra cuanto se aleja ese modelo, del aquel que contiene
todas las variables incluidas. Ahí tenemos que comparar y buscar el óptimo. Un buen
modelo es el que más se acerca al valor k + 1 (𝐶𝑘+1 = 𝑘 + 1 idealmente).

1 − 𝑅𝑘
𝐶𝑘+1 = (𝑛 − 𝑇 − 1) − (𝑛 − 2(𝑘 + 1))
1 − 𝑅𝑇2

– K = número de variables independientes del modelo


– T = número total de variables independientes a disposición

Dos modelos de regresión que se construyen utilizando dos subconjuntos de un


conjunto de T variables, pueden ser comparados a través de los valores de los estadísticos
de Masllows.

Es un indicador de insesgamiento en las predicciones. Este insesgamiento se mide con


respecto a las predicciones que realiza el modelo con todas las T variables, las que se
consideran insesgadas. Dado que Ck+1 es una variable aleatoria, dos modelos no pueden
diferenciarse si los valores de sus estadísticos de Masllows son cercanos.
Un modelo con 𝑪𝒌+𝟏 ≤ 𝑻 + 𝟏 será candidato a ser un buen modelo.
𝐶𝑘+1 = (𝑇 + 1 − 𝑘)(𝐹𝑘 − 1) + 𝑘

Dada la naturaleza del estadístico C de Mallows, es recomendable iniciar el análisis


seleccionado en primer término aquellos modelos con un valor de C aceptable. Luego, la
selección podría continuar dependiendo de si es relevante o no la existencia de
multicolinealidad en el modelo. De ser relevante, restrinjir la búsqueda desechando
aquellos modelos que presentan un cierto grado de multicolinealidad (VIF sobre un valor
de criterio). Finalmente seleccionar aquellos modelos con máximo R2adj (o,
equivalentemente, con mínimo s2e). En la decisión final, cuidar la parsimonia del modelo.
ANÁLISIS DISCRIMINANTE

Se busca un conjunto de variables que mejor identifique la categoría o grupo a la que


pertenece un individuo. Por lo mismo, busca predecir en términos de pertenencia a un
grupo (probabilidad que una observación pertenezca a cierto grupo), y explicar una
variable dependiente.
 Variable Dependiente  Categórica
 Bigrupal (dummy)
 Multigrupal (categórica de más de dos grupos)
 Variable Independiente/Predictoras  Métrica

ANÁLISIS DISCRIMINANTE BIGRUPAL: dos categorías de interés

 Objetivo: comprender las diferencias entre los dos grupos en que ha sido dividida la
muestra, y predecir la probabilidad de que un objeto pertenezca a uno de los
segmentos basado en las variables independientes estudiadas.

Se construye una función discriminante (índice Z) tomando como base una cierta
combinación lineal de las variables predictoras. Esta función se utiliza para asignar
puntajes a los individuos (puntajes discriminantes), que permiten identificar la categoría a
la que pertenece un individuo. Función discriminante:

𝒁 = 𝒂 + 𝒌𝟏 𝑿𝟏 + 𝒌𝟐 𝑿𝟐 +. . . +𝒌𝒎 𝑿𝒎

- Z = puntaje discriminante
- Km = pesos discriminantes (coeficientes de las funciones canónicas)

Geométricamente, las estimaciones de los pesos discriminantes se buscan proyectando


cada punto del diagrama de dispersión sobre una recta, la cual corresponde a la que mejor
separa y concentra las proyecciones de los dos grupos de puntos.
El eje discriminante es la recta perpendicular de este eje separador de grupos, la cual es
la función que mejor discrimina los grupos.
El puntaje discriminante Z es proporcional a la distancia entre el origen y la proyección
del punto (X1,X2) sobre el eje entrar que pasa por (k1,k2).

Por lo tanto, determinar la función discriminante óptima es equivalente a encontrar el


eje que concentra las proyecciones en torno a su respectivo centroide (proyectado) y que,
simultáneamente, separa estos centroides.

 Coeficientes de las funciones canónicas discriminantes: otorga información de la


función discriminante. Para predecir a que grupo pertenece una persona que entra en
el modelo, se deben ocupar estos coeficientes (con su puntaje Z se podrá aplicar el
criterio de discriminación):
K1

K2
Z = -3,141 + 0,142*Ingreso -0,007*Area
K3 + 0,336*Actitud

Cte

Los pesos discriminantes y la constante se estiman maximizando las diferencias entre


los puntajes discriminantes de los individuos que pertenecen a diferentes categorías y,
simultáneamente, minimizando la diferencia entre los puntajes discriminantes de los
individuos pertenecientes a una misma categoría.

 Centroides de los grupos:

– Centroide (𝒁 ̅ 𝑨 ): promedio de los individuos que pertenecen a un grupo. Si el


tamaño de los grupos son iguales, sus centroides tienen el mismo valor pero
distinto signo (uno se ubica a la izquierda del eje separador, -, y el otro a su
derecha, +).
– Gran Centroide (𝒁 ̅ ): centroide que determinan ambas nubes de puntos
consideradas como un todo. Los n se pueden observar en la tabla “Estadístico de
Grupo” en “N válido ponderados”
𝒏 𝒁̅ + 𝒏𝑩 𝒁̅𝑩
̅= 𝑨 𝑨
𝒁
𝒏𝑨 + 𝒏𝑩
La constante que se agrega en la construcción del puntaje discriminante Z
permite asignar puntaje 0 al gran centroide (punto donde intersecta el eje
separador a la función discriminante).

La distancia del centroide de cada grupo al gran centroide es igual a su valor


absoluto:

El gran centroide se desplaza


acercándose al grupo de mayor
tamaño.

𝑑𝐴 𝑛𝐵
=
𝑑𝐵 𝑛𝐴

Criterio Discriminante
 Puntaje Crítico: determinar cuáles valores de Z corresponden a individuos del
grupo A y cuales a individuos del grupo B.

 Criterio del Punto Medio: En el criterio del punto medio, se elige al promedio
de los puntajes de los centroides (gran centroide) como el puntaje crítico. Es
eficiente siempre que (si no se cumplen ambos, el punto crítico debería
desplazarse en forma conveniente):
● Sea igualmente probable que un nuevo individuo pertenezca al grupo A
o al B
● El costo de clasificar erróneamente a un individuo de A sea igual al
costo de clasificar erróneamente a un individuo de B.

Aquellos puntajes discriminantes que tengan valor negativo, se encuentra a la


izquierda del punto medio, por lo que pertenecen al grupo A. Si es positivo, se
encuentran a la derecha y pertenecen al grupo B.
Una vez construido el modelo, podemos aplicarlo a la muestra base (utilizada
para su construcción) con la finalidad de determinar el valor predictivo del
modelo, cuyos resultados se indican en la matriz de clasificación).

La búsqueda de los pesos discriminantes se realiza maximizando el cuociente C:

SCW + SCB = SCT

El máximo valor de C es el
valor propio de la función
discriminante.

- NA = número de individuos de A en la muestra


- NB = número de individuos de B en la muestra

 Autovalores: al máximo valor de C se denomina valor propio de la función


discriminante.

- Correlación Canónica: es la raíz cuadrada del cociente entre la suma de cuadrados


inter grupo (SCB) y la suma de cuadrados total (SCT).

𝑆𝐶𝐵
𝐶𝑜𝑟𝑟𝑒𝑙𝑎𝑐𝑖ó𝑛 𝐶𝑎𝑛ó𝑛𝑖𝑐𝑎 = √
𝑆𝐶𝑇

 Correlación Canónica al Cuadrado: indica la información que está explicando


nuestro modelo discriminante. Mientras más cercano a 1, mejor
𝑆𝐶𝐵
=
𝑆𝐶𝑇
La efectividad que posee el índice Z para discriminar entre individuos de diferentes
grupos, depende de la capacidad que tienen los descriptores, como un todo, de separar a
los dos grupos de individuos.

 Lambda de Wilks: estadístico que indica el poder que tiene cada variable para
discriminar. Mientras más cercano a 0, más poder de discriminación, por lo que nos
ayuda más a discriminar entre los dos grupos). Valor igual a 1 significa que la variable
no tiene poder de discriminación entre los grupos. Es posible obtener un estadístico F
procedente de un ANOVA.
𝐻0 = 𝜇(𝑋𝐴 ) = 𝜇(𝑋𝐵 )

Se calcula tanto a nivel de variable como a nivel de función:


- Pruebas de Igualdad de las Medias de los grupos: para cada variable se analiza si
los promedios de los grupos son estadísticamente distintos. Si el valor p es menor
a 0,05, se rechaza la hipótesis nula de igualdad de medias.

- Lambda de Wilks para la función canónica discriminante: para determinar la


significancia estadística transformando U en un estadístico que sigue una
distribución aproximandamente chi cuadrado (gl = 2). Busco rechazar la hipótesis
nula.
𝑯𝟎 = 𝒄𝒆𝒏𝒕𝒓𝒐𝒊𝒅𝒆𝒔 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍𝒆𝒔 𝒅𝒆 𝒍𝒐𝒔 𝒅𝒐𝒔 𝒈𝒓𝒖𝒑𝒐𝒔 𝒔𝒐𝒏 𝒊𝒈𝒖𝒂𝒍𝒆𝒔

Si el modelo es adecuado, se continúa. Buscamos rechazar H0.


Importancia de las Variables

 Coeficientes estandarizados/tipificados: permiten jerarquizar (de manera absoluta),


junto al análisis de la matriz de estructura, la importancia de cada variable. Aquellas
con mayor valor contribuyen más al poder discriminante de la función.

 Matriz de Estructura: muestra la correlación de cada variable con la función que se


crea, y su jerarquía en valor absoluto (de mayor a menor) debería coincidir con la
jerarquía expuesta por los coeficientes tipificados. Si esto no se cumple, podría haber
problemas de multicolinealidad.

Consistencia Interna: el modelo presenta consistencia interna cuando existe igual orden
en los coeficientes estandarizados y la matriz de estructura (o por lo menos en las
primeras variables). Cuando se logra, significa que la calidad de los resultados es confiable.
Estadísticos de Clasificación

Ve la capacidad de predicción del modelo al mostrar el porcentaje de casos que fueron


clasificados correcta e incorrectamente. Por lo tanto, muestra la probabilidad de pertenecer a un
grupo, y se debe contrastar con las probabilidades originales/previas (al azar). Si los grupos son
del mismo tamaño, la probabilidad previa siempre será del 50%. Por otra parte, se muestra la
validación cruzada.

 Resultados de la Clasificación: indica las observaciones clasificadas correctamente de cada


grupo (contrastando la predicción con la agrupación original), tanto en cantidad como en
porcentaje. Los porcentajes de clasificación se deben comparar con los porcentajes originales,
cumpliendo la siguiente regla:
% 𝑪𝒍𝒂𝒔𝒊𝒇𝒊𝒄𝒂𝒄𝒊ó𝒏 > %𝑷𝒓𝒆𝒗𝒊𝒂 × 𝟏, 𝟐𝟓

- Eficiencia  el porcentaje de probabilidad original (porcentaje que clasificó


correctamente)
𝑶𝒌 𝒈𝒓𝒖𝒑𝒐 𝟏 + 𝑶𝒌 𝒈𝒓𝒖𝒑𝒐 𝟐 10 + 8
= = 75%
𝑻𝒐𝒕𝒂𝒍 𝒅𝒆 𝒄𝒂𝒔𝒐𝒔 24

- ES EL PODER DE PREDICCIÓN QUE TIENE EL MODELO.


- Consistencia: se aplica a los casos de análisis, y cada caso se clasifica mediante las
funciones derivadas a partir del resto de los casos.
Supuestos

1. Covarianzas Poblacionales (de los grupos) son Iguales: se testea con el M de Box.

𝑯𝟎 = 𝒎𝒂𝒕𝒓𝒊𝒄𝒆𝒔 𝒅𝒆 𝒄𝒐𝒗𝒂𝒓𝒊𝒂𝒏𝒛𝒂𝒔 𝒑𝒐𝒃𝒍𝒂𝒄𝒊𝒐𝒏𝒂𝒍𝒆𝒔 𝒔𝒐𝒏 𝒊𝒈𝒖𝒂𝒍𝒆𝒔

Buscamos retener la hipótesis nula, por lo tanto, buscamos que el valor p sea mayor a
0,05. Si no se cumple, revisar las correlaciones porque pueden haber problemas de
multicolinealidad.

2. Distribución Normal Multivariada en los grupos: aquella que se obtienen analizando


en conjunto las variables independientes. Con los puntajes z debemos evaluar la
distribución normal en los grupos. Para esto, aplicar el test de normalidad a las
puntuaciones discriminantes (puntajes Z). En SPSS esto se hace guardando las
puntuaciones en primer lugar.
ANÁLISIS DE CONGLOMERADOS

Clasifica casos/objetos en grupo relativamente homogéneos: conglomerados/segmentos.


Los objetos de cada conglomerado tienden a ser similares entre sí y diferentes de los
objetos de los otros conglomerados. Se agrupan utilizando algún criterio de proximidad.
Reduce casos creando segmentos.

1. MEDIDAS DE DISTANCIA O SEMEJANZA:


a) Medidas de Distancia (disimilaridad): se utilizan cuando las variables son de escala
de intervalo. La proximidad entre objetos se mide por la cercanía de sus perfiles en
algún espacio (métrico). Su valor es un número entre 0 al infinito (la distancia
consigo mismo es 0).
 Distancia Euclideana:

𝑑𝑖𝑗 = √(𝑋𝑖1 − 𝑋𝑗1 )2 + (𝑋𝑖2 − 𝑋𝑗2 )2 +. . . +(𝑋𝑖𝑚 − 𝑋𝑗𝑚 )2

 Distancia de Cuadras (City block distance):


𝑑𝑖𝑗 = |𝑋𝑖1 − 𝑋𝑗1 | + |𝑋𝑖2 − 𝑋𝑗2 |+. . . +|𝑋𝑖𝑚 − 𝑋𝑗𝑚 |

 Distancia de Minkowski: si e=1 se obtiene la distancia de cuadras, y si e=2 se


obtiene la euclideana.
𝑒 𝑒 𝑒
𝑑𝑖𝑗 = √𝑤1 |𝑋𝑖1 − 𝑋𝑗1 | +. . . +𝑤1 |𝑋𝑖𝑚 − 𝑋𝑗𝑚 |

b) Medidas de Coincidencia (asociación): se utilizan cuando las variables están en


escala nominal. La proximidad entre objetos se mide por el porcentaje de
coincidencias que presentan los perfiles de los objetos. Va entre el 0 y el 1 (1 es la
similitud consigo mismo)
 Matching Coefficient:

 Jaccard Coefficient: cuenta sólo coincidencias 1-1.


 Gower: cuando hay variables de distinta naturaleza. Cuenta matchings de
cualquier tipo, eliminando los irrelevantes, y
c) Correlaciones:
 Distancia Euclidiana: raíz cuadrada de la suma de las diferencias elevadas al
cuadrado de los valores de cada variable.

2. MÉTODOS DE CONGLOMERACIÓN PROCEDIMIENTOS JERÁRQUICOS:


a) Por aglomeración: agrupan a los objetos con base en el cálculo de la distancia
entre ellos.
 Procedimiento de enlace:
 Encadenamiento/Enlace Completo: vecino más lejano, distancia máxima.

 Encadenamiento/Enlace Simple (único): vecino más cercano, distancia


mínima.

 Enlace Promedio: se basa en la distancia promedio entre todos los pares


de objetos.
 Procedimiento de Varianza:
 Método de Ward: la distancia euclideana al cuadrado se minimiza a la
media del conglomerado.

3. ELECCIÓN NÚMERO DE CONGLOMERADOS

Dendograma  gráfico con forma de árbol que va poniendo las observaciones, y va


armando grupos según distancia (comienza con tantos conglomerados como objetos hay).
Mientras más corto el nivel al que se forma la agrupación, más parecidos entre sí los casos
dentro de los grupos. La cantidad de conglomerados según distancia se observa con la
cantidad de líneas en esa distancia.
3 2

Ej: si cortamos la distancia a 10, habrían 3 segmentos.

El corte entre los segmentos relevantes se recomienda que sea entre 5 y 20, para que no
haya ni poca, ni mucha diferencia.

4. INTERPRETAR Y DESCRIBIR A LOS CONGLOMERADOS (caracterizar)

Debemos encontrar aquellas variables que diferencian a cada grupo. Para esto:
- Evidenciar diferencias estadísticamente significativas entre los segmentos:
ANOVA, buscamos rechazar la hipótesis nula. La idea es determinar cuáles
variables discriminan entre segmentos.
H0: u1 = u2 = … = un
H1: no todas las medias son iguales

Un supuesto básico es la homoscedasticidad.

- Identificar las variables que diferencian a los grupos:


 Estadísticos  con la media puedo caracterizar a los segmentos como el
que tiene más o menos de alguna variable. Se pueden mapear las variables
para describir el posicionamiento/perfil de cada segmento.
 Comparaciones Múltiples (Benferroni): a través de la significancia puedo
determinar las variables que tienen diferencias estadísticamente
significativas entre los grupos. Se utiliza Bonferroni cuando los tamaños
son distintos, y Turkey cuando los tamaños son iguales.
Comparación entre Modelos

Ver si los distintos modelos forman los mismos conglomerados con los mismos objetos.
Esto se realiza a través de tablas de contingencia:
1) Y v/s modelo
18
20
10

13 12 23

COINCIDENCIAS ENTRE MÉTODOS

2) Revisión de similitud de medias y jerarquía

Aporte de Información

Se cruzan conglomerados y distintos niveles de variables. Se obtienen las frecuencias y los


residuos, los cuales para un 5% de significancia se necesita que los residuos se encuentren
por fuera del rango |1,96| para que la significancia sea significativa.
Para que este análisis sea válido, las variables deben ser independientes entre si, es decir,
rechazar H0.
ANÁLISIS CONJUNTO

Técnica multivariante que modela el mecanismo de decisión de un consumidor cuando


este elige, de una categoría de productos, la alternativa de su preferencia.

Supuesto: la decisión considera, en forma conjunta, todos los atributos principales que
definen esa categoría de productos.

El consumidor asigna utilidades a los diferentes niveles de los atributos, para luego
combinar apropiadamente estas utilidades para obtener la utilidad global que tiene cada
producto que se ofrece en el mercado.

Objetivos:
- Determinar la importancia relativa que los consumidores asignan a los atributos
que definen una cierta categoría de productos.
- Determinar las utilidades que los consumidores otorgan a los niveles de los
atributos.

Procedimiento

Se presentan estímulos a los entrevistados que consisten en combinaciones de niveles de


los atributos. Los entrevistados evalúan estos estímulos en términos de aceptación
(preferencia o interés de compra). Luego estas evaluaciones globales se descomponen de
tal forma que es posible decidir sobre la contribución parcial a la utilidad de cada nivel de
atributo.

1) Identificación de los atributos sobresalientes y sus niveles (6 a 7 atributos es lo


típico):
 Debe captar la esencia de cualquier producto de la categoría en estudio.
 Debe distinguir aquellos productos de la categoría que interesa diferenciar.
 El rango de atributos cuantitativos debe ser suficientemente amplio para
que el respondiente distinga las diferencias.

𝑵° 𝒅𝒆 𝑬𝒔𝒕í𝒎𝒖𝒍𝒐𝒔/𝑷𝒆𝒓𝒇𝒊𝒍𝒆𝒔 = ∏ 𝑵𝒊𝒗𝒆𝒍𝒆𝒔 𝑨𝒕𝒓𝒊𝒃𝒖𝒕𝒐𝒊


2) Construcción de los estímulos: dos opciones

Procedimiento Compensatorio Perfil Total


Se evalúan simultáneamente pares de Evaluación simultánea de factores
variables (dos factores) múltiples.

Procedimiento largo y tedioso, aunque fácil


de seguir.

No es realista y tiende a producir patrones


de respuesta.

El respondiente evalúa los estímulos (presentados de alguna de las dos formas indicadas)
de alguna de las siguientes maneras:
- Utilizando una escala ordinal (ranking)
- Utilizando una escala métrica

Con estos valores se determinan las componentes parciales de la utilidad.

Perfil Completo/Total

- Escalamiento Ordinal: si se ha optado por generar un escalamiento ordinal, se le


pide al respondiente agrupar los estímulos en tres pilas:
Se ordena cada grupo y finalmente se obtiene la ordenación definitiva enlazando
apropiadamente los órdenes logrados en cada grupo.

- Escala Métrica: se ajusta un modelo de regresión múltiple utilizando variables


dummies para representar cada nivel de atributo, para cada atributo.

Y : Es la variable dependiente del modelo conteniendo la respuesta de evaluación


entregada por el respondiente a la tarjeta que se exhibe.

 El número de variables dummy por atributo es k-1, donde k es el número


de niveles que presenta el atributo. Así que la regresión se corre con una
variable dummy menos por atributo. El nivel de atributo que se elimina se
denomina “grupo base”.
 Lo recomendable es definir los grupos base arbitrariamente para luego
seleccionar aquellos que presentan las utilidades más bajas. Así, todas las
utilidades que se obtienen son no negativas.

𝑚 𝑘𝑖

𝑈(𝑋) = ∑ ∑ 𝛼𝑖𝑗 𝑥𝑖𝑗


𝑖=1 𝑗=1

 U(X) = utilidad general de una alternativa


 𝛼𝑖𝑗 = contribución del valor parcial o utilidad asociada con el nivel j-
ésimo del i-ésimo atributo.
 𝑘𝑖 = número de niveles del atributo i
 𝑚 = número de tributos
 𝑥𝑖𝑗 = 1 si está presente el j-ésimo nivel del i-ésimo atributo; 0 en otro
caso
La utilidad de cada perfil se puede obtener a través de la ecuación de
regresión, es decir sumando la constante con los coeficientes de los niveles
presentes, o sumando las utilidades parciales:

Para obtener las utilidades parciales se deben hacer sistemas de ecuaciones


por cada atributo. Con este cálculo, se pueden obtener la importancia
relativa.

 Importancia: mide la importancia de un atributo dentro de la preferencia


global. El atributo con mayor valor será el más importante para el
consumidor a la hora de comprar.
𝑹𝒂𝒏𝒈𝒐 𝒅𝒆 𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝒅𝒆𝒍 𝑨𝒕𝒓𝒊𝒃𝒖𝒕𝒐 (𝑰𝒋 )
𝑰𝒎𝒑𝒐𝒓𝒕𝒂𝒏𝒄𝒊𝒂 (%) =
∑𝒎𝒊=𝟏 𝑼𝒕𝒊𝒍𝒊𝒅𝒂𝒅 𝑨𝒕𝒓𝒊𝒃𝒖𝒕𝒐𝒔

𝑰𝒋 = [𝒎á𝒙 (𝜶𝒊𝒋 ) − 𝒎í𝒏(𝜶𝒊𝒋 )] 𝒑𝒂𝒓𝒂 𝒄𝒂𝒅𝒂 𝒊

La validez del modelo puede establecerse por medio de la correlación por rangos de
Sperman, si la data es ordinal y la r de Pearson si la data es numérica. Es la correlación
entre lo que predice el modelo y la evaluación original de la persona. Mientras más
cercano a 1 mejor.

Una de las principales decisiones en el análisis de los datos dice relación con el nivel de
agregación que se utilizara respecto al target. Si hay segmentos definidos en el target,
podría ser de interés la posible asociación de estos segmentos con los perfiles promedio
de utilidades parciales que presentan o alguna otra medida agregada. Un análisis de
conglomerados realizado sobre los perfiles de utilidad de los individuos podría conducir a
nuevas segmentaciones del target. Alternativamente, la segmentación podría proceder
sobre los perfiles de importancias relativas de los atributos.

Aplicaciones del análisis conjunto


- Diseño de productos.
- Estimación de las cuotas del mercado. Se utilizan con más frecuencia dos
procedimientos:
1. Modelo de primera opción: el individuo compra el producto de mayor utilidad.
2. Modelo de cuota de preferencia: Calcula probabilidades de compra
comparando las utilidades relativas respecto a la utilidad total obtenida en
forma agregada.

Una vez realizado el análisis, en base a los individuos, se tiene información que permitirá:
- Desarrollar nuevos productos que maximicen la cuota de mercado.
- Desarrollar productos que se dirijan a grupos concretos de individuos
- Caracterizar compra por segmentos demográficos.
- Adaptar el estudio a poblaciones específicas.
- Comparar el mercado con un nuevo producto y sin el.
- Las funciones de valor parcial, usualmente representadas mediante gráficos,
muestren las utilidades parciales de cada atributo. Hay una función por cada
atributo.

- Se utilizan descriptores verbales de los niveles de atributos; ocasionalmente,


visualizaciones.
- Las preguntas se dirigen principalmente e pregunta por: preferencia e intención de
compra.