Resumen Im2 - Estadísticos

VARIABLES
ANÁLISIS / TÉCNICA DESCRIPCIÓN ANÁLISIS Y ESTADÍSTICOS

DEPENDIENTE INDEPENDIENTE
La prueba de chi cuadrado me va a dar como resultado un p-valor → si el p-valor es < a 0,05 hay asociación significante, existe relación sistemática entre las dos variables.
- Si no hay relación: no miro la tabulación cruzada
2 categóricas (cada una con al - Si hay relación: mido la fuerza de la relación:
menos dos categorías mutuamente * V de Cramer: al menos una variable ordinal. Si el p-valor es menor a 0,05 la relación o la asociación entre las variables es significativa a nivel poblacional. Columna "valor": vemos
Me dice si hay relación / asociación entre las dos
excluyentes). Si usamos variables si la asociacion es débil o fuerte. van de 0 a 1 (0 a 0,3 relación débil; 0,3 a 0,6 moderada; más de 0,6 fuerte)
variables que estamos analizando en la tabulación
Chi cuadrado métricas se puede pero es un * Tau C: dos variables ordinales: al menos una variable ordinal. Si el p-valor es menor a 0,05 la relación o la asociación entre las variables es significativa a nivel poblacional.
cruzada. O sea, siexiste una relación sistemática
desperdicio hacer chi cuadrado con Columna "valor": vemos si la asociacion es débil o fuerte. van de 0 a 1 (0 a 0,3 relación débil; 0,3 a 0,6 moderada; más de 0,6 fuerte)
entre las dos variables
una variable métrica, se podrían
hacer análisis más robustos Estos estadísticos nos permiten entender si existe asociación y cuán fuerte es entre las dos variables pero las medidas que me vana a ayudar a tomar decisiones son los porcentajes
que vemos en la tabulación cruzada.
PRUEBA DE LEVENE: lo primero que analizamos. Evalúa si las varianzas son iguales / homogéneas (porque es un supuesto). Si el p-valor de la prueba de levene
De un factor: (una independiente). “se basa en la media” es mayor a 0,05; las varianzas de los grupos son iguales → puede realizarse el ANOVA. Si es menor y no puede realizarse, se puede hacer
Ej: evaluar las diferencias entre el una prueba de Welch. Siempre que miremos la significancia, cuando sea menor a 0,05 es significativa. En el caso de Levene, tiene que ser NO significativa.
promedio de sueldo entre hombres
y mujeres. PRUEBA DE WELCH: si no da Levene. si sig es menor a 0,05 existe diferencia entre las medias de los grupos.
De n factores: (2 o más métrica (no se ANÁLISIS DE ANOVA "pruebas de efectos inter-sujetos": ver la significancia de la variable fábrica → si el p-valor es menor a 0,05 hay diferencia entre las medias de
independientes). Ej: el sueldo Me permite evaluar si existen diferencias puede sacar el
A los grupos.
depende del género y de la significativas estadísticamente entre las medias de promedio de
N ciudad? una categórica) categórica
diferentes grupos
O "factor" con dos o R CUADRADO (está abajo): representa el porcentaje de varianza de la variable dependiente que está siendo explicado por los efectos del modelo. En este caso no
V De medidas repetidas: las dos más categorías es muy alto. El R cuadrado lo empezamos a considerar favorable a partir de 0,6.
Cuál de los dos segmentos tiene una mayor
A muestras a comparar son sobre las
intención de compra
mismas personas en dos ETA PARCIAL AL CUADRADO (n2p): mide qué tan fuerte es el efecto de la independiente sobre la dependiente, y no al error del modelo (mide la fuerza de la
momentos distintos. relación). Hay diferencias entre los grupos, pero la diferencia es grande o chica? Va de 0 a 1 (0 a 0,3 relación débil; 0,3 a 0,6 moderada; más de 0,6 fuerte)
ordinal/métrica
que no cumple
COMPARACIONES MÚLTIPLES: si hacés ANOVA comparando más de 2 grupos y el p-valor dice que hay diferencia entre los grupos = hay diferencia entre algunos
No métrico de los grupos, no dice entre cuales. Para saber cuáles:
los requisitos de
ANOVA - Contrastes a priori: según la teoría
- Contrastes a posteriori / pruebas post-hoc: según mis datos a través de fórmulas (distintas fórmulas): cuando el p-valor sea menor a 0,05 existe diferencia entre las
medias de esos 2 grupos. Para ver cuál es mayor y cuál es menor tengo que analizar las medias que está en el cuadro de estadísticos. En ese cuadro "n" es la
Me permite evaluar si existen diferencias 1 categórica + 1
significativas estadísticamente entre las medias de "covariable"
distribución de la muestra, quizás dan mal los resultados porque está mal distribuida
ANCOVA métrica * Bonferroni: el más estricto
diferentes grupos, sacandole el efecto de una (independiente
variable "covariable" métrica) * Scheffe: para grupos de distinto tamaño
* Tuckey: para grupos de tamaño similar
* Games-Howell: para grupos con varianzas heterogéneas (dio mal prueba de Levene)
PRUEBA M DE BOX: lo primero que miramos. Si el p-valor es mayor a 0,05 estoy cumpliendo con el supuesto.
PRUEBA DE LEVENE
LAMBDA DE WILKS O TRAZA DE PILLAI : cuando las matrices de covarianzas son iguales (Según la prueba de box) son iguales uso lambda de wilks; si no son
iguales uso traza de pillai. Cualquiera de los dos se analiza igual: ver la significancia --> si el valor es menor a 0,05 existen diferencias entre las medias de los grupos
considerando esta combinación lineal de las variables dependientes que estoy estudiando. O sea, si es mayor a 0,05 no existen evidencias para afirmar que hay
MANOVA. Ej: ver si hay diferencia Me permite evaluar si existen diferencias diferencias significativas entre las medias de los grupos
según el género en el sueldo y en la significativas estadísticamente entre las medias de 2 o + métricas 1 categórica
satisfacción laboral diferentes grupos
ETA PARCIAL AL CUADRADO
POTENCIA OBSERVADA: probabilidad de no cometer error tipo II (no rechazo la H0 cuando era falsa y debería haber sido rechazada) → cuanto más alto mejor.
ANALIZAR LAS ANOVAS INDIVIDUALES: analizo lo mismo que en una ANOVA: significancia, el eta parcial al cuadrado y la potencia observada
PRUEBAS POST-HOC
Me dice si hay relación / asociación entre dos
2 métricas
C variables CHEQUEAR LOS SUPUESTOS
O de
Me dice si hay relación / asociación entre dos
R Pearson Coeficiente de
variables, sacandole el efecto de una tercera 3 métricas ANALIZAR LAS CORRELACIONES: si el p-valor es menor a 0,05 la correlación es significativa = correlacionan. Después ver el número de la correlación --> = 0,661
R correlación parcial
variable a las 2 variables --> correlacionan en un 66,1%.
E (paramét
rica) Me dice si hay relación / asociación entre dos Número entre -1 y 1. Analizo:
L Coeficiente de
A variables, sacandole el efecto de una tercera 2 métricas. La tercera no sé qué es - La intensidad / fuerza: qué tanto sube/baja. Cuanto más cerca a 1 más fuerte es. Si es 0 no es que no hay relación, es que no hay correlación LINEAL (puede haber
correlación en partes
CI variable solo a una de las dos variables otra).
Ó No métrica. ambas ordinales, una ordinal y una - Dirección de la asociación: si se mueven de forma inversa o directa. Me lo da el signo (+ o -)
N Ej: correlación de Spearman (no es Me dice si hay relación / asociación entre dos métrica o ambás métricas pero no
r necesariamente lineal) (no variables se cumplen los supuestos de DIAGRAMA DE DISPERSIÓN: si grafico las dos variables
paramétrica) Pearson.
En la correlación puedo medir la fuerza y la dirección, en la covarianza mido solo la dirección. Esto es porque en la correlación la interpretación de la fuerza no depende de la unidad
COVARIANZA Mide la relación entre dos variables 2 métricas
de medida; está estandarizada y por eso siempre da entre -1 y 1.
- DIAGRAMA DE DISPERSIÓN: muestra la relación entre las 2 variables

1 métrica
Lineal simple / lineal bivariada: - ESTADÍSTICO DURBIN-WATSON: varía entre 0 y 4. Mide la independencia de los errores. Está relacionado con uno de los supuestos que debemos analizar →
parecida a la correlación pero acá (es raro que la debe estar próximo a 2 (un Durbin-Watson entre 1,5 y 2,5 implica que los errores son independientes y por lo tanto se cumple este supuesto, puedo continuar con el
1 métrica
empiezo a hablar de dependencia única variable análisis).
e independencia independiente
sea Dummy)
- CAMBIO EN R CUADRADO: si yo tuviese distintos modelos, tengo que analizar esto para ver cuál es el cambio en R cuadrado (si quiero ver del modelo 1 al modelo
2 cuánto mejora el R cuadrado me tengo que fijar en esta columna → si son valores positivos implica que R cuadrado mejora). También es importante chequear la
columna significancia del cambio en F → debe ser mayor a 0,05 para poder hablar de un cambio verdadero en R cuadrado.
- R CUADRADO / COEFICIENTE DE DETERMINACIÓN (R2): mide el porcentaje de la varianza de la variable dependiente explicada por la independiente. O sea,
mide qué tanto impacta la independiente en la dependiente (el efecto de la ind en la dep). Va entre 0 y 1. Cuanto más alta, más impacto hay de la independiente en la
dependiente. LINEAL SIMPLE
- R CUADRADO AJUSTADA / COEFICIENTE DE DETERMINACIÓN MÚLTIPLE (R2 AJUSTADA): cuando le metés muchas variables independientes, es más
probable que el R2 dé muy alto (“el R2 puede sobreestimarse cuando hay muchas variables independientes”); por eso el R2 ajustada hace un ajuste para bajar un
poco el valor y generar que si te da alto es porque realmente el valor es alto, no porque tiene muchas variables independientes. Va entre 0 y 1. Cuanto más alta, más
Lineal múltiple 1 métrica 2 o más métricas impacto hay de la independiente en la dependiente. En una regresión lineal simple, el R cuadrado y el R cuadrado ajustada dan igual. LINEAL MÚLTIPLE
- ANOVA: lo uso para ver si hay diferencias entre 0 y el beta. Si la columna significancia es menor a 0,05 existe el modelo (al menos uno de los coeficientes beta es
distinto de 0). Si nos da que al menos uno es diferente de 0:
- COEFICIENTES: en la tabla de coeficientes ver la significancia --> si p-valor es menor a 0,05 es diferente a 0 (puede usarse esa variable o esa constante en el
modelo), sino debe eliminarse del modelo y volver a correrlo.
- ANALIZAR LA MULTICOLINEALIDAD: ver las últimas dos filas “estadísticos de colinealidad” → “tolerancia” y “VIF” (factor de inflación de varianza) → ambos
indicadores muestran lo mismo porque la tolerancia es la inversa del VIF → la tolerancia es uno dividido VIF. Lo que tenemos que fijarnos es si para cada variable el
VIF es menor a 10, no existe colinealidad para esa variable → se cumple con el supuesto. Por otro lado, si la tolerancia es mayor a 0,1 → no existe colinealidad, se
cumple el supuesto. En la tolerancia y el VIF solo tenemos que analizar las variables métricas (género no se analiza).
- MODELO DE REGRESIÓN BIVARIADA: es la ecuación básica de la regresión. Yo hago la regresión para obtener una fórmula así completa con números y así
Tengo una o más variable/s independiente/s tener la ecuación para en un futuro usarla para otro caso. (y = b0 + b1x1 + e). Si es regresión lineal múltiple: (y = b0 + b1x1 + b2x2 + b3x3 + ... + bkxk + e)
métricas que me permiten explicar una variable
dependiente métrica. O sea, en correlación - VALOR ESTIMADO O PREDICHO: (y = a +bx) --> en la práctica se le saca el error porque es teórico, no se conoce. A y B me lo da SPSS. X lo reemplazo por la
veíamos la nube de puntos en el gráfico; la línea variable independiente para obtener Y que es la variable dependiente
Lineal múltiple progresiva / recta que pasa por el medio de todos esos puntos
Le doy 2 o más
progresiva es la regresión → esa línea recta reduce al máximo
R métricas a SPSS - PRUEBA DE HIPÓTESIS: es para probar la significancia del modelo. Me permite saber si el modelo existe o no existe, según la ecuación planteada (si la variable
posible la diferencia entre el punto de la línea y el
E (ej: 10) y SPSS independiente tiene algún efecto sobre la dependiente). Si b1 = 0 -->no existe modelo (H0: B1 = 0 / H1: B1 distinto de 0) --> se analiza en SPSS con ANOVA
¿Cuáles son las variables valor observado. Sí hablamos de una variable
G me dice de todas
importantes?: las que más me dependiente y variable independiente PERO NO
R esas cuáles son - VALIDACIÓN CRUZADA DEL MODELO DE REGRESIÓN: validar mis datos (ver si el modelo que yo armé (la ecuación) me sirve para usar en la vida real; porque
sirven, o sea las que mejor NECESARIAMENTE IMPLICA CAUSALIDAD!!!. “la 1 métrica
E las importantes
explican a la variable dependiente. edad explica la intención de compra”, NO “la edad el modelo es a nivel teórico). Hay dos formas:
S (ej: 4), las otras
En realidad es igual que las es la causa de la intención de compra” * Validación cruzada: dividir en dos mi muestra (puede ser por la mitad o no) → con la primera parte creo el modelo (con los datos de la primera parte) y con la
I las borra
anteriores, lo único que cambia es segunda mitad lo valido probando a ver si me da bien (comparo lo real de la muestra contra lo que me predice el modelo que armé con la otra parte de la muestra.
Ó directamente el
la forma en la que trabaja el Las muestras se llaman muestra de estimación y muestra de validación
N programa.
algoritmo. ¿Usar regresión lineal múltiple progresiva o * Validación cruzada doble: igual que la validación cruzada pero primero el grupo A funciona como muestra de estimación y el grupo B como muestra de validación
regresión lineal múltiple?: podés pedir las dos y
y después el grupo A como muestra de validación y el B como muestra de estimación
comparar ambas. No es que una es mejor que la
otra, es depende de lo que busques → capaz
SPSS te elimina la variable edad en la regresión - ESTANDARIZACIÓN: llevar a una unidad de medida para que los cálculos tengan sentido, lo hace SPSS.
progresiva y vos la necesitas sí o sí por conceptos
teóricos. - RESIDUAL: diferencia entre el valor observado y el valor predicho
- MÉTODOS QUE TIENE SPSS PARA ELEGIR LAS VARIABLES EN REGRESIÓN PROGRESIVA: para saber qué variable incorporar y qué variable sacar se fija 1)
si la variable me da 0 la beta, no existe el modelo, no sirve. 2) Si pasó el filtro de la beta, se fija que vaya mejorando el r2 ajustada
* Inclusión hacia adelante: SPSS agarra una y se fija si le da un buen modelo y toma esa variable. Si le da un buen modelo agarra la segunda y se fija si le da un
buen modelo, en ese caso la incorpora. Lo mismo con la tercera, la incorpora. Si la cuarta le da un mal modelo (uno peor del que tenía) no la toma esa variable y
terminó el proceso, capaz la sexta variable era buena para incorporar pero cortó en la cuarta y no va a tomar la sexta. Si no arma un buen modelo con la primera
variable que toma, te tira que no hay modelo.
* Eliminación hacia atrás: el primer modelo que hace es con las 10 variables, después hace otro modelo con 9 variables, sacando la peor. Después lo mismo con 8.
Así hasta que el modelo dé peor que el anterior, ahí frena y se queda con el anterior.
* Solución progresiva / stepwise: combina los dos métodos anteriores. Va agregando y sacando variables hasta encontrar el mejor modelo.
- MULTICOLINEALIDAD: cuando las variables independientes correlacionan mucho entre sí. Es un problema porque la R cuadrada ajustada seguro me de alta pero
es mentira. Ej: la variable dependiente es el sueldo y las variables independientes son la edad y la antigüedad → tiene sentido pensar que la edad correlaciona con
los años de experiencia (cuantos más años, generalmente más años de experiencia) → si edad y antigüedad correlacionan, voy a tener multicolinealidad (la edad y
antigüedad son dos variables distintas pero es como si le estuviera metiendo la misma información dos veces. O sea, como la edad y la experiencia son dos variables
que más o menos me hablan de lo mismo, puede que me traiga dos veces la misma información en el modelo → el R cuadrado se va a inflar. Si a eso le agrego una
tercera variable, por ejemplo fecha de nacimiento, el R cuadrado va a ser más grande todavía, me sigue mintiendo cada vez más. Si hay multicolinealidad,
probablemente haya que dejar ir (eliminar) una variable para solamente dejar variables independientes que no estén muy correlacionadas. CUALQUIERA MÚLTIPLE.
Problemas que genera la multicolinealidad: (básicamente que voy a pensar que mi modelo es mejor de lo que en realidad es y yo ese modelo lo voy a usar para
2 o más; por lo tomar decisiones (incorrectas)):
menos una * Los coeficientes (los betas) son inexactos (son mentira) --> errores estándar elevados
Dummy * Cuando tengo diferentes muestras me pueden cambiar mucho los resultados
Lineal múltiple con variable Dummy 1 métrica (categórica * Es difícil entender qué variable es más importante que la otra
dicotómica (2
* En la regresión progresiva, la inclusióny eliminación de variables puede ser incorrecta
categorías 0 y 1).
El resto métricas
- MÉTODOS PARA EVALUAR LA IMPORTANCIA RELATIVA DE LAS VARIABLES PREDICTIVAS: ninguna medida es satisfactoria para saber qué variable es más
importante que la otra. A veces desde el marketing necesitamos saber qué variable es más importante. O sea, si alguien me pregunta “¿cuál es la más importante?”,
la respuesta es que hay algunos métodos para saberlo pero ninguno es 100% efectivo.
* Significancia estadística: todas las variables tienen que ser significativas, si alguna no es significativa no es importante
* Correlaciones: como vimos recién
* Regresión progresiva: me lo detecta automáticamente
- CHEQUEAR LOS SUPUESTOS
- PRUEBA M DE BOX: parecido a la prueba Levene de ANOVA. me evalúa si las covarianzas son iguales (Es un supuesto) para poder hacer el análisis. El supuesto
es que las varianzas tienen que ser iguales / tienen que ser homogéneas. si el p-valor es mayor a 0,05, las covarianzas de los grupos son iguales → se cumple el
supuesto → puedo hacer el análisis.
- PRUEBA DE IGUALDAD DE MEDIAS (VALORES F Y SU SIGNIFICANCIA): es parecido a cuando en la regresión chequeabamos que los beta sean distintos de 0;
acá también tengo que chequear que sea distinto de 0, por eso tengo que hacer una ANOVA (como hacíamos con regresión). Básicamente es una prueba que me
dice si las b son distintas de 0 → si son 0, esa variable no me sirve. si la significancia es menor a 0,05 existe diferencia entre las medias de los grupos según las
De dos grupos 1 categórica puntuaciones de esta variable en particular. Caso contrario,hay que eliminar la variable antiguedad porque no ingluye
(representa
Dos grupos a categorizar (la grupos de - AUTOVALORES: contiene los autovalores de mis distintas variables (De mis distintas funciones → recordar que vamos creando distintas funciones). Si yo estuviese
variable dependiente es individuos)
en un análisis discriminante simple, solamente se me va a crear una función discriminante → los autovalores en ese caso no son importantes, no los analizo. En
categórica), no importa la cantidad dicotómica "de
de variables criterio" análisis discriminante múltiple sí lo analizo → los autovalores me van a mostrar la importancia de cada función discriminante (cuánto más grande sea el valor, más
importante es esta función). Esto en realidad no es tan importante porque el SPSS va tomando estas decisiones automáticamente pero es para entender.
- CORRELACIÓN CANÓNICA: coeficiente de correlación. Me dice qué tanto se correlacionan las variables (si hay correlación entre las variables). Cuanto más alto
A sea el número mejor. Si a este número se lo eleva al cuadrado, es el R cuadrado (coeficiente de determinación). va entre 0 y 1.
N
Á - LAMBDA DE WILKS (U): me dice qué tan bueno es nuestro modelo para clasificar a las personas (qué tan bien este modelo explica las clasificaciones) (la
L adecuación del modelo (si cada función del modelo me va a ayudar a predecir o a clasificar a mis casos)). Cuanto más bajo sea, mejor van a explicar mis variables
I
independientes a la dependiente. Es importante siempre chequear que sea significante (menor a 0,05).
S Me sirve para clasificar personas. Uso las variables
I independientes para clasificar personas en grupos.
S - COEFICIENTES DE FUNCIÓN DISCRIMINANTE CANÓNICA ESTANDARIZADOS --> son para armar la fórmula
No es segmentar porque en realidad con el análisis
D discriminante yo ya sé de qué categoría es cada - MATRIZ DE ESTRUCTURAS: nos muestra los coeficientes de correlación entre las variables independientes y las funciones discriminantes. Para interpretarlo:
I persona. Lo armo para cuando venga otra persona 2 o más métricas cuanto mayor sea, más alto va a ser el poder discriminante de esta variable independiente → las variables que tengan para la función 1 un mayor valor van a ser las
S meterlo en el programita y que me diga a qué "predictivas" más importantes en la predicción. Está bueno que el más importante de una función sea distinto al más importante de la otra función para que puedan actuar en
C grupo pertenece esta otra persona que no conozco. conjunto en la predicción y me den resultados más efectivos. MIRAR VALORES ABSOLUTOS!!!
R
I En el análisis discriminante no importa (o no hay, - RESULTADOS DE CLASIFICACIÓN: muestra el porcentaje de aciertos del modelo.
M no sé) la multicolinealidad.
I
N - DIAGRAMA DE DISPERSIÓN (de todos los grupos): graficar las personas en distintos colores según el grupo al que pertenecen
A
N - CENTROIDE: el punto medio de cada grupo (Es la media de los grupos)
T
E - MAPA TERRITORIAL: muestra cómo se divide enforma gráfica
- PERFIL CARACTERÍSTICA: describir cada uno de los grupos que me dio según las variables independientes "son los que compran comida de perro, sueldo alto,
1 categórica jóvenes, tienen en promedio 3 mascotas"
(representa
Múltiple
grupos de - PORCIÓN DE ACIERTOS (HIT RATIO): como yo ya sé a qué grupo pertenecen saco qué porcentaje de los casos clasificó correctamente
individuos) "de
Más de dos grupos a categorizar
criterio" - FUNCIONES DISCRIMINANTES: son como si fueran regresiones. (con la diferencia de que acá no vamos a armar nada, esto es lo que usa el SPSS para calcularlo
→ se crean funciones discriminantes que son combinaciones de las variables independientes (como si fuesen regresiones) que me dicen en qué grupo poner a cada
persona). D = b0 + b1x1 + b2x2 + b3x3 + ... + bkxk --> la recta de esta ecuación cuando la grafico es la división de los dos grupos a clasificar
- MÉTODOS QUE TIENE SPSS PARA ELEGIR QUÉ VARIABLES USAR:

* Método directo: todas las variables que ponga se van a utilizar
* Análisis discriminante paso a paso / #stepwise#: va a analizar cuáles sirven y saca las que no sirven-
- VALIDACIÓN DEL ANÁLISIS DISCRIMINANTE: igual que en la regresión. n la regresión cuando hacíamos la validación dividimos la muestra en dos grupos y
hacíamos el modelo sobre uno y después lo pruebo sobre el otro; acá hago lo mismo; antes de hacer el análisis separo en dos submuestras: muestra de análisis y
muestra de validación
- Matriz de correlación: tabla que me da SPSS con todas las correlaciones por si quiero analizarlas una por una
- KMO: es un filtro, si da mal no se puede seguir. Es un indicador de si la escala tiene sentido estadístico para mi muestra (si hay preguntas que siempre responden
lo mismo, si respondencualquier cosa, etc). Mide la adecuación (si la escala se adecúa a mi muestra desde el punto de vista estadístico). Generalmente si da mal, no
va a poder agrupar --> va a agrupar 30 ítems en 28 grupos. Para poder seguir tiene que ser mayor a 0,5.
- PRUEBA DE ESFERICIDAD DE BARTLETT: es un resumen de todas las correlaciones. Dice si en general los ítems correlacionan o no correlacionan.
- PORCENTAJE DE VARIANZA: a partir de este análisis se crean nuevas variables. El porcentaje de varianza es qué porcentaje de la varianza de esta variable (del
factor) se explica por los ítems. Es lo mismo que r cuadrado ajustado en regresión.
Me ayuda a resumir: si tengo 20 items (lo que vos - GRÁFICA DE SEDIMENTACIÓN / SCREE PLOT: a veces tengo que identificar cuántos factores voy a usar --> este gráfico me grafica los valores propios y cantidad
pregunts a la persona) lo transforma en 5 de factores; cuando hay un cambio brusco en la tendencia es la cantidad de factores que hay que hacer. Viene lineal hasta el 2, del 2 al 3 baja mucho, del 3 al 6 es
dimensiones (lo que en realidad querés medir) -->
lineal --> tendría que tener 3 factores.
agrupa ítems en dimensiones "factores" (factores:
conjunto de ítems que representa una dimensión, o
sea lo que vos querés medir) que después voy a - MÉTODOS DE ANÁLISIS FACTORIAL: dos formas de hacerlo, recordar los diagrama de venn para ver cuál es la varianza en común (la que comparten)
usar para hacer otros análisis. Sirve para saber * Análisis de los componentes principales (PCA): se basa en la varianza total de los ítems. Cda ítem tiene una varianza; este análisis se basa en la varianza total
algo que no podés preguntar directamente (la del ítem.
empresa es fiabe? qué tan motivado estás? --> es *Análisis de los componentes secundarios: se basa en la varianza común (la que comparten).
muy general).
Antes de hacer el análisis yo ya sé qué quiero - MATRIZ FACTORIAL, CARGAS FACTORIALES Y MATRIZ DE FACTORES ROTADOS: las cargas factoriales me dicen qué tanto de este ítem está presente en
medir porque lo vi dede la teoría. Esto es para ver cada factor (cuál es la incidencia de un ítem en cada factor). Si por ejemplo SPSS agrupó en dos factores, a mi no me sirve que un ítem esté presente en los dos
si la teoría se refleja en mi muestra factores; necesito que esté solo en un factor, no puede estar en 2 (o en 3, o en 4 o en la cantidad de factores que haya) → por eso tengo que elegir entre el número
más grande, sin importar el signo (el valor absoluto más grande). OJO! La matriz factorial suele dar para un mismo ítem valores muy parecidos para cada uno de los
ANÁLISIS FACTORIAL Básicamente se usa para medir la validez de métricas
constructo, por eso el análisis factorial
factores --> solución: ROTAR LOS FACTORES (lo hace SPSS automático). O sea, si armamos un gráfico poniendo que el eje X sea uno de los factores y el eje Y el
generalmente se analiza junto con el alfa de otro factor, puedo hacer un punto en el gráfico por cada ítem. Rotación de los factores es poner en el eje X el factor que tenía en el eje Y, y en el eje Y el factor que
cronbach tenía en el eje X → me genera una nueva tabla con diferencias más obvias. Elijo el valor absoluto más grande del de la matriz de factores rotados. Si los ítems 2, 4 y
5 van al factor 2 significa que los ítems 2, 4 y 5 inciden mucho en el factor 2 y poco en el factor 1.
¿Cómo funciona en SPSS?: si la escala es del 1 al ¿Para qué rotamos los factores?: para que sea más fácil de interpretar, por si existen variables complejas (variables (ítems) que inciden mucho en más de un factor),
5, agrupa a todos los ítems que las personas votan para que me de un indicador de porcentaje de varianza explicado más confiable y más preciso (la rotación redistribuye / modifica la varianza explicada por cada
el mismo número (agrupa según las respuestas de factor)
los participantes) --> básicamente, todas las que Métodos / procedimientos de rotación de los factores:
que los participantes votaron 5, correlacionan --> * Rotación ortogonal: rota el factor del eje Y al eje X y el eje X al eje Y (giran los dos factores para la derecha en el gráfico)
calcula las correlaciones de todos los ítems y
* Rotación oblicua: SPSS los rota como quiere, capaz uno para la derecha y otro para la izquierda en el gráfico (ejes: los dos factores)
agrupa según las correlaciones. Si hizo cualquier
cosa, "esta escala no es útil para esta muestra"
DE FACTORES A VARIABLES: una vez que ya tengo las agrupaciones, voy a tener distintos factores (por ejemplo: fiabilidad, seguridad) → yo lo que quiero tener es
Agrupa variables. un número por cada individuo de estos factores (la persona 1 tiene un 4 en fiabilidad, la persona 1 tiene un 3 en seguridad, etc.) → entonces lo que yo tengo que
hacer es pasar los factores a variables. Hay tres formas de calcular las puntuaciones de los factores:
* Calcular las calificaciones compuestas: le pedimos a SPSS que calcule el valor a partir de una regresión PERO es más difícil de interpretar porque si la escala es
de 1 a 5, el promedio (el método de abajo) me va a dar entre 1 y 5; el de la regresión me va a dar 0,8943.
* Asignar la suma directa o promedio de los ítems correspondientes al factor: Hacer un promedio o una suma de todos los ítems que estén dentro de un factor para
cada persona. O sea, el factor 1 para la persona 1 es el promedio de los 3 ítems que componen al factor 1 (promedio o suma). Se recomienda promedio porque si el
factor 1 tiene 3 ítems y el factor 2 tiene 6 ítems, la suma va a quedar desbalanceada
* Elegir variables sustitutas: si el factor 1 (motivación) se compone del ítem 1, 2 y 6; elegir variables sustitutas es decir que al factor le pongo el número del ítem 6
(por el motivo que sea, lo elijo arbitrariamente). Para todas las personas se usa el mismo ítem, el 6 en este caso. No es recomendable, se pierde información en el
proceso
QUÉ LE MUESTRO AL QUE NO SABE DE ESTADÍSTICA: el factor más importante es importancia del artículo, el segundo es la rentabilidad del artículo, etc.
- CALENDARIO / HISTORIAL DE AGLOMERACIÓN: te dice de qué forma llegó a la segmentación que te dio. Muestra qué casos se combinan en cada etapa.
También dice a qué conglomerado corresponde cada individuo. Las etapas son porque el SPSS no te tira los conglomerados de una, lo va haciendo en etapas →
primero segmenta en 2, después se da cuenta que uno de esos 2 puede desagregarlo en más partes, y así hasta llegar a la etapa final que me da la segmentación
final; a mi lo que me importa es la etapa final. Los individuos que coincidieron en el mismo segmento en la primera etapa son más parecidos que los que entraron a
ese segmento en una etapa siguiente.
Sirve para segmentar (agrupar según
características similares). Tengo muchas variables - PERTENENCIA AL CLÚSTER: te dice a qué conglomerado corresponde cada individuo. En la práctica no miro el historial de aglomeración; miro la pertenencia al
pero no las tengo segmentadas en grupos. clúster.
El resultado en SPSS es una nueva variable que - PROCEDIMIENTOS DE CONGLOMERACIÓN: hay un montón de formas de hacer este análisis pero nosotros en la práctica solo vamos a ver los jerárquicos y en la
me va a decir grupos de pertenencia y para cada teoría no vamos a profundizar en cada uno, sólo saber la diferencia entre los 3 grandes grupos
individuo me va a poner 1 (pertenece al grupo 1), 2
* Jerárquicos: trabajan tipo árbol de decisión → me va juntando personas como un árbol de decisión en distintas etapas. Vos le tenés que decir a SPSS cuántos
(pertenece al grupo 2), etc. Después esta variable
se puede usar para hacer otros análisis (la nueva grupos querés. TE AGRUPA SEGÚN LAS PERSONAS QUE SON MÁS PARECIDAS.
métricas. No hay variables * No jerárquicos: vos le decís cuantos grupos queres (ej: 2) y SPSS elige al azar dos centros en el gráfico y los grupos van por cercanía, las que están más cerca
variable creada es categórica).
dependientes o independientes de cada centro. TE AGRUPA SEGÚN LAS PERSONAS QUE ESTÉN MÁS CERCA DEL CENTRO ALEATORIO.
¿Cómo se segmenta? → SPSS se va fijando si las * Conglomeración de dos pasos: automáticamente te recomienda cuántos grupos te conviene tener. Este método funciona para variables categóricas y métricas.
ANÁLISIS Clave usar variables conductuales
personas son parecidas. Estadísticamente se dice
DE y psicográficas (motivaciones,
que se analizan las distancias entre las personas - ¿CÓMO DECIDO CUÁNTOS CONGLOMERADOS QUIERO?:
CONGLOMERADOS / CLÚSTER variables actitudinales (qué hace,
(porque todo esto se trabaja en gráficos → → las * Por consideraciones teóricas o prácticas: en mi empresa siempre trabajamos con 3 segmentos / por la teoría que leí son 3 segmentos / mi cliente me pidió que
qué piensa, percepciones), etc), no
personas que están cerca son las que van juntas) sean 3.
demográficas y geográficas (edad,
“medimos la semejanza en términos de la distancia * Que los tamaños de los conglomerados sean coherentes: (los tamaños deberían ser significativos → analizar la frecuencia de la variable de asignación al clúster).
cuánto ganan, etc).
entre objetos”. Hay diferentes medidas de
O sea, si vos lo haces dos veces para probar cuál es mejor, una vez le pedís 2 conglomerados y otra vez le pedís 3 conglomerados → en el de 2 te divide 53
distancia. La que más se usa es la distancia
euclidiana (es la unidad de medida) y es la raíz personas en un grupo y 47 personas en el otro. En el de 3 te divide 49 personas en un grupo, 49 personas en otro y 2 en el otro → elegís la opción de 2
cuadrada de la suma de las diferencias elevadas al conglomerados. Capaz lo que se hace es decir “en la teoría lo lógico es tener de 2 a 5 conglomerados” → probas todas esas opciones y te quedas con la mejor.
cuadrado de los valores de cada variable. Aclaración: para ver cuántas personas tiene cada conglomerado se ve con la tabla de frecuencias.
* En jerárquicos puede estudiarse el dendograma
Agrupa personas. Hay una función dentro de * En no jerárquicos puede graficarse la proporción entre la varianza total intragrupo y la varianza entre grupos contral el número de conglomerados
análisis de conglomerados para agrupar variables
pero para eso hacemos análisis factorial INTERPRETAR Y DESCRIBIR LOS CONGLOMERADOS: ya sé cuáles son los grupos de personas, ahora tengo que saber cómo son las personas (saber las
características de los segmentos). La idea es tener una descripción de los segmentos y a partir de la descripción ponerle un nombre al segmento. ¿Cómo se hace?:
los centroides nos permiten describir cada conglomerado al asignarle un nombre o etiqueta.
* Con las variables métricas: calculo las medias de los segmentos y las analizo → “para el grupo A la motivación para ir a la cancha en promedio es 4,8 en una
escala del 1 al 5 y el amor por el fútbol es 4,6. Para el grupo B es 1,8 y 1,4 respectivamente” → grupo A: “futbolistas” y grupo B: “no futbolistas”.
* Con las variables categóricas: analizo las frecuencias de los segmentos (solo en conglomeración de dos pasos).
- JUICIOS DE SEMEJANZA Y ORDENAMIENTOS DE PREFERENCIA: es la forma en la que voy a hacer la pregunta en la encuesta para después llegar al gráfico. o
sea, para llegar a este gráfico necesito variables. Esas variables son preguntas. Hay diferentes formas de preguntar.
- R CUADRADA: indica qué tanta varianza puedo explicar con mi modelo (qué tan bueno es el modelo, igual que en la regresión). R cuadrada > 0,6 → bondad de
ajuste aceptable. Cuanto más alto mejor. Mide lo mismo junto con el estrés. Deberían coincidir.
- ESTRÉS: cuanto más alto sea, peor es el modelo. Mide el mal de ajuste o la proporción de varianza de los datos escalados en forma óptima que no explica el
modelo de EMD. Cuanto más bajo mejor. Mide lo mismo junto con la R cuadrada. Deberían coincidir. 0% = perfecto, 2,5% = excelente, 5% = bueno, 10%= regular,
Me permite graficar en una representación visual 20%=malo.
las percepciones de los encuestados. Se usa
mucho para mapa de posicionamiento pero se - OBTENCIÓN DE LOS DATOS DE ENTRADA: para armar esto tengo que tener variables, que son las que después me van a permitir hacer los ejes. Hay 3 formas
puede usar para otra cosa (atributos de un de preguntarle a las personas esas variables. Son 3 formas de preguntar lo mismo, después se cargan los datos al SPSS y lo grafica.
producto, profesores)). Se puede hacer en dos * Percepciones:
dimensiones o más. - Directo (juicios de semejanza): son los juicios de semejanza. se le muestra a los participantes comparaciones entre las marcas y se les pide que evalúen que tan
Si nosotros lo hacemos a mano le pondríamos parecidos o diferentes son (en una escala de 5, 7, lo que sea). Eso se hace con todas las combinaciones posibles de marcas o de el estímulo que estamos midiendo.
nombre a los ejes con dos variables que nosotros
“directo” porque le pedí que directamente me lo compare. no le preguntás “qué tan parecidos o diferentes son según X cosa (precio, calidad, etc)” → le preguntás en
elijamos, tipo “calidad” y “precio”. Haciéndolo con
SPSS, voy a usar una cantidad mayor de variables general, que él lo interprete como quiera porque en realidad lo que interesa es la subjetividad de él. Si vos le pedís que te evalúe según el precio, quizás a él no le
y no voy a estar evaluando cómo puntúan el precio interesa el precio, le interesa la calidad.
y cómo puntúan la calidad; voy a estar evaluando si - Derivado (calificaciones de los atributos): es la más recomendable. No hago que lo compare, elijo un criterio o una serie de criterios y se le pide su percepción
las marcas son percibidas como parecidas o para cada una de las marcas. Se analizan por separado las marcas (del 1 al 5, del 1 al 7, lo que sea). Se puede hacer con varios estímulos o con uno solo “la
diferentes, por eso en los ejes no hay nombres. prefiero” - “no la prefiero”
ESCALAMIENTO
métricas * Preferencias: son rangos ordenados → se les pide que ordenen de más preferida a menos preferida
MULTIDIMENSIONAL
Desde la percepción de las personas, las marcas - DECISIÓN SOBRE EL NÚMERO DE DIMENSIONES: tengo que elegir la cantidad de ejes a utilizar. Haciéndolo a mano siempre usé 2 pero se puede hacer con
que están juntas son parecidas, las que están lejos muchos. Cómo sé cuántos ejes usar?
son diferentes.
* Según conocimiento previo (teoría o investigaciones previas)
Entonces, EMD se usa para entender cómo evalúa
el consumidor, independientemente de las * Posibilidad de interpretación y facilidad de uso: que sea coherente y fácil de interpretar. En la mayoría de los casos se usan 2 o 3 dimensiones. Si uso más, es
dimensiones que a mí me interesan. No me difícil de interpretar, deja de ser útil, lo miras y no se entiende nada. Prefiero que sea un modelo menos preciso (peor estrés y peor r cuadrado) pero fácil de
interesa qué variables usé, me interesa la interpretar porque si el modelo está buenísimo según el estrés y según el r cuadrado pero no se puede interpretar es al pedo.
percepción del consumidor. O sea, no me interesa * Según enfoques estadísticos: son estadísticos que te tiran cuál es la cantidad de ejes ideal. No lo vemos.
por qué, me interesa saber si son parecidas o no
según su percepción. Esto es porque si soy - ASIGNACIÓN DE ETIQUETAS A LAS DIMENSIONES: estadísticamente no es necesario ponerle nombre a los ejes porque se interpreta según qué tan cerca o
parecido, ante el consumidor compito con esa lejos estén. Pero hay veces que te piden que tenga nombre, en EMD es difícil ponerle nombre → el investigador mismo elige el nombre de forma subjetiva. Hay
marca. algunos métodos para hacerlo:
* Basarse en conocimiento del mercado: si ves que la marca más barata está abajo, la marca del medio está en el medio y la marca más cara está arriba le pones
“precio” al eje vertical. Si ves que la marca que menos dura está a la izquierda y la que más dura está a la derecha, al eje horizontal le pones “duración”. Es subjetivo.
* Usar características objetivas: lo mismo que el anterior pero no usando cosas subjetivas como la percepción de limpieza o la calidad. Usar cosas que se puedan
medir: precio, certificaciones de calidad, vida útil, caballos de fuerza, consumo de nafta.
* Consultar a los encuestados o a parte de los encuestados: mostrarle los mapas y preguntarle qué nombre le pondrían a los ejes.
* Usar vectores de los atributos: crear regresiones con variables de verdad y después veo qué eje me quedó cerca. O sea, grafico atributos junto con las marcas
para ver qué variables quedan cerca de los ejes y ponerle ese nombre. No se puede hacer con SPSS. No lo vemos.
- FUNCIONES DE VALOR PARCIAL O DE UTILIDAD: me dicen cuál es la utilidad que los consumidores asignan a los niveles de cada atributo (en análisis conjunto
utilidad es qué tanto le gusta). O sea vos tenes distintos atributos y cada atributo con distintos niveles. La utilidad lo que me dice es qué tanto le gusta en el atributo
suela el nivel 3 (el nivel hule), etc. los niveles son las opciones dentro del atributo. LA UTILIDAD ES A NIVEL DE LOS NIVELES. Si la utilidad es positiva, le gusta; si
me permite evaluar diferentes atributos de un es negativa, no le gusta. Me quedo con el más grande de cada atributo.
producto (precio de la pizza, tamaño de la pizza,
sabor de la pizza, cantidad de queso) → voy a - PESOS DE IMPORTANCIA RELATIVA: es la importancia relativa de cada atributo. O sea, dice qué tan importante es un atributo comparado con otro. Lo muestra
poder evaluar esos atributos y ver cuáles son los en porcentajes. LA IMPORTANCIA ES A NIVEL DE LOS ATRIBUTOS. Entre todos los atributos suman 1 --> la importancia va de 0 a 1.
más importantes y cómo tiene que ser ese atributo
(ej: la cantidad de queso es importa. ¿Cómo es ese
atributo? (¿tiene que haber mucho queso o poco - NIVELES DE LOS ATRIBUTOS: son los valores que asumen los atributos (las opciones)
queso?)) → puede ser que distintos segmentos
tengan distintos resultados. Esto me permite - PERFILES COMPLETOS DE LAS MARCAS: lo vemos después
conseguir cómo es la pizza perfecta para el
ANÁLISIS Podemos tener datos métricos o
consumidor promedio → barata, mucho queso, - PROCEDIMIENTOS / FORMAS DE DATOS DE ENTRADA: hay distintas formas de mostrarselo al participante
CONJUNTO datos no métricos
grande y alta calidad. Pero además tiene otra * Para datos no métricos (la forma de recolectar):
utilidad, porque capaz no puede tener mucho - Procedimiento por pares / evaluaciones de dos factores: hago comparaciones de dos factores (factor = atributo) → por ejemplo material de la parte superior del
queso, ser grande y ser barata. Entonces me dice zapato y precio → entonces armo una tabla que combine estos dos factores con todas las combinaciones posibles de los distintos niveles de los factores. a esto el
cuál es el atributo más importante → OK. Entonces participante le pone números de acuerdo al orden de preferencia. Lo mismo se hace hasta que se hayan evaluado todos los pares de atributos posibles.
va a tener un poquito menos de queso pero va a
- Procedimiento de perfiles completos / evaluaciones de factores múltiples: se usan muchas tarjetas, en cada tarjeta describo a la persona posibles productos: “un
ser más barata. Primero te dice cómo es la pizza
ideal y después te dice cuáles son los atributos zapato de suela de hule, parte superior de lona, precio $90” → eso es una tarjeta. Armo todas las tarjetas hasta representar todas las posibles combinaciones de
más importantes para elegir si tengo que niveles de atributos. Entonces, cada tarjeta es un posible producto. La persona tiene que ordenar de la que más le gusta a la que menos. Para calcularlo se usa un
compensar alguno, cuál me conviene compensar. procedimiento llamado “conjuntos ortogonales”.
No lo vemos en SPSS. * Para datos métricos (la forma de recolectar): se usan tarjetas como en el “datos no métricos - procedimiento de perfiles completos”. La diferencia es que para el
no métrico la persona tiene que ordenar según su preferencia, en este caso tiene que puntuar cada tarjeta. O sea, tiene que calificar las tarjetas (“estímulos” /
“perfiles”) en cierta escala (por ejemplo Likert) según algún criterio (por ejemplo cuánto le gusta el prototipo de producto).Los juicios se hacen de forma
independiente.
evalúa la diferencia entre la proporción de la
PRUEBA BINOMIAL
muestra y la población

Resumen Im2 - Estadísticos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Resumen Im2 - Estadísticos

Cargado por

Copyright:

Formatos disponibles

VARIABLES

ANÁLISIS / TÉCNICA DESCRIPCIÓN ANÁLISIS Y ESTADÍSTICOS

- DIAGRAMA DE DISPERSIÓN: muestra la relación entre las 2 variables

- CHEQUEAR LOS SUPUESTOS

- MÉTODOS QUE TIENE SPSS PARA ELEGIR QUÉ VARIABLES USAR:

También podría gustarte