Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Formulario Final Estadística
Formulario Final Estadística
estandarizo.
al presentar datos debo poner que método se utilizó
los clústeres se agrupan de manera anidada en función de la similitud entre los datos.
Tipifico
Para hacer los grupos hago el mismo proceso pero en guardar toco solución única y pongo el numero de
clusters que debemos hacer de ahí aceptar.
Para eso debo hacer analizar explorar lista de factores ponemos los factores que sacamos en el anterior
paso, normalmente esta al final de todo, y en lista dependientes las variables que queremos analizar,
estadísticos descriptivos y listo.
El algoritmo k-medias asigna los datos al clúster más cercano en función de la distancia euclidiana entre
los puntos y los centroides (puntos centrales) de los clústeres.
es necesario especificar el número de clústeres deseados antes de ejecutar el algoritmo. El usuario debe
proporcionar el valor de "k" antes de la ejecución.
Para hacer los grupos hago el mismo proceso pero en guardar toco solución única y pongo el numero de
clusters que debemos hacer de ahí aceptar.
Para eso debo hacer analizar explorar lista de factores ponemos los factores que sacamos en el anterior
paso, normalmente esta al final de todo, y en lista dependientes las variables que queremos analizar,
estadísticos descriptivos y listo.
ANCOVA
Analizar, modelo lineal general, multivariante
Pruebas intersujetos
Para hacer gráficos y comparar medias debo ir analizar modelo lineal general univariante y pongo una
variable en el primer cuadro
Para analizar y ver si hay interacción voy a ir analizar modelo lineal general univariante y pongo una
variable en el primer cuadro y otra en factores fijos, de ahí gráficos y pongo las variables en líneas
separadas y primer cuadro
Modelo lial general univariante pongo los factores y en covariables pongo una por una y en opciones
pongo para ver si se cumplen los supuestos para eso pongo opciones pruebas homogeneidad y aceptar
Multicolinealidad si las variables dependientes están fuertemente correlacionadas para resolver hago un
análisis por separado o quito las variables menos importantes.
Mancova (veo del trabajo que hice como interpretar.
Analizar modelo lineal general multivariante.
Si una variable afecta los resultados ajusto las medias eliminando la influencia de la misma para ello voy
a analizar, modelo lineal general multivariante opciones mostrar las medias para la variable y
comparamos las medias con las originales
Para sacar diferencia de medias ajustadas hago lo mismo pero selecciono comparar efectos principales y
selecciono Bonferroni
Comp.principales
Para presentar datos explico cuantos componentes puedo sacar.
Primero debo ver si se puede hacer viendo si hay correlación
Analizar, correlaciones binarias y ponemos las variables, están relacionadas si tienen un asterisco arriba
Para saber las puntuaciones tipificadas voy a analizar reducción de dimensiones factor, extracción pido
grafico de sedimentación puntuaciones guardar como variables mostrar matriz de coef
En el grafico veo el anterior al punto de sedimentación normalmente es el 1 que esta a la izquierda ahí
corta
Así también se hace la matriz de coeficientes y porcentaje varianza la matriz de componentes son las
cargas factoriales y en la matriz de componentes veo con que variable se relaciona cada componente,
para ver con cual se relaciona veo el numero mayor.
La varianza total explicada la vemos en la parte del gráfico en la parte derecha de la misma donde dice %
acumulado.
También puedo ver el número fijo de factores y pongo el número de variables y ahí me dan los valores
propios de cada variable.
N numero de observaciones
M numero de componentes
Logaritmo de Signo raro es el promedio de los valores propios de componentes rechazados dividido para
numero de variables menos numero componentes y a eso le saco logaritmo
Menos
Hipótesis
Nivel de confianza 95 %
Y grados de libertad al (numero de variables menos numero componentes más dos) por (numero de
variables menos numero componentes más uno) todo dividido para dos .
Reducción de dimensiones
Factor
Interpretación
Veo autovalores acumulados % acumulado pongo que la varianza explica tanto y que el modelo factorial
representa una parte importante de las variables analizadas.
Matriz de componentes rotados: debemos escoger por cada componente las variables que tengan un
numero mayor ya que ese componente representa a esas variables
Abajo seleccionamos donde dice los datos son distancias aplastamos forma y seleccionamos matriz
cuadrada simétrica.(si aplastamos crear distancias a partir de datos seleccionamos medida y ponemos
entre casos)
Vamos a opciones y pedimos gráficos de grupo; gráficos para sujetos individuales; matriz de datos;
resumen de modelos de las opciones.
En la tabla young´s stress- formula 1 used(donde dice iterations, s-stress- improvement nos indica el
numero de iteraciones que tomo se cuenta el numero de columnas
En los resultados en la tabla for matrix Stress nos da un numero y vemos su nivel según la tabla
Para interpretar el gráfico vemos que punto está mas cercano a otro y decimos que esos se parecen
entre sí, nos puede decir q pongamos nombre de dimensiones ahí vemos que distingue a cada variable y
ponemos el nombre
ESCALAMIENTO MULTIDIMENSIONAL
Se busca que las distancias en el espacio “q” dimensional, sean lo más parecidas al espacio “n”
dimensional.
La forma manual para contar las disparidades es mediante el conteo del triángulo inferior de la
matriz de disparidades, como se ve a continuación:
Dentro del escalamiento multidimensional se ensayan varios intentos, hasta que las disparidades
se mantengan al pasar los objetos a una nueva configuración en menos dimensiones.
Se intentan muchas configuraciones, y se elige la que apegue las disparidades mas cerca de la
recta en el gráfico.
Con el uso de la matriz de disparidades se consiguen las coordenadas para la graficación de cada
uno de los objetos en las nuevas dimensiones (generalmente 2 – con el uso de la distancia
euclidiana).
Ejemplo en SPSS
Supongamos que hemos pedido a 100 consumidores que valoren la imagen que tienen de 5
superficies comerciales, atendiendo a la similitud con que las perciben. Para ello se utiliza una
escala de 0 (idénticas) a 7 (totalmente diferentes). La matriz anterior de disparidades originales,
proximidades— nos muestra las medias de las puntuaciones ofrecidas por los 100 consumidores.
En el caso de este ejemplo, el nivel de medición de los datos, es de intervalo, porque recordemos
que se usa una escala de 0 a 7, tomando en cuenta que el 0 no es absoluto, por lo que se descarta
el nivel de medición de razón. Los resultados en las coordenadas varían dependiendo del nivel de
medición escogido, se debe tener precaución en eso.
Los resultados permiten observar las coordenadas de cada objeto en el plano (bidimensional en
este caso), adicionalmente, el análisis también puede arrojar el siguiente gráfico, donde se
muestra la representación visual.
Ahora, como se explico antes, el objetivo del escalamiento multidimensional es mantener las
distancias; para comprobar esto se calcularán las distancias (distancia euclidiana) a partir de las
coordenadas dadas en la siguiente imagen (es la imagen de coordenadas anterior).
Para Excel se introduce la fórmula mostrada, y se seleccionan los valores correspondientes; “P”
hace referencia al valor de la coordenada en la dimensión 1, y “Q” hace referencia al valor de la
coordenada en la dimensión 2; los subíndices hacen referencia a que objeto/estimulo pertenece
dicha coordenada.
De forma manual, se utiliza la misma fórmula mostrada (los resultados varían entre Excel y
SPSS aun usando la distancia euclidiana para ambos).
Matrices de disparidades después del escalamiento
Resultado en SPSS al activar la opción de “Matriz del modelo” en las opciones del escalamiento
multidimensional.
Pese a que todas las matrices anteriores tienen valores distintos (explicados por diferentes
factores), las distancias entre los diferentes objetos se mantienen, asegurando el proceso del
escalamiento.
Se puede solicitar el siguiente gráfico para ver la efectividad del modelo de manera gráfica,
como se explicó previamente.
Si trazamos una línea recta (la línea tomate), podemos ver que tanto se ajustan los valores, y que
tan buena es la configuración (de forma gráfica). El gráfico anterior es conocido como “Gráfico
de Shepard”.
Indicadores de bondad de ajuste para el modelo de escalamiento multidimensional
El “Stress”
Mide que tanto se ajusta las coordenadas a una línea de ajuste en concreto; va de 0 a 1, y
mientras mayor sea (mas cercano a 1) quiere decir que la configuración del escalamiento
multidimensional es mejor.
En el caso del ejemplo revisado anteriormente, los valores resultantes tanto para el “Stress”
como para el “RSQ” son:
En base a lo visto, el valor de “0,06829” de Stress muestra que la bondad de ajuste del modelo se
encuentra entre lo mínimo razonable y bueno.
Por otro lado, el RSQ muestra un calor muy cercano a la unidad, esto quiere decir que la
configuración de ese escalamiento multidimensional es buena.
Abajo seleccionamos donde dice los datos son distancias aplastamos forma y seleccionamos matriz
cuadrada simétrica.
Abajo seleccionamos donde dice los datos son distancias aplastamos forma y seleccionamos matriz
cuadrada simétrica.
Vamos a opciones y pedimos gráficos de grupo; gráficos para sujetos individuales; matriz de datos;
resumen de modelos de las opciones.
Si no sale el resultado, o sale error, cambiamos a crear distancias a partir de datos y a ordinal
Usamos la matriz de distancias entre dos variables(ejm del profe el sabor helado milk y expresso con las
variables como precio, refresco)
√(Di stancia milk−distancia expresso)2 eso de la primera variable precio+ ¿(Distancia milk−distanciaexpresso )2
2. Análisis de Contingencia
Pasos SPSS:
1. Analizar
2. Estadísticos descriptivos
3. Tablas cruzadas
4. Seleccionas las variables con las que vas a trabajar (en este caso solo puedes trabajar
entre 2 variables, cada una de estas variables pueden tener diferentes categorías, es
decir que las variables son nominal) No importa el orden de las variables, cualquier
variable puede ir a filas o a columnas, al final se va a hacer una comparación entre estas
dos variables.
5. Luego de haber seleccionado las opciones de las imágenes de arriba, le damos aceptar.
Interpretación:
Concepto: Dentro de esta tabla lo que podemos observar es la comparación entre las diversas
categorías dentro de las variables que seleccionamos para el estudio, como parte de
interpretación nosotros podemos ir determinando los valores relevantes que nos ayuden a
determinar posibles soluciones o al menos encontrar factores que estén influyendo dentro de
nuestro problema.
El análisis de contingencia es un método exploratorio, entonces podemos sacar un montón de
información en base a los resultados que nos arroje la siguiente tabla.
Ejemplo:
Se puede observar una fuerte asociación entre el factor de entrega a tiempo y el nivel de satisfacción,
además de una mayor proporción de votos satisfechos en comparación con los otros dos factores.
En base al problema general podemos enfocarnos principalmente en los clientes que están insatisfechos
y descubrir la razón de esto y a su vez determinar el peso que estos representan dentro del análisis.
Dentro de los clientes insatisfechos el 59,8% nunca recibieron sus pedidos y el 39,7% obtuvieron su
pedido, pero con un retraso, lo cual nos puede ayudar a determinar que estos dos factores son los que
más afectan al nivel de satisfacción del cliente, pudiendo llegar incluso a ser motivos para presentar
quejas y a la larga disminuir las ventas de la empresa.
Por otra parte, el 32,4% de clientes presentaron una reacción neutral ante el servicio, sin embargo, se
puede observar que el 75,3% también presentaron el mismo problema que los clientes insatisfechos, el
caso de que los pedidos lleguen atrasados podrían en algún momento llegar a generar una molestia
dentro de estos clientes, aumentando así las quejas sobre el servicio.
Lambda: Se utiliza para evaluar la relación entre dos variables categóricas, proporcionando una medida
de asociación que varía entre 0 y 1.
Tau Goodman: Tau de Goodman y Kruskal se calcula mediante la comparación de las concordancias
observadas entre los evaluadores con las concordancias esperadas bajo la hipótesis de que no hay
acuerdo o concordancia sistemática. El coeficiente puede tomar valores entre -1 y 1.
Ejemplo:
Bajo un nivel de significancia del 5%, se ha determinado que el coeficiente lambda para las tres variables
es estadísticamente significativo, el valor obtenido de lambda dentro del análisis no nos indica que es
una relación perfecta, sin embargo, existe una relación fuerte entre las dos variables.
Al realizar el análisis, se ha observado una asociación fuerte entre la satisfacción y el estado del pedido,
dado que los valores obtenidos son superiores a 0.05.
Concepto:
Cuanto mayor sea el coeficiente de contingencia, mayor será la asociación entre las variables.
Mediante esta tabla podremos ver la intensidad de la relación.
V de Cramer: Si el valor de V es cercano a 1 para que represente una fuerte relación, de esta manera
podríamos determinar que la intensidad entre la relación de las dos variables del estudio es fuerte.
4. Análisis de Correspondencia
1. Qué es?
Los datos de entrada se presentan en la forma de una tabla de contingencia, que indica
una asociación cualitativa entre hileras y columnas
3. Qué realiza?
Escala las hileras y las columnas en las unidades correspondientes, de modo que cada
una puede exponerse en forma gráfica en el mismo espacio con pocas dimensiones
4. Cuáles son los 3 tipos de información que proporcionan los mapas espaciales?
Semejanzas y diferencias dentro de las hileras con respecto a la categoría de una
columna determinada
Semejanzas y diferencias dentro de las categorías de columnas, con respecto a una
determina categoría de hileras (Totalidad de elementos)
Relación entre hileras y columnas
5. Que da como resultado el análisis de correspondencia?
Es que reduce las exigencias de recopilación de datos que se imponen a los encuestados
Porque solo se trabaja con datos binarios o categóricos
8. Cuál es la desventaja del análisis de correspondencia?
Mientras mayor sea la inercia, más alejados estarán los puntos que representan a cada
tipo de variable
A menor inercia, menor alejado estarán los puntos que representan a cada tipo de
variable
11. Cálculo del análisis de correspondencia en SPSS
Implica desarrollar un conjunto de diferentes objetos que se describen a través de una variedad
de atributos (combinados entre sí).
El análisis conjunto se basa en el supuesto de que los consumidores consideran todos los
atributos presentados conjuntamente para formar sus preferencias.
Podemos identificar las diferentes combinaciones que podemos hacer, una combinacion también
representan estímulos,
Diseño del estudio
Definir combinaciones, niveles y el número de estímulos
Tenemos tres estímulos, en donde cada uno tiene sus características,
Primera parte para definir los estímulos,
A. Full-profile Method: no se puede aplicar dura mucho tiempo, es muy costoso, los
encuestados no tienen la capacidad de identificar las diferentes combinaciones
El análisis reducido, se lleva a cabo con las diferentes combinaciones, como una muestra nos
ayuda a reducir.
la forma que se le solicita al encuestado que evalúa este producto con los diferentes estímulos.
Como cambia la utilidad en función del precio donde el precio se mide en función métrica
Categoría base:
1 duumg tiene 30% de cocoa caso contrario 0
Para el estímulo k=1 en nuestro ejemplo, que tiene un contenido de cacao del 70 %, una etiqueta
UTZ y un precio de 0,80 EUR, obtenemos la siguiente formulación de la función de utilidad:
30 50 utz 0.80 1
Haciendo por descarte, uso la categoría base
Podemos combinarlo con variables métricas, en donde la utilidad depende de variables
explicativas.
Vector model
Las variables entran de forma métrica
Xjk la variable se introduce de manera directa, tamaño, precio
Bj representa la importancia de cada atributo sobre ese estímulo
Como es de forma métrica para el precio solo necesitamos una dummy, el efecto del precio
sobre la utilidad
Ideal point
Es un modelo no lineal
Ejemplo: Si tiene poco cacao no nos va a gustar no vamos a tener utilidad, si tiene la cantidad
exacta de cacao si nos va a gustar, y si tiene mucho cacao la utilidad va a decaer
Como se estiman las funciones de utilidad: utilizamos modelos de regresión lineales
múltiples, asi estimamos los coeficientes los patwhords,
Las combinaciones se dan por la multiplicación de los elementos que contiene cada variable
10 dummy mas 1 constante serian en total 11 parámetros
1. aplicamos un diseño factorial reducido con la cantidad necesaria de elementos
Sabor Frutty, nutty y mixed
Spss
Datos- diseño ortogonal- añadir ponemos una etiqueta- ponemos los valores
continuar e ingresamos el primero, así hacemos uno por uno
- en generar ponemos el número de casos que necesitamos (estimulos) , así
hacemos uno por uno
Escalamiento correspondencia contingencia conjunto.
SPSS:
Primer Paso:
Debemos asignar las variables con sus etiquetas y valores respectivos, para esto nos vamos a
1.Datos 2. Diseño Ortogonal 3. Generar
En este paso asignamos los factores que vayamos a usar para el estudio así como también su
valores correspondientes (como en el ejemplo de la imagen)
En Opciones: Generar como mínimo : el número de estímulos + 2
Número de casos reservados: mínimo 2
Guardamos un nuevo conjunto de datos y esto nos va a generar una nueva base de datos con las
tarjetas de cada observación.
Segundo Paso:
Con la nueva base de datos nos vamos nuevamente a Diseño Ortogonal pero en este caso
seleccionamos la opción de Mostrar
Ponemos las variables en factores y seleccionamos las opciones de listado para el experimentador y
perfiles para los sujetos
Lista de tarjetas
Contenido de
ID de tarjeta cacao Etiqueta UTZ Precio
1 1 70% Sí 0,80
2 2 70% No 0,80
3 3 30% Sí 0,80
4 4 50% No 1,20
5 5 70% Sí 1
6 6 30% Sí 1,20
7 7 30% No 0,80
8 8 30% No 0,80
9 9 30% Sí 0,80
10 10 30% Sí 1,20
11 11 30% No 1
12 12 50% No 0,80
13 13 50% Sí 1
14 14 30% No 1
15 15 70% No 1,20
16 16 50% Sí 0,80
a
17 17 30% Sí 1
a
18 18 50% No 1
a. Reserva
Esta es una visualización de las tarjetas de estímulo mediante “listado para el experimentador”
Número de perfil 8
Contenido de
ID de tarjeta cacao Etiqueta UTZ Precio
8 30% No 0,80
Esta es una visualización de las tarjetas de estímulo mediante “perfiles para los sujetos”
TERCER PASO: ANÁLISIS DE PREFERENCIAS
1. Archivo
2. Nuevo
3. Sintaxis
4. Aplicamos la sintaxis que nos de el profe y damos click en “ejecutar”
Luego de haber realizado este proceso se nos va a generar unas tablas en donde podremos analizar las
preferencias de los individuos respecto a las variables y catergorías con las que estábamos trabajando.