Documentos de Académico
Documentos de Profesional
Documentos de Cultura
36 - Análisis de Datos en Marketing (Por Adolfo Hernández)
36 - Análisis de Datos en Marketing (Por Adolfo Hernández)
ANÁLISIS DE DATOS EN
MARKETING
Por Adolfo Hernández
INTRODUCCIÓN
¿QUÉ ES LA ESTADÍSTICA?
La estadística es una herramienta para la toma de decisiones que nos permite obtener
información a partir de una observación incompleta de la realidad.
Para hacer estadística es imprescindible tener datos. Los datos son valores numéricos a
partir de los que se extraen las conclusiones. Se pueden obtener mediante:
- Observación.
- Experimentos.
- Encuestas.
1
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
- Descriptiva: “Con estos datos podemos decir que ocurre […] en esta muestra”.
- Inferencial: “Con estos datos podemos decir que hemos encontrado evidencia estadística
para poder afirmar que ocurre […] en la población”.
- Univariantes.
- Tipo de datos. - Bivariantes.
- Multivariantes.
- Multivariantes.
- Dicotómicos o binarios.
- Cualitativos o categóricos. - Nominales.
- Politómicos.
- Tipo de datos. - Ordinales o semicuantitativos.
- Discretos o discontinuos.
- Cuantitativos.
- Continuos.
- Tabla de frecuencias.
Medidas de posición:
- Media: Se suman todos los datos y se divide entre el número total (tamaño muestral).
- Mediana (o percentil 50%, Q2): Valor central cuando los datos se ordenan por su
magnitud. Cuando hay un número impar de datos es el número que deja la misma
cantidad de observaciones a un lado y a otro. Cuando hay un número par de datos es la
media de los das observaciones centrales.
- Moda: Es el valor que aparece con más frecuencia en la muestra.
- Media recortada: Se calcula igual que la media pero quitando los datos extremos más
pequeños y los más grandes, en un porcentaje fijo.
- Media vs. Mediana:
2
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Medidas de forma:
- Coeficiente de asimetría.
- Coeficiente de curtosis o apuntamiento.
Medidas de asociación:
- Diagrama de barras.
- Diagrama de sectores.
- Mapas estadísticos.
3
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Datos cuantitativos:
- Serie temporal.
- Histograma.
- Gráficos probabilísticos.
- Barras de error.
- Box-plot.
Datos cuantitativos:
- Box-plot múltiple.
- Diagrama de dispersión.
- Matriz de diagramas de dispersión.
- Gráficos de estrellas y caras.
EJEMPLOS
Tabla de frecuencias
Informa sobre los valores que toma la variable y el número o porcentaje de veces que se
repiten en la muestra.
¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?
4
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Diagrama de barras
¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?
¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?
¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?
5
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Histograma
Las frecuencias se pueden representar en: Valores absolutos en altura, valores relativos en
altura, valores relativos en área (el área total es 1).
Consejos:
6
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
- Aproximadamente el 60% de los datos están entre la media menos una desviación típica
y la media más una desviación típica.
- Aproximadamente el 95% de los datos están entre la media menos dos desviaciones
típicas y la media más dos desviaciones típicas.
- Aproximadamente el 99% de los datos están entre la media menos tres desviaciones
típicas y la media más tres desviaciones típicas.
1. Ordenar la muestra.
2. Calcular la mediana, el primer y el tercer cuartil.
3. 3. Calcular el rango intercuartílico.
7
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Boxplot múltiple
CONTRASTES DE HIPÓTESIS
EL TEST ESTADÍSTICO
Un test o contraste de hipótesis es la “herramienta” que nos permite juzgar una hipótesis
con la información que proporciona una muestra de datos.
La hipótesis que estamos juzgando se llama hipótesis nula (H0) y la contraria se llama
hipótesis alternativa (H1).
8
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
De entrada, se asume que H0 es cierta, y se trata de averiguar si los datos aportan tanta
evidencia en contra como para llegar a rechazarla. Como en los juicios, todo el mundo es inocente
(hipótesis nula, H0) hasta que se demuestre lo contrario. Se trata de averiguar si los datos aportan
tanta evidencia en contra de la hipótesis nula (H 0) como para llegar a rechazarla.
Una vez que hemos fijado H 0, la pregunta que nos hacemos es: ¿Los datos aportan suficiente
evidencia en contra de la hipótesis nula?
Por ejemplo, si las pruebas aportan suficiente evidencia en contra de la inocencia (H 0), se
rechaza y se declara culpable al acusado. Si las pruebas no aportan suficiente evidencia en contra de
la inocencia (H0), no se rechaza y se declara no culpable al acusado, que no es lo mismo que
declararle inocente.
Pasos que hay que seguir para diseñar un buen test estadístico:
El estadístico de un test es una fórmula matemática que sirve para medir la discrepancia
entre lo que dice la hipótesis nula y lo que dicen los datos:
¿Qué es grande y qué es pequeño? La estadística proporciona una solución para poder
decidir que es grande y qué es pequeño, por consenso. La clave está en encontrar como sería la
9
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
distribución estadística de los valores que podría llegar a tomar la discrepancia, calculada con
distintas muestras, si H0 fuese cierta. Rechazamos la hipótesis nula cuando el número que resulta al
evaluar la fórmula de la discrepancia (estadístico del test) usando nuestros datos, es un valor
extremo de la distribución; es decir, está en la cola, entre los poco probables o creíbles. De esto se
ocupa la estadística matemática, siendo las distribuciones más habituales la Normal, t de Student, F
y chi-cuadrado (χ2) (de todas existen tablas, incluidas en SPSS).
En muchos estudios la decisión se toma a partir de un valor de α que se fija antes de ver los
datos y para el que casi siempre se utiliza el valor 0,05.
Una vez que hemos fijado el valor de α, sea quien sea el que aplique el test, la decisión es la
misma, hay consenso. Pero también puede haber errores… Errores que se pueden cometer:
El mejor test es el que fijando una posibilidad baja de cometer error de tipo I, tiene el error
de tipo II más bajo (es más potente).
Los jueces cometen errores de tipo I cuando declaran culpables a inocentes, y de tipo II
cuando declaran no culpables a culpables.
¿Cómo podemos simplificar el proceso para no tener que recordar cada vez que queramos
hacer un test: cuál es el estadístico del test, su distribución, fijar α, buscar en las tablas, etc.? Con p-
valor.
El p-valor es un número que se calcula con los datos de una muestra y que mide la
probabilidad de obtener valores del estadístico más extremos del que calculamos con esa muestra.
10
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
¿Qué es un p-valor grande o pequeño? Un p-valor grande es mayor que 0,15 y p-valor
pequeño es menor que 0,01. Así, si el p-valor está entre 0,01 y 0,15 se rechaza H 0, a menos que sea
muy grave equivocarnos.
- Nos dice si el estadístico del test es un número grande o pequeño sin tener que saber
nada sobre su distribución, ni tener que mirar en las tablas.
- Es un número entre 0 y 1, no depende de la magnitud ni las unidades de medida de cada
problema.
- Nos lo calcula cualquier paquete estadístico cuando hacemos un test.
- Cuando disponemos de un conjunto de datos, lo único que necesitamos saber para poder
usar los test estadísticos es:
o Qué hipótesis queremos contrastar.
o Cuál es el mejor test.
o Disponer de una máquina que nos calcule el p-valor.
- Los test, como la estadística, no sirven para probar hipótesis. Son “aparatos para
detectar evidencias” que ayudan en la toma de decisiones.
- Los test de hipótesis son lo mejor que pueden aportar los estadísticos para el progreso y
avance del conocimiento.
Menor de 25 Mayor de 25
A favor 8 28
En contra 12 44
NS/NC 22 53
Tabla de contingencia 3x2
11
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
TEST Χ2
Para poder usar este test no tenemos que asumir nada sobre la distribución de la variable,
únicamente que todos los datos son independientes.
Pruebas de chi-cuadrado
Sig. Asintótica
Valor gl (bilateral)
Chi-cuadrado de 1,273 2 ,529
Pearson
El p-valor es 0.529. No hemos encontrado evidencia para rechazar H 0, por tanto no podemos
afirmar que la opinión dependa de la edad.
Χ2 (CHI-CUADRADO)
CONCEPTOS PREVIOS
N
χ 2N = χ 2=∑ Z 2i
i=1
[ ]
2
( f o −f e )
χ =∑
2
fe
12
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
- Bondad de ajuste:
o Comparación de la divergencia de resultados observados con los esperados,
según la hipótesis de igual probabilidad.
o Comparar los resultados observados con los esperados teóricamente según
cualquier hipótesis establecida.
- Independencia:
o Contrastar la hipótesis de independencia de variables.
Los grados de libertad son el número de categorías que pueden variar libremente.
(c-1)(f-1)
HIPÓTESIS DE INDEPENDENCIA
Ejemplo 1
13
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
- H0: V1 y V2 independiente.
- H1: V1 y V2 dependiente.
14
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Observaciones:
Family Structure
N observado
Single parent 1402
family
Nuclear family 8814
Mixed family 260
Other 221
Total 10697
Nº categorías - 1
15
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Observaciones:
16
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
TEST T
Para poder usar el Test - t para una muestra tenemos que asumir que en la población la
variable que se estudia es:
Para poder usar el Test de Wilcoxon de los rangos signados para una muestra tenemos que
asumir que en la población la variable que se estudia es:
17
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
PRUEBA DE LA BINOMIAL
Para poder usar la prueba de la binomial no hay que asumir nada sobre la distribución de la
variable en la población. Tan solo debe ser dicotómica (binaria). Posible recodificación según cómo
sean los datos.
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
Cuando hablamos de homogeneidad nos referimos a que los valores observados en ambas
poblaciones vienen de la misma distribución.
Para poder usar el Test - t para muestras independientes tenemos que asumir que en las dos
poblaciones la variable que se estudia es:
- Normal.
- Independiente entre las poblaciones.
- Independiente entre los individuos de la misma población.
- La varianza puede ser o no la misma en las dos poblaciones.
18
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Se quiere comprobar si después de un curso de técnicas de venta hay una mejora en los
resultados de los comerciales. Se toman resultados de comerciales antes y después de recibir el
curso.
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
No hemos encontrado evidencia para rechazar H0, no podemos afirmar que los resultados
de venta sean significativamente distintos antes y después del curso recibido
Cuando los datos están emparejados entre las dos muestras se utiliza el test-t para muestras
dependientes.
Para poder usar el Test - t para muestras dependientes tenemos que asumir que en las dos
poblaciones la variable que se estudia es:
- Normal.
- Independiente entre las poblaciones.
- Independiente entre los individuos de la misma población.
- La varianza puede ser o no la misma en las dos poblaciones (se estima la varianza de la
diferencia de los pares de datos).
Se quiere comprobar si después de un curso de técnicas de venta hay una mejora en los
resultados de los comerciales. Se toman resultados de 10 comerciales determinados antes y después
de recibir el curso.
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
19
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Hemos encontrado evidencia para rechazar H0, podemos afirmar que los resultados de venta
son significativamente distintos antes y después del curso recibido.
Para poder usar el Test de Mann Whitney no tenemos que asumir nada sobre la distribución
de la variable, únicamente que todos los datos son independientes:
- Normal.
- Independiente entre los grupos.
- Independiente entre los individuos del mismo grupo.
- Normal.
- Independiente entre los grupos.
- Independiente entre los individuos del mismo grupo.
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
20
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
COMENTARIOS
CORRELACIÓN Y REGRESIÓN
Por ejemplo: Volumen de ventas (X) y gasto en publicidad (Y) de una empresa. El estudio
simultáneo de ambas variables nos permitirá determinar si:
21
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
I. MÉTODO GRÁFICO
Covarianza
1
S xy= ∑ (x i−x)( y i − y)
n i
Limitaciones de la covarianza:
- Unidad de medida.
- ¿Qué valores nos llevan a considerar la covarianza grande o pequeña?
22
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
S xy
r=
Sx S y
−1 ≤r ≤ 1
Permite valorar la intensidad de la relación lineal entre dos variables. La relación es tanto
mayor cuanto más se acerque a 1 ó -1 el coeficiente. Valores próximos a 0 indican poca asociación
lineal.
Coeficiente Interpretación
0 Relación nula
0,0 - 0,2 Relación muy baja
0,2 - 0,4 Relación baja
0,4 - 0,6 Relación moderada
0,6 - 0,8 Relación alta
0,8 - 1,0 Relación muy alta
1 Relación perfecta
Correlaciones positivas
23
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Correlaciones negativas
24
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
gasto 0,96 1
publicidad
MODELO
Regresión lineal simple: una variable independiente (el modelo es una recta).
y=β 1 x+ β 0 +u
y=β 1 x1 + β 2 x 2 +…+ β k x k + u
- y: variable dependiente.
- x1, x2, …, xk: variables independientes.
- β0, β1, …, βk: coeficientes del modelo.
- u: perturbación aleatoria.
25
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
−1 ≤r ≤ 1
Valores próximos a ±1 indican alta correlación lineal. El valor 0 indica ausencia de relación
lineal.
26
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Podría ocurrir que por la fluctuación muestral, r salga distinto de cero para la muestra pero
siempre habrá que hacer un contraste de hipótesis para verificar que efectivamente el valor muestral
obtenido permite rechazar que el valor poblacional ( ρ ) no es cero.
- H0 : ρ = 0
- H1 : ρ ≠ 0
y=β 1 x+ β 0 +u
El modelo estimado con los datos de la muestra no coincidirá exactamente con el modelo
para la población completa.
y=b0 +b1 x
y=b1 x +b 0
El cálculo de los valores b0 y b1 se hace siguiendo el criterio de los mínimos cuadrados que
determina los valores de b 0 y b1 de forma que la recta sea la que “mejor se ajusta” a los valores
observados, es decir, a los valores muestrales.
27
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
n n
S=∑ ( y i−(b 0 x i)) =∑ e2i 2
i=1 i=1
Puede demostrarse que los valores que satisfacen la condición de los mínimos cuadrados
son:
- Ordenada en el origen de la recta: valor medio estimado para la variable dependiente (y)
cuando la variable independiente toma el valor 0.
s xy
b 0= y− x
s2x
s xy
b 1= 2
sx
Así, los coeficientes obtenidos son estimadores de los coeficientes del modelo para la
población completa.
Lo que nos lleva a que si seleccionamos otra muestra el resultado sería otro, por tanto
debemos:
28
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
H0 : β0 = β1 = 0
Se puede demostrar:
2 2 2
s y =s y + s e
¿
2
s y Varianza de los valores observados o varianza total.
2
s y Varianza de los valores explicados por el modelo o varianza explicada.
¿
29
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
2
se Varianza de los residuos o varianza residual.
Coeficiente de determinación:
2
sy ¿
R2= 2
s e
2
0≤ R ≤1
s xy
r=
sx s y
2
2 sy ¿
4450,835
r= = =0,70051 ≈ 0,701
s2
e
6353,704
1
Karl Pearson (1857-1936).
30
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
PREGUNTAS FRECUENTES
¿Si r=0 eso quiere decir que las variables son independientes?
- En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos los casos.
- Lo contrario si es cierto: Independencia implica incorrelación.
- ¿Súper qué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1.
- Es difícil dar un valor concreto (mirad los gráficos anteriores). Digamos que si |r|>0,7 hay
buena relación lineal y que si |r|>0,4 hay cierta relación.
s xy=0 s xy =0
y=β 0 + β 1 x 1 + β 2 x 2 +…+ β k x k +u
31
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
1. La forma funcional que liga la variable dependiente con las variables independientes es
de tipo lineal al menos en los parámetros.
2. Las variables explicativas deben ser linealmente independientes (ausencia de
multicolinealidad).
3. Las perturbaciones aleatorias se suponen normales con:
a. Esperanza cero. E ( ui ) =0
b. Varianza constante: homoscedasticidad. V ( ui ) =σ 2 ∀i
c. Son independientes dos a dos. Cov ( u i u j )=0 ∀ i≠ j
Multicolinealidad:
- Alguno o todos los coeficientes del modelo son no significativos de manera individual
pero el modelo resulta significativo y el coeficiente de determinación alto. Esta
consecuencia se suele usar como método para sospechar la presencia de
multicolinealidad.
- Los coeficientes de correlación simple entre pares de variables, son grandes, mayores de
0,7-0,8. Esta consecuencia también se usa como indicio de multicolinealidad. En todo
caso es una condición suficiente pero no necesaria ya que podrían ser bajos si la
multicolinealidad no es por parejas sino por grupos.
- El modelo es poco estable, gran fluctuación de las estimaciones. Modelo no válido.
32
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
1
VIF j =
1−R 2j
2
R j Coeficiente de determinación múltiple de cada variable independiente con el resto de
independientes (hacemos una regresión de cada variable independiente frente al resto de
independientes).
2. Tolerancia
2 1
TOL j=1−R j =
VIF
Multicolinealidad grave:
33
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Es importante tener en cuenta que en cualquiera de los pasos del proceso hay la posibilidad
de extraer una variable que anteriormente se había introducido. Por ejemplo, supongamos que en
los pasos anteriores se habían introducido las variables X4 y X6. Cuando introduce, por ejemplo, X2,
si el procedimiento observa que consigue mejores resultados sacando del modelo la variable X4, que
fue la variable introducida en primer lugar, el modelo final incluiría como variables independientes a
X6 y X2. El proceso se detiene cuando no entra ni sale ninguna variable más en el modelo.
El análisis de la varianza es un método que permite estudiar el efecto que una, o más,
variables independientes de naturaleza no métrica (se llaman factores o tratamientos) tienen sobre
una, o más, variables dependientes de naturaleza métrica.
Una Varias
independientes
(no métricas)
Variables
ANOVA MANOVA
Una
Un factor Un factor
ANOVA MANOVA
Varias
Varios factores Varios factores
EJEMPLOS
Supongamos que una empresa de cosméticos distribuye una determinada crema solar en
tres formatos diferentes: crema, loción y spray. La pregunta que tratamos de responder es ¿influye el
formato de presentación de la crema en el volumen de ventas?
34
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
¿Influye el medio publicitario, radio, tv, prensa escrita, prensa on-line en el volumen de
ventas de un producto?
Si se observa la variable dependiente para todos los niveles del factor, diremos que el
modelo es de “efectos fijos”. Si se observa la variable dependiente sólo para una muestra de los
posibles niveles del factor diremos que el modelo es de “efectos variables o aleatorios”.
EJEMPLO2
La empresa delimita tres grupos formados por el mismo número de distribuidores. A cada
uno de los grupos les presenta uno de los tres planes de promoción para que los evalúen en una
escala de 1 (muy en desacuerdo) a 7 (muy de acuerdo).
2
Luque Martínez, T.
35
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
En general los tamaños muestrales para los diferentes niveles pueden ser distintos. Cuando
el tamaño muestral es el mismo para todos los niveles diremos que el modelo está equilibrado o
balanceado.
- H 0 : μ1=μ2=μ 3 La valoración media es la misma para los 3 planes (el tipo de plan no
influye en la valoración del mismo).
- H 1 : no todaslas medias son iguales . Al menos un plan es valorado diferente.
- Las poblaciones de donde proceden las muestras tienen que ser normales (requisito de
normalidad no muy estricto. El método “funciona bien” siempre que la población no sea
“muy diferente” de la normal).
- Las poblaciones tengan igual varianza (homoscedasticidad) (El método “funciona bien” a
menos que las varianzas poblacionales difieran “en grandes cantidades”).
- Las muestras se han obtenido de forma aleatoria y son independientes.
contrastar la hipótesis:
36
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
DESCOMPOSICIÓN DE LA VARIANZA
( x p−x ) Desviación de la media de cada nivel del factor respecto de la media total.
37
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Puntuació 6 5 4
n 5 4 3
6 5 5
7 4 4
6 4 3
Medias 6 4,4 3,8 Media total 4,73
∑ ∑ ( xip−x )2 ¿ ∑ ( x p −x )2 +¿ ∑ ∑ ( xip −x p ) 2
i p p i p
- H 0 : μ1=μ2=…=μ p
- H 1 : no todaslas medias son iguales .
38
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
SCF 2 2
El cociente =η =R proporciona una medida de la bondad del ajuste o de la capacidad
SCT
del factor para explicar la variabilidad total de la variable dependiente, es decir, la proporción de
variabilidad total que es debida al tratamiento llevado a cabo.
2
0≤η ≤1
2
- η =0 El factor no explica nada de la variabilidad total de la variable dependiente.
2
- η =1 El factor explica toda la varianza total.
EJEMPLO
La empresa ERATO. Objetivo: determinar si las puntuaciones de los planes son iguales o no,
mediante el contraste de la siguiente hipótesis:
39
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Normalidad:
40
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Para poder usar el Test de Kruskal-Wallis no tenemos que asumir nada sobre la distribución
de la variable, únicamente que todos los datos son independientes.
41
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
- H 0 :σ 21=σ 22=σ 23
- H 1 : almenos 1 varianza es diferente
- H 0 : μ1=μ2=μ 3
- H 1 : no todaslas medias son iguales
Se rechaza la hipótesis nula de medias iguales: Los planes de promoción son valorados de forma
significativamente diferente.
12,933
η2 = =0,68 Un porcentaje considerable de la variabilidad de las puntuaciones
18,933
otorgadas es explicada por el tipo de plan.
42
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Residual SCR
SCR n− p MCR=
Varianza dentro de los grupos n− p
Total SCT n
En el caso en que se rechace la hipótesis nula y por tanto se concluya que no todas las
medias son iguales, habrá que investigar cuál o cuáles de los niveles tienen influencia en la variable
de respuesta, es decir, ¿para qué niveles del factor son las medias diferentes?
Diferencia notable en la valoración media del plan 1. Los planes 2 y 3 tienen valoraciones más
parecidas
43
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
En nuestro caso, al no haber rechazado que las varianzas sean iguales, tenemos que utilizar el
contraste de Bonferroni.
Si observamos la tabla:
44
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
En el caso de que el factor sólo tenga 2 niveles, el ANOVA es equivalente a la prueba t para
muestras independientes. En el ejemplo, supongamos que solo hay dos planes de promoción.
45
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Esta técnica no debe ser confundida con el análisis discriminante y los métodos de
asignación, que parten de un conocimiento previo de los grupos.
¿QUÉ ES UN CLUSTER?
46
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Los criterios para identificar los clusters se basan siempre en medidas de similitud o de
DISCREPANCIA entre todos los pares de datos. Algunos procedimientos cluster se pueden ejecutar
conociendo sólo la matriz de discrepancias En general, se busca homogeneidad dentro de los grupos
y heterogeneidad entre grupos.
TIPOS DE CLUSTERS
Clusters jerárquicos: Los aglomerativos son los más habituales, los divisivos requieren
muchos cálculos.
Clusters no jerárquicos:
47
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
Dendograma
Los clusters están representados mediante trazos horizontales y las etapas de la fusión
mediante trazos verticales. La separación entre las etapas de la fusión es proporcional a la distancia a
la que se están fundiendo los elementos en esa etapa.
Distancia Euclídea:
2 2 2 2
D ( xi , x j )=(x 1 i−x 1 j) +( x2 i−x 2 j ) + …+( xki −x kj )
48
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
2 x1 i−x 1 j 2 x 2 i−x 2 j 2 x ki −x kj 2
D ( xi , x j )=( ) +( ) +…+( )
s^ 1 ^s2 ^sk
Distancia de Mahalanobis:
( )( )
2
s1 s 12 ⋯ s 1 k x1 i−x 1 j
2
D 2 ( xi , x j )=( x 1 i−x 1 j , x 2 i−x 2 j , … , x ki −x kj) s12 s 2 … s 2 k x2 i−x 2 j
⋮ ⋮ ⋱ ⋮ ⋮
s1 k s2 k ⋯ sk 2
x ki −x kj
- Distancia euclídea: Raíz cuadrada de la suma de cuadrados de las diferencias entre los
valores. Es la medida por defecto para datos de intervalo.
- Distancia euclídea al cuadrado: Suma de cuadrados de las diferencias entre los valores.
- Correlación de Pearson: Correlación producto-momento entre dos vectores de valores.
- Coseno: Coseno del ángulo entre dos vectores de valores.
- Chebychev: Diferencia absoluta máxima entre los valores.
- Bloque: Suma de las diferencias absolutas entre los valores. También se conoce como
distancia de Manhattan.
- Minkowski: Raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-
ésima entre los valores.
- Personalizada: Raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia
p-ésima entre los valores de los elementos
Para calcular la similitud entre dos individuos para los que se observan p variables binarias
tipo “presencia/ausencia” se calculan todas las situaciones posibles.
49
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
- Sokal y Sneath:
2(a+d )
2 ( a+d ) +b+ c
- Czekanowski y Sorensen:
2a
2 a+b+c
d d a d1 d
a3 a8 d7 d17 a17 d16 a16 s14 c1 d18
3 8 7 4 1
A 1 1 1 1 1 1 1 1 1 0 0 0 1 1 1
B 1 1 1 1 0 0 1 1 0 0 0 0 0 0 0
C 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0
A/ B 1 0 Total
1 a=6 b=6 a+ b=12
2 c=0 d=3 c +d=3
Total a+ c=6 b+ d=9 p=15
9 6
s A ,B = =0,600 s A ,B = =0,500
15 12
En el caso de dos variables cualitativas con más de dos categorías, el indicador de similitud
más utilizado es una generalización del coeficiente de concordancia simple:
a1 +a 2+ …+a k + d
si , j=
p
50
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
1. Enlace sencillo (single linkage): Unir por la distancia al individuo más cercano del grupo,
es útil para identificar atípicos.
2. Enlace promedio (average linkage): Unir por la media de las distancias a todos los
individuos del grupo.
3. Enlace completo (complete linkage): unir por la distancia al individuo más alejado del
grupo.
4. Enlace de centroides (centroid linkage): minimizar la distancia a los “centros” de los
grupos.
5. Método de Ward (Ward linkage): minimizar la suma de cuadrados de las distancias a los
centros de los grupos.
51
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
- Test formales.
- Conocimiento del problema (intuición).
Es muy importante elegir un número de cluster que sepamos interpretar. Algunas técnicas
estudiadas nos ayudan a interpretar los cluster:
- ANOVA.
- Análisis factorial.
- Análisis discriminante.
- …
52
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
ALGORITMO DE K-MEDIAS
Los métodos de agrupación no jerárquicos están diseñados para separar las observaciones en
k clusters, de manera que cada dato pertenezca a un grupo y sólo a uno.
K nk
SCDG=∑ ∑ ( x i ,k −x k )' (x i ,k − xk )
k=1 i=1
Es decir, la SCDG es la suma de las distancias (euclídeas al cuadrado) de cada dato al centro
de su conglomerado asignado.
La SCDG también se expresa como una media ponderada (por el tamaño de cada grupo) de
las varianzas de las variables en los diferentes grupos:
( )
K p
SCDG=∑ nk ∑ s2i , k
k=1 i=1
2
- si , k es la varianza de la variable i en el grupo k .
53
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
54
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
55
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
1. R de Pearson.
2. Tau de Kendall.
3. Rho de correlación de rangos de Spearman: SPSS: Analizar - Correlaciones.
56