Está en la página 1de 56

Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

ANÁLISIS DE DATOS EN
MARKETING
Por Adolfo Hernández

Temas que se van a tratar en el curso:

1. Análisis exploratorios, tabulación, contrastes chi cuadrado (χ 2).


2. Contrastes de medias y porcentajes.
3. Coeficiente de correlación, regresiones simples, regresiones múltiples.
4. ANOVA.
5. Análisis cluster (de Conglomerados).

Software para los análisis estadísticos:

- Software no específico para análisis, con pocas herramientas estadísticas. Muy


disponible. Como es Excel.
- Software específico para análisis estadísticos. No siempre disponible. Como es SPSS.

INTRODUCCIÓN

¿QUÉ ES LA ESTADÍSTICA?

La estadística es una herramienta para la toma de decisiones que nos permite obtener
información a partir de una observación incompleta de la realidad.

Para hacer estadística es imprescindible tener datos. Los datos son valores numéricos a
partir de los que se extraen las conclusiones. Se pueden obtener mediante:

- Observación.
- Experimentos.
- Encuestas.

En la estadística se utiliza el método inductivo para inferir conclusiones. De lo particular a lo


general. La muestra es lo particular y la población es lo general. La muestra es un subconjunto de la
población. El objetivo de la estadística es extraer conclusiones sobre la población con la información
que proporciona la muestra.

1
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

La inferencia de conclusiones generales a partir de muestras es siempre incierta. Existen


muchas muestras posibles, pero nosotros ¡¡¡sólo observamos una!!! La estadística se ocupa de
medir esa incertidumbre.

La estadística se divide en:

- Descriptiva: “Con estos datos podemos decir que ocurre […] en esta muestra”.
- Inferencial: “Con estos datos podemos decir que hemos encontrado evidencia estadística
para poder afirmar que ocurre […] en la población”.

RESÚMENES NUMÉRICOS Y GRÁFICOS DE LOS DATOS


Clasificación de los tipos de datos:

- Univariantes.
- Tipo de datos. - Bivariantes.
- Multivariantes.
- Multivariantes.

- Dicotómicos o binarios.
- Cualitativos o categóricos. - Nominales.
- Politómicos.
- Tipo de datos. - Ordinales o semicuantitativos.

- Discretos o discontinuos.
- Cuantitativos.
- Continuos.

RESÚMENES NUMÉRICOS DE LOS DATOS

PARA DATOS CATEGÓRICOS O DISCRETOS

- Tabla de frecuencias.

PARA DATOS CUANTITATIVOS

Medidas de posición:

- Media: Se suman todos los datos y se divide entre el número total (tamaño muestral).
- Mediana (o percentil 50%, Q2): Valor central cuando los datos se ordenan por su
magnitud. Cuando hay un número impar de datos es el número que deja la misma
cantidad de observaciones a un lado y a otro. Cuando hay un número par de datos es la
media de los das observaciones centrales.
- Moda: Es el valor que aparece con más frecuencia en la muestra.
- Media recortada: Se calcula igual que la media pero quitando los datos extremos más
pequeños y los más grandes, en un porcentaje fijo.
- Media vs. Mediana:

2
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

o La media es más eficiente que la mediana: La media usa toda la información de


los datos mientras que la mediana ignora las magnitudes, solo considera el
orden.
o La mediana es más robusta que la media: La media es muy sensible a la
presencia de atípicos mientras que a la mediana no le afectan las magnitudes de
la mayoría de las observaciones.
o La media ( ) es el “punto de equilibrio” de los datos y la mediana ( ) es el dato
central.

Medidas de variabilidad o dispersión:

- Recorrido: Diferencia entre el dato más grande y el más pequeño.


- Varianza: Promedio de todas las distancias de cada dato a la media (centro de la
muestra).
- Desviación típica: Raíz cuadrada de la varianza, con las mismas unidades que los datos.
- Rango: Diferencia entre el valor mínimo y el valor máximo.
- Rango intercuartílico (Q3-Q1): Diferencia entre el percentil 75% y el 25%. Es el rango del
50% de los valores centrales.
- MEDA (Mediana de las desviaciones absolutas): Mediana de los valores absolutos de las
diferencias entre cada dato y la mediana.

Medidas de forma:

- Coeficiente de asimetría.
- Coeficiente de curtosis o apuntamiento.

Medidas de asociación:

- Coeficiente de correlación de Pearson.

RESÚMENES DE GRÁFICOS DE DATOS

PARA DATOS UNIVARIANTES

Datos categóricos o discretos:

- Diagrama de barras.
- Diagrama de sectores.
- Mapas estadísticos.

3
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Datos cuantitativos:

- Serie temporal.
- Histograma.
- Gráficos probabilísticos.
- Barras de error.
- Box-plot.

PARA DATOS MULTIVARIANTES

Datos categóricos o discretos:

- Diagrama de barras múltiple.

Datos cuantitativos:

- Box-plot múltiple.
- Diagrama de dispersión.
- Matriz de diagramas de dispersión.
- Gráficos de estrellas y caras.

EJEMPLOS

RESÚMENES NUMÉRICOS DE DATOS CUALITATIVOS

Tabla de frecuencias

Informa sobre los valores que toma la variable y el número o porcentaje de veces que se
repiten en la muestra.

¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?

4
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Diagrama de barras

Se representan mediante barras las frecuencias (o porcentajes)

¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?

Sectores, pictograma o tarta

Las frecuencias se representan mediante la parte proporcional de un círculo.

¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?

RESÚMENES GRÁFICOS DE DATOS CUALITATIVOS MULTIVARIANTES

Diagrama de barras múltiple

¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?

5
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

RESÚMENES NUMÉRICOS DE DATOS CUANTITATIVOS

Histograma

Se representan, mediante cajas las frecuencias de los datos agrupados en intervalos.


Describen cómo se distribuyen los datos.

Las pirámides de población son histogramas “tumbados”.

Las frecuencias se pueden representar en: Valores absolutos en altura, valores relativos en
altura, valores relativos en área (el área total es 1).

Consejos:

- Usar intervalos de igual longitud.


- Los intervalos no se pueden solapar.

6
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

- Cada observación solo puede pertenecer a un intervalo.


- Todos los datos deben pertenecer a algún intervalo.
- La forma depende de la amplitud del intervalo.

Una propiedad interesante

Cuando la representación de la frecuencia de los datos tiene un aspecto normal:

- Aproximadamente el 60% de los datos están entre la media menos una desviación típica
y la media más una desviación típica.
- Aproximadamente el 95% de los datos están entre la media menos dos desviaciones
típicas y la media más dos desviaciones típicas.
- Aproximadamente el 99% de los datos están entre la media menos tres desviaciones
típicas y la media más tres desviaciones típicas.

Transformación de los datos

Cuando el histograma no parezca el de unos datos normales, es conveniente transformar los


datos para facilitar su estudio.

- Cambio de unidades para facilitar la comparación de muestras.


- Buscar transformaciones que den una distribución simétrica.
- Transformar con el logaritmo neperiano hace más simétricos los conjuntos de datos
referidos a tamaños.

Diagrama de cajas o boxplot

1. Ordenar la muestra.
2. Calcular la mediana, el primer y el tercer cuartil.
3. 3. Calcular el rango intercuartílico.

7
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

RESÚMENES NUMÉRICOS DE DATOS CUANTITATIVOS MULTIVARIANTES

Boxplot múltiple

Se usa para comparar:

- Una variable en grupos diferentes.


- Varias variables solo cuando las unidades de medida son “compatibles”.

CONTRASTES DE HIPÓTESIS

EL TEST ESTADÍSTICO

Un test o contraste de hipótesis es la “herramienta” que nos permite juzgar una hipótesis
con la información que proporciona una muestra de datos.

La hipótesis que estamos juzgando se llama hipótesis nula (H0) y la contraria se llama
hipótesis alternativa (H1).

8
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

De entrada, se asume que H0 es cierta, y se trata de averiguar si los datos aportan tanta
evidencia en contra como para llegar a rechazarla. Como en los juicios, todo el mundo es inocente
(hipótesis nula, H0) hasta que se demuestre lo contrario. Se trata de averiguar si los datos aportan
tanta evidencia en contra de la hipótesis nula (H 0) como para llegar a rechazarla.

Una vez que hemos fijado H 0, la pregunta que nos hacemos es: ¿Los datos aportan suficiente
evidencia en contra de la hipótesis nula?

- Sí hay evidencia en contra de la hipótesis: Se rechaza y decimos que hay evidencia a


favor de la hipótesis contraria.
- No hay evidencia en contra de la hipótesis: No se rechaza pero tampoco se ha
demostrado que la hipótesis sea cierta.

¡¡¡La estadística no sirve para probar nada!!!

Por ejemplo, si las pruebas aportan suficiente evidencia en contra de la inocencia (H 0), se
rechaza y se declara culpable al acusado. Si las pruebas no aportan suficiente evidencia en contra de
la inocencia (H0), no se rechaza y se declara no culpable al acusado, que no es lo mismo que
declararle inocente.

DISEÑO DE UN TEST ESTADÍSTICO

Pasos que hay que seguir para diseñar un buen test estadístico:

1. Fijar de manera precisa las hipótesis (H 0 y H1).


2. Definir un buen estadístico del test.
3. Fijar qué porcentaje de veces estamos dispuestos a asumir que rechazamos la hipótesis
nula cuando es cierta.
4. Resolver el test …
5. Entre dos test elegiremos siempre el más potente para detectar la evidencia que
contienen los datos.

FIJAR DE MANERA PRECISA LAS HIPÓTESIS (H0 Y H1) Y DEFINIR UN BUEN


ESTADÍSTICO DEL TEST

El estadístico de un test es una fórmula matemática que sirve para medir la discrepancia
entre lo que dice la hipótesis nula y lo que dicen los datos:

- Si la discrepancia es grande: La hipótesis nula no es muy creíble, tenemos evidencia para


rechazarla.
- Si la discrepancia es pequeña: No tenemos motivos para dudar de la hipótesis nula, no
tenemos evidencia para rechazarla.

¿Qué es grande y qué es pequeño? La estadística proporciona una solución para poder
decidir que es grande y qué es pequeño, por consenso. La clave está en encontrar como sería la

9
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

distribución estadística de los valores que podría llegar a tomar la discrepancia, calculada con
distintas muestras, si H0 fuese cierta. Rechazamos la hipótesis nula cuando el número que resulta al
evaluar la fórmula de la discrepancia (estadístico del test) usando nuestros datos, es un valor
extremo de la distribución; es decir, está en la cola, entre los poco probables o creíbles. De esto se
ocupa la estadística matemática, siendo las distribuciones más habituales la Normal, t de Student, F
y chi-cuadrado (χ2) (de todas existen tablas, incluidas en SPSS).

¿Cómo decidimos que el valor es extremo? Arriesgándonos…

FIJAR QUÉ PORCENTAJE DE VECES ESTAMOS DISPUESTOS A ASUMIR QUE


RECHAZAMOS LA HIPÓTESIS NULA CUANDO ES CIERTA

En muchos estudios la decisión se toma a partir de un valor de α que se fija antes de ver los
datos y para el que casi siempre se utiliza el valor 0,05.

α es el nivel de significación, la probabilidad de cometer error de tipo I; es decir, de


rechazar la hipótesis nula cuando es cierta. Por eso siempre se utiliza un valor bajo (nunca por
encima de 0,2). Rechazamos cuando el estadístico del test está entre el α % de valores más extremos
de la distribución.

Una vez que hemos fijado el valor de α, sea quien sea el que aplique el test, la decisión es la
misma, hay consenso. Pero también puede haber errores… Errores que se pueden cometer:

- Tipo I: H0 es cierta y se rechaza. Grave, probabilidad baja.


- Tipo II: H0 es falsa y no se rechaza. Menos grave.

El mejor test es el que fijando una posibilidad baja de cometer error de tipo I, tiene el error
de tipo II más bajo (es más potente).

Los jueces cometen errores de tipo I cuando declaran culpables a inocentes, y de tipo II
cuando declaran no culpables a culpables.

¿Cómo podemos simplificar el proceso para no tener que recordar cada vez que queramos
hacer un test: cuál es el estadístico del test, su distribución, fijar α, buscar en las tablas, etc.? Con p-
valor.

El p-valor es un número que se calcula con los datos de una muestra y que mide la
probabilidad de obtener valores del estadístico más extremos del que calculamos con esa muestra.

- Si el p-valor es pequeño: La discrepancia es grande, ya que no se espera que haya


muchos valores mayores; entonces tenemos evidencia para rechazar H 0.
- Si el p-valor es grande: La discrepancia es pequeña y no tenemos evidencia para rechazar
H0.

10
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

¿Qué es un p-valor grande o pequeño? Un p-valor grande es mayor que 0,15 y p-valor
pequeño es menor que 0,01. Así, si el p-valor está entre 0,01 y 0,15 se rechaza H 0, a menos que sea
muy grave equivocarnos.

El valor “estándar” de referencia para rechazar H0 es de 0,05 o menos. Pero si equivocarnos


resultase muy grave, este valor se puede reducir para estar más seguros de no cometer un error tipo
I.

Ventajas de usar el p-valor:

- Nos dice si el estadístico del test es un número grande o pequeño sin tener que saber
nada sobre su distribución, ni tener que mirar en las tablas.
- Es un número entre 0 y 1, no depende de la magnitud ni las unidades de medida de cada
problema.
- Nos lo calcula cualquier paquete estadístico cuando hacemos un test.

CONCLUSIONES SOBRE LOS TEST ESTADÍSTICOS

- Cuando disponemos de un conjunto de datos, lo único que necesitamos saber para poder
usar los test estadísticos es:
o Qué hipótesis queremos contrastar.
o Cuál es el mejor test.
o Disponer de una máquina que nos calcule el p-valor.
- Los test, como la estadística, no sirven para probar hipótesis. Son “aparatos para
detectar evidencias” que ayudan en la toma de decisiones.
- Los test de hipótesis son lo mejor que pueden aportar los estadísticos para el progreso y
avance del conocimiento.

TABLAS DE CONTINGENCIA Y TEST Χ2

Los individuos de las dos poblaciones (columnas) se clasifican por la categoría de su


respuesta (filas).

Opinión de 167 individuos sobre el cambio de diseño del producto

Menor de 25 Mayor de 25
A favor 8 28
En contra 12 44
NS/NC 22 53
Tabla de contingencia 3x2

Si la respuesta no es categórica se divide en clases y cada individuo se asigna a una de ellas.

11
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

TEST Χ2

H0: Las respuestas son homogéneas entre las poblaciones.

H1: Las respuestas son heterogéneas entre las poblaciones.

Para poder usar este test no tenemos que asumir nada sobre la distribución de la variable,
únicamente que todos los datos son independientes.

H0: La opinión es independiente de la edad H1: Depende de la edad

Pruebas de chi-cuadrado
Sig. Asintótica
Valor gl (bilateral)
Chi-cuadrado de 1,273 2 ,529
Pearson

El p-valor es 0.529. No hemos encontrado evidencia para rechazar H 0, por tanto no podemos
afirmar que la opinión dependa de la edad.

Χ2 (CHI-CUADRADO)

CONCEPTOS PREVIOS

- Transformación de zi´s (normales estándar N(0,1)).

N
χ 2N = χ 2=∑ Z 2i
i=1

- Grados de libertad (N). Número de categorías que pueden variar libremente.


- χ2 puede definirse como un estadístico, un método o una prueba.
- χ2 se suele utilizar como contraste de significación cuando los datos son frecuencias,
tanto absolutas como relativas.
- La mayoría de sus aplicaciones se basan en datos discretos.
- Carácter de χ2: Comparación entre unas frecuencias observada (f o) y unas frecuencias
esperadas bajo Ho (fe).
- Conocer la magnitud de la diferencia entre las frecuencia observadas (f o) y las esperadas
(fe).

[ ]
2
( f o −f e )
χ =∑
2
fe

- Cuanto mayor sea el valor, mayor es la diferencia.


- En la práctica, difícil encontrar valor 0.
- Grados de libertad (?).

12
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

APLICACIONES MÁS FRECUENTES

- Bondad de ajuste:
o Comparación de la divergencia de resultados observados con los esperados,
según la hipótesis de igual probabilidad.
o Comparar los resultados observados con los esperados teóricamente según
cualquier hipótesis establecida.
- Independencia:
o Contrastar la hipótesis de independencia de variables.

TEST CHI-CUADRADO PARA CONTRASTES DE INDEPENDENCIA: GRADOS DE LIBERTAD

Los grados de libertad son el número de categorías que pueden variar libremente.

Tabla de contingencia Sexo * Profesión


Recuento
Profesión
Pedagogo Psicólogo Total
Sexo Hombre 12 15 27
Mujer 15 14 29
Tota 27 29 56
l

(c-1)(f-1)

HIPÓTESIS DE INDEPENDENCIA

La hipótesis de independencia se da muy frecuente en investigaciones. Por ejemplo, ¿Existe


diferencia entre hombres y mujeres en sus preferencias hacia un determinado objeto? O ¿Existen
diferencias por tramos de edad en la elección de un producto?

Ejemplo 1

- V1: Nivel educativo de la madre.


- V2: Nivel educativo del padre

13
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

- H0: V1 y V2 independiente.
- H1: V1 y V2 dependiente.

14
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Observaciones:

- La distribución de la cantidad no es exacta, sino asintóticamente χ 2 (no vale para n


pequeño).
- Las frecuencias esperadas de cada clase deben ser al menos iguales a 5 (si no, se
reagrupa).

TEST CHI-CUADRADO PARA CONTRASTES DE BONDAD DE AJUSTE: GRADOS DE


LIBERTAD

Family Structure
N observado
Single parent 1402
family
Nuclear family 8814
Mixed family 260
Other 221
Total 10697

Nº categorías - 1

Hipótesis de igual probabilidad:

15
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Cualquier hipótesis establecida:

Observaciones:

- La distribución de la cantidad no es exacta, sino asintóticamente χ2 (no vale para n


pequeño).
- Las frecuencias esperadas de cada clase deben ser al menos iguales a 5 (si no, se
reagrupa).
- Grados de libertad:
o Nº de categorías - 1 (si no se estiman parámetros).
o Nº de categorías - r - 1 (si se estiman r parámetros).

16
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

TESTS DE NORMALIDAD: TEST DE BONDAD DE AJUSTE A LA NORMAL

Kolmogorov-Smirnov (Lilliefors) , Shapiro-Wilk, …

- H0: La distribución de los datos es normal.


- H1: La distribución de los datos no es normal.

CONTRASTES SOBRE UNA POBLACIÓN: MEDIAS, MEDIANAS Y


PORCENTAJES

TEST T

- H0: La media de una población es igual a un valor fijo.


- H1: La media de una población es diferente a un valor fijo.

Para poder usar el Test - t para una muestra tenemos que asumir que en la población la
variable que se estudia es:

- Normal (robusta si el tamaño muestral es grande).


- Independiente entre los individuos de la misma población.

TEST DE WILCOXON DE LOS RANGOS SIGNADOS

- H0: La mediana de una población es igual a un valor fijo.


- H1: La mediana de una población es diferente a un valor fijo.

Para poder usar el Test de Wilcoxon de los rangos signados para una muestra tenemos que
asumir que en la población la variable que se estudia es:

- Normal (robusta si el tamaño muestral es grande).


- Independiente entre los individuos de la misma población.

17
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

PRUEBA DE LA BINOMIAL

- H0: La proporción de un suceso de interés en una población es igual a un valor fijo.


- H1: La proporción de un suceso de interés en una población es diferente a un valor fijo.

Para poder usar la prueba de la binomial no hay que asumir nada sobre la distribución de la
variable en la población. Tan solo debe ser dicotómica (binaria). Posible recodificación según cómo
sean los datos.

COMPARACIÓN DE DOS POBLACIONES


Se quiere comprobar si después de un curso de técnicas de venta hay una mejora en los
resultados de los comerciales. Se toman resultados de comerciales antes y después de recibir el
curso.

Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7

TEST GENERAL DE COMPARACIÓN DE DOS POBLACIONES

- H0: Las poblaciones son homogéneas.


- H1: Las poblaciones no son homogéneas.

Cuando hablamos de homogeneidad nos referimos a que los valores observados en ambas
poblaciones vienen de la misma distribución.

En el caso de que sepamos que la distribución de la variable en las dos poblaciones es


normal, estudiar si son homogéneas es equivalente a que las medias y las varianzas coincidan.

PRUEBA T PARA MUESTRAS INDEPENDIENTES

- H0: Las respuestas medias son iguales en las dos poblaciones.


- H1: Las respuestas medias son distintas en las dos poblaciones.

Para poder usar el Test - t para muestras independientes tenemos que asumir que en las dos
poblaciones la variable que se estudia es:

- Normal.
- Independiente entre las poblaciones.
- Independiente entre los individuos de la misma población.
- La varianza puede ser o no la misma en las dos poblaciones.

18
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Se quiere comprobar si después de un curso de técnicas de venta hay una mejora en los
resultados de los comerciales. Se toman resultados de comerciales antes y después de recibir el
curso.

Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7

No hemos encontrado evidencia para rechazar H0, no podemos afirmar que los resultados
de venta sean significativamente distintos antes y después del curso recibido

PRUEBA T PARA MUESTRAS RELACIONADAS

Cuando los datos están emparejados entre las dos muestras se utiliza el test-t para muestras
dependientes.

- H0: Las respuestas medias son iguales en las dos poblaciones.


- H1: Las respuestas medias son distintas en las dos poblaciones.

Para poder usar el Test - t para muestras dependientes tenemos que asumir que en las dos
poblaciones la variable que se estudia es:

- Normal.
- Independiente entre las poblaciones.
- Independiente entre los individuos de la misma población.
- La varianza puede ser o no la misma en las dos poblaciones (se estima la varianza de la
diferencia de los pares de datos).

Se quiere comprobar si después de un curso de técnicas de venta hay una mejora en los
resultados de los comerciales. Se toman resultados de 10 comerciales determinados antes y después
de recibir el curso.

C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7

19
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Hemos encontrado evidencia para rechazar H0, podemos afirmar que los resultados de venta
son significativamente distintos antes y después del curso recibido.

TEST NO PARAMÉTRICO DE MANN-WHITNEY

- H0: Las respuestas medianas son iguales en las dos poblaciones.


- H1: Las respuestas medianas son distintas en las dos poblaciones.

Para poder usar el Test de Mann Whitney no tenemos que asumir nada sobre la distribución
de la variable, únicamente que todos los datos son independientes:

- Normal.
- Independiente entre los grupos.
- Independiente entre los individuos del mismo grupo.

TEST NO PARAMÉTRICO DE WILCOXON

- H0: Las respuestas medianas son iguales en las dos poblaciones.


- H1: Las respuestas medianas son distintas en las dos poblaciones.

El Test de Wilcoxon se usa cuando los datos están emparejados:

- Normal.
- Independiente entre los grupos.
- Independiente entre los individuos del mismo grupo.

C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7

20
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

COMENTARIOS

- La diferencia entre usar un test - t (paramétrico) y un test no paramétrico está en las


hipótesis que asumimos.
- El test - t es de aplicación más restrictiva, pero más potente.
- Cuando se comparan más de dos poblaciones, se utiliza el modelo ANOVA (supuesto de
normalidad), y los tests de KRUSKAL-WALLIS (muestras independientes) y FRIEDMAN
(muestras relacionadas-dependientes).
- Para contrastar la hipótesis de Normalidad se utiliza el contraste de Kolmogorov-Smirnov
(transparencias anteriores).

CORRELACIÓN Y REGRESIÓN

DISTRIBUCIONES BIDIMENSIONALES Y MULTIDIMENSIONALES

Llamamos variable bidimensional a aquélla que describe la población según dos


características X e Y simultáneamente.

El objetivo es estudiar la posible relación entre las variables.

La matriz de datos tendrá tantas filas como observaciones y 2 columnas.

Por ejemplo: Volumen de ventas (X) y gasto en publicidad (Y) de una empresa. El estudio
simultáneo de ambas variables nos permitirá determinar si:

21
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

RECONOCER LA PRESENCIA DE RELACIÓN ENTRE DOS VARIABLES

I. MÉTODO GRÁFICO

Relación directa Relación inversa Ausencia de relación

II. LA COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN LINEAL

Covarianza

1
S xy= ∑ (x i−x)( y i − y)
n i

La covarianza es una medida de asociación lineal entre dos variables:

- La covarianza de variables independientes es cero (el recíproco no necesariamente es


cierto).
- Cuanto mayor es la covarianza, mayor es la relación lineal entre las variables.
- Si dos variables estadísticamente dependientes crecen o decrecen en el mismo sentido,
la covarianza es positiva.
- Si dos variables estadísticamente dependientes crecen o decrecen en sentidos contrarios,
la covarianza es negativa.

Limitaciones de la covarianza:

- Unidad de medida.
- ¿Qué valores nos llevan a considerar la covarianza grande o pequeña?

22
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Coeficiente de correlación lineal (sin dimensión)

S xy
r=
Sx S y

−1 ≤r ≤ 1

Permite valorar la intensidad de la relación lineal entre dos variables. La relación es tanto
mayor cuanto más se acerque a 1 ó -1 el coeficiente. Valores próximos a 0 indican poca asociación
lineal.

Importante: Se puede ir de la independencia entre variables a la incorrelación lineal, pero no


al revés.

Interpretación de los valores del coeficiente de correlación según el rango de valores:

Coeficiente Interpretación
0 Relación nula
0,0 - 0,2 Relación muy baja
0,2 - 0,4 Relación baja
0,4 - 0,6 Relación moderada
0,6 - 0,8 Relación alta
0,8 - 1,0 Relación muy alta
1 Relación perfecta

Correlaciones positivas

23
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Correlaciones positivas y casi perfectas

Correlaciones negativas

Matriz de covarianzas y Matriz de correlaciones

Matriz de varianzas y covarianzas: Es una matriz cuadrada y simétrica cuyos elementos en la


diagonal principal son las varianzas de las variables y fuera de la diagonal las covarianzas.

facturación gasto publicidad


facturación 5323,87
gasto 153,47 4,79
publicidad

Matriz de correlaciones: Es también cuadrada y simétrica, con unos en la diagonal principal


(correlación de un variable consigo misma) y fuera de ella las correlaciones entre las variables.

facturación gasto publicidad


Facturación 1

24
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

gasto 0,96 1
publicidad

OBJETIVOS DE LA REGRESIÓN Y CORRELACIÓN. APLICACIONES

- Datos: Muestra de tamaño n, es decir n observaciones de:


o Una variable dependiente (nivel de medida: escala).
o Una o varias variables independientes (nivel de medida: escala).
- Objetivos:
o Encontrar el modelo que relaciona la variable dependiente con las
independientes.
o Medir la bondad o validez del modelo para expresar dicha relación.
o Hacer predicciones basadas en el modelo obtenido
- Aplicaciones: Ejemplos:
o Consumo en función de la renta.
o Precio en función de la demanda, el tipo de envase, precio de la materia prima,
nivel de renta del país, indicador de gasto del segmento de población al que va
dirigido.
o Ventas en función de edad, precio, gasto en publicidad.

MODELO

Estudiaremos el caso en que el modelo es lineal: Regresión Lineal

Regresión lineal simple: una variable independiente (el modelo es una recta).

y=β 1 x+ β 0 +u

Regresión lineal múltiple: varias variables independientes.

y=β 1 x1 + β 2 x 2 +…+ β k x k + u

- y: variable dependiente.
- x1, x2, …, xk: variables independientes.
- β0, β1, …, βk: coeficientes del modelo.
- u: perturbación aleatoria.

Se trata de estimar el modelo, es decir, los coeficientes, a partir de la muestra de tamaño n.

El modelo no es determinista, es decir la relación formulada para las variables no es exacta,


por esa razón se introduce la perturbación aleatoria. Dicho término recogerá aquellas variables
explicativas que de manera individual se consideran irrelevantes, pero que en conjunto afectan a la
variable dependiente y en general todo lo que no explica el modelo.

25
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

REGRESIÓN LINEAL SIMPLE (UNA ÚNICA VARIABLE INDEPENDIENTE)

Consideraciones previas: La determinación de un modelo de regresión lineal tiene sentido


sólo si hay relación lineal (correlación) entre las variables.

MÉTODOS PARA DETECTAR “PATRONES LINEALES “

1. Examen visual de los diagramas de dispersión:

Relación directa Relación directa

Relación inversa Relación inversa

Relación no lineal Ausencia de relación

2. Cálculo del coeficiente de correlación lineal r para los datos de la muestra:

−1 ≤r ≤ 1

Valores próximos a ±1 indican alta correlación lineal. El valor 0 indica ausencia de relación
lineal.

26
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Podría ocurrir que por la fluctuación muestral, r salga distinto de cero para la muestra pero
siempre habrá que hacer un contraste de hipótesis para verificar que efectivamente el valor muestral
obtenido permite rechazar que el valor poblacional ( ρ ) no es cero.

3. Contraste de hipótesis sobre el parámetro ρ (correlación poblacional):

Podemos utilizar el valor de r para contrastar la hipótesis:

- H0 : ρ = 0
- H1 : ρ ≠ 0

Rechazar H0 si p-valor < nivel de significación del contraste.

Observaciones sobre el coeficiente de correlación lineal:

- La correlación entre dos variables no supone causalidad.


- Si los datos son promedios el coeficiente de correlación lineal se inflará ya que los
promedios suavizan las diferencias individuales.
- Un coeficiente de correlación lineal próximo a 0 o nulo no significa independencia entre
las variables, significa ausencia de relación de tipo lineal pero podrían estar relacionadas
de otra forma.

OBTENCIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE

y=β 1 x+ β 0 +u

El modelo estimado con los datos de la muestra no coincidirá exactamente con el modelo
para la población completa.

Designaremos el modelo obtenido a partir de los datos muestrales:

y=b0 +b1 x

b0 y b1 son estimadores puntuales de los coeficientes poblacionales β 0 y β1.

Obtención de la Recta de Regresión a partir de los datos muestrales:

y=b1 x +b 0

El cálculo de los valores b0 y b1 se hace siguiendo el criterio de los mínimos cuadrados que
determina los valores de b 0 y b1 de forma que la recta sea la que “mejor se ajusta” a los valores
observados, es decir, a los valores muestrales.

27
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

La condición de mínimos cuadrados se puede escribir:

n n
S=∑ ( y i−(b 0 x i)) =∑ e2i 2

i=1 i=1

Puede demostrarse que los valores que satisfacen la condición de los mínimos cuadrados
son:

- Ordenada en el origen de la recta: valor medio estimado para la variable dependiente (y)
cuando la variable independiente toma el valor 0.

s xy
b 0= y− x
s2x

- Pendiente de la recta: mide la variación de la variable dependiente (y) por unidad


adicional de la independiente (x).

s xy
b 1= 2
sx

Los coeficientes de la recta se han obtenido a partir de una muestra concreta. Si


seleccionamos otra muestra el resultado sería otro, hay que esperar que si el método está bien
diseñado, no sea muy diferente.

Así, los coeficientes obtenidos son estimadores de los coeficientes del modelo para la
población completa.

Lo que nos lleva a que si seleccionamos otra muestra el resultado sería otro, por tanto
debemos:

1. Calcular intervalos de confianza para los coeficientes poblacionales. Obtenemos así el


intervalo de posibles valores con una probabilidad conocida.

28
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

2. Contrastar la hipótesis de que cada coeficiente no es cero, si lo fuera la variable


correspondiente no tendría influencia.
3. Contrastar la hipótesis de que el modelo es significativo, es decir que los coeficientes no
son 0 conjuntamente.

Contraste para la significatividad conjunta del modelo:

H0 : β0 = β1 = 0

Intervalos de confianza y contrastes para la significatividad individual de los coeficientes:

Los p-valor son para los contrastes: H0 : β0 = 0 H0 : β1 = 0

BONDAD DE AJUSTE DEL MODELO (EN GENERAL PARA MODELOS LINEALES Y NO


LINEALES)

El objetivo es elaborar un indicador de la bondad de ajuste del modelo estimado.

Se puede demostrar:

2 2 2
s y =s y + s e
¿

2
s y Varianza de los valores observados o varianza total.

2
s y Varianza de los valores explicados por el modelo o varianza explicada.
¿

29
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

2
se Varianza de los residuos o varianza residual.

EN GENERAL PARA MODELOS LINEALES Y NO LINEALES

Coeficiente de determinación:

2
sy ¿

R2= 2
s e

Indica el porcentaje de variación de la variable dependiente y que se explica por la relación


lineal con la variable independiente x. Es por tanto un indicador de la bondad del modelo para
expresar la relación entre las variables.

( 1−R 2 )∗100 Porcentaje de variación de y no explicado por el modelo de regresión. (% de


error del modelo).

2
0≤ R ≤1

EN EL CASO DE MODELO LINEAL


2 2
R =r

Y tiene sentido su raíz cuadrada: Coeficiente de correlación lineal de Pearson 1.

s xy
r=
sx s y

2
2 sy ¿
4450,835
r= = =0,70051 ≈ 0,701
s2
e
6353,704

1
Karl Pearson (1857-1936).

30
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

PREGUNTAS FRECUENTES

¿Si r=0 eso quiere decir que las variables son independientes?

- En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos los casos.
- Lo contrario si es cierto: Independencia implica incorrelación.

Me ha salido r=1.2 ¿la relación es “súper lineal”?

- ¿Súper qué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1.

¿A partir de qué valores se considera que hay “buena relación lineal”?

- Es difícil dar un valor concreto (mirad los gráficos anteriores). Digamos que si |r|>0,7 hay
buena relación lineal y que si |r|>0,4 hay cierta relación.

s xy=0 s xy =0

Las dos variables son Hay dependencia entre las


independientes dos variables, aunque la
covarianza sea nula

REGRESIÓN LINEAL MÚLTIPLE

Es la generalización del modelo anterior al caso de más de una variable independiente.

y=β 0 + β 1 x 1 + β 2 x 2 +…+ β k x k +u

y=b0 +b1 x 1+ b2 x 2 +b3 x 3+ b4 x 4=25,775+ 0,025 x 1 +0,007 x 2 +0,047 x3 −0,022 x 4

31
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

b i Indica el cambio de y cuando xi aumenta una unidad.

Hipótesis básicas del modelo:

1. La forma funcional que liga la variable dependiente con las variables independientes es
de tipo lineal al menos en los parámetros.
2. Las variables explicativas deben ser linealmente independientes (ausencia de
multicolinealidad).
3. Las perturbaciones aleatorias se suponen normales con:
a. Esperanza cero. E ( ui ) =0
b. Varianza constante: homoscedasticidad. V ( ui ) =σ 2 ∀i
c. Son independientes dos a dos. Cov ( u i u j )=0 ∀ i≠ j

CONSECUENCIAS MÁS IMPORTANTES DEL INCUMPLIMIENTO DE LAS HIPÓTESIS

Multicolinealidad:

- La multicolinealidad se produce cuando hay relación entre las variables independientes


del modelo. Aunque difícilmente habrá una correlación perfecta (no podrían estimarse
los parámetros del modelo), la presencia de multicolinealidad inexacta o imperfecta
indica que las variables independientes están compartiendo información y a la hora de
utilizarlas para predecir una variable dependiente se produce un fenómeno de
redundancia: estamos usando varias veces lo mismo para pronosticar algo. Esto se
traduce en una mayor imprecisión en las estimaciones.
- La solución sería proponer un modelo en el que las variables independientes no
presentaran relación. Esto se podría hacer sacando del modelo las variables que
presenten mucha relación con el resto pero esto podría conducir a un problema de
especificación. Una solución que da buenos resultados es hacer una transformación en
las variables originales para conseguir nuevas variables que estén incorreladas (análisis
de componentes principales).
- La multicolinealidad es un problema de los datos

Consecuencias de la presencia de multicolinealidad:

- Alguno o todos los coeficientes del modelo son no significativos de manera individual
pero el modelo resulta significativo y el coeficiente de determinación alto. Esta
consecuencia se suele usar como método para sospechar la presencia de
multicolinealidad.
- Los coeficientes de correlación simple entre pares de variables, son grandes, mayores de
0,7-0,8. Esta consecuencia también se usa como indicio de multicolinealidad. En todo
caso es una condición suficiente pero no necesaria ya que podrían ser bajos si la
multicolinealidad no es por parejas sino por grupos.
- El modelo es poco estable, gran fluctuación de las estimaciones. Modelo no válido.

32
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Detección de la presencia de multicolinealidad:

1. FAV factor de inflación de la varianza (VIF en inglés)

1
VIF j =
1−R 2j

2
R j Coeficiente de determinación múltiple de cada variable independiente con el resto de
independientes (hacemos una regresión de cada variable independiente frente al resto de
independientes).

2. Tolerancia

2 1
TOL j=1−R j =
VIF

Representa el porcentaje de la varianza de X j que no se explica por el resto de variables


independientes del modelo. Una variable con una tolerancia muy baja contribuye con poca
información al modelo y puede ser eliminada del mismo.

Ausencia de multicolinealidad de una variable con el resto:

- VIF=1 (Valor ideal).


- Tolerancia próxima a 1.

Multicolinealidad grave:

- VIF >4 (Valores de R2j >0,75 ).


- Tolerancia próxima a 0.

CONSTRUCCIÓN DEL MODELO DE REGRESIÓN: REGRESIÓN POR PASOS

En la estimación de un modelo de regresión podemos introducir inicialmente todas las


variables independientes y posteriormente depurar el modelo eliminando las variables no
significativas. Deben eliminarse las variables una a una: eliminamos la primera variable no
significativa y reestimamos el modelo con el resto de variables. Si de esta forma conseguimos un
modelo en el que todas las variables sean significativas obtendríamos una ecuación de regresión
válida. En caso contrario, tendríamos que eliminar la siguiente variable no significativa. El proceso
termina cuando todas las variables son estadísticamente significativas.

Otra forma de proceder es la estimación del modelo “paso a paso”.

Es un procedimiento de estimación en el que se van introduciendo en el modelo las variables


independientes, paso a paso, hasta completar el mejor modelo posible.

33
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Se parte de un modelo de regresión lineal simple con la variable independiente más


correlacionada con la variable dependiente. A este modelo se le van añadiendo, una a una, el resto
de variables independientes. Las variables que entran en la ecuación tienen que satisfacer un
“criterio de entrada” que garantice un incremento de la variabilidad explicada de la variable
dependiente que sea significativo.

Es importante tener en cuenta que en cualquiera de los pasos del proceso hay la posibilidad
de extraer una variable que anteriormente se había introducido. Por ejemplo, supongamos que en
los pasos anteriores se habían introducido las variables X4 y X6. Cuando introduce, por ejemplo, X2,
si el procedimiento observa que consigue mejores resultados sacando del modelo la variable X4, que
fue la variable introducida en primer lugar, el modelo final incluiría como variables independientes a
X6 y X2. El proceso se detiene cuando no entra ni sale ninguna variable más en el modelo.

ANOVA (CLÁSICO Y NO PARAMÉTRICO)

DEFINICIÓN Y CARACTERÍSTICAS. APLICACIONES

El análisis de la varianza es un método que permite estudiar el efecto que una, o más,
variables independientes de naturaleza no métrica (se llaman factores o tratamientos) tienen sobre
una, o más, variables dependientes de naturaleza métrica.

Clasificación de las técnicas de Análisis de la Varianza según el número de variables


involucradas.

Variables dependientes (métricas)

Una Varias
independientes
(no métricas)
Variables

ANOVA MANOVA
Una
Un factor Un factor

ANOVA MANOVA
Varias
Varios factores Varios factores

EJEMPLOS

Supongamos que una empresa de cosméticos distribuye una determinada crema solar en
tres formatos diferentes: crema, loción y spray. La pregunta que tratamos de responder es ¿influye el
formato de presentación de la crema en el volumen de ventas?

34
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

¿Influye el medio publicitario, radio, tv, prensa escrita, prensa on-line en el volumen de
ventas de un producto?

ANOVA CON UN FACTOR

Consideramos el caso de un único factor o “tratamiento” (variable independiente). A las


distintas categorías del factor se les llama “niveles”.

Si se observa la variable dependiente para todos los niveles del factor, diremos que el
modelo es de “efectos fijos”. Si se observa la variable dependiente sólo para una muestra de los
posibles niveles del factor diremos que el modelo es de “efectos variables o aleatorios”.

(Estudiaremos sólo el modelo de efectos fijos)

EJEMPLO2

La empresa ERATO va a implantar medidas promocionales para sus distribuidores


tradicionales.

Se han diseñado tres planes de promoción: plan 1, plan 2 y plan 3.

La empresa delimita tres grupos formados por el mismo número de distribuidores. A cada
uno de los grupos les presenta uno de los tres planes de promoción para que los evalúen en una
escala de 1 (muy en desacuerdo) a 7 (muy de acuerdo).

2
Luque Martínez, T.

35
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Plan 1 Plan 2 Plan 3


Puntuació 6 5 4
n 5 4 3
6 5 5
7 4 4
6 4 3
Medias 6 4,4 3,8 Media total 4,73

En general los tamaños muestrales para los diferentes niveles pueden ser distintos. Cuando
el tamaño muestral es el mismo para todos los niveles diremos que el modelo está equilibrado o
balanceado.

La cuestión que se plantea es si existen diferencias significativas entre la puntuación de los


diferentes planes de promoción y por tanto las diferencias en las puntuaciones son debidas al efecto
del plan objeto de evaluación. Por lo tanto la hipótesis nula del contraste será:

- H 0 : μ1=μ2=μ 3 La valoración media es la misma para los 3 planes (el tipo de plan no
influye en la valoración del mismo).
- H 1 : no todaslas medias son iguales . Al menos un plan es valorado diferente.

Si podemos rechazar la hipótesis nula, es decir, si admitimos que existen diferencias en la


valoración media de los tres planes, habrá que identificar el plan mejor valorado para ponerlo en
marcha con mayores garantías de éxito.

REQUISITOS DEL ANOVA

- Las poblaciones de donde proceden las muestras tienen que ser normales (requisito de
normalidad no muy estricto. El método “funciona bien” siempre que la población no sea
“muy diferente” de la normal).
- Las poblaciones tengan igual varianza (homoscedasticidad) (El método “funciona bien” a
menos que las varianzas poblacionales difieran “en grandes cantidades”).
- Las muestras se han obtenido de forma aleatoria y son independientes.

En principio tenemos p poblaciones normales N ( μ1 , σ 1 ) N ( μ2 , σ 2 ) … N (μ p , σ p ) y queremos


2 2 2

contrastar la hipótesis:

36
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

- H 0 : μ1=μ2=…=μ p La hipótesis nula implica que el factor, o tratamiento, no tiene


ningún efecto sobre la variable dependiente.
- H 1 : no todaslas medias son iguales .

PRUEBA PARA LA IGUALDAD DE 3 O MÁS POBLACIONES

Supuestos: ANOVA CLÁSICO

- Normalidad de las poblaciones. → - Análisis post hoc: Bonferroni.


- Varianzas poblacionales iguales.

Supuestos: Métodos no paramétricos

- Si alguna población no es → - KRUSKALL-WALLIS.


normal.

Supuestos: Estadístico de WELCH

- Normalidad de las poblaciones. → - Análisis post hoc: T2 de


- Varianzas poblacionales distintas Tamhane

CONSTRUCCIÓN DEL ESTADÍSTICO DE CONTRASTE

DESCOMPOSICIÓN DE LA VARIANZA

Supondremos que la desviación entre cada observación y la media global puede


descomponerse en el efecto que produce el factor más el efecto no producido por el citado factor y
que llamamos efecto residual. Supondremos un solo factor con “p” niveles:

- x ip Valor de la variable dependiente para el individuo i en el nivel p del factor.


- x Media total de las observaciones.
- x p Media de cada nivel del factor.

( x ip−x ) Desviación de cada observación de la media total.

( x p−x ) Desviación de la media de cada nivel del factor respecto de la media total.

( x ip−x p ) Desviación de cada observación respecto de la media de su grupo.

( x ip−x )=( x p −x )+ ( x ip−x p )

Veamos algunos cálculos:

Plan 1 Plan 2 Plan 3

37
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Puntuació 6 5 4
n 5 4 3
6 5 5
7 4 4
6 4 3
Medias 6 4,4 3,8 Media total 4,73

( x ip−x )=( x p −x )+ ( x ip−x p )

( 4−4,73 )=( 4,4−4,73 ) + ( 4−4,4 )

( 7−4,73 ) =( 6−4,73 ) + ( 7−6 )

Si elevamos al cuadrado y sumamos para todas las observaciones se obtiene la ecuación


fundamental del análisis de la varianza:

∑ ∑ ( xip−x )2 ¿ ∑ ( x p −x )2 +¿ ∑ ∑ ( xip −x p ) 2
i p p i p

SCT +¿ SCF +¿ SCR

Medida de la variabilidad Medida de la variabilidad Medida de la variabilidad


total observada en la debida al factor. debida al azar.
muestra.
Suma de cuadrados debida Suma de cuadrados NO
Suma de cuadrados total al factor SCF. debida al factor o residual
SCT. SCR.

Los programas informáticos suelen disponer la información en una tabla:

- H 0 : μ1=μ2=…=μ p
- H 1 : no todaslas medias son iguales .

Suma de Grados de Cuadrados sig (p-


Fuente de variación F (estadístico de contraste)
cuadrados libertad medios valor)
Factor (entre grupos) SCF
SCF p−1 MFC=
Varianza debida al factor p−1 MCF
F= ≈ F( p−1)(n−1 )
Residual SCR MCR
SCR n− p MCR=
Varianza dentro de los grupos n− p
Total SCT n

- Si p-valor es pequeño, se rechaza la hipótesis nula de medias iguales: El factor tiene


efecto en la variable dependiente porque al menos una de las medias poblacionales es
diferente de las otras.
- Si p-valor no es pequeño, no se rechaza la hipótesis nula: El factor no tiene efecto en la
variable dependiente.

38
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

SCF 2 2
El cociente =η =R proporciona una medida de la bondad del ajuste o de la capacidad
SCT
del factor para explicar la variabilidad total de la variable dependiente, es decir, la proporción de
variabilidad total que es debida al tratamiento llevado a cabo.

2
0≤η ≤1

2
- η =0 El factor no explica nada de la variabilidad total de la variable dependiente.
2
- η =1 El factor explica toda la varianza total.

EJEMPLO

La empresa ERATO. Objetivo: determinar si las puntuaciones de los planes son iguales o no,
mediante el contraste de la siguiente hipótesis:

- H 0 : μ1=μ2=μ 3 La valoraciones de los planes son iguales.


- H 1 : no todaslas medias son iguales . Al menos un plan es valorado diferente.

Comprobación de los supuestos requeridos:

- Normalidad: Analizar/Estadísticos descriptivos/ Explorar/ Gráficos/ Gráficos con pruebas


de normalidad (o Pruebas no paramétricas).
- Varianzas iguales. Test de Levene (este test lo proporciona SPSS en “opciones”
- del cuadro de diálogo de ANOVA).

En SPSS el fichero de datos contendrá 2 variables:

39
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Normalidad:

Nota: En este ejemplo no se cumple el supuesto de normalidad de las poblaciones, ya que si


bien no podemos rechazar normalidad para los planes 1 y 3. Sí rechazamos normalidad para el plan
2. La violación de este supuesto nos impide seguir con el procedimiento de ANOVA clásico. La
solución es utilizar una prueba no paramétrica: Kruskall - Wallis.

40
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

COMPARACIÓN DE MÁS DE DOS POBLACIONES CON DATOS NO NORMALES (INCLUSO


ORDINALES)

Test no paramétrico de Kruskal-Wallis

- H0: Las respuestas medianas son iguales en las poblaciones.


- H1: Las respuestas medianas son distintas en las poblaciones.

Para poder usar el Test de Kruskal-Wallis no tenemos que asumir nada sobre la distribución
de la variable, únicamente que todos los datos son independientes.

Test no paramétrico de Friedman

- H0: Las respuestas medianas son iguales en las poblaciones.


- H1: Las respuestas medianas son distintas en las poblaciones.

El Test de Friedman se usa cuando los datos son dependientes.

Ejemplo de test no paramétrico de Kruskal-Wallis

Aunque existen procedimientos para efectuar comparaciones múltiples tras obtener un


estadístico significativo, para analizar con SPSS qué planes difieren entre sí se puede utilizar la prueba
de Mann-Whitney para dos muestras independientes, pero acompañada de la corrección de
Bonferroni para controlar la tasa de error: con tres planes hay tres comparaciones dos a dos (1-2, 1-3
y 2-3), por lo que la aplicación de la corrección de Bonferroni nos llevará a comparar el p-valor con
0,05/3 = 0,017.

Nota: en este ejemplo NO se cumple el supuesto de normalidad de las poblaciones, ya que si


bien no podemos rechazar normalidad para los planes 1 y 3 SÍ rechazamos normalidad para el plan 2.
La violación de este supuesto nos impide seguir con el procedimiento de ANOVA clásico. La solución
es utilizar una prueba NO paramétrica: Kruskall - Wallis. No obstante a efectos de ilustración
seguiremos ejecutando el procedimiento para el ejemplo ERATO.

41
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

ANOVA DE UN FACTOR (ANALIZAR: COMPARAR MEDIAS)

- H 0 :σ 21=σ 22=σ 23
- H 1 : almenos 1 varianza es diferente

No rechazamos igualdad de las varianzas.

Resultados del análisis:

- H 0 : μ1=μ2=μ 3
- H 1 : no todaslas medias son iguales

Se rechaza la hipótesis nula de medias iguales: Los planes de promoción son valorados de forma
significativamente diferente.

12,933
η2 = =0,68 Un porcentaje considerable de la variabilidad de las puntuaciones
18,933
otorgadas es explicada por el tipo de plan.

Suma de Grados de Cuadrados sig (p-


Fuente de variación F (estadístico de contraste)
cuadrados libertad medios valor)
Factor (entre grupos) SCF p−1 SCF MCF
Varianza debida al factor MFC= F= ≈ F( p−1)(n−1 )
p−1 MCR

42
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Residual SCR
SCR n− p MCR=
Varianza dentro de los grupos n− p
Total SCT n

ANÁLISIS POSTERIOR A LA DECISIÓN (POST HOC)

En el caso en que se rechace la hipótesis nula y por tanto se concluya que no todas las
medias son iguales, habrá que investigar cuál o cuáles de los niveles tienen influencia en la variable
de respuesta, es decir, ¿para qué niveles del factor son las medias diferentes?

1. Gráficamente: Solicitar un gráfico de las medias. El gráfico lo proporciona SPSS en


“opciones” del cuadro de diálogo de ANOVA.

Diferencia notable en la valoración media del plan 1. Los planes 2 y 3 tienen valoraciones más
parecidas

2. Procedimientos de comparación múltiples: Contrastes para la igualdad de medias dos a


dos. SPSS (botón post hoc). Si podemos suponer igualdad de las varianzas el test más
utilizado es el de Bonferroni.

43
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

En nuestro caso, al no haber rechazado que las varianzas sean iguales, tenemos que utilizar el
contraste de Bonferroni.

Diferencia significativa: Diferencia significativa: Diferencia no significativa:


- H 0 : μ1=μ2 - H 0 : μ1=μ3 - H 0 : μ2=μ3
( μ ¿ ¿ 1−μ 2=0)¿ ( μ ¿ ¿ 1−μ 3=0)¿ (μ ¿ ¿ 2−μ 3=0)¿
- H 1 : μ 1 ≠ μ2 - H 1 : μ 1 ≠ μ3 - H 1 : μ 2 ≠ μ3

Si observamos la tabla:

- Planes 1 y 2: La valoración del plan 1 es superior a la del plan 2.


- Planes 1 y 3: La valoración del plan 1 es superior a la del plan 3.

44
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

- Planes 2 y 3: Estos planes no se valoran de forma diferente.

En el caso de que el factor sólo tenga 2 niveles, el ANOVA es equivalente a la prueba t para
muestras independientes. En el ejemplo, supongamos que solo hay dos planes de promoción.

El contraste que se realiza es el mismo:

- H 0 : μ1=μ2 → μ1−μ 2=0


- H 1 : μ 1 ≠ μ2

45
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

ANÁLISIS CLUSTER: TÉCNICAS DE AGRUPACIÓN, SEGMENTACIÓN


O CONGLOMERADOS

OBJETIVO DEL ANÁLISIS CLUSTER

El objetivo de las técnicas estadísticas de análisis cluster o de conglomerados es identificar


grupos de individuos con características comunes a partir de la observación de varias variables en
cada uno de ellos.

Esta técnica no debe ser confundida con el análisis discriminante y los métodos de
asignación, que parten de un conocimiento previo de los grupos.

¿QUÉ ES UN CLUSTER?

Un cluster es un grupo de individuos que, cuando la dimensión lo permite, el ojo humano


identifica como homogéneos entre sí y separados de los individuos de los otros clusters.

La solución, para establecer los grupos, no siempre es obvia:

46
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Técnicas cluster han sido tradicionalmente utilizadas en numerosas disciplinas:

- Marketing: Segmentación de mercados.


- Biología: Taxonomía. Micro-arrays.
- Ciencias Ambientales: Tipologías de aguas en ríos
- …

¿CÓMO SE ENCUENTRAN LOS CLUSTERS?

TÉCNICAS PARA ENCONTRAR CLUSTERS

Cluster jerárquico: Producen una secuencia de particiones, juntando o separando clusters.


En cada paso se juntan o separan dos clusters siguiendo algún criterio especificado.

Cluster no jerárquico: Producen una partición de los objetos en un número especificado de


grupos siguiendo un criterio de optimización.

Los criterios para identificar los clusters se basan siempre en medidas de similitud o de
DISCREPANCIA entre todos los pares de datos. Algunos procedimientos cluster se pueden ejecutar
conociendo sólo la matriz de discrepancias En general, se busca homogeneidad dentro de los grupos
y heterogeneidad entre grupos.

DECISIONES QUE HAY QUE TOMAR PARA ENCONTRAR UN CLUSTER

1. Elegir el método cluster que se va a emplear.


2. Decidir sobre si trabajar con los datos según se miden o estandarizados.
3. Seleccionar la forma de medir la distancia entre individuos, dependiendo de si los datos
son continuos, discretos o categóricos.
4. Elegir un criterio para unir grupos, distancia entre grupos.
5. Decidir el número de clusters.

TIPOS DE CLUSTERS

Clusters jerárquicos: Los aglomerativos son los más habituales, los divisivos requieren
muchos cálculos.

- Métodos aglomerativos: Parten de tantos clusters como datos tiene la muestra y en


cada paso se van juntando dos clusters siguiendo algún criterio especificado hasta
obtener un único cluster con todos los datos.
- Métodos divisivos: Parten de un único cluster con todos los datos que se va dividiendo
paso a paso, hasta obtener tantos clusters como datos.

Clusters no jerárquicos:

47
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

- K-Medias: Es el que se usa más habitualmente. Fácil de programar y da resultados


razonables.

MÉTODOS DE AGRUPACIÓN JERÁRQUICOS Y POR PARTICIPACIÓN

Taxonomía no jerárquica Taxonomía jerárquica

Dendograma

Los clusters están representados mediante trazos horizontales y las etapas de la fusión
mediante trazos verticales. La separación entre las etapas de la fusión es proporcional a la distancia a
la que se están fundiendo los elementos en esa etapa.

DISTANCIAS ENTRE DATOS CONTINUOS

Distancia Euclídea:

2 2 2 2
D ( xi , x j )=(x 1 i−x 1 j) +( x2 i−x 2 j ) + …+( xki −x kj )

48
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Distancia Euclídea (datos estandarizados):

2 x1 i−x 1 j 2 x 2 i−x 2 j 2 x ki −x kj 2
D ( xi , x j )=( ) +( ) +…+( )
s^ 1 ^s2 ^sk

Distancia de Mahalanobis:

( )( )
2
s1 s 12 ⋯ s 1 k x1 i−x 1 j
2
D 2 ( xi , x j )=( x 1 i−x 1 j , x 2 i−x 2 j , … , x ki −x kj) s12 s 2 … s 2 k x2 i−x 2 j
⋮ ⋮ ⋱ ⋮ ⋮
s1 k s2 k ⋯ sk 2
x ki −x kj

Distancias entre datos continuos en SPSS:

- Distancia euclídea: Raíz cuadrada de la suma de cuadrados de las diferencias entre los
valores. Es la medida por defecto para datos de intervalo.
- Distancia euclídea al cuadrado: Suma de cuadrados de las diferencias entre los valores.
- Correlación de Pearson: Correlación producto-momento entre dos vectores de valores.
- Coseno: Coseno del ángulo entre dos vectores de valores.
- Chebychev: Diferencia absoluta máxima entre los valores.
- Bloque: Suma de las diferencias absolutas entre los valores. También se conoce como
distancia de Manhattan.
- Minkowski: Raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-
ésima entre los valores.
- Personalizada: Raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia
p-ésima entre los valores de los elementos

DISTANCIAS/SIMILITUDES ENTRE DATOS CUALITATIVOS (BINARIOS)

Para calcular la similitud entre dos individuos para los que se observan p variables binarias
tipo “presencia/ausencia” se calculan todas las situaciones posibles.

- a es el número de veces en las p variables que ambas observaciones valen 1 al mismo


tiempo.
- b es el número de veces en las p variables que la observación i vale 1 y la j vale 0.

49
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

- c es el número de veces en las p variables que la observación i vale 0 y la j vale 1.


- d es el número de veces en las p variables que ambas observaciones valen 1 al mismo
tiempo.

Otros coeficientes que se usan menos son:

- Sokal y Sneath:

2(a+d )
2 ( a+d ) +b+ c

- Czekanowski y Sorensen:

2a
2 a+b+c

EJEMPLO DE PRESENCIA/AUSENCIA DE ESPECIES

Presencia (1) o ausencia (0) de 15 características en 3 productos:

d d a d1 d
a3 a8 d7 d17 a17 d16 a16 s14 c1 d18
3 8 7 4 1
A 1 1 1 1 1 1 1 1 1 0 0 0 1 1 1
B 1 1 1 1 0 0 1 1 0 0 0 0 0 0 0
C 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0

A/ B 1 0 Total
1 a=6 b=6 a+ b=12
2 c=0 d=3 c +d=3
Total a+ c=6 b+ d=9 p=15

Coeficiente de concordancia simple: Coeficiente de Jaccard:

9 6
s A ,B = =0,600 s A ,B = =0,500
15 12

DISTANCIAS/SIMILITUDES ENTRE DATOS CUALITATIVOS

En el caso de dos variables cualitativas con más de dos categorías, el indicador de similitud
más utilizado es una generalización del coeficiente de concordancia simple:

a1 +a 2+ …+a k + d
si , j=
p

50
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

- a 1 es el número de veces que ambas observaciones tienen valor 1.


- a 2 es el número de veces que ambas observaciones tienen valor 2.
- …
- a k es el número de veces que ambas observaciones tienen valor k.
- d es el número de veces que ambas observaciones tienen valor 0.

CRITERIOS PARA UNIR GRUPOS EN MÉTODOS JERÁRQUICOS

1. Enlace sencillo (single linkage): Unir por la distancia al individuo más cercano del grupo,
es útil para identificar atípicos.
2. Enlace promedio (average linkage): Unir por la media de las distancias a todos los
individuos del grupo.
3. Enlace completo (complete linkage): unir por la distancia al individuo más alejado del
grupo.
4. Enlace de centroides (centroid linkage): minimizar la distancia a los “centros” de los
grupos.
5. Método de Ward (Ward linkage): minimizar la suma de cuadrados de las distancias a los
centros de los grupos.

EJEMPLO DE PRESENCIA/AUSENCIA DE ESPECIES

Diferentes criterios dan lugar a diferentes agrupaciones.

51
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Enlace sencillo Enlace centroide

¿CUÁNTOS CLUSTERS HAY?

- Test formales.
- Conocimiento del problema (intuición).

Es muy importante elegir un número de cluster que sepamos interpretar. Algunas técnicas
estudiadas nos ayudan a interpretar los cluster:

- ANOVA.
- Análisis factorial.
- Análisis discriminante.
- …

52
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

ALGORITMO DE K-MEDIAS

Los métodos de agrupación no jerárquicos están diseñados para separar las observaciones en
k clusters, de manera que cada dato pertenezca a un grupo y sólo a uno.

El objetivo de optimalidad que se persigue generalmente es “minimizar la variabilidad dentro


de los grupos, maximizando la variabilidad entre grupos”.

No basta la matriz de distancias, se necesitan los vectores de observaciones.

Pasos del algoritmo de k-medias:

1. Asignamos las n observaciones a K grupos: Esta primera asignación se recomienda que


sea aleatoria para evitar sesgos. En cada grupo se calcula el vector de medias (centro del
grupo).
2. Asignamos secuencialmente cada observación al grupo cuyo centro esté más cercano y
se recalculan los centros de los grupos al que se añade y del que se elimina:
Generalmente se usa la distancia euclídea de las observaciones a los centros.
3. Repetir el paso 2 hasta que no haya re-asignaciones, o se alcance el mínimo de un
“criterio de homogeneidad”.

El criterio de homogeneidad de los grupos más habitual es minimizar la suma de cuadrados


dentro de los grupos.

K nk
SCDG=∑ ∑ ( x i ,k −x k )' (x i ,k − xk )
k=1 i=1

- n k es el número de observaciones en el grupo k .


- x i ,k es la i -ésima observación del grupo k .
- x k es el vector de medias, y centro, del grupo k .

Es decir, la SCDG es la suma de las distancias (euclídeas al cuadrado) de cada dato al centro
de su conglomerado asignado.

La SCDG también se expresa como una media ponderada (por el tamaño de cada grupo) de
las varianzas de las variables en los diferentes grupos:

( )
K p
SCDG=∑ nk ∑ s2i , k
k=1 i=1

2
- si , k es la varianza de la variable i en el grupo k .

53
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

EJEMPLO DE GASTO DE LAS FAMILIAS POR PROVINCIAS

ENLACE CON MÉTODO DE WARD. FICHA TÉCNICA: VARIABLES ORIGINALES.


DISTANCIA EUCLÍDEA

54
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Enlace con el Método de Ward Clusters con k-medias

55
Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

CONTRASTES NO PARAMÉTRICOS CLÁSICOS (CON SPSS)


Prácticamente todos los procedimientos pueden encontrarse en el menú: SPSS: Analizar -
Contrastes No Paramétricos. Bien a través de los cuadros de diálogo actuales o de los “antiguos”.

Contrastes no Paramétricos para una muestra:

1. Contrastes de Bondad de Ajuste, a una distribución fijada:


1.1. Kolmogorov-Smirnov para variables escala (Lilliefors cuando se contrasta
Normalidad).
1.2. Chi cuadrado χ2 (variables ordinales o nominales).
1.3. Prueba de la Binomial (¡sólo para variables binarias!).
2. Contrastes de localización (un valor fijado de la mediana):
2.1. Test del signo (no en SPSS).
2.2. Test de Wilcoxon de los rangos signados.
3. Test de aleatoriedad: Test de Rachas (sólo dos categorías).

Contrastes no Paramétricos para dos muestras:

1. Igualdad de distribuciones/medianas en muestras independientes.


1.1. Kolmogorov-Smirnov (igualdad de distribuciones, variables escala).
1.2. U Mann-Whitney-Wilcoxon (igualdad de medianas, variables escala).
2. Igualdad de medianas en muestras relacionadas (variables escala).
2.1. Test del signo.
2.2. Test de Wilcoxon de los rangos signados.
3. Contraste de independencia Chi cuadrado (variables ordinales o nominales): SPSS:
Analizar - Tablas o Analizar - Descriptivos - Tablas de Contingencia.

Contrastes no Paramétricos para más de dos muestras (igualdad de medianas):

1. Muestras independientes: Kruskal-Wallis.


2. Muestras relacionadas: Friedman.

Medidas de dependencia entre dos variables:

1. R de Pearson.
2. Tau de Kendall.
3. Rho de correlación de rangos de Spearman: SPSS: Analizar - Correlaciones.

56

También podría gustarte