36 - Análisis de Datos en Marketing (Por Adolfo Hernández)

Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.
ANÁLISIS DE DATOS EN
MARKETING
Por Adolfo Hernández
Temas que se van a tratar en el curso:
1. Análisis exploratorios, tabulación, contrastes chi cuadrado (χ 2).

2. Contrastes de medias y porcentajes.
3. Coeficiente de correlación, regresiones simples, regresiones múltiples.
4. ANOVA.
5. Análisis cluster (de Conglomerados).
Software para los análisis estadísticos:
- Software no específico para análisis, con pocas herramientas estadísticas. Muy

disponible. Como es Excel.
- Software específico para análisis estadísticos. No siempre disponible. Como es SPSS.
INTRODUCCIÓN
¿QUÉ ES LA ESTADÍSTICA?
La estadística es una herramienta para la toma de decisiones que nos permite obtener
información a partir de una observación incompleta de la realidad.
Para hacer estadística es imprescindible tener datos. Los datos son valores numéricos a
partir de los que se extraen las conclusiones. Se pueden obtener mediante:
- Observación.
- Experimentos.
- Encuestas.
En la estadística se utiliza el método inductivo para inferir conclusiones. De lo particular a lo

general. La muestra es lo particular y la población es lo general. La muestra es un subconjunto de la
población. El objetivo de la estadística es extraer conclusiones sobre la población con la información
que proporciona la muestra.
1
La inferencia de conclusiones generales a partir de muestras es siempre incierta. Existen

muchas muestras posibles, pero nosotros ¡¡¡sólo observamos una!!! La estadística se ocupa de
medir esa incertidumbre.
La estadística se divide en:
- Descriptiva: “Con estos datos podemos decir que ocurre […] en esta muestra”.
- Inferencial: “Con estos datos podemos decir que hemos encontrado evidencia estadística
para poder afirmar que ocurre […] en la población”.
RESÚMENES NUMÉRICOS Y GRÁFICOS DE LOS DATOS

Clasificación de los tipos de datos:
- Univariantes.
- Tipo de datos. - Bivariantes.
- Multivariantes.
- Multivariantes.
- Dicotómicos o binarios.
- Cualitativos o categóricos. - Nominales.
- Politómicos.
- Tipo de datos. - Ordinales o semicuantitativos.
- Discretos o discontinuos.
- Cuantitativos.
- Continuos.
RESÚMENES NUMÉRICOS DE LOS DATOS
PARA DATOS CATEGÓRICOS O DISCRETOS
- Tabla de frecuencias.
PARA DATOS CUANTITATIVOS
Medidas de posición:
- Media: Se suman todos los datos y se divide entre el número total (tamaño muestral).
- Mediana (o percentil 50%, Q2): Valor central cuando los datos se ordenan por su
magnitud. Cuando hay un número impar de datos es el número que deja la misma
cantidad de observaciones a un lado y a otro. Cuando hay un número par de datos es la
media de los das observaciones centrales.
- Moda: Es el valor que aparece con más frecuencia en la muestra.
- Media recortada: Se calcula igual que la media pero quitando los datos extremos más
pequeños y los más grandes, en un porcentaje fijo.
- Media vs. Mediana:
2
o La media es más eficiente que la mediana: La media usa toda la información de

los datos mientras que la mediana ignora las magnitudes, solo considera el
orden.
o La mediana es más robusta que la media: La media es muy sensible a la
presencia de atípicos mientras que a la mediana no le afectan las magnitudes de
la mayoría de las observaciones.
o La media ( ) es el “punto de equilibrio” de los datos y la mediana ( ) es el dato
central.
Medidas de variabilidad o dispersión:
- Recorrido: Diferencia entre el dato más grande y el más pequeño.

- Varianza: Promedio de todas las distancias de cada dato a la media (centro de la
muestra).
- Desviación típica: Raíz cuadrada de la varianza, con las mismas unidades que los datos.
- Rango: Diferencia entre el valor mínimo y el valor máximo.
- Rango intercuartílico (Q3-Q1): Diferencia entre el percentil 75% y el 25%. Es el rango del
50% de los valores centrales.
- MEDA (Mediana de las desviaciones absolutas): Mediana de los valores absolutos de las
diferencias entre cada dato y la mediana.
Medidas de forma:
- Coeficiente de asimetría.
- Coeficiente de curtosis o apuntamiento.
Medidas de asociación:
- Coeficiente de correlación de Pearson.
RESÚMENES DE GRÁFICOS DE DATOS
PARA DATOS UNIVARIANTES
Datos categóricos o discretos:
- Diagrama de barras.
- Diagrama de sectores.
- Mapas estadísticos.
3
Datos cuantitativos:
- Serie temporal.
- Histograma.
- Gráficos probabilísticos.
- Barras de error.
- Box-plot.
PARA DATOS MULTIVARIANTES
Datos categóricos o discretos:
- Diagrama de barras múltiple.
Datos cuantitativos:
- Box-plot múltiple.
- Diagrama de dispersión.
- Matriz de diagramas de dispersión.
- Gráficos de estrellas y caras.
EJEMPLOS
RESÚMENES NUMÉRICOS DE DATOS CUALITATIVOS
Tabla de frecuencias
Informa sobre los valores que toma la variable y el número o porcentaje de veces que se
repiten en la muestra.
¿En qué medida crees que ampliar tu formación con un curso de estadística puede beneficiar
tu actividad profesional?
4
Diagrama de barras
Se representan mediante barras las frecuencias (o porcentajes)
Sectores, pictograma o tarta
Las frecuencias se representan mediante la parte proporcional de un círculo.
RESÚMENES GRÁFICOS DE DATOS CUALITATIVOS MULTIVARIANTES
Diagrama de barras múltiple
5
RESÚMENES NUMÉRICOS DE DATOS CUANTITATIVOS
Histograma
Se representan, mediante cajas las frecuencias de los datos agrupados en intervalos.

Describen cómo se distribuyen los datos.
Las pirámides de población son histogramas “tumbados”.
Las frecuencias se pueden representar en: Valores absolutos en altura, valores relativos en
altura, valores relativos en área (el área total es 1).
Consejos:
- Usar intervalos de igual longitud.

- Los intervalos no se pueden solapar.
6
- Cada observación solo puede pertenecer a un intervalo.

- Todos los datos deben pertenecer a algún intervalo.
- La forma depende de la amplitud del intervalo.
Una propiedad interesante
Cuando la representación de la frecuencia de los datos tiene un aspecto normal:
- Aproximadamente el 60% de los datos están entre la media menos una desviación típica
y la media más una desviación típica.
- Aproximadamente el 95% de los datos están entre la media menos dos desviaciones
típicas y la media más dos desviaciones típicas.
- Aproximadamente el 99% de los datos están entre la media menos tres desviaciones
típicas y la media más tres desviaciones típicas.
Transformación de los datos
Cuando el histograma no parezca el de unos datos normales, es conveniente transformar los

datos para facilitar su estudio.
- Cambio de unidades para facilitar la comparación de muestras.

- Buscar transformaciones que den una distribución simétrica.
- Transformar con el logaritmo neperiano hace más simétricos los conjuntos de datos
referidos a tamaños.
Diagrama de cajas o boxplot
1. Ordenar la muestra.
2. Calcular la mediana, el primer y el tercer cuartil.
3. 3. Calcular el rango intercuartílico.
7
RESÚMENES NUMÉRICOS DE DATOS CUANTITATIVOS MULTIVARIANTES
Boxplot múltiple
Se usa para comparar:
- Una variable en grupos diferentes.

- Varias variables solo cuando las unidades de medida son “compatibles”.
CONTRASTES DE HIPÓTESIS
EL TEST ESTADÍSTICO
Un test o contraste de hipótesis es la “herramienta” que nos permite juzgar una hipótesis
con la información que proporciona una muestra de datos.
La hipótesis que estamos juzgando se llama hipótesis nula (H0) y la contraria se llama
hipótesis alternativa (H1).
8
De entrada, se asume que H0 es cierta, y se trata de averiguar si los datos aportan tanta
evidencia en contra como para llegar a rechazarla. Como en los juicios, todo el mundo es inocente
(hipótesis nula, H0) hasta que se demuestre lo contrario. Se trata de averiguar si los datos aportan
tanta evidencia en contra de la hipótesis nula (H 0) como para llegar a rechazarla.
Una vez que hemos fijado H 0, la pregunta que nos hacemos es: ¿Los datos aportan suficiente
evidencia en contra de la hipótesis nula?
- Sí hay evidencia en contra de la hipótesis: Se rechaza y decimos que hay evidencia a

favor de la hipótesis contraria.
- No hay evidencia en contra de la hipótesis: No se rechaza pero tampoco se ha
demostrado que la hipótesis sea cierta.
¡¡¡La estadística no sirve para probar nada!!!
Por ejemplo, si las pruebas aportan suficiente evidencia en contra de la inocencia (H 0), se
rechaza y se declara culpable al acusado. Si las pruebas no aportan suficiente evidencia en contra de
la inocencia (H0), no se rechaza y se declara no culpable al acusado, que no es lo mismo que
declararle inocente.
DISEÑO DE UN TEST ESTADÍSTICO
Pasos que hay que seguir para diseñar un buen test estadístico:
1. Fijar de manera precisa las hipótesis (H 0 y H1).

2. Definir un buen estadístico del test.
3. Fijar qué porcentaje de veces estamos dispuestos a asumir que rechazamos la hipótesis
nula cuando es cierta.
4. Resolver el test …
5. Entre dos test elegiremos siempre el más potente para detectar la evidencia que
contienen los datos.
FIJAR DE MANERA PRECISA LAS HIPÓTESIS (H0 Y H1) Y DEFINIR UN BUEN

ESTADÍSTICO DEL TEST
El estadístico de un test es una fórmula matemática que sirve para medir la discrepancia
entre lo que dice la hipótesis nula y lo que dicen los datos:
- Si la discrepancia es grande: La hipótesis nula no es muy creíble, tenemos evidencia para

rechazarla.
- Si la discrepancia es pequeña: No tenemos motivos para dudar de la hipótesis nula, no
tenemos evidencia para rechazarla.
¿Qué es grande y qué es pequeño? La estadística proporciona una solución para poder
decidir que es grande y qué es pequeño, por consenso. La clave está en encontrar como sería la
9
distribución estadística de los valores que podría llegar a tomar la discrepancia, calculada con
distintas muestras, si H0 fuese cierta. Rechazamos la hipótesis nula cuando el número que resulta al
evaluar la fórmula de la discrepancia (estadístico del test) usando nuestros datos, es un valor
extremo de la distribución; es decir, está en la cola, entre los poco probables o creíbles. De esto se
ocupa la estadística matemática, siendo las distribuciones más habituales la Normal, t de Student, F
y chi-cuadrado (χ2) (de todas existen tablas, incluidas en SPSS).
¿Cómo decidimos que el valor es extremo? Arriesgándonos…
FIJAR QUÉ PORCENTAJE DE VECES ESTAMOS DISPUESTOS A ASUMIR QUE

RECHAZAMOS LA HIPÓTESIS NULA CUANDO ES CIERTA
En muchos estudios la decisión se toma a partir de un valor de α que se fija antes de ver los
datos y para el que casi siempre se utiliza el valor 0,05.
α es el nivel de significación, la probabilidad de cometer error de tipo I; es decir, de

rechazar la hipótesis nula cuando es cierta. Por eso siempre se utiliza un valor bajo (nunca por
encima de 0,2). Rechazamos cuando el estadístico del test está entre el α % de valores más extremos
de la distribución.
Una vez que hemos fijado el valor de α, sea quien sea el que aplique el test, la decisión es la
misma, hay consenso. Pero también puede haber errores… Errores que se pueden cometer:
- Tipo I: H0 es cierta y se rechaza. Grave, probabilidad baja.

- Tipo II: H0 es falsa y no se rechaza. Menos grave.
El mejor test es el que fijando una posibilidad baja de cometer error de tipo I, tiene el error
de tipo II más bajo (es más potente).
Los jueces cometen errores de tipo I cuando declaran culpables a inocentes, y de tipo II
cuando declaran no culpables a culpables.
¿Cómo podemos simplificar el proceso para no tener que recordar cada vez que queramos
hacer un test: cuál es el estadístico del test, su distribución, fijar α, buscar en las tablas, etc.? Con p-
valor.
El p-valor es un número que se calcula con los datos de una muestra y que mide la
probabilidad de obtener valores del estadístico más extremos del que calculamos con esa muestra.
- Si el p-valor es pequeño: La discrepancia es grande, ya que no se espera que haya

muchos valores mayores; entonces tenemos evidencia para rechazar H 0.
- Si el p-valor es grande: La discrepancia es pequeña y no tenemos evidencia para rechazar
H0.
10
¿Qué es un p-valor grande o pequeño? Un p-valor grande es mayor que 0,15 y p-valor
pequeño es menor que 0,01. Así, si el p-valor está entre 0,01 y 0,15 se rechaza H 0, a menos que sea
muy grave equivocarnos.
El valor “estándar” de referencia para rechazar H0 es de 0,05 o menos. Pero si equivocarnos

resultase muy grave, este valor se puede reducir para estar más seguros de no cometer un error tipo
I.
Ventajas de usar el p-valor:
- Nos dice si el estadístico del test es un número grande o pequeño sin tener que saber
nada sobre su distribución, ni tener que mirar en las tablas.
- Es un número entre 0 y 1, no depende de la magnitud ni las unidades de medida de cada
problema.
- Nos lo calcula cualquier paquete estadístico cuando hacemos un test.
CONCLUSIONES SOBRE LOS TEST ESTADÍSTICOS
- Cuando disponemos de un conjunto de datos, lo único que necesitamos saber para poder
usar los test estadísticos es:
o Qué hipótesis queremos contrastar.
o Cuál es el mejor test.
o Disponer de una máquina que nos calcule el p-valor.
- Los test, como la estadística, no sirven para probar hipótesis. Son “aparatos para
detectar evidencias” que ayudan en la toma de decisiones.
- Los test de hipótesis son lo mejor que pueden aportar los estadísticos para el progreso y
avance del conocimiento.
TABLAS DE CONTINGENCIA Y TEST Χ2
Los individuos de las dos poblaciones (columnas) se clasifican por la categoría de su

respuesta (filas).
Opinión de 167 individuos sobre el cambio de diseño del producto
Menor de 25 Mayor de 25
A favor 8 28
En contra 12 44
NS/NC 22 53
Tabla de contingencia 3x2
Si la respuesta no es categórica se divide en clases y cada individuo se asigna a una de ellas.
11
TEST Χ2
H0: Las respuestas son homogéneas entre las poblaciones.
H1: Las respuestas son heterogéneas entre las poblaciones.
Para poder usar este test no tenemos que asumir nada sobre la distribución de la variable,
únicamente que todos los datos son independientes.
H0: La opinión es independiente de la edad H1: Depende de la edad
Pruebas de chi-cuadrado
Sig. Asintótica
Valor gl (bilateral)
Chi-cuadrado de 1,273 2 ,529
Pearson
El p-valor es 0.529. No hemos encontrado evidencia para rechazar H 0, por tanto no podemos
afirmar que la opinión dependa de la edad.
Χ2 (CHI-CUADRADO)
CONCEPTOS PREVIOS
- Transformación de zi´s (normales estándar N(0,1)).
N
χ 2N = χ 2=∑ Z 2i
i=1
- Grados de libertad (N). Número de categorías que pueden variar libremente.

- χ2 puede definirse como un estadístico, un método o una prueba.
- χ2 se suele utilizar como contraste de significación cuando los datos son frecuencias,
tanto absolutas como relativas.
- La mayoría de sus aplicaciones se basan en datos discretos.
- Carácter de χ2: Comparación entre unas frecuencias observada (f o) y unas frecuencias
esperadas bajo Ho (fe).
- Conocer la magnitud de la diferencia entre las frecuencia observadas (f o) y las esperadas
(fe).
[ ]
2
( f o −f e )
χ =∑
2
fe
- Cuanto mayor sea el valor, mayor es la diferencia.

- En la práctica, difícil encontrar valor 0.
- Grados de libertad (?).
12
APLICACIONES MÁS FRECUENTES
- Bondad de ajuste:
o Comparación de la divergencia de resultados observados con los esperados,
según la hipótesis de igual probabilidad.
o Comparar los resultados observados con los esperados teóricamente según
cualquier hipótesis establecida.
- Independencia:
o Contrastar la hipótesis de independencia de variables.
TEST CHI-CUADRADO PARA CONTRASTES DE INDEPENDENCIA: GRADOS DE LIBERTAD
Los grados de libertad son el número de categorías que pueden variar libremente.
Tabla de contingencia Sexo * Profesión

Recuento
Profesión
Pedagogo Psicólogo Total
Sexo Hombre 12 15 27
Mujer 15 14 29
Tota 27 29 56
l
(c-1)(f-1)
HIPÓTESIS DE INDEPENDENCIA
La hipótesis de independencia se da muy frecuente en investigaciones. Por ejemplo, ¿Existe

diferencia entre hombres y mujeres en sus preferencias hacia un determinado objeto? O ¿Existen
diferencias por tramos de edad en la elección de un producto?
Ejemplo 1
- V1: Nivel educativo de la madre.

- V2: Nivel educativo del padre
13
- H0: V1 y V2 independiente.
- H1: V1 y V2 dependiente.
14
Observaciones:
- La distribución de la cantidad no es exacta, sino asintóticamente χ 2 (no vale para n

pequeño).
- Las frecuencias esperadas de cada clase deben ser al menos iguales a 5 (si no, se
reagrupa).
TEST CHI-CUADRADO PARA CONTRASTES DE BONDAD DE AJUSTE: GRADOS DE

LIBERTAD
Family Structure
N observado
Single parent 1402
family
Nuclear family 8814
Mixed family 260
Other 221
Total 10697
Nº categorías - 1
Hipótesis de igual probabilidad:
15
Cualquier hipótesis establecida:
Observaciones:
- La distribución de la cantidad no es exacta, sino asintóticamente χ2 (no vale para n

pequeño).
- Las frecuencias esperadas de cada clase deben ser al menos iguales a 5 (si no, se
reagrupa).
- Grados de libertad:
o Nº de categorías - 1 (si no se estiman parámetros).
o Nº de categorías - r - 1 (si se estiman r parámetros).
16
TESTS DE NORMALIDAD: TEST DE BONDAD DE AJUSTE A LA NORMAL
Kolmogorov-Smirnov (Lilliefors) , Shapiro-Wilk, …
- H0: La distribución de los datos es normal.

- H1: La distribución de los datos no es normal.
CONTRASTES SOBRE UNA POBLACIÓN: MEDIAS, MEDIANAS Y

PORCENTAJES
TEST T
- H0: La media de una población es igual a un valor fijo.

- H1: La media de una población es diferente a un valor fijo.
Para poder usar el Test - t para una muestra tenemos que asumir que en la población la
variable que se estudia es:
- Normal (robusta si el tamaño muestral es grande).

- Independiente entre los individuos de la misma población.
TEST DE WILCOXON DE LOS RANGOS SIGNADOS
- H0: La mediana de una población es igual a un valor fijo.

- H1: La mediana de una población es diferente a un valor fijo.
Para poder usar el Test de Wilcoxon de los rangos signados para una muestra tenemos que
asumir que en la población la variable que se estudia es:
- Normal (robusta si el tamaño muestral es grande).

17
PRUEBA DE LA BINOMIAL
- H0: La proporción de un suceso de interés en una población es igual a un valor fijo.

- H1: La proporción de un suceso de interés en una población es diferente a un valor fijo.
Para poder usar la prueba de la binomial no hay que asumir nada sobre la distribución de la
variable en la población. Tan solo debe ser dicotómica (binaria). Posible recodificación según cómo
sean los datos.
COMPARACIÓN DE DOS POBLACIONES

Se quiere comprobar si después de un curso de técnicas de venta hay una mejora en los
resultados de los comerciales. Se toman resultados de comerciales antes y después de recibir el
curso.
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
TEST GENERAL DE COMPARACIÓN DE DOS POBLACIONES
- H0: Las poblaciones son homogéneas.

- H1: Las poblaciones no son homogéneas.
Cuando hablamos de homogeneidad nos referimos a que los valores observados en ambas
poblaciones vienen de la misma distribución.
En el caso de que sepamos que la distribución de la variable en las dos poblaciones es

normal, estudiar si son homogéneas es equivalente a que las medias y las varianzas coincidan.
PRUEBA T PARA MUESTRAS INDEPENDIENTES
- H0: Las respuestas medias son iguales en las dos poblaciones.

- H1: Las respuestas medias son distintas en las dos poblaciones.
Para poder usar el Test - t para muestras independientes tenemos que asumir que en las dos
poblaciones la variable que se estudia es:
- Normal.
- Independiente entre las poblaciones.
- La varianza puede ser o no la misma en las dos poblaciones.
18
resultados de los comerciales. Se toman resultados de comerciales antes y después de recibir el
curso.
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
No hemos encontrado evidencia para rechazar H0, no podemos afirmar que los resultados
de venta sean significativamente distintos antes y después del curso recibido
PRUEBA T PARA MUESTRAS RELACIONADAS
Cuando los datos están emparejados entre las dos muestras se utiliza el test-t para muestras
dependientes.
- H0: Las respuestas medias son iguales en las dos poblaciones.

- H1: Las respuestas medias son distintas en las dos poblaciones.
Para poder usar el Test - t para muestras dependientes tenemos que asumir que en las dos
poblaciones la variable que se estudia es:
- Normal.
- Independiente entre las poblaciones.
- La varianza puede ser o no la misma en las dos poblaciones (se estima la varianza de la
diferencia de los pares de datos).
resultados de los comerciales. Se toman resultados de 10 comerciales determinados antes y después
de recibir el curso.
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
19
Hemos encontrado evidencia para rechazar H0, podemos afirmar que los resultados de venta
son significativamente distintos antes y después del curso recibido.
TEST NO PARAMÉTRICO DE MANN-WHITNEY
- H0: Las respuestas medianas son iguales en las dos poblaciones.

- H1: Las respuestas medianas son distintas en las dos poblaciones.
Para poder usar el Test de Mann Whitney no tenemos que asumir nada sobre la distribución
de la variable, únicamente que todos los datos son independientes:
- Normal.
- Independiente entre los grupos.
- Independiente entre los individuos del mismo grupo.
TEST NO PARAMÉTRICO DE WILCOXON
- H0: Las respuestas medianas son iguales en las dos poblaciones.

- H1: Las respuestas medianas son distintas en las dos poblaciones.
El Test de Wilcoxon se usa cuando los datos están emparejados:
- Normal.
- Independiente entre los grupos.
- Independiente entre los individuos del mismo grupo.
C1 C2 C3 C4 C5 C6 C7 C8 C9 C10
Antes 18,6 21, 24,5 12,9 12,5 34,1 40,2 21, 34,5 11,8
7 6
Después 10,1 20, 18,5 5,9 12,2 33,9 37,8 16, 29,2 11,6
4 7
20
COMENTARIOS
- La diferencia entre usar un test - t (paramétrico) y un test no paramétrico está en las

hipótesis que asumimos.
- El test - t es de aplicación más restrictiva, pero más potente.
- Cuando se comparan más de dos poblaciones, se utiliza el modelo ANOVA (supuesto de
normalidad), y los tests de KRUSKAL-WALLIS (muestras independientes) y FRIEDMAN
(muestras relacionadas-dependientes).
- Para contrastar la hipótesis de Normalidad se utiliza el contraste de Kolmogorov-Smirnov
(transparencias anteriores).
CORRELACIÓN Y REGRESIÓN
DISTRIBUCIONES BIDIMENSIONALES Y MULTIDIMENSIONALES
Llamamos variable bidimensional a aquélla que describe la población según dos

características X e Y simultáneamente.
El objetivo es estudiar la posible relación entre las variables.
La matriz de datos tendrá tantas filas como observaciones y 2 columnas.
Por ejemplo: Volumen de ventas (X) y gasto en publicidad (Y) de una empresa. El estudio
simultáneo de ambas variables nos permitirá determinar si:
21
RECONOCER LA PRESENCIA DE RELACIÓN ENTRE DOS VARIABLES
I. MÉTODO GRÁFICO
Relación directa Relación inversa Ausencia de relación
II. LA COVARIANZA Y EL COEFICIENTE DE CORRELACIÓN LINEAL
Covarianza
1
S xy= ∑ (x i−x)( y i − y)
n i
La covarianza es una medida de asociación lineal entre dos variables:
- La covarianza de variables independientes es cero (el recíproco no necesariamente es

cierto).
- Cuanto mayor es la covarianza, mayor es la relación lineal entre las variables.
- Si dos variables estadísticamente dependientes crecen o decrecen en el mismo sentido,
la covarianza es positiva.
- Si dos variables estadísticamente dependientes crecen o decrecen en sentidos contrarios,
la covarianza es negativa.
Limitaciones de la covarianza:
- Unidad de medida.
- ¿Qué valores nos llevan a considerar la covarianza grande o pequeña?
22
Coeficiente de correlación lineal (sin dimensión)
S xy
r=
Sx S y
−1 ≤r ≤ 1
Permite valorar la intensidad de la relación lineal entre dos variables. La relación es tanto
mayor cuanto más se acerque a 1 ó -1 el coeficiente. Valores próximos a 0 indican poca asociación
lineal.
Importante: Se puede ir de la independencia entre variables a la incorrelación lineal, pero no

al revés.
Interpretación de los valores del coeficiente de correlación según el rango de valores:
Coeficiente Interpretación
0 Relación nula
0,0 - 0,2 Relación muy baja
0,2 - 0,4 Relación baja
0,4 - 0,6 Relación moderada
0,6 - 0,8 Relación alta
0,8 - 1,0 Relación muy alta
1 Relación perfecta
Correlaciones positivas
23
Correlaciones positivas y casi perfectas
Correlaciones negativas
Matriz de covarianzas y Matriz de correlaciones
Matriz de varianzas y covarianzas: Es una matriz cuadrada y simétrica cuyos elementos en la

diagonal principal son las varianzas de las variables y fuera de la diagonal las covarianzas.
facturación gasto publicidad

facturación 5323,87
gasto 153,47 4,79
publicidad
Matriz de correlaciones: Es también cuadrada y simétrica, con unos en la diagonal principal

(correlación de un variable consigo misma) y fuera de ella las correlaciones entre las variables.
facturación gasto publicidad

Facturación 1
24
gasto 0,96 1
publicidad
OBJETIVOS DE LA REGRESIÓN Y CORRELACIÓN. APLICACIONES
- Datos: Muestra de tamaño n, es decir n observaciones de:

o Una variable dependiente (nivel de medida: escala).
o Una o varias variables independientes (nivel de medida: escala).
- Objetivos:
o Encontrar el modelo que relaciona la variable dependiente con las
independientes.
o Medir la bondad o validez del modelo para expresar dicha relación.
o Hacer predicciones basadas en el modelo obtenido
- Aplicaciones: Ejemplos:
o Consumo en función de la renta.
o Precio en función de la demanda, el tipo de envase, precio de la materia prima,
nivel de renta del país, indicador de gasto del segmento de población al que va
dirigido.
o Ventas en función de edad, precio, gasto en publicidad.
MODELO
Estudiaremos el caso en que el modelo es lineal: Regresión Lineal
Regresión lineal simple: una variable independiente (el modelo es una recta).
y=β 1 x+ β 0 +u
Regresión lineal múltiple: varias variables independientes.
y=β 1 x1 + β 2 x 2 +…+ β k x k + u
- y: variable dependiente.
- x1, x2, …, xk: variables independientes.
- β0, β1, …, βk: coeficientes del modelo.
- u: perturbación aleatoria.
Se trata de estimar el modelo, es decir, los coeficientes, a partir de la muestra de tamaño n.
El modelo no es determinista, es decir la relación formulada para las variables no es exacta,

por esa razón se introduce la perturbación aleatoria. Dicho término recogerá aquellas variables
explicativas que de manera individual se consideran irrelevantes, pero que en conjunto afectan a la
variable dependiente y en general todo lo que no explica el modelo.
25
REGRESIÓN LINEAL SIMPLE (UNA ÚNICA VARIABLE INDEPENDIENTE)
Consideraciones previas: La determinación de un modelo de regresión lineal tiene sentido

sólo si hay relación lineal (correlación) entre las variables.
MÉTODOS PARA DETECTAR “PATRONES LINEALES “
1. Examen visual de los diagramas de dispersión:
Relación directa Relación directa
Relación inversa Relación inversa
Relación no lineal Ausencia de relación
2. Cálculo del coeficiente de correlación lineal r para los datos de la muestra:
−1 ≤r ≤ 1
Valores próximos a ±1 indican alta correlación lineal. El valor 0 indica ausencia de relación
lineal.
26
Podría ocurrir que por la fluctuación muestral, r salga distinto de cero para la muestra pero
siempre habrá que hacer un contraste de hipótesis para verificar que efectivamente el valor muestral
obtenido permite rechazar que el valor poblacional ( ρ ) no es cero.
3. Contraste de hipótesis sobre el parámetro ρ (correlación poblacional):
Podemos utilizar el valor de r para contrastar la hipótesis:
- H0 : ρ = 0
- H1 : ρ ≠ 0
Rechazar H0 si p-valor < nivel de significación del contraste.
Observaciones sobre el coeficiente de correlación lineal:
- La correlación entre dos variables no supone causalidad.

- Si los datos son promedios el coeficiente de correlación lineal se inflará ya que los
promedios suavizan las diferencias individuales.
- Un coeficiente de correlación lineal próximo a 0 o nulo no significa independencia entre
las variables, significa ausencia de relación de tipo lineal pero podrían estar relacionadas
de otra forma.
OBTENCIÓN DEL MODELO DE REGRESIÓN LINEAL SIMPLE
y=β 1 x+ β 0 +u
El modelo estimado con los datos de la muestra no coincidirá exactamente con el modelo
para la población completa.
Designaremos el modelo obtenido a partir de los datos muestrales:
y=b0 +b1 x
b0 y b1 son estimadores puntuales de los coeficientes poblacionales β 0 y β1.
Obtención de la Recta de Regresión a partir de los datos muestrales:
y=b1 x +b 0
El cálculo de los valores b0 y b1 se hace siguiendo el criterio de los mínimos cuadrados que
determina los valores de b 0 y b1 de forma que la recta sea la que “mejor se ajusta” a los valores
observados, es decir, a los valores muestrales.
27
La condición de mínimos cuadrados se puede escribir:
n n
S=∑ ( y i−(b 0 x i)) =∑ e2i 2
i=1 i=1
Puede demostrarse que los valores que satisfacen la condición de los mínimos cuadrados
son:
- Ordenada en el origen de la recta: valor medio estimado para la variable dependiente (y)
cuando la variable independiente toma el valor 0.
s xy
b 0= y− x
s2x
- Pendiente de la recta: mide la variación de la variable dependiente (y) por unidad

adicional de la independiente (x).
s xy
b 1= 2
sx
Los coeficientes de la recta se han obtenido a partir de una muestra concreta. Si

seleccionamos otra muestra el resultado sería otro, hay que esperar que si el método está bien
diseñado, no sea muy diferente.
Así, los coeficientes obtenidos son estimadores de los coeficientes del modelo para la
población completa.
Lo que nos lleva a que si seleccionamos otra muestra el resultado sería otro, por tanto
debemos:
1. Calcular intervalos de confianza para los coeficientes poblacionales. Obtenemos así el

intervalo de posibles valores con una probabilidad conocida.
28
2. Contrastar la hipótesis de que cada coeficiente no es cero, si lo fuera la variable

correspondiente no tendría influencia.
3. Contrastar la hipótesis de que el modelo es significativo, es decir que los coeficientes no
son 0 conjuntamente.
Contraste para la significatividad conjunta del modelo:
H0 : β0 = β1 = 0
Intervalos de confianza y contrastes para la significatividad individual de los coeficientes:
Los p-valor son para los contrastes: H0 : β0 = 0 H0 : β1 = 0
BONDAD DE AJUSTE DEL MODELO (EN GENERAL PARA MODELOS LINEALES Y NO

LINEALES)
El objetivo es elaborar un indicador de la bondad de ajuste del modelo estimado.
Se puede demostrar:
2 2 2
s y =s y + s e
¿
2
s y Varianza de los valores observados o varianza total.
2
s y Varianza de los valores explicados por el modelo o varianza explicada.
¿
29
2
se Varianza de los residuos o varianza residual.
EN GENERAL PARA MODELOS LINEALES Y NO LINEALES
Coeficiente de determinación:
2
sy ¿
R2= 2
s e
Indica el porcentaje de variación de la variable dependiente y que se explica por la relación

lineal con la variable independiente x. Es por tanto un indicador de la bondad del modelo para
expresar la relación entre las variables.
( 1−R 2 )∗100 Porcentaje de variación de y no explicado por el modelo de regresión. (% de

error del modelo).
2
0≤ R ≤1
EN EL CASO DE MODELO LINEAL

2 2
R =r
Y tiene sentido su raíz cuadrada: Coeficiente de correlación lineal de Pearson 1.
s xy
r=
sx s y
2
2 sy ¿
4450,835
r= = =0,70051 ≈ 0,701
s2
e
6353,704
1
Karl Pearson (1857-1936).
30
PREGUNTAS FRECUENTES
¿Si r=0 eso quiere decir que las variables son independientes?
- En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos los casos.
- Lo contrario si es cierto: Independencia implica incorrelación.
Me ha salido r=1.2 ¿la relación es “súper lineal”?
- ¿Súper qué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1.
¿A partir de qué valores se considera que hay “buena relación lineal”?
- Es difícil dar un valor concreto (mirad los gráficos anteriores). Digamos que si |r|>0,7 hay
buena relación lineal y que si |r|>0,4 hay cierta relación.
s xy=0 s xy =0
Las dos variables son Hay dependencia entre las

independientes dos variables, aunque la
covarianza sea nula
REGRESIÓN LINEAL MÚLTIPLE
Es la generalización del modelo anterior al caso de más de una variable independiente.
y=β 0 + β 1 x 1 + β 2 x 2 +…+ β k x k +u
y=b0 +b1 x 1+ b2 x 2 +b3 x 3+ b4 x 4=25,775+ 0,025 x 1 +0,007 x 2 +0,047 x3 −0,022 x 4
31
b i Indica el cambio de y cuando xi aumenta una unidad.
Hipótesis básicas del modelo:
1. La forma funcional que liga la variable dependiente con las variables independientes es
de tipo lineal al menos en los parámetros.
2. Las variables explicativas deben ser linealmente independientes (ausencia de
multicolinealidad).
3. Las perturbaciones aleatorias se suponen normales con:
a. Esperanza cero. E ( ui ) =0
b. Varianza constante: homoscedasticidad. V ( ui ) =σ 2 ∀i
c. Son independientes dos a dos. Cov ( u i u j )=0 ∀ i≠ j
CONSECUENCIAS MÁS IMPORTANTES DEL INCUMPLIMIENTO DE LAS HIPÓTESIS
Multicolinealidad:
- La multicolinealidad se produce cuando hay relación entre las variables independientes

del modelo. Aunque difícilmente habrá una correlación perfecta (no podrían estimarse
los parámetros del modelo), la presencia de multicolinealidad inexacta o imperfecta
indica que las variables independientes están compartiendo información y a la hora de
utilizarlas para predecir una variable dependiente se produce un fenómeno de
redundancia: estamos usando varias veces lo mismo para pronosticar algo. Esto se
traduce en una mayor imprecisión en las estimaciones.
- La solución sería proponer un modelo en el que las variables independientes no
presentaran relación. Esto se podría hacer sacando del modelo las variables que
presenten mucha relación con el resto pero esto podría conducir a un problema de
especificación. Una solución que da buenos resultados es hacer una transformación en
las variables originales para conseguir nuevas variables que estén incorreladas (análisis
de componentes principales).
- La multicolinealidad es un problema de los datos
Consecuencias de la presencia de multicolinealidad:
- Alguno o todos los coeficientes del modelo son no significativos de manera individual
pero el modelo resulta significativo y el coeficiente de determinación alto. Esta
consecuencia se suele usar como método para sospechar la presencia de
multicolinealidad.
- Los coeficientes de correlación simple entre pares de variables, son grandes, mayores de
0,7-0,8. Esta consecuencia también se usa como indicio de multicolinealidad. En todo
caso es una condición suficiente pero no necesaria ya que podrían ser bajos si la
multicolinealidad no es por parejas sino por grupos.
- El modelo es poco estable, gran fluctuación de las estimaciones. Modelo no válido.
32
Detección de la presencia de multicolinealidad:
1. FAV factor de inflación de la varianza (VIF en inglés)
1
VIF j =
1−R 2j
2
R j Coeficiente de determinación múltiple de cada variable independiente con el resto de
independientes (hacemos una regresión de cada variable independiente frente al resto de
independientes).
2. Tolerancia
2 1
TOL j=1−R j =
VIF
Representa el porcentaje de la varianza de X j que no se explica por el resto de variables

independientes del modelo. Una variable con una tolerancia muy baja contribuye con poca
información al modelo y puede ser eliminada del mismo.
Ausencia de multicolinealidad de una variable con el resto:
- VIF=1 (Valor ideal).

- Tolerancia próxima a 1.
Multicolinealidad grave:
- VIF >4 (Valores de R2j >0,75 ).

- Tolerancia próxima a 0.
CONSTRUCCIÓN DEL MODELO DE REGRESIÓN: REGRESIÓN POR PASOS
En la estimación de un modelo de regresión podemos introducir inicialmente todas las

variables independientes y posteriormente depurar el modelo eliminando las variables no
significativas. Deben eliminarse las variables una a una: eliminamos la primera variable no
significativa y reestimamos el modelo con el resto de variables. Si de esta forma conseguimos un
modelo en el que todas las variables sean significativas obtendríamos una ecuación de regresión
válida. En caso contrario, tendríamos que eliminar la siguiente variable no significativa. El proceso
termina cuando todas las variables son estadísticamente significativas.
Otra forma de proceder es la estimación del modelo “paso a paso”.
Es un procedimiento de estimación en el que se van introduciendo en el modelo las variables

independientes, paso a paso, hasta completar el mejor modelo posible.
33
Se parte de un modelo de regresión lineal simple con la variable independiente más

correlacionada con la variable dependiente. A este modelo se le van añadiendo, una a una, el resto
de variables independientes. Las variables que entran en la ecuación tienen que satisfacer un
“criterio de entrada” que garantice un incremento de la variabilidad explicada de la variable
dependiente que sea significativo.
Es importante tener en cuenta que en cualquiera de los pasos del proceso hay la posibilidad
de extraer una variable que anteriormente se había introducido. Por ejemplo, supongamos que en
los pasos anteriores se habían introducido las variables X4 y X6. Cuando introduce, por ejemplo, X2,
si el procedimiento observa que consigue mejores resultados sacando del modelo la variable X4, que
fue la variable introducida en primer lugar, el modelo final incluiría como variables independientes a
X6 y X2. El proceso se detiene cuando no entra ni sale ninguna variable más en el modelo.
ANOVA (CLÁSICO Y NO PARAMÉTRICO)
DEFINICIÓN Y CARACTERÍSTICAS. APLICACIONES
El análisis de la varianza es un método que permite estudiar el efecto que una, o más,
variables independientes de naturaleza no métrica (se llaman factores o tratamientos) tienen sobre
una, o más, variables dependientes de naturaleza métrica.
Clasificación de las técnicas de Análisis de la Varianza según el número de variables

involucradas.
Variables dependientes (métricas)
Una Varias
independientes
(no métricas)
Variables
ANOVA MANOVA
Una
Un factor Un factor
ANOVA MANOVA
Varias
Varios factores Varios factores
EJEMPLOS
Supongamos que una empresa de cosméticos distribuye una determinada crema solar en
tres formatos diferentes: crema, loción y spray. La pregunta que tratamos de responder es ¿influye el
formato de presentación de la crema en el volumen de ventas?
34
¿Influye el medio publicitario, radio, tv, prensa escrita, prensa on-line en el volumen de
ventas de un producto?
ANOVA CON UN FACTOR
Consideramos el caso de un único factor o “tratamiento” (variable independiente). A las

distintas categorías del factor se les llama “niveles”.
Si se observa la variable dependiente para todos los niveles del factor, diremos que el
modelo es de “efectos fijos”. Si se observa la variable dependiente sólo para una muestra de los
posibles niveles del factor diremos que el modelo es de “efectos variables o aleatorios”.
(Estudiaremos sólo el modelo de efectos fijos)
EJEMPLO2
La empresa ERATO va a implantar medidas promocionales para sus distribuidores

tradicionales.
Se han diseñado tres planes de promoción: plan 1, plan 2 y plan 3.
La empresa delimita tres grupos formados por el mismo número de distribuidores. A cada
uno de los grupos les presenta uno de los tres planes de promoción para que los evalúen en una
escala de 1 (muy en desacuerdo) a 7 (muy de acuerdo).
2
Luque Martínez, T.
35
Plan 1 Plan 2 Plan 3

Puntuació 6 5 4
n 5 4 3
6 5 5
7 4 4
6 4 3
Medias 6 4,4 3,8 Media total 4,73
En general los tamaños muestrales para los diferentes niveles pueden ser distintos. Cuando
el tamaño muestral es el mismo para todos los niveles diremos que el modelo está equilibrado o
balanceado.
La cuestión que se plantea es si existen diferencias significativas entre la puntuación de los

diferentes planes de promoción y por tanto las diferencias en las puntuaciones son debidas al efecto
del plan objeto de evaluación. Por lo tanto la hipótesis nula del contraste será:
- H 0 : μ1=μ2=μ 3 La valoración media es la misma para los 3 planes (el tipo de plan no
influye en la valoración del mismo).
- H 1 : no todaslas medias son iguales . Al menos un plan es valorado diferente.
Si podemos rechazar la hipótesis nula, es decir, si admitimos que existen diferencias en la

valoración media de los tres planes, habrá que identificar el plan mejor valorado para ponerlo en
marcha con mayores garantías de éxito.
REQUISITOS DEL ANOVA
- Las poblaciones de donde proceden las muestras tienen que ser normales (requisito de
normalidad no muy estricto. El método “funciona bien” siempre que la población no sea
“muy diferente” de la normal).
- Las poblaciones tengan igual varianza (homoscedasticidad) (El método “funciona bien” a
menos que las varianzas poblacionales difieran “en grandes cantidades”).
- Las muestras se han obtenido de forma aleatoria y son independientes.
En principio tenemos p poblaciones normales N ( μ1 , σ 1 ) N ( μ2 , σ 2 ) … N (μ p , σ p ) y queremos

2 2 2
contrastar la hipótesis:
36
- H 0 : μ1=μ2=…=μ p La hipótesis nula implica que el factor, o tratamiento, no tiene

ningún efecto sobre la variable dependiente.
- H 1 : no todaslas medias son iguales .
PRUEBA PARA LA IGUALDAD DE 3 O MÁS POBLACIONES
Supuestos: ANOVA CLÁSICO
- Normalidad de las poblaciones. → - Análisis post hoc: Bonferroni.

- Varianzas poblacionales iguales.
Supuestos: Métodos no paramétricos
- Si alguna población no es → - KRUSKALL-WALLIS.

normal.
Supuestos: Estadístico de WELCH
- Normalidad de las poblaciones. → - Análisis post hoc: T2 de

- Varianzas poblacionales distintas Tamhane
CONSTRUCCIÓN DEL ESTADÍSTICO DE CONTRASTE
DESCOMPOSICIÓN DE LA VARIANZA
Supondremos que la desviación entre cada observación y la media global puede

descomponerse en el efecto que produce el factor más el efecto no producido por el citado factor y
que llamamos efecto residual. Supondremos un solo factor con “p” niveles:
- x ip Valor de la variable dependiente para el individuo i en el nivel p del factor.

- x Media total de las observaciones.
- x p Media de cada nivel del factor.
( x ip−x ) Desviación de cada observación de la media total.
( x p−x ) Desviación de la media de cada nivel del factor respecto de la media total.
( x ip−x p ) Desviación de cada observación respecto de la media de su grupo.
( x ip−x )=( x p −x )+ ( x ip−x p )
Veamos algunos cálculos:
Plan 1 Plan 2 Plan 3
37
Puntuació 6 5 4
n 5 4 3
6 5 5
7 4 4
6 4 3
Medias 6 4,4 3,8 Media total 4,73
( x ip−x )=( x p −x )+ ( x ip−x p )
( 4−4,73 )=( 4,4−4,73 ) + ( 4−4,4 )
( 7−4,73 ) =( 6−4,73 ) + ( 7−6 )
Si elevamos al cuadrado y sumamos para todas las observaciones se obtiene la ecuación

fundamental del análisis de la varianza:
∑ ∑ ( xip−x )2 ¿ ∑ ( x p −x )2 +¿ ∑ ∑ ( xip −x p ) 2
i p p i p
SCT +¿ SCF +¿ SCR
Medida de la variabilidad Medida de la variabilidad Medida de la variabilidad

total observada en la debida al factor. debida al azar.
muestra.
Suma de cuadrados debida Suma de cuadrados NO
Suma de cuadrados total al factor SCF. debida al factor o residual
SCT. SCR.
Los programas informáticos suelen disponer la información en una tabla:
- H 0 : μ1=μ2=…=μ p
- H 1 : no todaslas medias son iguales .
Suma de Grados de Cuadrados sig (p-

Fuente de variación F (estadístico de contraste)
cuadrados libertad medios valor)
Factor (entre grupos) SCF
SCF p−1 MFC=
Varianza debida al factor p−1 MCF
F= ≈ F( p−1)(n−1 )
Residual SCR MCR
SCR n− p MCR=
Varianza dentro de los grupos n− p
Total SCT n
- Si p-valor es pequeño, se rechaza la hipótesis nula de medias iguales: El factor tiene

efecto en la variable dependiente porque al menos una de las medias poblacionales es
diferente de las otras.
- Si p-valor no es pequeño, no se rechaza la hipótesis nula: El factor no tiene efecto en la
variable dependiente.
38
SCF 2 2
El cociente =η =R proporciona una medida de la bondad del ajuste o de la capacidad
SCT
del factor para explicar la variabilidad total de la variable dependiente, es decir, la proporción de
variabilidad total que es debida al tratamiento llevado a cabo.
2
0≤η ≤1
2
- η =0 El factor no explica nada de la variabilidad total de la variable dependiente.
2
- η =1 El factor explica toda la varianza total.
EJEMPLO
La empresa ERATO. Objetivo: determinar si las puntuaciones de los planes son iguales o no,
mediante el contraste de la siguiente hipótesis:
- H 0 : μ1=μ2=μ 3 La valoraciones de los planes son iguales.

- H 1 : no todaslas medias son iguales . Al menos un plan es valorado diferente.
Comprobación de los supuestos requeridos:
- Normalidad: Analizar/Estadísticos descriptivos/ Explorar/ Gráficos/ Gráficos con pruebas

de normalidad (o Pruebas no paramétricas).
- Varianzas iguales. Test de Levene (este test lo proporciona SPSS en “opciones”
- del cuadro de diálogo de ANOVA).
En SPSS el fichero de datos contendrá 2 variables:
39
Normalidad:
Nota: En este ejemplo no se cumple el supuesto de normalidad de las poblaciones, ya que si

bien no podemos rechazar normalidad para los planes 1 y 3. Sí rechazamos normalidad para el plan
2. La violación de este supuesto nos impide seguir con el procedimiento de ANOVA clásico. La
solución es utilizar una prueba no paramétrica: Kruskall - Wallis.
40
COMPARACIÓN DE MÁS DE DOS POBLACIONES CON DATOS NO NORMALES (INCLUSO

ORDINALES)
Test no paramétrico de Kruskal-Wallis
- H0: Las respuestas medianas son iguales en las poblaciones.

- H1: Las respuestas medianas son distintas en las poblaciones.
Para poder usar el Test de Kruskal-Wallis no tenemos que asumir nada sobre la distribución
de la variable, únicamente que todos los datos son independientes.
Test no paramétrico de Friedman
- H0: Las respuestas medianas son iguales en las poblaciones.

- H1: Las respuestas medianas son distintas en las poblaciones.
El Test de Friedman se usa cuando los datos son dependientes.
Ejemplo de test no paramétrico de Kruskal-Wallis
Aunque existen procedimientos para efectuar comparaciones múltiples tras obtener un

estadístico significativo, para analizar con SPSS qué planes difieren entre sí se puede utilizar la prueba
de Mann-Whitney para dos muestras independientes, pero acompañada de la corrección de
Bonferroni para controlar la tasa de error: con tres planes hay tres comparaciones dos a dos (1-2, 1-3
y 2-3), por lo que la aplicación de la corrección de Bonferroni nos llevará a comparar el p-valor con
0,05/3 = 0,017.
Nota: en este ejemplo NO se cumple el supuesto de normalidad de las poblaciones, ya que si

bien no podemos rechazar normalidad para los planes 1 y 3 SÍ rechazamos normalidad para el plan 2.
La violación de este supuesto nos impide seguir con el procedimiento de ANOVA clásico. La solución
es utilizar una prueba NO paramétrica: Kruskall - Wallis. No obstante a efectos de ilustración
seguiremos ejecutando el procedimiento para el ejemplo ERATO.
41
ANOVA DE UN FACTOR (ANALIZAR: COMPARAR MEDIAS)
- H 0 :σ 21=σ 22=σ 23
- H 1 : almenos 1 varianza es diferente
No rechazamos igualdad de las varianzas.
Resultados del análisis:
- H 0 : μ1=μ2=μ 3
- H 1 : no todaslas medias son iguales
Se rechaza la hipótesis nula de medias iguales: Los planes de promoción son valorados de forma
significativamente diferente.
12,933
η2 = =0,68 Un porcentaje considerable de la variabilidad de las puntuaciones
18,933
otorgadas es explicada por el tipo de plan.
Suma de Grados de Cuadrados sig (p-

Fuente de variación F (estadístico de contraste)
cuadrados libertad medios valor)
Factor (entre grupos) SCF p−1 SCF MCF
Varianza debida al factor MFC= F= ≈ F( p−1)(n−1 )
p−1 MCR
42
Residual SCR
SCR n− p MCR=
Varianza dentro de los grupos n− p
Total SCT n
ANÁLISIS POSTERIOR A LA DECISIÓN (POST HOC)
En el caso en que se rechace la hipótesis nula y por tanto se concluya que no todas las
medias son iguales, habrá que investigar cuál o cuáles de los niveles tienen influencia en la variable
de respuesta, es decir, ¿para qué niveles del factor son las medias diferentes?
1. Gráficamente: Solicitar un gráfico de las medias. El gráfico lo proporciona SPSS en

“opciones” del cuadro de diálogo de ANOVA.
Diferencia notable en la valoración media del plan 1. Los planes 2 y 3 tienen valoraciones más
parecidas
2. Procedimientos de comparación múltiples: Contrastes para la igualdad de medias dos a

dos. SPSS (botón post hoc). Si podemos suponer igualdad de las varianzas el test más
utilizado es el de Bonferroni.
43
En nuestro caso, al no haber rechazado que las varianzas sean iguales, tenemos que utilizar el
contraste de Bonferroni.
Diferencia significativa: Diferencia significativa: Diferencia no significativa:

- H 0 : μ1=μ2 - H 0 : μ1=μ3 - H 0 : μ2=μ3
( μ ¿ ¿ 1−μ 2=0)¿ ( μ ¿ ¿ 1−μ 3=0)¿ (μ ¿ ¿ 2−μ 3=0)¿
- H 1 : μ 1 ≠ μ2 - H 1 : μ 1 ≠ μ3 - H 1 : μ 2 ≠ μ3
Si observamos la tabla:
- Planes 1 y 2: La valoración del plan 1 es superior a la del plan 2.

- Planes 1 y 3: La valoración del plan 1 es superior a la del plan 3.
44
- Planes 2 y 3: Estos planes no se valoran de forma diferente.
En el caso de que el factor sólo tenga 2 niveles, el ANOVA es equivalente a la prueba t para
muestras independientes. En el ejemplo, supongamos que solo hay dos planes de promoción.
El contraste que se realiza es el mismo:
- H 0 : μ1=μ2 → μ1−μ 2=0

- H 1 : μ 1 ≠ μ2
45
ANÁLISIS CLUSTER: TÉCNICAS DE AGRUPACIÓN, SEGMENTACIÓN

O CONGLOMERADOS
OBJETIVO DEL ANÁLISIS CLUSTER
El objetivo de las técnicas estadísticas de análisis cluster o de conglomerados es identificar

grupos de individuos con características comunes a partir de la observación de varias variables en
cada uno de ellos.
Esta técnica no debe ser confundida con el análisis discriminante y los métodos de
asignación, que parten de un conocimiento previo de los grupos.
¿QUÉ ES UN CLUSTER?
Un cluster es un grupo de individuos que, cuando la dimensión lo permite, el ojo humano

identifica como homogéneos entre sí y separados de los individuos de los otros clusters.
La solución, para establecer los grupos, no siempre es obvia:
46
Técnicas cluster han sido tradicionalmente utilizadas en numerosas disciplinas:
- Marketing: Segmentación de mercados.

- Biología: Taxonomía. Micro-arrays.
- Ciencias Ambientales: Tipologías de aguas en ríos
- …
¿CÓMO SE ENCUENTRAN LOS CLUSTERS?
TÉCNICAS PARA ENCONTRAR CLUSTERS
Cluster jerárquico: Producen una secuencia de particiones, juntando o separando clusters.

En cada paso se juntan o separan dos clusters siguiendo algún criterio especificado.
Cluster no jerárquico: Producen una partición de los objetos en un número especificado de

grupos siguiendo un criterio de optimización.
Los criterios para identificar los clusters se basan siempre en medidas de similitud o de
DISCREPANCIA entre todos los pares de datos. Algunos procedimientos cluster se pueden ejecutar
conociendo sólo la matriz de discrepancias En general, se busca homogeneidad dentro de los grupos
y heterogeneidad entre grupos.
DECISIONES QUE HAY QUE TOMAR PARA ENCONTRAR UN CLUSTER
1. Elegir el método cluster que se va a emplear.

2. Decidir sobre si trabajar con los datos según se miden o estandarizados.
3. Seleccionar la forma de medir la distancia entre individuos, dependiendo de si los datos
son continuos, discretos o categóricos.
4. Elegir un criterio para unir grupos, distancia entre grupos.
5. Decidir el número de clusters.
TIPOS DE CLUSTERS
Clusters jerárquicos: Los aglomerativos son los más habituales, los divisivos requieren
muchos cálculos.
- Métodos aglomerativos: Parten de tantos clusters como datos tiene la muestra y en

cada paso se van juntando dos clusters siguiendo algún criterio especificado hasta
obtener un único cluster con todos los datos.
- Métodos divisivos: Parten de un único cluster con todos los datos que se va dividiendo
paso a paso, hasta obtener tantos clusters como datos.
Clusters no jerárquicos:
47
- K-Medias: Es el que se usa más habitualmente. Fácil de programar y da resultados

razonables.
MÉTODOS DE AGRUPACIÓN JERÁRQUICOS Y POR PARTICIPACIÓN
Taxonomía no jerárquica Taxonomía jerárquica
Dendograma
Los clusters están representados mediante trazos horizontales y las etapas de la fusión
mediante trazos verticales. La separación entre las etapas de la fusión es proporcional a la distancia a
la que se están fundiendo los elementos en esa etapa.
DISTANCIAS ENTRE DATOS CONTINUOS
Distancia Euclídea:
2 2 2 2
D ( xi , x j )=(x 1 i−x 1 j) +( x2 i−x 2 j ) + …+( xki −x kj )
48
Distancia Euclídea (datos estandarizados):
2 x1 i−x 1 j 2 x 2 i−x 2 j 2 x ki −x kj 2
D ( xi , x j )=( ) +( ) +…+( )
s^ 1 ^s2 ^sk
Distancia de Mahalanobis:
( )( )
2
s1 s 12 ⋯ s 1 k x1 i−x 1 j
2
D 2 ( xi , x j )=( x 1 i−x 1 j , x 2 i−x 2 j , … , x ki −x kj) s12 s 2 … s 2 k x2 i−x 2 j
⋮ ⋮ ⋱ ⋮ ⋮
s1 k s2 k ⋯ sk 2
x ki −x kj
Distancias entre datos continuos en SPSS:
- Distancia euclídea: Raíz cuadrada de la suma de cuadrados de las diferencias entre los
valores. Es la medida por defecto para datos de intervalo.
- Distancia euclídea al cuadrado: Suma de cuadrados de las diferencias entre los valores.
- Correlación de Pearson: Correlación producto-momento entre dos vectores de valores.
- Coseno: Coseno del ángulo entre dos vectores de valores.
- Chebychev: Diferencia absoluta máxima entre los valores.
- Bloque: Suma de las diferencias absolutas entre los valores. También se conoce como
distancia de Manhattan.
- Minkowski: Raíz p-ésima de la suma de las diferencias absolutas elevada a la potencia p-
ésima entre los valores.
- Personalizada: Raíz r-ésima de la suma de las diferencias absolutas elevada a la potencia
p-ésima entre los valores de los elementos
DISTANCIAS/SIMILITUDES ENTRE DATOS CUALITATIVOS (BINARIOS)
Para calcular la similitud entre dos individuos para los que se observan p variables binarias
tipo “presencia/ausencia” se calculan todas las situaciones posibles.
- a es el número de veces en las p variables que ambas observaciones valen 1 al mismo

tiempo.
- b es el número de veces en las p variables que la observación i vale 1 y la j vale 0.
49
- c es el número de veces en las p variables que la observación i vale 0 y la j vale 1.

- d es el número de veces en las p variables que ambas observaciones valen 1 al mismo
tiempo.
Otros coeficientes que se usan menos son:
- Sokal y Sneath:
2(a+d )
2 ( a+d ) +b+ c
- Czekanowski y Sorensen:
2a
2 a+b+c
EJEMPLO DE PRESENCIA/AUSENCIA DE ESPECIES
Presencia (1) o ausencia (0) de 15 características en 3 productos:
d d a d1 d
a3 a8 d7 d17 a17 d16 a16 s14 c1 d18
3 8 7 4 1
A 1 1 1 1 1 1 1 1 1 0 0 0 1 1 1
B 1 1 1 1 0 0 1 1 0 0 0 0 0 0 0
C 0 1 0 0 0 0 0 1 0 0 0 0 0 0 0
A/ B 1 0 Total
1 a=6 b=6 a+ b=12
2 c=0 d=3 c +d=3
Total a+ c=6 b+ d=9 p=15
Coeficiente de concordancia simple: Coeficiente de Jaccard:
9 6
s A ,B = =0,600 s A ,B = =0,500
15 12
DISTANCIAS/SIMILITUDES ENTRE DATOS CUALITATIVOS
En el caso de dos variables cualitativas con más de dos categorías, el indicador de similitud
más utilizado es una generalización del coeficiente de concordancia simple:
a1 +a 2+ …+a k + d
si , j=
p
50
- a 1 es el número de veces que ambas observaciones tienen valor 1.

- a 2 es el número de veces que ambas observaciones tienen valor 2.
- …
- a k es el número de veces que ambas observaciones tienen valor k.
- d es el número de veces que ambas observaciones tienen valor 0.
CRITERIOS PARA UNIR GRUPOS EN MÉTODOS JERÁRQUICOS
1. Enlace sencillo (single linkage): Unir por la distancia al individuo más cercano del grupo,
es útil para identificar atípicos.
2. Enlace promedio (average linkage): Unir por la media de las distancias a todos los
individuos del grupo.
3. Enlace completo (complete linkage): unir por la distancia al individuo más alejado del
grupo.
4. Enlace de centroides (centroid linkage): minimizar la distancia a los “centros” de los
grupos.
5. Método de Ward (Ward linkage): minimizar la suma de cuadrados de las distancias a los
centros de los grupos.
EJEMPLO DE PRESENCIA/AUSENCIA DE ESPECIES
Diferentes criterios dan lugar a diferentes agrupaciones.
51
Enlace sencillo Enlace centroide
¿CUÁNTOS CLUSTERS HAY?
- Test formales.
- Conocimiento del problema (intuición).
Es muy importante elegir un número de cluster que sepamos interpretar. Algunas técnicas
estudiadas nos ayudan a interpretar los cluster:
- ANOVA.
- Análisis factorial.
- Análisis discriminante.
- …
52
ALGORITMO DE K-MEDIAS
Los métodos de agrupación no jerárquicos están diseñados para separar las observaciones en
k clusters, de manera que cada dato pertenezca a un grupo y sólo a uno.
El objetivo de optimalidad que se persigue generalmente es “minimizar la variabilidad dentro

de los grupos, maximizando la variabilidad entre grupos”.
No basta la matriz de distancias, se necesitan los vectores de observaciones.
Pasos del algoritmo de k-medias:
1. Asignamos las n observaciones a K grupos: Esta primera asignación se recomienda que

sea aleatoria para evitar sesgos. En cada grupo se calcula el vector de medias (centro del
grupo).
2. Asignamos secuencialmente cada observación al grupo cuyo centro esté más cercano y
se recalculan los centros de los grupos al que se añade y del que se elimina:
Generalmente se usa la distancia euclídea de las observaciones a los centros.
3. Repetir el paso 2 hasta que no haya re-asignaciones, o se alcance el mínimo de un
“criterio de homogeneidad”.
El criterio de homogeneidad de los grupos más habitual es minimizar la suma de cuadrados

dentro de los grupos.
K nk
SCDG=∑ ∑ ( x i ,k −x k )' (x i ,k − xk )
k=1 i=1
- n k es el número de observaciones en el grupo k .

- x i ,k es la i -ésima observación del grupo k .
- x k es el vector de medias, y centro, del grupo k .
Es decir, la SCDG es la suma de las distancias (euclídeas al cuadrado) de cada dato al centro
de su conglomerado asignado.
La SCDG también se expresa como una media ponderada (por el tamaño de cada grupo) de
las varianzas de las variables en los diferentes grupos:
( )
K p
SCDG=∑ nk ∑ s2i , k
k=1 i=1
2
- si , k es la varianza de la variable i en el grupo k .
53
EJEMPLO DE GASTO DE LAS FAMILIAS POR PROVINCIAS
ENLACE CON MÉTODO DE WARD. FICHA TÉCNICA: VARIABLES ORIGINALES.

DISTANCIA EUCLÍDEA
54
Enlace con el Método de Ward Clusters con k-medias
55
CONTRASTES NO PARAMÉTRICOS CLÁSICOS (CON SPSS)

Prácticamente todos los procedimientos pueden encontrarse en el menú: SPSS: Analizar -
Contrastes No Paramétricos. Bien a través de los cuadros de diálogo actuales o de los “antiguos”.
Contrastes no Paramétricos para una muestra:
1. Contrastes de Bondad de Ajuste, a una distribución fijada:

1.1. Kolmogorov-Smirnov para variables escala (Lilliefors cuando se contrasta
Normalidad).
1.2. Chi cuadrado χ2 (variables ordinales o nominales).
1.3. Prueba de la Binomial (¡sólo para variables binarias!).
2. Contrastes de localización (un valor fijado de la mediana):
2.1. Test del signo (no en SPSS).
2.2. Test de Wilcoxon de los rangos signados.
3. Test de aleatoriedad: Test de Rachas (sólo dos categorías).
Contrastes no Paramétricos para dos muestras:
1. Igualdad de distribuciones/medianas en muestras independientes.

1.1. Kolmogorov-Smirnov (igualdad de distribuciones, variables escala).
1.2. U Mann-Whitney-Wilcoxon (igualdad de medianas, variables escala).
2. Igualdad de medianas en muestras relacionadas (variables escala).
2.1. Test del signo.
2.2. Test de Wilcoxon de los rangos signados.
3. Contraste de independencia Chi cuadrado (variables ordinales o nominales): SPSS:
Analizar - Tablas o Analizar - Descriptivos - Tablas de Contingencia.
Contrastes no Paramétricos para más de dos muestras (igualdad de medianas):
1. Muestras independientes: Kruskal-Wallis.

2. Muestras relacionadas: Friedman.
Medidas de dependencia entre dos variables:
1. R de Pearson.
2. Tau de Kendall.
3. Rho de correlación de rangos de Spearman: SPSS: Analizar - Correlaciones.
56

36 - Análisis de Datos en Marketing (Por Adolfo Hernández)

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

36 - Análisis de Datos en Marketing (Por Adolfo Hernández)

Cargado por

Copyright:

Formatos disponibles

Análisis de datos en marketing (2016-04-12, 2016-04-13, 2016-04-18 y 2016-04-19). Por Adolfo Hernández.

Temas que se van a tratar en el curso:

1. Análisis exploratorios, tabulación, contrastes chi cuadrado (χ 2).

Software para los análisis estadísticos:

- Software no específico para análisis, con pocas herramientas estadísticas. Muy

En la estadística se utiliza el método inductivo para inferir conclusiones. De lo particular a lo

La inferencia de conclusiones generales a partir de muestras es siempre incierta. Existen

La estadística se divide en:

RESÚMENES NUMÉRICOS Y GRÁFICOS DE LOS DATOS

RESÚMENES NUMÉRICOS DE LOS DATOS

PARA DATOS CATEGÓRICOS O DISCRETOS

PARA DATOS CUANTITATIVOS

o La media es más eficiente que la mediana: La media usa toda la información de

Medidas de variabilidad o dispersión:

- Recorrido: Diferencia entre el dato más grande y el más pequeño.

- Coeficiente de correlación de Pearson.

RESÚMENES DE GRÁFICOS DE DATOS

PARA DATOS UNIVARIANTES

Datos categóricos o discretos:

PARA DATOS MULTIVARIANTES

Datos categóricos o discretos:

- Diagrama de barras múltiple.

RESÚMENES NUMÉRICOS DE DATOS CUALITATIVOS

Se representan mediante barras las frecuencias (o porcentajes)

Sectores, pictograma o tarta

Las frecuencias se representan mediante la parte proporcional de un círculo.

RESÚMENES GRÁFICOS DE DATOS CUALITATIVOS MULTIVARIANTES

Diagrama de barras múltiple

RESÚMENES NUMÉRICOS DE DATOS CUANTITATIVOS

Se representan, mediante cajas las frecuencias de los datos agrupados en intervalos.

Las pirámides de población son histogramas “tumbados”.

- Usar intervalos de igual longitud.

- Cada observación solo puede pertenecer a un intervalo.

Una propiedad interesante

Cuando la representación de la frecuencia de los datos tiene un aspecto normal:

Transformación de los datos

Cuando el histograma no parezca el de unos datos normales, es conveniente transformar los

- Cambio de unidades para facilitar la comparación de muestras.

Diagrama de cajas o boxplot

RESÚMENES NUMÉRICOS DE DATOS CUANTITATIVOS MULTIVARIANTES

Se usa para comparar:

- Una variable en grupos diferentes.

- Sí hay evidencia en contra de la hipótesis: Se rechaza y decimos que hay evidencia a

¡¡¡La estadística no sirve para probar nada!!!

DISEÑO DE UN TEST ESTADÍSTICO

1. Fijar de manera precisa las hipótesis (H 0 y H1).

FIJAR DE MANERA PRECISA LAS HIPÓTESIS (H0 Y H1) Y DEFINIR UN BUEN

- Si la discrepancia es grande: La hipótesis nula no es muy creíble, tenemos evidencia para

¿Cómo decidimos que el valor es extremo? Arriesgándonos…

FIJAR QUÉ PORCENTAJE DE VECES ESTAMOS DISPUESTOS A ASUMIR QUE

α es el nivel de significación, la probabilidad de cometer error de tipo I; es decir, de

- Tipo I: H0 es cierta y se rechaza. Grave, probabilidad baja.

- Si el p-valor es pequeño: La discrepancia es grande, ya que no se espera que haya

El valor “estándar” de referencia para rechazar H0 es de 0,05 o menos. Pero si equivocarnos

Ventajas de usar el p-valor:

CONCLUSIONES SOBRE LOS TEST ESTADÍSTICOS

TABLAS DE CONTINGENCIA Y TEST Χ2

Los individuos de las dos poblaciones (columnas) se clasifican por la categoría de su

Opinión de 167 individuos sobre el cambio de diseño del producto

Si la respuesta no es categórica se divide en clases y cada individuo se asigna a una de ellas.

H0: Las respuestas son homogéneas entre las poblaciones.

H1: Las respuestas son heterogéneas entre las poblaciones.