Tema 10 Procesamiento y Análisis de Datos

TEMA 10:
PROCESAMIENTO Y ANÁLISIS DE DATOS

10. 1. Etapas del procesamiento de datos y análisis de información
10. 2. Clasificación de las técnicas de análisis
10. 3. Análisis univariable descriptivo e inferencial
10. 4. Análisis bivariable
10. 5. Contrastes de hipótesis
10. 6 Principales técnicas de análisis multivariable aplicables en marketing
1. ETAPAS EN EL TRATAMIENTO ANÁLISIS DE LA INFORMACIÓN
CUANTITATIVA
• ETAPAS
Revisión, depuración y supervisión de los cuestionarios y datos.
Codificación
Grabación/generación y verificación del fichero de datos.
Preparación del fichero (etiquetar variables, códigos, ponderaciones, generar
nuevas variables, etc.)
Tratamiento de la información
Tabulación
Análisis de cada pregunta/ de cada variable
Estudio de relaciones por pares de preguntas/ variables
Análisis de preguntas por subgrupos
Estudio de relaciones entre variables
Contrastes de Hipótesis
Interpretaciones, resultados y conclusiones

• PREPARACIÓN DE LOS CUESTIONARIOS. LA CODIFICACIÓN.
Revisión y depuración de datos o cuestionarios
Se efectúa para corregir errores provenientes de: ambigüedades, respuestas no
legibles, errores en las casillas de respuesta, omisiones, incoherencias, etc.
Codificación
Consiste en la asignación de números (códigos) a las respuestas en un
cuestionario. Los programas informáticos adjudican los códigos de respuesta
automáticamente. En los ficheros de datos pueden aparecer el texto de las respuestas
o códigos numéricos adjudicados a cada categoría.
La codificación se utiliza en distintos casos en los que se asignan números (códigos) a
los ítems de respuesta de cada una de las variables:
Respuestas cerradas; 1 = hombre, 2 = mujer
o Si son categorías; 1 = renta alta, 2 = renta media, 3 = renta baja
o Si la escala es métrica (numérica) el código coincide con el valor de la
respuesta. Si la edad es 38 años, el código es 38. Se puede reconvertir en otra
variable por intervalos de edad que no sea métrica sino categórica.
Si una pregunta admite respuestas múltiples se puede convertir cada alternativa
en dicotómica y se codifican individualmente.
Si la pregunta es abierta, se listan las respuestas literales dadas por los
entrevistados (se selecciona un porcentaje del total de cuestionarios recibidos). Se
agrupan las respuestas por categorías en función de su contenido literal y se
asigna un código a cada categoría. Después se incorporan las nuevas categorías
codificadas a los cuestionarios y se cierran las respuestas con las nuevas
categorías. Las respuestas ya codificadas se graban en el fichero de datos y así la
pregunta puede ser tratada cómo una pregunta cerrada.
Interesa codificar o recodificar

- Cuando hay preguntas con respuestas abiertas
- Cuando hay muchas categorías, para agruparlas y facilitar su tratamiento y
análisis.
- Cuando la información es continua y se quieren hacer intervalos.
- Cuando se desea combinar variables y/o crear nuevas variables recodificando
otras variables que ya se han recogido en el fichero de datos.
Cómo se hace la recodificación:
- Las categorías tienen que estar cerradas
- Las categorías tienen que ser excluyentes
- Las categorías tienen que ser significativas homogéneas en sí y distintas entre sí
- Su número debe ser razonable
En el ejemplo siguiente tenemos un fichero de datos. En las columnas aparecen las

variables (preguntas) que hemos recogido y en las filas los valores o respuestas
recogidas en cada cuestionario.
En la siguiente tabla vemos una parte de un fichero de datos con las respuestas
obtenidas en las variables 1 a 7 de un cuestionario en una encuesta, y algunos
ejemplos de codificación.
En el fichero las respuestas quedan recogidas como códigos (números) y a cada uno
de ellos corresponde una opción de respuesta.
Variable ciudad: 1 Álava 2 Alicante 3 Almería…
Variable sexo: 1 hombre 2 mujer 3 No sabe/No contesta
Ejemplos de recodificaciones en la tabla adjunta
NUEVA NUEVA
VARIABLE VARIABLE
VAR 1 VAR 2 VAR 3 VAR 4 VAR 5 VAR 6 VAR 7
Recodifica Recodifica
VAR 5 VAR 7
VAR 5.1 VAR 7.1
Nº Nivel
Ciudad Profesión Compra TIPO Sexo Edad CODEDAD
Cuestio. renta
COMPRA
42 5 1 9 Pizza 1 1 56 2
56 9 8 8 Chuletas 2 2 59 2
210 9 8 9 Sopa 1 2 81 3
217 4 9 8 Arroz 1 1 57 2
222 6 10 10 Vino 3 1 77 3
237 9 1 7 Trucha 2 2 22 1
258 7 1 8 Cerveza 3 1 58 2
260 1 8 10 Pan 1 1 22 1
327 8 10 10 Alubias 1 2 23 1
332 6 9 8 Coca-cola 3 8 21 1
Codificación realizada:
• En la variable 6, sexo, al analizar el fichero de datos se observa un error (código 8)
cuando las opciones son, solamente 1=hombre o 2=mujer. Se recodifica
corrigiendo el error. Hay que recodificar –si es posible-, asignando código1 =
hombre, ó 2 = mujer; si no se puede se le asigna un No sabe/No contesta 3
• La variable 7, edad, se ha preguntado como una variable cuantitativa o numérica. Se
decide crear una nueva variable categórica llamada “codedad”, por recodificación
en tramos de edad. Construimos la nueva variable categórica recodificando la
numérica en intervalos, donde, código = 1 si es joven menor de 30 años; código =
2 si edad entre 30 y 64 años y código = 3 si la edad es 65 o más años.
• La variable 5 es una respuesta abierta y se procede a ver las respuestas recogidas y
agruparlas por categorías. Después se asigna un código a cada categoría de
respuesta. De ese modo se pueden codificar las respuestas en el fichero de datos
para que puedan ser tratados estad. Desde los resultados de la variable abierta
compra, creamos una nueva variable cerrada “tipocompra” con los códigos que
decidimos asignar: tipocompra=1 si se mencionan alimentos frescos, tipocompra
= 2 si en abierto se refieren a alimentación seca y tipocompra=3 si son bebidas.
De este modo el fichero queda revisado codificado y cerradas las respuestas.
• LA GRABACIÓN DE DATOS. EL FICHERO DE DATOS
Si la información ha sido recogida en soporte papel, antes de iniciar el proceso de

análisis es necesario grabar los datos en un soporte informático, que permita su
posterior tratamiento estadístico.
Si las entrevistas se han realizado utilizando algún programa informático (CATI, CAPI,
CAWI, o similar), el programa de entrada de datos se ha diseñado previamente y el
fichero de datos se genera en tiempo real, al tiempo que se hace el trabajo de campo.
Una vez grabados los cuestionarios de papel se verifica la grabación, es decir, se
graba una segunda vez para detectar errores de grabación en el fichero.
Para grabar los datos se debe dar formato al fichero de entrada de datos, escribiendo
previamente su estructura en un programa informático (SPSS o similar): las variables,
sus ítems códigos de respuesta y sus características, para después introducir los
datos (los casos) de cada entrevista.
También puede hacerse construyendo un formulario Google Drive o similar e
importarlo a un programa de análisis.
El paso de la información a soportes informáticos. Ficheros de datos
Una vez que los datos recogidos en los cuestionarios han sido grabados o generados
en un soporte informático, lo que obtenemos es un fichero de datos similar a una
matriz de datos. Lo más frecuente es que las variables ocupen las columnas y los
casos las filas. Se puede emplear distintos programas de entrada de datos Excel, SPSS,
etc. Una vez finalizada la grabación o entrada de datos tenemos una matriz con el
siguiente formato:
Se trata de una matriz de
dimensión n x m, donde n es el
número de flas, es decir el número
de casos (registros, o cuestionarios
cumplimentados, si se trata de una
encuesta) y m es el número de
columnas, lo que corresponde con el número de variables incluidas.
Una primera comprobación del Fichero de datos
fichero de datos importante es
chequear que hay el número de
casos de nuestra muestra (nº de
filas), que están todas las variables
en las columnas (no falta ni sobra
ninguna) y en cuanto a los casos
grabados en las celdas del fichero
no hay casos desaparecidos o
erróneos.
Se debe guardar una copia original
del fichero antes de comenzar a
tratarlo.
Si se construye un fichero de datos en SPSS -
sin importar los datos que se hubieran
generado con otro programa-, primero se
construye la hoja de variables y luego se da
entrada a los datos. Un registro por cada fila.
La construcción de variables debe hacerse
teniendo en cuenta el tipo de variable y la
escala de medida. Una vez creada se le
asignan los valores.
Si se hubiera utilizando un programa de entrada de datos de cuestionarios, como por

ejemplo Google Form Drive, Excel, o cualquier otro, se puede importar directamente
el fichero a SPSS u otro programa similar. En este caso, se debe comprobar que la
importación se ha realizado correctamente al nuevo fichero de SPSS. Después se
deberán etiquetar las variables y sus valores para su tratamiento.
• TIPOS DE VARIABLES y ESCALAS EN EL FICHERO DE DATOS
Una variable es cualquier característica, que toma valores diferentes, en un conjunto

de observaciones.
Hablamos de una variable cuantitativa o numérica cuando la característica que se

mide toma valores numéricos aritméticos. Muchas de las variables económicas son de
este tipo (como precios o gasto en unidades monetarias), pero también hay variables
económicas de tipo cualitativo.
Entendemos por variable cualitativa o categórica (cadena) aquella que toma

valores no numéricos (los códigos no tienen valor numérico). La característica que se
mide en este en este caso sería, la posesión o no de una cualidad (un atributo).
Por ejemplo, la distinción de los consumidores por sexo, por tipo de familia (su
composición), el nivel de estudios o la categoría profesional son variables de tipo
cualitativo que forman parte de los análisis de los patrones de consumo.
Otro ejemplo puede ser la categorización de establecimientos comerciales (hiper,
super, tienda tradicional, etc.)
Las variables cualitativas pueden ser nominales y ordinales.
En SPSS se distinguen:
Tipos de variable:
Escalas de la variable:
Lo primero que se hace con el fichero es revisar variables y casos para ver la calidad
del fichero (errores en la muestra, casos perdidos, errores de grabación, etc.)
Dependiendo del tipo de variable se pueden realizar distintos análisis estadísticos de
los datos. Por esta razón es importante planificar en el diseño del cuestionario con
qué tipo de variables y escalas se van a plantear las preguntas.
Es importante recordar que si la muestra no fue proporcionada y el análisis lo
requiere se debe de ponderar el fichero de datos. Los programas de análisis incluyen
esta opción. Para la ponderación se han de definir cuáles son los coeficientes de
ponderación.
También es posible transformar las variables si el análisis lo requiere (recodificarlas,
normalizarlas, recodificarlas construyendo nuevas variables de tratamiento, etc.)
A partir de este primer análisis se puede plantear la construcción de nuevas
variables a partir de las recogidas en el fichero, como por ejemplo las
recodificación de grupos de edad, la construcción de indicadores de estatus, de perfil
de consumidor etc.
2. CLASIFICACIÓN DE LAS TÉCNICAS DE ANÁLISIS
• TÉCNICAS DE ANÁLISIS UNIVARIABLES, BIVARIABLES Y MULTIVARIABLES.
Las técnicas de análisis de datos estadísticos se pueden clasificar en tres grupos
considerando el número de variables implicadas: técnicas univariables, bivariables y
multivariables.
En la clasificación de las técnicas de análisis de datos, además de la cantidad, hay que
considerar el tipo de relación que se establece entre las variables, y se consideran
técnicas de análisis de interdependencia y de dependencia. En el primer caso de
interdependencia, podemos decir que todas las variables se consideran como
independientes e interesa encontrar o constatar su patrón o estructura de relaciones
mutuas y simultáneas. En el segundo caso de dependencia, sí que se diferencia entre
variable(s) dependiente(s) e independiente(s), una(s) actúan de variables explicadas y
otra(s) de variables explicativas según un modelo de análisis explicativo que explicaría
la relación de dependencia.
En tercer lugar se pueden distinguir las técnicas de análisis de datos en función del
nivel de medición de las variables, su métrica.
En función de si las variables son cuantitativas (métricas, de tipo discreto o continuo)
o cualitativas (no métricas, de tipo nominal u ordinal).
En función de estas consideraciones, se utilizan distintas técnicas estadísticas más o
menos complejas.
Los análisis de los datos pueden ser puramente descriptivos, si se trata de clasificar,
analizar representar los datos recogidos en un estudio, o bien un análisis estadístico
inferencial, si trata de inferir, -a partir de lo observado en una muestra (n)-, las
características generales de la población (N). Para ellos se realizan pruebas a la
muestra. Estos análisis se basan en los Contrastes de hipótesis.
• CONTRASTE DE HIPÓTESIS: Inferencia, estimación y contraste de hipótesis
En un estudio cuantitativo los datos obtenidos pueden analizarse de forma
descriptiva. Se pueden, ordenar, clasificar o representar gráficamente; o bien, se
puede hacer un análisis estadístico inferencial de los datos. Los métodos son la
estimación y el contraste de hipótesis. En la inferencia, a partir de lo observado en
una muestra (n), se hacen estimaciones, para luego inferir las características generales
que se dan en la población (N). En este análisis se realizan pruebas a la muestra.
En este caso, se selecciona una muestra de la población, utilizando alguno de los
métodos posibles ya vistos en el tema de muestreo. A partir de la muestra, se
generan datos con los que se van a calcular estadísticos para poder realizar
estimaciones o contrastes poblacionales. Estos análisis se pueden basar en pruebas
de contraste de hipótesis. Estas pruebas se utilizan mucho en investigación de
mercados, para el análisis de los datos y la interpretación de los resultados.
3. ANÁLISIS UNIVARIABLE DESCRIPTIVO E INFERENCIAL
Análisis de cada variable del fichero:

Si la variable es nominal
. Frecuencias absolutas, relativas y porcentajes. Gráficos.
Si la variable es métrica o continua
. Frecuencias absolutas, relativas y porcentajes
. Medidas de tendencia central: media, mediana, moda
. Medidas de posición no central: cuartiles, deciles, percentiles.
. Medidas de dispersión: La varianza y la desviación típica
. Medidas de deformación: asimetría y curtosis.
• Recuento de frecuencias
La matriz de datos nos permite “ver” cómo se distribuyen los datos según las distintas
variables. Un primer análisis de la matriz de datos se suele hacer por medio de un
recuento de frecuencias para las distintas variables. Con estos recuentos se puede
comprobar la calidad del trabajo de campo y grabación. También se obtienen datos
para poder construir nuevas variables recodificadas (como por ejemplo, obtener la
variable estatus recodificando conjuntamente otra/s variable/s (estudios y ocupación).
Su presentación es bastante sencilla. Se presenta en columnas: En la primera
indicamos las respuestas obtenidas; en la segunda se cuenta el número de veces que
se repite dicha respuesta, esto es, la frecuencia absoluta de las respuestas.
Se suele añadir otra columna con la Tablas de frecuencias

frecuencia relativa y también se
puede añadir frecuencias
acumuladas.
La principal herramienta de análisis
de una variable de tipo cualitativo
es el simple recuento del número
de los casos dentro de cada
categoría. Ejemplo: los grupos de
edad de una muestra.
Además de los recuentos, se pueden
analizar otros estadísticos, en función del
tipo de variable. También otros tipos de
gráficos adecuados en cada caso.
Por ejemplo: en una variable numérica, es
habitual utilizar para su análisis medias,
desviación típica, etc.
• Medidas de tendencia central:

Media, mediana (en una distribución es el valor que la divide en dos partes iguales),
moda (en una distribución es el valor de la variable con mayor frecuencia).
• Medidas de posición no central:

Las medidas de posición no central permiten dividir los datos de una variable en
grupos, de modo que cada grupo contiene el mismo número de observaciones. A
esta medida se le denomina de forma genérica como cuartiles, de los que
describimos cuartiles, deciles y percentiles.
Cuartiles son tres valores, que dividen a la distribución en cuatro partes iguales,
conteniendo cada parte el 25% de los datos.
Deciles. Los deciles de una distribución de frecuencias dividen a la distribución en
diez partes iguales, conteniendo cada parte el 10% Percentiles. Los percentiles de
una distribución de frecuencias son 99 valores que dividen a la distribución en 100
partes iguales, contiendo cada una el 1% de los datos.
• Medidas de dispersión:
Complementan la información proporcionada por las medidas de posición. Indican si
los valores se encuentran más o menos próximos a la medida de posición. Las más
frecuentes son:
La varianza y la desviación típica: medidas de dispersión de las variables
métricas. La desviación típica (S) es una distancia de los valores de la variable a la
media. La varianza es esa distancia al cuadrado (S2).
El coeficiente de variación: cuando se trata de medir la disparidad de variables
con distintas unidades de medida, para poder compararlas se utiliza este
coeficiente. Este coeficiente se define como el cociente entre la desviación típica y
la media.
El rango: es una medida adecuada para medir la dispersión de las escalas métricas.
Se cuantifica por la diferencia de magnitud entre el mayor valor de la variable y
el menor. Sólo refleja los valores extremos. Una variable muy concentrada, pero
con dos valores extremos proporcionará un recorrido poco representativo.
• Medidas de la forma de la distribución: Asimetría y curtosis
• Representación gráfica de los datos

Las representaciones gráficas son un medio complementario para describir la variable
que estamos analizando. Existen una gran variedad de representaciones.
DIAGRAMAS DE LÍNEAS Y DE BARRAS
Los diagramas de líneas y de barras se utilizan cuando la variable toma un número

reducido de valores diferentes.
Los diagramas de líneas se utilizan con
frecuencia cuando deseamos presentar datos
donde la variable tiempo es determinante
(días de la semana, meses, años, etc.).
Los Diagramas de barras representan mejor
las diferentes modalidades de respuesta de
una variable categórica.
Gráficos de barras.
Los diagramas de barras reúnen los datos en
categorías, lo que permite comparar valores
de cada categoría rápidamente. Es bueno para
presentar y comparar un conjunto de datos
(ordenado o no). Los datos van en porcentaje.
La idea del histograma es representar HISTOGRAMA
frecuencias por medio de áreas.
Se construye dibujando sobre cada
intervalo de respuesta un rectángulo de
área proporcional a la frecuencia absoluta
correspondiente a dicho intervalo.
DIAGRAMAS DE SECTORES Uno de los sistemas de representación

más utilizados, sobre todo al referirnos
a variables categóricas o cualitativas, es
el gráfico de sectores, más conocido
como “tarta” La suma de las categorías,
será de 100%.
4. ANÁLISIS BIVARIABLE
 ELABORACIÓN DE TABLAS ESTADÍSTICAS.

Normalmente en un estudio se comienza la tabulación con el cruce de variables dos
a dos. El cruce de variables ofrece el recuento de los datos para los cruces de las
categorías de dos o más variables. Las tablas cruzadas pueden darse en recuentos
absolutos o en porcentajes verticales (sobre el valor total de cada columna), u
horizontales (calculados sobre el valor total de cada fila).
En la cabecera se suelen colocar variables y atributos sociodemográficos de la
muestra. En las filas las preguntas (variables) con sus opciones de respuesta.
La composición más habitual es que en las columnas aparezcan los datos referidos
al total de la muestra, seguidos de la desagregación en columnas de las variables
socidemográficas (sexo edad, etc.) Los valores analizados en las preguntas en el
recuento de valores absolutos y los porcentajes verticales en la tabla de datos.
TOTAL
El análisis comienza con los resultados de la columna de totales. Posteriormente se

comentan las diferencias significativas que ofrezcan los cruces con las variables
sociodemográficas u otras de interés para el estudio.
Análisis de las relaciones entre otras preguntas o variables
Con estas tablas se trata de analizar la relación entre las variables de nuestro estudio,
empezando por el cruce general (preguntas por variables sociodemográficas) y
después, viendo el posible interés de realizar otros cruces específicos entre distintas
preguntas del cuestionario.
Aspectos a tener en cuenta en las tablas cruzadas
Para emplear las tabulaciones cruzadas deben seguirse algunas reglas básicas:
Si los datos son nominales, ordinales, o de intervalos: los datos estarán en
agrupados en categorías.
- El número de categorías debe ser limitado.
- Es conveniente que el número de categorías sea tal que el cruce tenga un
número suficiente de casos de la muestra.
Pata cruzar una variable numérica en una tabla:
- Si la queremos colocar en la cabecera (columnas), debemos convertir la
variable numérica en otra variable categórica con un número bajo de
categorías. Por ejemplo: a partir de la variable numérica “edad” en años, crear
una nueva variable categórica “grupos de edad”. Esta nueva variable si podrá
colocarse en la cabecera de la tabla.
- Si una variable numérica se quiere cruzar en filas, lo habitual es que los datos
de cruce se hagan utilizando un estadístico de síntesis: media, desviación, etc.
En el siguiente ejemplo se ha utilizado la media:
Se pueden utilizar distintos estadísticos de contraste para analizar la posible

relación entre las variables analizadas en cada cruce (chi cuadrado, prueba t, etc.)
En las tablas bivariadas se hace una primera lectura de los resultados del cruce de
todas las variables del estudio por las principales características sociodemográficas de
la muestra.
Construcción de tablas cruzadas EN SPSS Menú: Analizar
TABULACIÓN CONTRASTE DE CHI CUADRADO

 ANÁLISIS DE TABLAS DE PORCENTAJES VERTICALES Y HORIZONTALES.
INTERPRETACIÓN DE RESULTADOS. Fte: J.G. Madariaga Investigación de mercados.
Para el análisis de los resultados de una tabla se utilizan, los recuentos absolutos,
pero especialmente las tablas en porcentaje, vertical y horizontal, en función de cuál
sea la base de cálculo del porcentaje.
Ejemplo 1: En una encuesta se ha peguntado a la población de Madrid si conocía el

nuevo programa de actividades culturales del ayuntamiento para 2019. Se hizo una
encuesta y los resultados obtenidos en valores absolutos, distinguiendo los que sí lo
conocen y los que lo desconocen, fueron los de la tabla 1. Calcular la tabla de
porcentajes verticales y horizontales, e interpretar el resultado. TABLA 1
EDAD
CONOCIMIENTO MENOR DE 16 16 A 30 MAS DE 30
NO 45 34 55
SÍ 52 53 27
Tabla porcentajes verticales
La mitad de los residentes conoce la CONOCIMIENTO POR GRUPO DE EDAD

oferta cultural 2019. La notoriedad
más elevada se da entre los
residentes con edades comprendidas
entre 13 y 30 años, entre los que tres
de cada cinco consultados conoce la
oferta (60,9%); en el polo contrario,
los consultados mayores de 30 años,
entre los que sólo uno de cada tres la
conoce.
Tabla porcentajes horizontales
PERFIL El perfil de las personas que conocen la nueva oferta 2019 refleja que un 80%
tiene menos de 30 años, y un 20% más de 30.
En las tablas cruzadas es posible introducir nuevas variables de cruce para desagregar
más los datos y comprender mejor los resultados. Tablas anidadas con tres o más
variables.
 INTRODUCCIÓN DE VARIABLES DE CONTROL EN LAS TABLAS.
El efecto que hemos apreciado en un principio al leer una tabla puede cambiar al
considerar en el análisis el cruce con otras variables. Veamos diferentes casos.
EFECTO REFINAR ASOCIACION TABLA 2 Y 3
Ejemplo 2: Se ha analizado el nivel de consumo de ropa personal, considerando los

que son grandes consumidores y los que no lo son, valorando su nivel de gasto. Estos
datos se han analizado teniendo en cuenta el estado civil. Los resultados fueron:
TABLA 2
Si se tiene en cuenta, además del estado civil, el sexo del entrevistado. TABLA 3
A la vista de la Tabla 2, se podría concluir que los casados son menos consumidores
(69%) que los solteros (52%). Sin embargo, si se analizan los datos con una capa más,
en la que se considere una tercera variable anidada -el sexo-; entonces se observa
que el consumo bajo es una pauta común a los hombres, tanto casados (65%) como
no casados (60%), en tanto que el bajo consumo se asocia con las mujeres casadas
(75%) y no así, entre las solteras (40%).
FALSA RELACIÓN TABLA 4 Y 5
Ejemplo 3. En un estudio se ha preguntado a los entrevistados si tenía un coche de
alta precio y se ha valorado la posesión del automóvil en función del nivel de
estudios. Los resultados fueron:
TABLA 4
A la vista de la Tabla 4, se podría pensar que entre los universitarios (32%) es más
frecuente tener un coche caro que entre quienes tienen estudios de menor nivel
(21%).
Si se considera la posesión de automóvil en función del nivel educativo y los ingresos,

los datos ofrecen una interpretación distinta. (Tabla 5)
TABLA 5
Al considerar otra variable de cruce, en este caso los ingresos, podemos observar que
la influencia decisiva la produce los ingresos y no los estudios, ya que, si el sujeto
tiene ingresos altos, -con estudios superiores o no- tiene un coche caro en el 40% de
los casos, mientras que, si tiene unos ingresos bajos, la posesión de un automóvil
caro está en torno al 20% de los casos, se tengan o no estudios universitarios.
EFECTO SUPRESION TABLA 6 Y 7
Ejemplo 3: En una encuesta se preguntó a los consultados por su deseo de viajar al

extranjero y los resultados entre los encuestados, en función de la edad fueron:
TABLA 6
Si se valora el deseo expresado de viajar al extranjero en función de la edad y el sexo

del entrevistado los resultados son TABLA 7:
A la vista de la Tabla 6 se podría pensar que el deseo de viajar al extranjero es igual
para toda la población, indistintamente de su edad. Sin embargo, si se considera otra
variable de cruce, en este caso el sexo, podemos observar que el cruce de las
variables, sexo y edad, ofrecen diferencias en el comportamiento de la población.
Los efectos de ambas actúan en sentido inverso. Así, observamos que entre los
hombres más jóvenes es superior el deseo de viajar (60%) frente a los mayores (40%).
Al contrario de lo que ocurre entre las mujeres, para quienes el deseo de viajar al
extranjero aumenta con edad (60% las mayores frente al 40% entre las más jóvenes).
5. CONTRASTES DE HIPÓTESIS
 CONTRASTE DE HIPÓTESIS: DEFINICIÓN Y PROCEDIMIENTO

Un contraste de hipótesis o prueba de significación es un procedimiento que sirve
para comprobar si una propiedad, -que se supone se da en una población N-, es
compatible con lo que se observa en una muestra n que se ha tomado de esa
población.
Con el contraste de hipótesis, a partir de los datos de la muestra, se plantea el
problema estadístico considerando una afirmación concreta H0 (hipótesis nula o de
igualdad), sobre el comportamiento de una población, es decir, una hipótesis, a la
que suponemos cierta; y una hipótesis alternativa H1 (hipótesis alternativa o de
diferencia) (la que sustituirá a H0 si la rechazamos). Con estas pruebas se trata de
llegar a la conclusión de cuál de las dos hipótesis es la verdadera, después de haber
aplicado un procedimiento estadístico.
Hay contrastes unilaterales y bilaterales, en función del planteamiento de las

hipótesis.
En un contraste de hipótesis pueden darse las siguientes situaciones sobre las
hipótesis:
H0 VERDADERA H0 FALSA
ACEPTAR H0 NO ERROR ERROR TIPO II (β)
RECHAZAR H0 ERROR TIPO I (α) NO ERROR. POTENCIA
Error Tipo I o NIVEL DE SIGNIFICACIÓN, es la probabilidad de rechazar H0, siendo

H0 verdadera = (α)
Error de Tipo II es la probabilidad aceptar H0, siendo H0 falsa = (β)
Potencia es la probabilidad rechazar H0, siendo H0 falsa = (1- β)
Para disminuir los errores Tipo I y II sería necesario aumentar la muestra tomada para
el estudio.
Lo que más importa es no cometer error Tipo I y, para eso, se disminuye (α), es decir,
el nivel de significación. Algo habitual es utilizar un valor de (α) de 0,01 ó 0,05.
PROCEDIMIENTO PARA UN CONTRASTE DE HIPÓTESIS
1. Identificar el parámetro que se quiere estudiar.

2. Formular una hipótesis nula H0 y una hipótesis alternativa HA.
3. Fijar una valor para el nivel de significación de la prueba (α)
4. Elección de una distribución de muestreo. El estadístico.
5. Calcular el estadístico de la prueba.
6. Comprobar la aceptación o rechazo de la hipótesis nula.
7. Interpretar el resultado
 CONTRASTES PARAMÉTRICOS Y NO PARAMÉTRICOS
Para la elección de la prueba estadística para el contraste hay que considerar:
- Condiciones para aplicar la prueba: distribución, normalidad, número de
muestras, tamaño de la muestra, etc.
- El tipo de variable: cuantitativa o cualitativa
- Si los datos son dependientes apareados, o independientes. Dos muestras se
consideran independientes cuando las observaciones de una de ellas no
condicionan para nada las observaciones de la otra. En caso contrario se
denominan dependientes o pareadas.
En función de estas cuestiones se opta por un tipo de prueba paramétrica o no.
PRUEBAS PARAMÉTRICAS PRUEBAS NO PARAMÉTRICAS
-En estas pruebas se conoce el -En pruebas No paramétricas no es necesario

modelo de la distribución de la conocer la distribución que se está
población que se está estudiando. estudiando.
Variables cuantitativas continuas Variables cuantitativas, ordinales o nominales
Distribución normal Distribución libre (no tiene por qué ser
Muestra grandes (n>30) normal)
Varianzas similares Muestra pequeñas (n<30)
Casi todas las pruebas paramétricas tiene su equivalente en un test no paramétrico.

Hay distintas pruebas para analizar la asociación entre variables. Unas para analizar la
asociación entre variables categóricas y otras para analizar la asociación entre
variables cuantitativas.
 CONTRASTES DE HIPÓTESIS PARA COMPARAR MEDIAS
Con estos contrastes de hipótesis de variables cuantitativas se trata de comprobar si
un valor dado como hipótesis para un parámetro o característica de la población
debe aceptarse en función de los datos obtenidos de la muestra.
Hay distintas formas y procedimientos para el contraste de medias:
1. Prueba t para una muestra: sirve para contrastar hipótesis sobre la media de la
población, a partir de la media obtenida en la muestra.
2. Prueba t para dos muestras independientes: nos permite contrastar si las medias de
dos poblaciones independientes son iguales. Para esto se utilizan las medias de dos
muestras aleatorias extraídas de esas poblaciones.
3. Prueba t para dos muestras relacionadas: se contrasta la hipótesis sobre igualdad
de medias para muestras relacionadas. Se considera una población de diferencias,
resultado de restar las puntuaciones de un mismo grupo para dos variables
diferentes, o bien valores de la misma variable en dos momentos diferentes.
Para las pruebas de contraste de medias el test más habitual es la t de Student si la
distribución es normal.
4. ANOVA de un factor:
Se utiliza para contrastar la hipótesis nula de que las medias de una variable
dependiente (VD) respecto de un factor o variable independiente (VI) con más de dos
grupos o niveles son iguales, frente a la hipótesis alternativa de que, al menos, la
media en un grupo es diferente a los demás.
Para poder aplicar el análisis de la varianza deben darse algunas condiciones: la
variable independiente que define los grupos debe ser cualitativa (categórica, la
variable dependiente, la que se compara debe ser cuantitativa. Ningún sujeto debe
estar en los grupos de forma simultánea. La varianza dentro de cada categoría de la
variable independiente debe ser parecida. Debe haber dos o más categorías.
El análisis más frecuente es el ANOVA Análisis de la varianza.

Si no se puede aplicar una prueba paramétrica, las no paramétricas, en caso similar,
son:
PRUEBAS PARAMÉTRICAS Y SU ALTERNATIVA NO PARAMÉTRICA
FUENTE Universitat de Barcelona. Institut de Ciències de l’Educació. REIRE

 CONTRASTES DE HIPÓTESIS PARA COMPARAR LAS DIFERENCIAS DE
PROPORCIONES
Cuando se trata de comparar dos o más grupos en los que se han analizado variables
cualitativas (categóricas), se comparan a través de las proporciones.
Estas cuestiones se pueden resolver por medio de un contraste en el que la H0
supone la igualdad de proporciones en los grupos. En este caso se analizan dos
variables cualitativas cruzadas.
La prueba más utilizada es el contraste Chi cuadrado.
 EL ANÁLISIS DE TABLAS DE CONTINGENCIA
Una tabla de contingencia es una tabla cruzada de datos con variables categóricas
Sirve para estudiar la asociación entre las dos variables de la tabla cruzada.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se
denomina tabla de contingencia.
Para analizar la asociación entre dos o más variables cualitativas (categóricas o de
cadena). , se analizan los datos de la distribución cruzada en filas y columnas.
La tabla de contingencia es una tabla SEXO

HOMBRE MUJEER SUBTOTAL
de doble entrada, en la que en cada SÍ n11 n12 n1.
casilla se computa el número de HACE NO n21 n22 n2.
casos o individuos que poseen un DEPORTE SUBTOTAL n.1 n.2 N
nivel de uno de los factores o
nij = número de observaciones que tienen el atributo i y j
características analizadas y de la otra
ni. = número de individuos que tienen el atributo i (marginal i)
variable que se analiza. n.j=número de individuos que tienen el atributo j (marginal)
Con este análisis, se puede saber si hay asociación entre las variable y cuál es la
intensidad de la relación, si la tienen.
Las tablas de contingencia tienen dos objetivos fundamentales:

-Organizar la información bidimensional referida a dos variables cualitativas.
-Analizar si hay alguna asociación entre los niveles de las variables cualitativas objeto
de estudio. El hecho de que las dos variables sean independientes significa que los
valores de una de ellas no están influidos por los que adopte la otra.
Para este análisis se utiliza contraste de hipótesis. La hipótesis nula H0 a contrastar
será la de no asociación entre las variables, siendo la hipótesis alternativa Ha la de sí
asociación. Se utiliza un contraste estadístico basado en el estadístico Chi-cuadrado
X2,
Si la proporción de celdas con valor inferior a 5 es superior al 20% de las celdas, el
Chi-cuadrado no cumple los requisitos necesarios para poder interpretarlo sin
problemas.
Tablas de contingencia en SPSS Menú: Analizar. Estadísticos. Tabla contingencia.
6. PRINCIPALES TÉCNICAS DE ANÁLISIS MULTIVARIABLE APLICABLES EN
MARKETING. Fte.: Manual IC. Ortega, E.
Se consideran métodos multivariables a aquellos métodos estadísticos que
simultáneamente analizan más de dos variables en el muestreo de observaciones.
Para decidir cuál es el análisis multivariable que hay que utilizar es necesario:
• Examinar las variables para ver de qué tipo son y conocer sus características y, de
ese modo, poder elegir la técnica adecuada para el análisis.
• Ver que variables hay que incluir en el análisis.
• Revisar los datos para asegurarse de que hay un número de casos suficientes para
poder alcanzar un nivel de significación suficiente y un poder aceptable.
El análisis multivariable tiene una variedad de posibilidades amplia. Para
clasificarlos podemos plantear distintos criterios:
1.La distinción entre las variables utilizadas en el análisis. Y así se pueden
distinguir:
a. Métodos de interdependencia: En estos métodos no hay distinción entre
variables, todas son de naturaleza similar. Son métodos especialmente
descriptivos. Sirven especialmente para sintetizar información, mostrar su
estructura o establecer clasificaciones. Algunos de los más habituales son:
análisis factorial, análisis de cluster y escalamiento multidimensional.
b.Métodos de dependencia: Estos métodos diferencian entre variables
explicativas, independientes o predictivas y variables a explicar o dependientes.
Estos son métodos de carácter explicativo como son los análisis de varianza, el
de regresión o el discriminante.
2.La escala de medida de las variables. Unas veces se necesitan variables que
tengan escala métrica exclusivamente, otras que las variables sean categóricas o
incluso de ambos tipos
3.Número de variables que se analizan simultáneamente. En el caso de los
métodos de interdependencia el número de variables a considerar depende de
los planteamientos teóricos de la investigación y también estará limitado por las
limitaciones del programa informático utilizado.
En el caso de los métodos de dependencia el número de variables consideradas sí
es relevante para distinguir entre análisis, sobretodo en cuanto al número de
variables a explicar, porque el número de variables independientes suele ser
varias casi siempre.
Cuando se va a utilizar un análisis de estas características hay que comprender:
Cuáles son las posibilidades de análisis que aporta.
Cuáles son los fundamentos del análisis.
Qué tipo de entrada de datos necesita y que salida de datos ofrece.
Cómo se puede llevar a cabo el análisis y Qué aplicaciones tiene.
Los principales análisis multivariables de dependencia y de interdependencia son:
MÉTODOS DE DEPENDENCIA
MÉTRICA REGRESIÓN LINEAL SIMPLE
ESCALA DE VARIBLES
MÉTRICA INDEPENDIENTES
NO ANÁLISIS DE LA VARIANZA Y COVARIANZA. REGRESIÓN

MÉTRICA MÚLTIPLE CON VARIABLE FICTICIA. SEGMENTACIÓN .
ESCALA DE LA
VARIABLE
UNA DEPENDIENTE
ANÁLSIS DISCRIMINANTE. REGRESIÓN LOGÍSTICA.
MÉTRICA ANÁLISIS LOGIT Y PROBIT.
NO ESCALA DE VARIBLES
NÚMERO DE NO ANÁLISIS DISCRIMINANTE CON VARIABLE FICTICIA.
VARIABLES MÉTRICA ANÁLISIS CONJUNTO.
DEPENDIENTES
ANÁLISIS DE CORRELACIONES CANÓNICAS. ANÁLISIS
MÉTRICA DE ECUACIONES ESTRUCTURALES
ESCALA DE VARIBLES
NO ANÁLSIS MULTIVARIABLES DE LA VARIANZA Y DELA
VARIAS ESCALA DE LA MÉTRICA COVARIANZA. MODELOS LOG.LINEAL
VARIABLE
DEPENDIENTE
ANÁLISIS DE CORRELACIONES CANÓNICAS CON
NO VARIABLES FICTICIAS. ANÁLISIS DE ECUACIONES
MÉTRICA ESTRUCTURALES.
MÉTODOS DE INTERDEPENDENCIA
ANÁLSIS FACTORIAL
ESCALA MÉTRICA ANÁLISIS DE CLUSTER
ANÁLISIS DE ESCALAS MULTIDIMENSIONALES MÉTRICO
ANÁLISIS DE SIMILITUDES
ANÁLISIS DE ESCALAS MULTIDIMENSIONALES NO MÉTRICO
ANÁLISIS DE PREFERENCIAS
ESCALA NO MÉTRICA ANÁLISIS DE GRUPOS NO MÉTRICO
ANÁLSIS DE CORRESPONDENCIAS MULTIPLE
Dos análisis muy utilizados son:

Análisis Factorial:
Es una técnica multivariable de reducción de datos se utiliza para explicar las
correlaciones entre las variables observadas por medio de un número menor de
variables no observadas llamadas factores.
Análisis Cluster
Una técnica multivariable utilizada para clasificar a un conjunto de individuos o
elementos en grupos homogéneos. Pertenece, junto al análisis de tipologías y el
análisis discriminante al grupo de técnicas cuyo objetivo es la clasificación de los
individuos.
CURSO 2019_2020
BIBLIOGRAFÍA
Hair, J.F. et al. (2010), Investigación de mercados, 4ª Edición, McGraw-Hill

Interamericana de España.
Malhotra, N.K. (2008), Investigación de mercados, 5ª Edición, Prentice Hall, México.
Grande I. y Abascal E., (2007) Fundamentos y técnicas de investigación comercial. Esic
Editorial. Madrid.
Zikmund, W.G. (2006), Fundamentos de investigación de mercados, 1ª Ed., 2ª
Impresión, Ediciones Paraninfo, Madrid
Ortega, E. (1998), Manual de investigación comercial, 3ª Edición, 5ª Impresión,
Pirámide, Madrid.
CURSO 2019_2020

Tema 10 Procesamiento y Análisis de Datos

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Tema 10 Procesamiento y Análisis de Datos

Cargado por

Copyright:

Formatos disponibles

TEMA 10:

PROCESAMIENTO Y ANÁLISIS DE DATOS

Interpretaciones, resultados y conclusiones

Interesa codificar o recodificar

En el ejemplo siguiente tenemos un fichero de datos. En las columnas aparecen las

Si la información ha sido recogida en soporte papel, antes de iniciar el proceso de

Si se hubiera utilizando un programa de entrada de datos de cuestionarios, como por

Una variable es cualquier característica, que toma valores diferentes, en un conjunto

Hablamos de una variable cuantitativa o numérica cuando la característica que se

Entendemos por variable cualitativa o categórica (cadena) aquella que toma

Análisis de cada variable del fichero:

Se suele añadir otra columna con la Tablas de frecuencias

• Medidas de tendencia central:

• Medidas de posición no central:

• Medidas de la forma de la distribución: Asimetría y curtosis

• Representación gráfica de los datos

DIAGRAMAS DE LÍNEAS Y DE BARRAS

Los diagramas de líneas y de barras se utilizan cuando la variable toma un número

DIAGRAMAS DE SECTORES Uno de los sistemas de representación

 ELABORACIÓN DE TABLAS ESTADÍSTICAS.

El análisis comienza con los resultados de la columna de totales. Posteriormente se

Se pueden utilizar distintos estadísticos de contraste para analizar la posible

TABULACIÓN CONTRASTE DE CHI CUADRADO

Ejemplo 1: En una encuesta se ha peguntado a la población de Madrid si conocía el

La mitad de los residentes conoce la CONOCIMIENTO POR GRUPO DE EDAD

EFECTO REFINAR ASOCIACION TABLA 2 Y 3

Ejemplo 2: Se ha analizado el nivel de consumo de ropa personal, considerando los

Si se considera la posesión de automóvil en función del nivel educativo y los ingresos,

Ejemplo 3: En una encuesta se preguntó a los consultados por su deseo de viajar al

Si se valora el deseo expresado de viajar al extranjero en función de la edad y el sexo

 CONTRASTE DE HIPÓTESIS: DEFINICIÓN Y PROCEDIMIENTO

Hay contrastes unilaterales y bilaterales, en función del planteamiento de las

Error Tipo I o NIVEL DE SIGNIFICACIÓN, es la probabilidad de rechazar H0, siendo

1. Identificar el parámetro que se quiere estudiar.

PRUEBAS PARAMÉTRICAS PRUEBAS NO PARAMÉTRICAS

-En estas pruebas se conoce el -En pruebas No paramétricas no es necesario

Casi todas las pruebas paramétricas tiene su equivalente en un test no paramétrico.

El análisis más frecuente es el ANOVA Análisis de la varianza.

FUENTE Universitat de Barcelona. Institut de Ciències de l’Educació. REIRE

 EL ANÁLISIS DE TABLAS DE CONTINGENCIA

La tabla de contingencia es una tabla SEXO

Las tablas de contingencia tienen dos objetivos fundamentales:

MÉTRICA REGRESIÓN LINEAL SIMPLE

NO ANÁLISIS DE LA VARIANZA Y COVARIANZA. REGRESIÓN

ESCALA MÉTRICA ANÁLISIS DE CLUSTER

ANÁLISIS DE ESCALAS MULTIDIMENSIONALES MÉTRICO

ANÁLISIS DE ESCALAS MULTIDIMENSIONALES NO MÉTRICO

ANÁLSIS DE CORRESPONDENCIAS MULTIPLE

Dos análisis muy utilizados son:

Hair, J.F. et al. (2010), Investigación de mercados, 4ª Edición, McGraw-Hill

También podría gustarte