Documentos de Académico
Documentos de Profesional
Documentos de Cultura
En la siguiente tabla vemos una parte de un fichero de datos con las respuestas
obtenidas en las variables 1 a 7 de un cuestionario en una encuesta, y algunos
ejemplos de codificación.
En el fichero las respuestas quedan recogidas como códigos (números) y a cada uno
de ellos corresponde una opción de respuesta.
Variable ciudad: 1 Álava 2 Alicante 3 Almería…
Variable sexo: 1 hombre 2 mujer 3 No sabe/No contesta
Ejemplos de recodificaciones en la tabla adjunta
NUEVA NUEVA
VARIABLE VARIABLE
VAR 1 VAR 2 VAR 3 VAR 4 VAR 5 VAR 6 VAR 7
Recodifica Recodifica
VAR 5 VAR 7
VAR 5.1 VAR 7.1
Nº Nivel
Ciudad Profesión Compra TIPO Sexo Edad CODEDAD
Cuestio. renta
COMPRA
42 5 1 9 Pizza 1 1 56 2
56 9 8 8 Chuletas 2 2 59 2
210 9 8 9 Sopa 1 2 81 3
217 4 9 8 Arroz 1 1 57 2
222 6 10 10 Vino 3 1 77 3
237 9 1 7 Trucha 2 2 22 1
258 7 1 8 Cerveza 3 1 58 2
260 1 8 10 Pan 1 1 22 1
327 8 10 10 Alubias 1 2 23 1
332 6 9 8 Coca-cola 3 8 21 1
Codificación realizada:
• En la variable 6, sexo, al analizar el fichero de datos se observa un error (código 8)
cuando las opciones son, solamente 1=hombre o 2=mujer. Se recodifica
corrigiendo el error. Hay que recodificar –si es posible-, asignando código1 =
hombre, ó 2 = mujer; si no se puede se le asigna un No sabe/No contesta 3
• La variable 7, edad, se ha preguntado como una variable cuantitativa o numérica. Se
decide crear una nueva variable categórica llamada “codedad”, por recodificación
en tramos de edad. Construimos la nueva variable categórica recodificando la
numérica en intervalos, donde, código = 1 si es joven menor de 30 años; código =
2 si edad entre 30 y 64 años y código = 3 si la edad es 65 o más años.
• La variable 5 es una respuesta abierta y se procede a ver las respuestas recogidas y
agruparlas por categorías. Después se asigna un código a cada categoría de
respuesta. De ese modo se pueden codificar las respuestas en el fichero de datos
para que puedan ser tratados estad. Desde los resultados de la variable abierta
compra, creamos una nueva variable cerrada “tipocompra” con los códigos que
decidimos asignar: tipocompra=1 si se mencionan alimentos frescos, tipocompra
= 2 si en abierto se refieren a alimentación seca y tipocompra=3 si son bebidas.
De este modo el fichero queda revisado codificado y cerradas las respuestas.
• LA GRABACIÓN DE DATOS. EL FICHERO DE DATOS
Si las entrevistas se han realizado utilizando algún programa informático (CATI, CAPI,
CAWI, o similar), el programa de entrada de datos se ha diseñado previamente y el
fichero de datos se genera en tiempo real, al tiempo que se hace el trabajo de campo.
Una vez grabados los cuestionarios de papel se verifica la grabación, es decir, se
graba una segunda vez para detectar errores de grabación en el fichero.
Para grabar los datos se debe dar formato al fichero de entrada de datos, escribiendo
previamente su estructura en un programa informático (SPSS o similar): las variables,
sus ítems códigos de respuesta y sus características, para después introducir los
datos (los casos) de cada entrevista.
También puede hacerse construyendo un formulario Google Drive o similar e
importarlo a un programa de análisis.
El paso de la información a soportes informáticos. Ficheros de datos
Una vez que los datos recogidos en los cuestionarios han sido grabados o generados
en un soporte informático, lo que obtenemos es un fichero de datos similar a una
matriz de datos. Lo más frecuente es que las variables ocupen las columnas y los
casos las filas. Se puede emplear distintos programas de entrada de datos Excel, SPSS,
etc. Una vez finalizada la grabación o entrada de datos tenemos una matriz con el
siguiente formato:
Se trata de una matriz de
dimensión n x m, donde n es el
número de flas, es decir el número
de casos (registros, o cuestionarios
cumplimentados, si se trata de una
encuesta) y m es el número de
columnas, lo que corresponde con el número de variables incluidas.
Una primera comprobación del Fichero de datos
fichero de datos importante es
chequear que hay el número de
casos de nuestra muestra (nº de
filas), que están todas las variables
en las columnas (no falta ni sobra
ninguna) y en cuanto a los casos
grabados en las celdas del fichero
no hay casos desaparecidos o
erróneos.
Se debe guardar una copia original
del fichero antes de comenzar a
tratarlo.
Si se construye un fichero de datos en SPSS -
sin importar los datos que se hubieran
generado con otro programa-, primero se
construye la hoja de variables y luego se da
entrada a los datos. Un registro por cada fila.
La construcción de variables debe hacerse
teniendo en cuenta el tipo de variable y la
escala de medida. Una vez creada se le
asignan los valores.
Escalas de la variable:
Lo primero que se hace con el fichero es revisar variables y casos para ver la calidad
del fichero (errores en la muestra, casos perdidos, errores de grabación, etc.)
Dependiendo del tipo de variable se pueden realizar distintos análisis estadísticos de
los datos. Por esta razón es importante planificar en el diseño del cuestionario con
qué tipo de variables y escalas se van a plantear las preguntas.
Es importante recordar que si la muestra no fue proporcionada y el análisis lo
requiere se debe de ponderar el fichero de datos. Los programas de análisis incluyen
esta opción. Para la ponderación se han de definir cuáles son los coeficientes de
ponderación.
También es posible transformar las variables si el análisis lo requiere (recodificarlas,
normalizarlas, recodificarlas construyendo nuevas variables de tratamiento, etc.)
A partir de este primer análisis se puede plantear la construcción de nuevas
variables a partir de las recogidas en el fichero, como por ejemplo las
recodificación de grupos de edad, la construcción de indicadores de estatus, de perfil
de consumidor etc.
2. CLASIFICACIÓN DE LAS TÉCNICAS DE ANÁLISIS
• TÉCNICAS DE ANÁLISIS UNIVARIABLES, BIVARIABLES Y MULTIVARIABLES.
Las técnicas de análisis de datos estadísticos se pueden clasificar en tres grupos
considerando el número de variables implicadas: técnicas univariables, bivariables y
multivariables.
En la clasificación de las técnicas de análisis de datos, además de la cantidad, hay que
considerar el tipo de relación que se establece entre las variables, y se consideran
técnicas de análisis de interdependencia y de dependencia. En el primer caso de
interdependencia, podemos decir que todas las variables se consideran como
independientes e interesa encontrar o constatar su patrón o estructura de relaciones
mutuas y simultáneas. En el segundo caso de dependencia, sí que se diferencia entre
variable(s) dependiente(s) e independiente(s), una(s) actúan de variables explicadas y
otra(s) de variables explicativas según un modelo de análisis explicativo que explicaría
la relación de dependencia.
En tercer lugar se pueden distinguir las técnicas de análisis de datos en función del
nivel de medición de las variables, su métrica.
En función de si las variables son cuantitativas (métricas, de tipo discreto o continuo)
o cualitativas (no métricas, de tipo nominal u ordinal).
En función de estas consideraciones, se utilizan distintas técnicas estadísticas más o
menos complejas.
Los análisis de los datos pueden ser puramente descriptivos, si se trata de clasificar,
analizar representar los datos recogidos en un estudio, o bien un análisis estadístico
inferencial, si trata de inferir, -a partir de lo observado en una muestra (n)-, las
características generales de la población (N). Para ellos se realizan pruebas a la
muestra. Estos análisis se basan en los Contrastes de hipótesis.
• CONTRASTE DE HIPÓTESIS: Inferencia, estimación y contraste de hipótesis
En un estudio cuantitativo los datos obtenidos pueden analizarse de forma
descriptiva. Se pueden, ordenar, clasificar o representar gráficamente; o bien, se
puede hacer un análisis estadístico inferencial de los datos. Los métodos son la
estimación y el contraste de hipótesis. En la inferencia, a partir de lo observado en
una muestra (n), se hacen estimaciones, para luego inferir las características generales
que se dan en la población (N). En este análisis se realizan pruebas a la muestra.
En este caso, se selecciona una muestra de la población, utilizando alguno de los
métodos posibles ya vistos en el tema de muestreo. A partir de la muestra, se
generan datos con los que se van a calcular estadísticos para poder realizar
estimaciones o contrastes poblacionales. Estos análisis se pueden basar en pruebas
de contraste de hipótesis. Estas pruebas se utilizan mucho en investigación de
mercados, para el análisis de los datos y la interpretación de los resultados.
3. ANÁLISIS UNIVARIABLE DESCRIPTIVO E INFERENCIAL
• Recuento de frecuencias
La matriz de datos nos permite “ver” cómo se distribuyen los datos según las distintas
variables. Un primer análisis de la matriz de datos se suele hacer por medio de un
recuento de frecuencias para las distintas variables. Con estos recuentos se puede
comprobar la calidad del trabajo de campo y grabación. También se obtienen datos
para poder construir nuevas variables recodificadas (como por ejemplo, obtener la
variable estatus recodificando conjuntamente otra/s variable/s (estudios y ocupación).
Su presentación es bastante sencilla. Se presenta en columnas: En la primera
indicamos las respuestas obtenidas; en la segunda se cuenta el número de veces que
se repite dicha respuesta, esto es, la frecuencia absoluta de las respuestas.
• Medidas de dispersión:
Complementan la información proporcionada por las medidas de posición. Indican si
los valores se encuentran más o menos próximos a la medida de posición. Las más
frecuentes son:
La varianza y la desviación típica: medidas de dispersión de las variables
métricas. La desviación típica (S) es una distancia de los valores de la variable a la
media. La varianza es esa distancia al cuadrado (S2).
El coeficiente de variación: cuando se trata de medir la disparidad de variables
con distintas unidades de medida, para poder compararlas se utiliza este
coeficiente. Este coeficiente se define como el cociente entre la desviación típica y
la media.
El rango: es una medida adecuada para medir la dispersión de las escalas métricas.
Se cuantifica por la diferencia de magnitud entre el mayor valor de la variable y
el menor. Sólo refleja los valores extremos. Una variable muy concentrada, pero
con dos valores extremos proporcionará un recorrido poco representativo.
Gráficos de barras.
Los diagramas de barras reúnen los datos en
categorías, lo que permite comparar valores
de cada categoría rápidamente. Es bueno para
presentar y comparar un conjunto de datos
(ordenado o no). Los datos van en porcentaje.
La idea del histograma es representar HISTOGRAMA
frecuencias por medio de áreas.
Se construye dibujando sobre cada
intervalo de respuesta un rectángulo de
área proporcional a la frecuencia absoluta
correspondiente a dicho intervalo.
TOTAL
EDAD
CONOCIMIENTO MENOR DE 16 16 A 30 MAS DE 30
NO 45 34 55
SÍ 52 53 27
Tabla porcentajes verticales
PERFIL El perfil de las personas que conocen la nueva oferta 2019 refleja que un 80%
tiene menos de 30 años, y un 20% más de 30.
En las tablas cruzadas es posible introducir nuevas variables de cruce para desagregar
más los datos y comprender mejor los resultados. Tablas anidadas con tres o más
variables.
INTRODUCCIÓN DE VARIABLES DE CONTROL EN LAS TABLAS.
El efecto que hemos apreciado en un principio al leer una tabla puede cambiar al
considerar en el análisis el cruce con otras variables. Veamos diferentes casos.
A la vista de la Tabla 2, se podría concluir que los casados son menos consumidores
(69%) que los solteros (52%). Sin embargo, si se analizan los datos con una capa más,
en la que se considere una tercera variable anidada -el sexo-; entonces se observa
que el consumo bajo es una pauta común a los hombres, tanto casados (65%) como
no casados (60%), en tanto que el bajo consumo se asocia con las mujeres casadas
(75%) y no así, entre las solteras (40%).
FALSA RELACIÓN TABLA 4 Y 5
Ejemplo 3. En un estudio se ha preguntado a los entrevistados si tenía un coche de
alta precio y se ha valorado la posesión del automóvil en función del nivel de
estudios. Los resultados fueron:
TABLA 4
A la vista de la Tabla 4, se podría pensar que entre los universitarios (32%) es más
frecuente tener un coche caro que entre quienes tienen estudios de menor nivel
(21%).
Al considerar otra variable de cruce, en este caso los ingresos, podemos observar que
la influencia decisiva la produce los ingresos y no los estudios, ya que, si el sujeto
tiene ingresos altos, -con estudios superiores o no- tiene un coche caro en el 40% de
los casos, mientras que, si tiene unos ingresos bajos, la posesión de un automóvil
caro está en torno al 20% de los casos, se tengan o no estudios universitarios.
EFECTO SUPRESION TABLA 6 Y 7
H0 VERDADERA H0 FALSA
ACEPTAR H0 NO ERROR ERROR TIPO II (β)
RECHAZAR H0 ERROR TIPO I (α) NO ERROR. POTENCIA
Para disminuir los errores Tipo I y II sería necesario aumentar la muestra tomada para
el estudio.
Lo que más importa es no cometer error Tipo I y, para eso, se disminuye (α), es decir,
el nivel de significación. Algo habitual es utilizar un valor de (α) de 0,01 ó 0,05.
PROCEDIMIENTO PARA UN CONTRASTE DE HIPÓTESIS
Una tabla de contingencia es una tabla cruzada de datos con variables categóricas
Sirve para estudiar la asociación entre las dos variables de la tabla cruzada.
Cuando las casillas de la tabla contienen las frecuencias observadas, la tabla se
denomina tabla de contingencia.
Para analizar la asociación entre dos o más variables cualitativas (categóricas o de
cadena). , se analizan los datos de la distribución cruzada en filas y columnas.
ESCALA DE VARIBLES
MÉTRICA INDEPENDIENTES
NO ESCALA DE VARIBLES
MÉTRICA INDEPENDIENTES
NÚMERO DE NO ANÁLISIS DISCRIMINANTE CON VARIABLE FICTICIA.
VARIABLES MÉTRICA ANÁLISIS CONJUNTO.
DEPENDIENTES
ANÁLISIS DE CORRELACIONES CANÓNICAS. ANÁLISIS
MÉTRICA DE ECUACIONES ESTRUCTURALES
ESCALA DE VARIBLES
MÉTRICA INDEPENDIENTES
NO ANÁLSIS MULTIVARIABLES DE LA VARIANZA Y DELA
VARIAS ESCALA DE LA MÉTRICA COVARIANZA. MODELOS LOG.LINEAL
VARIABLE
DEPENDIENTE
ANÁLISIS DE CORRELACIONES CANÓNICAS CON
NO VARIABLES FICTICIAS. ANÁLISIS DE ECUACIONES
MÉTRICA ESTRUCTURALES.
MÉTODOS DE INTERDEPENDENCIA
ANÁLSIS FACTORIAL
ANÁLISIS DE SIMILITUDES
ANÁLISIS DE PREFERENCIAS
ESCALA NO MÉTRICA ANÁLISIS DE GRUPOS NO MÉTRICO
CURSO 2019_2020