Está en la página 1de 8

Práctica 1 de Estadística Básica

Máster en Marketing y Comportamiento del consumidor

Práctica del tema Tema 1. Limpieza y depuración de datos.


Análisis descriptivo, medidas de
correlación/asociación y test de hipótesis

Realizada por: MARIA ALEJANDRA TORRES PICO


jueves, 23 de octubre de 2018

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor


Índice

1. INTRODUCCIÓN: DATOS UTILIZADOS ...................................................... 3 

2. ANÁLISIS PREVIO Y PREPARACIÓN Y ADECUACIÓN DE LOS DATOS . 4 

3. ESTADÍSTICOS DESCRIPTIVOS ................................................................. 5 

4. RELACIÓN ENTRE VARIABLES .................................................................. 5 

5. MEDIDAS DE ASOCIACIÓN ......................................................................... 6 

6. TEST PARAMÉTRICOS ................................................................................ 7 

7. TEST NO PARAMÉTRICOS .......................................................................... 8 

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor


1. INTRODUCCIÓN: DATOS UTILIZADOS
En 2013 se realizó un estudio de opinión a antiguos alumnos de la facultad de Ciencias
Económicas y Empresariales. La base de datos incluye variables con distinta escala de
medida. Queremos realizar una depurarción de la base de datos, aplicar un análisis descriptivo
de los datos y aplicar contrastes de hipótesis de tipo bivariante. Los datos que aparecen a
continuación corresponden a las características de las variables contenidas en el fichero
datos_ejemplo.sav. Abra dicho archivo en SPSS. Los datos aparecerán en la “Vista de
datos” y las propiedades de las variables en la “Vista de variables”.

Tabla 1: Características de las variables

Nombre Tipo Etiqueta Valores/Tipo de escala


Titulacion Numérico Titulacion 1 = DE; 2 = LADE; 3 = LE; 4 = LITM; 5 = DT
Numérico Año de Finalización de Estudios según
AñoFinal 2009, 2010, 2011
base de datos
Pregunta01. Vía de acceso a la 0 = NS/NC; 1 = Bachillerato; 2 = Formación
Pregunta01 Numérico
titulación profesional
0 = NS/NC; 1 = Empeño de mis padres/familiares; 2
= Encontrar trabajo fácilmente; 3 = Ganar más
Pregunta02. Motivo de elección de
Pregunta02 Numérico dinero; 4 = Realizarme profesionalmente; 5 =
titulación
Mejorar mi nivel cultural; 6 = Mis amigos eligieron
esta titulación; 7 = Ningún motivo en especial
Opción que le permitió cursar la
Pregunta03 Numérico 1 = 1ª opción; 2 = 2ª opción; 3 = 3ª opción
titulación
Relación entre el trabajo y el contenido
Pregunta04 Numérico Likert de 1 a 5
de los estudios
Pregunta05a Numérico Asesoramiento académico general Likert de 1 a 5
... …… …
Pregunta06a. Conocimientos de
Pregunta06a Numérico Likert de 1 a 5
informática [Procesador de textos]
… … …
Pregunta06e Numérico Cono cimientos de informática [Internet] Likert de 1 a 5
… …… …
Pregunta36 Numérico Género 0 = NS/NC; 1 = Hombre; 2 = Mujer
0 = NS/NC; 1 = Entre 23 y 25; 2 = Entre 26 y 30;
Pregunta37 Numérico Edad
3 = Más de 30
Pregunta40a Numérico Nota media de expediente (enteros) Numérica
Pregunta40b Numérico Nota media de expediente (decimales) Numérica
Pregunta41 Numérico Provincia de procedencia 0 = NS/NC; nº = ciudad
Pregunta42 Numérico Provincia en la que trabaja 0 = NS/NC; nº = ciudad
Participación en programas
Pregunta43 Numérico internacionales de intercambio de 0 = NS/NC; 1 = No; 2 = Sí
estudiantes
0 = NS/NC; 1 = Menos de 1.000 €; 2 = 1.000-1.500
Pregunta44 Numérico Ingresos mensuales €; 3 = 1.500-2.500 €; 4 = 2.500-4.000 €; 5 = 4.000-
6.000 €; 6 = Más de 6.000€
0 = NS/NC; 1 = Organismo público; 2 = ONG; 3 =
Pregunta45 Numérico Empleador [tipo de institución]
Empresa privada; 4 = Trabajo por cuenta propia
0 = NS/NC; 1 = Agropecuario; 2 = Construcción; 3 =
Pregunta46 Numérico Emple ador [sector] Industria; 4 = Comercio; 5 = Financiero; 6 = Otros
servicios; 7 = Farmacéutico; 8 = Tecnológico
0 = NS/NC; 1 = menos de 10; 2 = 10-25; 3 = 25-50;
Pregunta47 Numérico Empleador [nº trabajadores]
4 = 50-100; 5 = 100-250; 6 = 250-500
0 = NS/NC; 1 = menos de 1 millón €; 2 = 1-3
Pregunta48 Numérico Emple ador [facturación] millones €; 3 = 4-10 millones €; 4 = más de 10
millones €
0 = MS/NC; 1 = local; 2 = provincial; 3 = regional; 4
Pregunta49 Numérico Empleador [ámbito de actuación]
= nacional; 5 = internacional

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor


Se pide realizar las siguientes actividades rellenando los espacios en blanco
siendo lo más explícito posible:

2. ANÁLISIS PREVIO Y PREPARACIÓN Y ADECUACIÓN


DE LOS DATOS
a) Como primera toma de contacto, explore el archivo de datos y compruebe las
características de la s variables mo stradas en la anterior t abla (En Vista de
variables).

b) Depure la b ase de datos. Por ejem plo, corrija e l error que existe en la variable
Año de Finalización de los Estudios. ¿De qué error se
trataba?:_____-
20009 ________________________________.
error de codificaciòn

(Para hacer esto ayúde se del men ú Analizar + Submenú Estadísticos


Descriptivos > Opción Frecuencias…). Introduza e n el recuad o de la
derecha la variable AñoFinal y después presione el botón Aceptar.
Explore de la misma forma la varia ble ingresos (P.44). ¿Cu ál es el valor más
frecuente o “moda”?: _________
1.000 a 1.500€ (Ayúdese del menú Analizar +
Submenú Estadísticos Descriptivos > Opción Frecuencias… >
Botón Estadísticos > Bloque Tendencia central > Moda). ¿Cuántos
casos tiene la categoría de 4.000€ a 6.000€? ___________
4 CASOS .
[Nota: El trat amiento de datos pe rdidos de gran interé s antes de aplicar
cualquier análisis de datos será visto en siguientes sesiones].
c) A continua ción, obten ga una nueva variabl e llamada Ingresos_recod
mediante la recodificación de la variable Ingresos_mensuales (P.44). De
esta forma, obtendremos una nueva va riable con un número suficiente mente
grande de casos en cada catego ría como p ara poder aplicar un t est de
diferencia d e medias como el ANOVA (que requiere un mínimo de 25 o 30
casos por grupo).
Para ello, será necesar io utilizar el comando Recodificar en distintas
variables… del menú Transformar. Necesitará introducir un nombre para la
nueva variable: Ingresos_recod; y una etiquet a: Ingresos recod. Pulsar
el botón Cambiar. Esta es la recodificación a aplicar: valor numérico nuevo 1
(“Menos de 1500”) se corresponde con los valores antiguos 1
y 2; valor nuevo 2 (”1500 - 6000”) con los antiguos 3, 4 y
5;y valor nuevo 3 (”Más de 6000”) con el valor 6.
Valor antiguo Valor nuevo
1
1 (“Menos de 1500”)
2
3
4 2 (”1500 - 6000”)
5
6 3 (”Más de 6000”)

Hecho esto, añada las etiquetas correspondientes (En Vista de variables


> Columna Valores) p ara est a variable: ( Valor: 1) → Etiq ueta: “Menos de
1500”; (2) → ”1500 - 6000”; (3) → ”Más de 6000”.

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor


¿Cuántos casos presenta ahora la categoría de ingresos medios-altos “1500-
6000”?
___________________________________________
52 CASOS .
d) Para un examen gráfico de los datos realice un histograma de la variable
Asesoramiento Académico General [Pregunta 05a]. ¿Qué dato es el
más frecue nte?: ________
2 ¿Cuál es la media de est a varia ble que
aparece en el histogra ma?: _______________
2.25 . (A yúdese del menú
Gráficos > Cuadros de diálogos antiguos > Histograma… y
marque casilla Mostrar curva normal. También puede utilizar:
Analizar > Estadísticos descriptivos > Frecuencias… >
Gráficos).

3. ESTADÍSTICOS DESCRIPTIVOS
a) Calcule la media, desviación típ ica y c oeficientes de asime tría y curtosis de la
variable que recoge la v aloración del Contenido básico de la carrera
[P.05c] (A yúdese del menú Analizar + comando Estadísticos
Descriptivos > Descriptivos…; en botón Opciones marcar
Curtosis y Asimetría…). Anotar a continuación el resultado que se pide:

Media: __________________________
3,34 por encima del punto medio de la escala(1-5) .

Desviación típica: __________________________


0,8 .

Coeficiente de asimetría: __________________________


-0,778 < -0,5 asimetrica a laizquierda .

Coeficiente de curtosis: __________________________


-0,076 ->(-0,5;0,5) mesocùrtica .

4. RELACIÓN ENTRE VARIABLES


a) En primer lugar se va a proceder a la detección de outliers. Para ello realice un
diagrama de cajas y p atillas: Utilización de conocimientos de
Marketing en trabajo actual [Pregunta 18a] p or Titulaciones.
¿Existe algún outlier? ¿Qué casos
son?_____________________________
los alumnos de cc empresariales en las filas 11,162 y 151 . (Ayúdese de
Gráficos (Cuadros de diálogos antiguos) > Diagramas de caja…
> Simple…).

b) Calcule un diagrama de dispersió n p ara las variables Conocimientos de


informática [Lenguajes de Programación] (P.06c) y
Conocimientos de informática [Internet] (P.06e). ¿Se aprecia
algún valo r extremo u outlier? Indique de qué casos se trat a:
_____________________________
52 y 15 . (A yúdese de Gráficos
(Cuadros de diálogos antiguos) > Diagramas de caja… >
Simple…). [Not a: Etiquete los casos median te la variab le ID y en botón
Opciones marque “Mostrar el gráfico con las etiquetas de caso”].

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor


5. MEDIDAS DE ASOCIACIÓN
Se pide calcular el coeficiente de correlación de Pearson (ρ) y la Chi-cuadrado (2),
junto con sus valores de significación para el siguiente par de variables:

a) Conocimientos de informática [Procesador de textos] (P.06a) y


Conocimientos de informática [Internet] (Pregunta06e).

______________; sign.___________
Resultado: ρ = 0,705 0,000 .

Comente el sentido de la relación: _______________________


es positiva, se rechaza la hipótesis nula

__________________________________________.
(Ayúdese del menú Analizar > Corelaciones > Bivariadas).

b) ¿Existe alguna asociación entre la Titulación cursada y el nivel de


Ingresos mensuales del hogar (sin recodificar – Pregunta 44)?
___________________________________________
se comprueba una asociaciòn debil entre ingresos y titulaciòn cursada

___________________________________________.
Resultado: (2) = _____________
31,024 ; sign. _________________
0,055 .

(Ayúdese del menú Analizar > Estadísticos Descriptivos > Tablas de


contingencia. Introduzca una variable como fila y otra como columna).

¿Se cumplen los criterios o condiciones de aplicación de la (2)1 (ver pie de


página)?_____
no ¿Por qué?___________________________
porque existe mas de un 20%de casillas

___________________________________________.
Ahora repita el análisis con la variable Ingresos_recod (creada en el apartado
2.c), de forma que pueda aplicarse este coeficiente de asociación (se cumplan los
criterios de la Chi-cuadrado1). Anote a continuación los nuevos valores del
estadístico:

Resultado: (2) = _____________


10,455 ; sign. _________________
0,235 .

Comente lo más relevante de esta tabla: _____________________


0,235> 0,05 por lo cual acepto la hipótesis

____________________________________________
quiere decir que no existe asociaciòn entre ingresos y titulaciòn cursada

____________________________________________

1
En la práctica se tolera un máximo del 20% de frecuencias inferiores a 5 y un máximo de l 5%
de frecuencias con valor 0.

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor


c) ¿Existe asociación entre el sexo y la titulación cursada? _________
si

Resultado: (2) = _____________


8,312 0,081
; sign. __________________ .

____________________________________________
se rechaza Ho, entoces acepto la hipotesis alternativa es decir hay una asociaciòn debil
.

d) Consideremos las variables Ingresos_recod y edad como variables


ordinales. Compruebe el grado de asociación entre estas variables a partir del
coeficiente de correlación de rangos de Spearman.

(Ayúdese del menú Analizar > Correlaciones > Bivariadas. Pero ahora,
debajo del recuadro de variables seleccione Coeficiente de Correlación
de Spearman).

Resultado: ρ = ______________
0,163 ; sign.___________________
0,014 .

_____________________________________________.
como 0,014 < 0,05 rechazo la hipotesis nula; es decir acepto h1 existe asociaciòn; quiere decir que los de menos edad cobran menos y los mas edad cobran màs

6. TEST PARAMÉTRICOS
Se pide calcular:

a) El test d e la media para la variable Conocimientos de informática


[Internet] (Pr.06e), para comprobar si esta variable es s ignificativamente
distinta del punto medio de la escala (3).
(Ayúdese del menú Analizar > Comparar medias > Prueba T para una
muestra…. Indique que el Valor de la prueba es 3).

Resultado:

t= 6,035 ; sign. 0,000.. .

____________________________________________
rechazo ho por tanto acepto h1 que dice que la media es distinta del valor 3 (mayor 3) significativamente
.

b) El test de diferencia de medias para muestras independientes utilizando como


variable dependiente: Conocimientos de informática [Internet]
(Pr.06e) y como independiente el género del individuo (Sexo o Género –
Pr.36). Esta prueba contrasta las medias de los dos grupos de género son
iguales (H0) o no (H1).
(Ayúdese del menú Analizar > Comparar medias > Prueba T para
muestras independientes…. La variable a contrastar es la Pr.06e y la
variable de agrupación: Pr.36. Una vez introducidas pulse el botón Definir
grupos… e introduzca los valores: 1 –“Hombre” y 2 – “Mujer”).

Resultado: t= 1,511 ; sign. 0,132 .

____________________________________________
Acepto Ho no hay diferencias significativas respecto al conocimiento de informatica y el sexo
.

c) El test de diferencia de medias para variables (muestras) relacionadas


entre: Conocimientos de informática [Procesador de

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor


textos] (Pregunta06a) - Conocimientos de informática
[Internet] (Pregunta06e).

(Ayúdese del menú Analizar > Comparar medias > Prueba T para
muestras relacionadas…. Introduzca las variables Pr.06a y Pr.06e.

Resultado: t= 4,342 ; sign. 0,0000 .

____________________________________________
se rechaza h, quiere decir que existen diferencias significativas, tiene mas conocimiento s de informatica que de internet
.

7. TEST NO PARAMÉTRICOS
Se pide calcular:

a) El test d e Kologorov-Smirnov p ara 1 muestra sobre la variable


Conocimientos de informática [Internet]
(Pr.06e), para comprobar si la distribución de esta variable es
significativamente distinta de la distribución normal (Ayúdese del
menú Analizar > Pruebas no paramétricas (Cuadros de
diálogo antiguos) > K-S de una muestra…)

Resultado: Z = 3,332 ; sign.__________


0,000 .
¿Sigue esta variable una distribución normal? SI NO.

b) El test d e Kologorov-Smirnov p ara 1 muestra sobre la variable


Ingresos Mensuales, para comprobar si la distribución de esta
variable es significativamente distinta de la distribució n normal.
Resultado: Z = ________
4,866 ; sign. ________
0,000 . ¿Sigue esta
variable una distribución normal? SI NO.

b) Imagine que solo disponemos de 40 casos que sen encuentran en la


base de datos: Base de datos ejemplo 2: Egresados (40 casos). Se
pide aplicar la prueba no paramétrica de U de Mann Whitney para
muestras independientes utilizando como variable dependiente:
Conocimientos de informática [Internet] (Pr.06e) y
como independiente el Género del individuo. Esta prueba es la
versión no paramétrica de la habitual prueba T de Student que
contrasta si las dos poblaciones proceden de idéntica distribución (H0)
y, por tanto, sus medias son iguales.

(Ayúdese del menú Analizar > Pruebas no paramétricas (Cuadros


de diálogo antiguos) > 2 muestras independientes…)

Resultado: U = ______
7182,00 ; Z = ______
-1,473 ; sign. __________
0,141 .

____________________________________________
se acepta ho, no hay diferencias significativas entre los conociminetos de informatica y gen

____________________________________________.

Prof. Francisco Muñoz Leiva. Máster de Marketing y Comportamiento del Consumidor

También podría gustarte