Está en la página 1de 7

EJERCICIO AULA DE INFORMATICA SEMANA 1

PARTE A. PREPARACIÓN DE DATOS

Archivo Abrir archivo de datosArchivo de usuario (en la ventana que surge


seleccionar el directorio donde está el archivo y el tipo de fichero Fichero Excel .xlsx)

1. Son datos de sección cruzada importados del fichero Salarios.xlsx en gretl. Número
total de observaciones en la muestra N=49 empleados de una empresa.
ArchivoGuardar datos  Salarios.gdt (formato gretl tiene la extensión gdt)
Datos guardados en el fichero gretl Salarios.gdt en el directorio elegido.

2. Tipo de variables: Cuantitativas: Continua S, Discretas ED, EX, ED. Cualitativa: G con
dos categorías (Hombre, Mujer)
3. Variables ficticias para la variable G:
DHi = 1 si el empleado i-ésimo es hombre, 0 en otro caso
DMi = 1 si el empleado i-ésimo es mujer, 0 en otro caso
Se generan en gretl seleccionando la variable G y en el botón derecho (Hacer variables
ficticias) o en el menú Añadir  Variables ficticias para la variable discreta
En este caso hemos codificado o generado tantas variables ficticias como categorías.
PARTE B. ANÁLISIS DESCRIPTIVO
1. Completa la siguiente tabla: 1

Salario (S) Experiencia (EX) Educación (ED)


Media 1820 euros 8,84 años 14,2 años
Desviación Típica 648,3 euros 6,26 años 2,37 años
Estadísticos principales de las variables seleccionadas previamente: usando el botón
derecho o en el menú Ver  Estadísticos principales
Media Mediana D. T. Mín Máx
S 1820 1602 648.3 981.0 3833
ED 14.22 14.00 2.374 9.000 19.00
EX 8.837 9.000 6.256 1.000 23.00

1
En castellano, los millares se escriben con un punto (1.000, 2.000, etc.), mientras que en inglés se escriben con una
coma (1,000, 2,000, etc.). En el caso de los decimales, pasa justo lo contrario. En castellano se escriben con una coma
(1,5, 3,2, etc.); sin embargo, en inglés es al revés: se escriben con un punto (1.5, 3.2, etc.). Hay que tener en cuenta
que gretl muestra los resultados haciendo uso de la forma inglesa. En la tabla está en la forma en castellano.
D. T. denota la desviación típica de las observaciones de la variable en la muestra. Y se
calcula como sigue, por ejemplo, la correspondiente al Salario (S):

∑𝑵𝑵 � 𝟐𝟐
𝟏𝟏 (𝑺𝑺𝒊𝒊 − 𝑺𝑺) 𝟏𝟏
D.T.(S) = � donde 𝑺𝑺� = ∑𝑵𝑵
𝟏𝟏 𝑺𝑺𝒊𝒊 es la media muestral
𝑵𝑵−𝟏𝟏 𝑵𝑵

2. Para calcular la media del salario para el grupo de mujeres en la muestra, en el menú
de la ventana principal
Muestra  Restringir a partir de criterio  Utilizar una variable ficticia  DM
Gretl nos avisa que ha quitado 23 observaciones (empleados hombres) y nos quedamos
con la submuestra de mujeres (26). Ahora con el botón derecho sobre la variable S
elegimos Estadísticos principales:
Estadísticos principales, usando las observaciones 1 - 26
para la variable S (26 observaciones válidas)
Media Mediana Mínimo Máximo
2086.9 1882.5 981.00 3833.0

Tenemos 26 mujeres en la muestra y la media muestral del salario para el grupo de


mujeres es 2086,9 euros.
Ahora recuperamos el rango completo, en el menú de la ventana principal
Muestra  Recuperar el rango completo
Para calcular la media del salario en el grupo de hombres en la muestra, en el menú de
la ventana principal
Muestra  Restringir a partir de criterio  Utilizar una variable ficticia  DH

Gretl nos avisa que ha quitado 26 observaciones (empleados mujeres) y nos quedamos
con la submuestra de mujeres (23). Con el botón derecho sobre la variable S elegimos
Estadísticos principales:
Estadísticos principales, usando las observaciones 1 - 23
para la variable S (23 observaciones válidas)
Media Mediana Mínimo Máximo
1518.7 1345.0 1144.0 2365.0

Tenemos 23 hombres en la muestra y la media muestral del salario para el grupo de


hombres es 1518,7 euros.
La media muestral del salario para el total de la muestra era 1820 euros por lo que, dada
la muestra, las mujeres tienen un salario en media mayor que la media considerando
tanto hombres como mujeres. Mientras que los hombres tienen un salario en media
algo menor que la media considerando tanto hombres como mujeres.
3. En gretl seleccionamos S, EX y ED y con el botón derecho elegimos del menú Matriz
de correlaciones o también en el menú Ver  Matriz de correlación

Coeficientes de correlación, usando las observaciones 1 - 49


valor crítico al 5% (a dos colas) = 0.2816 para n = 49

S ED EX
1.0000 0.4118 0.2620 S
1.0000 -0.2738 ED
1.0000 EX

Completamos la tabla con esta información que nos da gretl.

Salario (S) Experiencia (EX) Educación (ED)


1 0,262 0,4118 Salario (S)
0,262 1 -0,2738 Experiencia (EX)
0,4118 -0,2738 1 Educación (ED)

La fórmula para obtener el coeficiente de correlación entre dos variables X y Z es la


siguiente:
∑𝑁𝑁 � ̅
1 (𝑋𝑋𝑖𝑖 − 𝑋𝑋 )(𝑍𝑍𝑖𝑖 − 𝑍𝑍 )
𝑟𝑟𝑋𝑋𝑋𝑋 =
�∑𝑁𝑁 � 2 𝑁𝑁 ̅ 2
1 (𝑋𝑋𝑖𝑖 − 𝑋𝑋 ) �∑1 (𝑍𝑍𝑖𝑖 − 𝑍𝑍 )

Este coeficiente toma valores en el intervalo [-1, 1].


Observamos que, en la muestra, el salario con la educación, así como con la experiencia,
presenta una asociación lineal positiva, aunque no muy fuerte, en especial del salario
con la experiencia. Por otro lado, aunque débil, la educación con la experiencia presenta
una asociación lineal negativa.
4. Diagrama de dispersión: En el menú Ver  Gráficos  Gráfico X-Y Scatter
Para el salario (S) y la experiencia laboral (EX)
4000

3500

3000

2500
S

2000

1500

1000

500
5 10 15 20
EX
Para el salario (S) y los años de educación (ED)

4000

3500

3000

2500
S

2000

1500

1000

500
10 12 14 16 18
ED

A la vista de los gráficos parece existir una relación lineal positiva entre S y EX, y entre S
y ED dado que en ambos casos los puntos parecen disponerse alrededor de una recta
con pendiente positiva.
5. Utilizando los gráficos de dispersión y los coeficientes de correlación entre:

• las variables Salario y Experiencia. Parece existir una asociación lineal


positiva entre estas variables dado que el coeficiente de correlación es
positivo (0,262) aunque no es muy fuerte ya que su valor no es muy
cercano al valor 1.
• las variables Salario y Años de educación. Parece existir una asociación
lineal positiva entre estas variables dado que el coeficiente de
correlación es positivo (0,4118) y es algo más fuerte que la del salario
con la experiencia al ser algo mayor el coeficiente de correlación lineal.

En cuanto a la relación del salario con el género, utilizando la información de las medias
muestrales de cada grupo (hombres y mujeres), en media las mujeres tienen un salario
mayor que los hombres en esta muestra.
PARTE C. MODELOS DE REGRESIÓN LINEAL
Especificación de tres modelos de regresión lineal. En todos los casos se ha incluido
como regresor un término independiente o variable constante que toma el valor 1 para
todo i= 1, .., N que es la que acompaña al parámetro β1 .
Modelo 1  Salario en función de la experiencia del empleado como único factor
explicativo
𝑆𝑆𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝐸𝐸𝑋𝑋𝑖𝑖 + 𝑢𝑢𝑖𝑖 𝑖𝑖 = 1, … , 𝑁𝑁 (1)

Elementos del Modelo 1: La variable dependiente, a explicar o endógena es el salario


del empleado en euros (S); la variable explicativa o exógena es la experiencia laboral en
años (EX). Los coeficientes o parámetros poblacionales son 𝛽𝛽1 , 𝛽𝛽 2 valores numéricos
desconocidos. El término de perturbación 𝑢𝑢𝑖𝑖 es una variable aleatoria no observable
que recoge todo lo que puede influir en el salario de un empleado dado un nivel de
experiencia que no viene recogido por la parte explicativa del modelo 𝛽𝛽1 + 𝛽𝛽2 𝐸𝐸𝑋𝑋𝑖𝑖 en
función de la experiencia.
Modelo 2  Salario en función del sexo del empleado como único factor explicativo

Elementos del Modelo 2: La variable dependiente, a explicar o endógena es el salario


del empleado en euros (S); la variable explicativa o exógena es el sexo del empleado,
variable cualitativa G con dos categorías (Mujer u Hombre).
𝑆𝑆𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝐷𝐷𝑀𝑀𝑖𝑖 + 𝑢𝑢𝑖𝑖 𝑖𝑖 = 1, … , 𝑁𝑁 (2A)
Para incluirla en el modelo en la especificación (2A) se ha incluido como regresor la
variable ficticia DMi = 1 si el empleado i es mujer, 0 en otro caso. Por lo tanto, como
grupo de referencia se ha considerado a la categoría Hombre. Los coeficientes o
parámetros poblacionales son 𝛽𝛽1 , 𝛽𝛽 2 valores numéricos desconocidos. El término de
perturbación 𝑢𝑢𝑖𝑖 es una variable aleatoria no observable que recoge todo lo que puede
influir en el salario de un empleado dado su sexo que no viene recogido por la parte
explicativa del modelo 𝛽𝛽1 + 𝛽𝛽2 𝐷𝐷𝑀𝑀𝑖𝑖 en función del sexo.
Otra posibilidad es incluir en lugar de la variable ficticia DM, la variable ficticia DH.
𝑆𝑆𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝐷𝐷𝐻𝐻𝑖𝑖 + 𝑢𝑢𝑖𝑖 𝑖𝑖 = 1, … , 𝑁𝑁 (2B)

Por lo tanto, en esta especificación se ha considerado como grupo de referencia la


categoría Mujer. Los coeficientes o parámetros poblacionales son 𝛽𝛽1 , 𝛽𝛽 2 valores
numéricos desconocidos y que, como veremos tendrán una interpretación diferente a
los de la especificación (2A), aunque ambos modelos son equivalentes. Se puede utilizar
cualquiera de las dos especificaciones. El término de perturbación 𝑢𝑢𝑖𝑖 es una variable
aleatoria no observable que recoge, al igual que en la especificación (2A) todo lo que
puede influir en el salario de un empleado dado su sexo que no viene recogido por la
parte explicativa del modelo 𝛽𝛽1 + 𝛽𝛽2 𝐷𝐷𝐻𝐻𝑖𝑖 en función del sexo.
Modelo 3  Salario en función de la experiencia y del sexo como factores explicativos
Elementos del Modelo 3: La variable dependiente, a explicar o endógena es el salario
del empleado en euros (S); las variables explicativas o exógenas son la experiencia y el
sexo del empleado esta última es una variable cualitativa G con dos categorías (Mujer u
Hombre).
Dos posibles especificaciones equivalentes:
𝑆𝑆𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝐸𝐸𝑋𝑋𝑖𝑖 + 𝛽𝛽3 𝐷𝐷𝑀𝑀𝑖𝑖 + 𝑢𝑢𝑖𝑖 𝑖𝑖 = 1, … , 𝑁𝑁 (3A)

Para incorporar la variable cualitativa sexo del empelado se ha incluido como regresor
la variable ficticia DMi = 1 si el empleado i es mujer, 0 en otro caso. Por lo tanto, como
grupo de referencia se ha considerado a la categoría Hombre. Los coeficientes o
parámetros poblacionales 𝛽𝛽1 , 𝛽𝛽 2 y 𝛽𝛽3 son valores numéricos desconocidos. El término
de perturbación 𝑢𝑢𝑖𝑖 es una variable aleatoria no observable que recoge todo lo que
puede influir en el salario de un empleado dada su experiencia y su sexo que no viene
recogido por la parte explicativa del modelo 𝛽𝛽1 + 𝛽𝛽2 𝐸𝐸𝑋𝑋𝑖𝑖 + 𝛽𝛽3 𝐷𝐷𝑀𝑀𝑖𝑖 en función de la
experiencia y del sexo.
Otra posibilidad es incluir en lugar de la variable ficticia DM, la variable ficticia DH.
𝑆𝑆𝑖𝑖 = 𝛽𝛽1 + 𝛽𝛽2 𝐸𝐸𝑋𝑋𝑖𝑖 + 𝛽𝛽3 𝐷𝐷𝐻𝐻𝑖𝑖 + 𝑢𝑢𝑖𝑖 𝑖𝑖 = 1, … , 𝑁𝑁 (3B)
Por lo tanto, en este caso se ha considerado a la categoría Mujer como grupo de
referencia. Los coeficientes o parámetros poblacionales son 𝛽𝛽1 , 𝛽𝛽2 y 𝛽𝛽3, valores
numéricos desconocidos y que, como veremos 𝛽𝛽1 y 𝛽𝛽3tendrán una interpretación
diferente a los de la especificación (3A), aunque ambos modelos son equivalentes. Se
puede utilizar cualquiera de las dos especificaciones. El término de perturbación 𝑢𝑢𝑖𝑖 es
una variable aleatoria no observable que recoge, al igual que en la especificación (3A)
todo lo que puede influir en el salario de un empleado dado su género que no viene
recogido por la parte explicativa del modelo 𝛽𝛽1 + 𝛽𝛽2 𝐸𝐸𝑋𝑋𝑖𝑖 + 𝛽𝛽3 𝐷𝐷𝐻𝐻𝑖𝑖 en función de la
experiencia y del sexo.

También podría gustarte