Documentos de Académico
Documentos de Profesional
Documentos de Cultura
=
=
n
i
i
n
x
x
1
=
=
k
i
i i
n
x f
x
1
, donde
=
=
k
i
i
f n
1
Mediana Valor central de la distribucin (el
50% de los datos se encuentran
por encima de este valor).
) (
m
f j c L Mediana + =
Moda
Valor ms frecuente
Punto medio de la clase
con frecuencia ms alta.
El promedio de los puntos
medios de las clases
consecutivas con frecuencias
iguales ms altas.
Puntos medios de las
clases no consecutivas con
frecuencias iguales ms altas.
Varianza
) ( ) ( 1
2
1
2
=
=
n x x s
n
i
i
1
2
1 2
1 2
|
|
.
|
\
|
=
=
n
n
x f
x f
s
k
i
i i
i
k
i
i
Desviacin Media
n
x x
DM
n
i
i
=
=
1
=
=
=
k
i
i
k
i
i i
f
x x f
DM
1
1
Desviacin Mediana
n
Md x
DM
n
i
i
=
=
1
=
=
=
k
i
i
k
i
i i
f
Md x f
DM
1
1
Recorrido Max - min.
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
18
2.9. Ejercicios e Interpretacin Salidas de Computador
Considrese el siguiente conjunto de datos hipotticos de un estudio de demanda
Tabla No. 2. Datos hipotticos en el estudio de demanda del bien X.
obs DX PX PZ PW I
1 37 7 5 7 6
2 38 6 7 5 8
3 18 10 3 13 3
4 50 4 9 4 18
5 22 9 3 11 3
6 55 2 12 3 21
7 42 8 5 8 2
8 29 8 5 9 19
9 63 2 18 3 20
10 13 12 2 15 6
11 60 3 9 5 12
12 62 3 10 5 5
13 36 6 5 6 26
ESTADSTICAS DESCRIPTIVAS
MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSION Y NORMALIDAD
DX PX PZ PW I E
Mean 40,3846 6,1538 7,1538 7,2308 11,4615 1,8462
Median 38 6 5 6 8 2
Maximum 63 12 18 15 26 3
Minimum 13 2 2 3 2 1
Std. Dev. 16,8994 3,2106 4,4318 3,8113 8,2726 0,8987
Skewness -0,1141 0,2015 1,1012 0,7836 0,3946 0,3012
Kurtosis 1,8010 1,9467 3,7131 2,4772 1,6434 1,4070
Jarque-Bera 0,8069 0,6888 2,9030 1,4786 1,3342 1,5711
Probability 0,6680 0,7086 0,2342 0,4775 0,5132 0,4559
Sum 525 80 93 94 149 24
Sum Sq. Dev. 3427,0769 123,6923 235,6923 174,3077 821,2308 9,6923
Observations 13 13 13 13 13 13
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
19
CAPITULO 3. ANALISIS DE CORRELACION
3.1. Diagrama de Dispersin
Una primera aproximacin con el fin de detectar algn tipo de relacin entre dos
variables ( X y Y), consiste en ubicar los pares de valores de en un plano cartesiano
hasta conformar la nube de puntos. Un diagrama de dispersin es la representacin
grfica de todos los pares de valores en sistema de ejes de coordenadas.
El diagrama de dispersin no es un mtodo estadstico como tal, ms bien estara
dentro de los llamados mtodos de "ojmetro", sin embargo, es una manera fcil de
visualizar si se puede presentar alguna posible relacin entre las variables.
El diagrama de dispersin puede presentar diferentes formas, tales como los que se
presentan en las figuras siguientes:
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
20
La figura a) estara mostrando una posible relacin lineal entre las variables; en
tanto, que la figura b) tambin presentara una relacin lineal pero en este caso sera
inversa. Las figura c) y d) mostraran una posible relacin cuadrtica entre las
variables, pero en para el caso de la c) se podra representar un mximo en tanto
que para la d) sera un mnimo. La figura e) mostrara una tendencia de tipo cbico
entre las variables, en tanto que la d) en la que la pendiente de la lnea para cada
punto es positiva pero va decreciendo sin llegar a cero, podra indicar una relacin
de tipo exponencial entre las variables. La figura f) sera el caso en el cul no se
puede establecer ningn tipo de relacin entre las variables porque aparentemente
no existe.
3.2. Coeficiente de Correlacin Lineal (r)
Si bien es cierto que el diagrama de dispersin nos permite visualizar si existe o no
una posible relacin lineal entre las variables, el investigador debe siempre buscar
soportar sus conclusiones en trminos de alguna medida estadstica.
El coeficiente de correlacin lineal, r, es una medida sobre el tipo de relacin (signo)
y la fuerza (magnitud del coeficiente) en que estara relacionadas linealmente dos
variables. Usualmente el coeficiente de correlacin lineal se representa por la letra r,
indicando que es un estimador muestral (estadstico) y bajo las condiciones de una
muestra ideal este coeficiente debe ser una buena representacin del coeficiente de
correlacin poblacional (p). La formula para calcular r es la siguiente:
( )( )
( ) ( )
=
2
2
y y x x
y y x x
r
i i
i i
XY
( )( )
( ) ( )
(
(
(
(
2
2
2
2
n
y
y
n
x
x
n
y x
y x
r
i
i
i
i
i i
i i
XY
( )
( ) | | ( ) | |
=
2 2 2 2
y n y x n x
y x n y x
r
i i
i i
XY
Al examinar la frmula de r, se observa que el denominador es positivo debido a que
en el se encuentran sumas de cuadrados, en tanto, que en el numerador aparece la
covarianza de las variables. Lo anterior indica que el numerador es el que est
definiendo el signo del coeficiente de correlacin.
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
21
El coeficiente de correlacin no tiene unidades y puede tomar valores entre -1 y +1
( ) 1 1 < <
XY
r Su interpretacin depende del signo y la magnitud que tome. Si r
tiende a +1 como seria el caso de la figura a) estara indicando una relacin lineal
positiva o positiva entre las variables. Si r tiende a -1, existira una relacin lineal
negativa o inversa entre las variables. En caso de que el r tienda a cero no existira
relacin lineal entre las variables.
Los casos extremos de interpretacin de r serian: 1. cuando r=1, en esta situacin se
presenta una relacin lineal positiva perfecta entre las variables, siendo posible
ajustar todos los puntos a travs de una lnea recta con pendiente positiva (figura g).
2. r = -1, en este caso se presenta una relacin lineal negativa perfecta entre las
variables, siendo posible ajustar todos los puntos a travs de una lnea recta con
pendiente negativa (figura h). 3. si r=0 no existira relacin lineal entre las variables y
una lnea recta con pendiente cero estara representando todos los pares de valores
(figura i).
Las ventajas principales del coeficiente de correlacin lineal son las de que es fcil
de calcular y fcil de interpretar; adems de que es un paso superior al del diagrama
de dispersin.
La principal desventaja del coeficiente de correlacin es la de que solo puede medir
relacin lineal entre las variables; sin embargo las variables pueden presentar algn
otro tipo de relacin que no sea la lineal. En el caso de que existan ms de dos
variables que estn muy relacionadas simultneamente, el coeficiente de correlacin
podra presentar problemas ya que solamente mide la relacin entre dos variables.
A continuacin se presentan una serie de propiedades del coeficiente de correlacin:
1. Es de naturaleza simtrica, lo anterior indica que el coeficiente de correlacin
entre X y Y es igual al coeficiente de correlacin entre Y y X .
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
22
2. Es independiente del origen y de la escala; si definimos X
*i
= aX
i
+ c y Y
*i
=
bY
i
+ d, donde a>0, b>0, y c y d son constantes, entonces r entre X
*
y Y
*
(variables transformadas) es igual a r entre X y Y (variables originales).
Una de las condiciones para que el coeficiente de correlacin se pueda aplicar es el
de que las variables deben de ser continuas y con distribucin normal. En caso de
que esto no se cumpla como es el caso de variables discretas se debe buscar otra
medida estadstica para establecer algn tipo de relacin entre las variables.
3.3. Pruebas de Hiptesis
Si el investigador cree que existe una relacin lineal fuerte entre las variables, pero
no esta seguro del tipo de relacin (negativa o positiva), el planteamiento de la
hiptesis y el procedimiento para probarla es de la forma siguiente:
Paso 1: Ho: 0 =
Paso 2: Ha: 0
Paso 3: alpha ( ) : Nivel de significancia.
Este es establecido o definido por el investigador. Los valores de significancia con
los cuales se trabajan pueden cambiar de una disciplina o ciencia a otra. Bajo
situaciones donde los experimentos tienen una lato grado de control, usualmente se
trabaja con niveles del 1% y 5%, (altamente significativo y significativo
respectivamente). En las investigaciones de las ciencias sociales, los investigadores
son un poco ms tolerantes dado el limitado grado de control que se tienen sobre las
variables, y en algunas ocasiones se encuentran estudios que reportan significancias
estadsticas hasta con un 20%.
Paso 4: Definir el estadstico de prueba
Para el caso de correlacin lineal simple, el estadstico de prueba se define como:
( )
2 2
2
1
2
=
n C
t
r
n r
t
,
. ~
donde res el coeficiente de correlacin lineal; n es el tamao de la muestra; n-2 son
los grados de libertad y es el valor al cual se iguala el parmetro poblacional en
la hiptesis nula. En este caso toma el valor de cero, pero en otra prueba puede
ser un valor distinto de cero, entre los lmites 1 y +1.
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
23
Paso 5: Regiones de decisin
Dado que la hiptesis alterna tiene el signo de diferente, se esta trabajando con
los dos lados de la distribucin. Por lo tanto, la regin de rechazo se encuentra
repartida alpha medios a cada lado. El valor de los lmites derecho e izquierdo con
que comienzan las regiones de rechazo se determina mediante la tabla t, teniendo
en cuenta si la prueba es de un lado o dos lados y los grados de libertad. La figura
j muestra la regin de rechazo y aceptacin de la hiptesis nula de esta prueba:
Paso 6: Contraste y criterio de decisin
Se debe comparar el estadstico calculado ( )
C
t contra el estadstico tabulado
( )
2 2 n
t
,
. El criterio de decisin esta basado en lo siguiente: 1) si el t calculado es
mayor que el t de tablas positivo, cae en la regin de rechazo del lado derecho de
la distribucin y la decisin que se debe tomar es rechazar la hiptesis nula. 2) si
el t calculado es menor que el t de tablas negativo, el t calculado cae en la regin
de rechazo del lado izquierdo y por lo tanto la decisin tambin es rechazar la
hiptesis nula. 3) si el t calculado es mayor que el -t de las tablas y menor que +t
de las tablas, el t calculado cae en la regin de aceptacin y por lo tanto, la
decisin es no rechazar la hiptesis nula.
Paso 7: Conclusin del investigador
El investigador basado en el criterio de decisin concluye la prueba en trminos de
la hiptesis alterna o hiptesis del investigador y procede posteriormente a dar las
recomendaciones del caso.
Es importante aclarar que las hiptesis se plantean en trminos de los parmetros
poblacionales. Se usan los estadsticos para encontrar el estadstico de prueba, en
este caso r, que es el coeficiente de correlacin lineal, el cual se encuentra a partir
de los datos de la muestra, se utiliza para encontrar el valor de t calculado, pero la
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
24
hiptesis sobre la asociacin lineal entre las variables se plantean sobre el
coeficiente de correlacin lineal para la poblacin ( ) .
La decisin sobre la significancia estadstica de el coeficiente de correlacin en la
prueba de hiptesis se afecta por el tamao de la muestra (n) o mejor an por los
grados de libertad (gl), lgicamente a mayor tamao de muestra (mayor gl) el valor
de r tiene mayor confiabilidad. Si n es grande se pueden encontrar valores de r
relativamente bajos pero que pueden dar significativos al comparar el estadstico de
prueba con el de las tablas; alternativamente se pueden encontrar r altos pero con
no significativos estadsticamente debido a que n es muy pequeo y por consiguiente
el nmero de grados de libertad (gl) es bajo.
3.4. Interpretacin Salidas de Computador E-VIEWS
Continuando con el ejemplo de datos hipotticos del estudio de demanda planteado
en el captulo anterior:
MATRIZ DE COVARIANZAS
DX PX I PZ PW
DX 263,621302 -47,982249 47,899408 60,017751 -53,781065
PX -47,982249 9,514793 -12,994083 -11,639053 10,733728
I 47,899408 -12,994083 63,171598 16,698225 -16,183432
PZ 60,017751 -11,639053 16,698225 18,130178 -12,650888
PW -53,781065 10,733728 -16,183432 -12,650888 13,408284
MATRIZ DE CORRELACION
DX PX I PZ PW
DX 1 -0,95805552 0,37117521 0,86813735 -0,9045916
PX -0,95805552 1 -0,53001118 -0,88616982 0,95030783
I 0,37117521 -0,53001118 1 0,49341045 -0,55606184
PZ 0,86813735 -0,88616982 0,49341045 1 -0,81139694
PW -0,9045916 0,95030783 -0,55606184 -0,81139694 1