Está en la página 1de 11

Introduccin a la Econometra

Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo


________________________________________________________________________________________
14






CAPITULO 2. ORGANIZACIN DE DATOS Y ESTADSTICA
DESCRIPTIVA



2.1. Objetivos de la Estadstica

La estadstica es el lenguaje universal de la ciencia, tanto en sus ramas fsicas como
sociales. La estadstica es un instrumento formal que utilizado de manera rigurosa y
con precisin, permite describir resultados y adoptar decisiones respecto a lo que
estos evidencian empricamente. La estadstica en su aplicacin sigue el mtodo
cientfico y se define como la ciencia de recolectar, clasificar, describir e interpretar
datos numricos, es el lenguaje universal de la ciencia y el estudio de los
fenmenos aleatorios. Dentro de sus objetivos fundamentales se encuentra la
estimacin de una o ms caractersticas desconocidas de una poblacin, la
realizacin de inferencias y las pruebas de hiptesis.

Se considera fundador de la estadstica a Godofredo Achenwall, economista
alemn (1719-1772), quien siendo profesor de la universidad de Leipzig, escribi
sobre el descubrimiento de una nueva ciencia que llam estadstica (palabra
derivada de Staat que significa gobierno) y que defini como el conocimiento
profundo de la situacin respectiva y comparativa de cada estado. Desde su
aparicin la estadstica se ha enriquecido continuamente con los aportes de
matemticos, filsofos y cientficos.

La teora general de la estadstica es aplicable a cualquier campo cientfico en el
cual se toman observaciones. El estudio y aplicacin de los mtodos estadsticos
son necesarios en todos los campos del saber, sean estos de nivel tcnico o
cientfico. Las primeras aplicaciones de la estadstica fueron los temas de
gobierno, luego las utilizaron las compaas de seguros y los empresarios de
juegos de azar; a los anteriores siguieron los comerciantes, los industriales, los
educadores, etc. En la actualidad resulta difcil indicar profesiones que no utilicen
la estadstica.


2.2. Divisiones de la Estadstica

El campo de la estadstica puede dividirse ampliamente en dos reas: estadstica
descriptiva o deductiva y estadstica inferencial o inductiva. La estadstica
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
15
descriptiva es aquella en la que piensa la mayora de la gente cuando se escucha la
palabra "estadstica", consiste en el rea de estadstica dedicada a la recoleccin,
presentacin, descripcin de datos numricos, y cuyas conclusiones sobre los
mismos no sobrepasan el conjunto de conocimientos que estos proporcionan. Por
otro lado, la estadstica inductiva, o simplemente inferencia estadstica es el
mtodo y conjunto de tcnicas que se utilizan para obtener conclusiones ms all
de los lmites del conocimiento aportado por los datos, en otras palabras, busca
obtener informacin de una poblacin a partir de los datos de una muestra.


2.3. Tipos de Variables

En estadstica cuando se recopila informacin, sta es registrada por medio de la
observacin o medicin de una variable aleatoria que proviene de la realizacin de
un experimento. Se llama variable aleatoria, debido a que los valores que toma la
variable corresponden a los distintos resultados posibles de un experimento, en ese
sentido que sta tome un valor particular es un evento aleatorio.

An, cuando las observaciones resultantes no siempre son numricas en algunos
experimentos, estas pueden cuantificarse asignndoles nmeros que indiquen o
representen una categorizacin. Por esta razn, el inters se centra generalmente
en variables que pueden representarse numricamente.

Existen dos tipos de variables aleatorias: discretas y continuas. Las primeras pueden
tomar valores como los nmeros enteros, mientras las segundas toman valores
dentro de un intervalo. Si se tienen dos variables aleatorias, por ejemplo: el nmero
de habitantes en una localidad y el consumo de energa elctrica; la primera, se
encuentra dentro del grupo de variables aleatorias discretas, y la segunda, dentro del
conjunto de variables aleatorias continuas.


2.4. Poblacin y Muestra

El concepto de poblacin y muestra es muy importante en la ciencia estadstica, por
lo que es conveniente presentar su definicin:

Poblacin: Es la coleccin completa de individuos, objetos o medidas que tienen
una caracterstica en comn. La poblacin debe definirse cuidadosamente en cada
estudio cientfico de acuerdo con el inters y objetivo de la investigacin.
Muestra: Es un subconjunto de la poblacin; es decir, ella se compone de algunos
de los individuos, objetos o medidas de una poblacin. La muestra es obtenida con
el propsito de investigar, a partir del conocimiento de sus caractersticas
particulares, las propiedades de toda la poblacin, en este sentido, es importante la
seleccin de una muestra que sea representativa de la poblacin. Es necesario
formalmente enfatizar en la aleatoriedad de la muestra, lo cul se refiere a la manera
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
16
de seleccionar los elementos de la poblacin que conformarn la muestra. La
palabra aleatoriedad para este caso consiste en garantizar que cada elemento de
la poblacin tenga la misma probabilidad de ser elegido. Se considera que una
muestra es ms eficiente, cuando proporciona la mayor informacin til al menor
costo.

Los conceptos anteriores pueden tratarse en el siguiente ejemplo: Suponga que se
desea conocer el consumo promedio por hogar de energa elctrica en la ciudad de
Bogot. Para este caso, la poblacin corresponde a todos los hogares de la ciudad,
mientras que la muestra estar constituida por aquellos hogares que pueden ser
seleccionados de manera aleatoria, como un grupo representativo de todos los que
habitan en Bogot.


2.5. Parmetros Poblacionales y Estadsticos Muestrales

El trmino parmetro es utilizado en la estadstica para referirse a la
caracterstica desconocida de la poblacin que desea estimarse o evaluarse a
travs de una prueba de hiptesis. Por otro lado, el concepto estadstico se usa
para tratar una medida obtenida de una muestra para una caracterstica
poblacional no conocida. Cabe anotar que los estadsticos son fundamentales en
la realizacin de inferencias. El valor promedio y la varianza son ejemplos de tales
medidas.


2.6. Medidas de Tendencia Central

Las medidas de tendencia central se encuentran dentro de las medidas numricas
que se emplean comnmente para describir conjuntos de datos. La tendencia
central de un conjunto de datos es la disposicin de stos para agruparse, ya sea
alrededor del centro o de ciertos valores numricos. A este grupo de medidas
pertenecen la media, la mediana y la moda.

2.7. Medidas de dispersin

Existen otro tipo de medidas numricas cuyo objetivo es explorar la variabilidad de
los datos. Esta variabilidad se entiende como la dispersin de las observaciones
en un conjunto de datos. Dentro de estas medidas se encuentran: la varianza, la
desviacin media, la desviacin mediana, el recorrido o rango, entre otras.

2.8. Mtodos y Diagnsticos Grficos.

Los datos en los experimentos son recopilados inicialmente sin agrupar, para
luego, segn el inters del investigador presentarlos agrupados, en forma de
clases o intervalos. Es importante tener en cuenta que las fuentes de informacin
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
17
primaria y secundaria almacenan sus datos sin agrupar o como datos
agrupados. Con base en lo anterior, es relevante conocer el procedimiento de
clculo de las medidas numricas para ambos casos. Las expresiones
algebraicas que describen la forma de obtener las medidas de tendencia central y
de dispersin se muestran en la Tabla No. 1.

Por otro lado, con los datos agrupados de una variable aleatoria es posible
construir histogramas de frecuencias, los cuales pueden ser comparados con las
representaciones grficas de distribuciones de probabilidad ya conocidas de
variables aleatorias. En la mayora de los casos, estos histogramas se comparan
con la distribucin normal, donde por inspeccin es posible identificar sesgos o
apuntamientos en la distribucin.


Tabla No. 1. Medidas de Tendencia central y de Dispersin.

Medida Numrica Datos sin agrupar Datos agrupados

Media

=
=
n
i
i
n
x
x
1

=
=
k
i
i i
n
x f
x
1
, donde

=
=
k
i
i
f n
1

Mediana Valor central de la distribucin (el
50% de los datos se encuentran
por encima de este valor).
) (
m
f j c L Mediana + =




Moda




Valor ms frecuente
Punto medio de la clase
con frecuencia ms alta.
El promedio de los puntos
medios de las clases
consecutivas con frecuencias
iguales ms altas.
Puntos medios de las
clases no consecutivas con
frecuencias iguales ms altas.




Varianza

) ( ) ( 1
2
1
2
=

=
n x x s
n
i
i

1
2
1 2
1 2

|
|
.
|

\
|

=
=
n
n
x f
x f
s
k
i
i i
i
k
i
i



Desviacin Media
n
x x
DM
n
i
i
=

=
1

=
=

=
k
i
i
k
i
i i
f
x x f
DM
1
1



Desviacin Mediana
n
Md x
DM
n
i
i
=

=
1

=
=

=
k
i
i
k
i
i i
f
Md x f
DM
1
1

Recorrido Max - min.


Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
18

2.9. Ejercicios e Interpretacin Salidas de Computador

Considrese el siguiente conjunto de datos hipotticos de un estudio de demanda

Tabla No. 2. Datos hipotticos en el estudio de demanda del bien X.

obs DX PX PZ PW I
1 37 7 5 7 6
2 38 6 7 5 8
3 18 10 3 13 3
4 50 4 9 4 18
5 22 9 3 11 3
6 55 2 12 3 21
7 42 8 5 8 2
8 29 8 5 9 19
9 63 2 18 3 20
10 13 12 2 15 6
11 60 3 9 5 12
12 62 3 10 5 5
13 36 6 5 6 26


ESTADSTICAS DESCRIPTIVAS

MEDIDAS DE TENDENCIA CENTRAL, DE DISPERSION Y NORMALIDAD

DX PX PZ PW I E
Mean 40,3846 6,1538 7,1538 7,2308 11,4615 1,8462
Median 38 6 5 6 8 2
Maximum 63 12 18 15 26 3
Minimum 13 2 2 3 2 1
Std. Dev. 16,8994 3,2106 4,4318 3,8113 8,2726 0,8987
Skewness -0,1141 0,2015 1,1012 0,7836 0,3946 0,3012
Kurtosis 1,8010 1,9467 3,7131 2,4772 1,6434 1,4070
Jarque-Bera 0,8069 0,6888 2,9030 1,4786 1,3342 1,5711
Probability 0,6680 0,7086 0,2342 0,4775 0,5132 0,4559
Sum 525 80 93 94 149 24
Sum Sq. Dev. 3427,0769 123,6923 235,6923 174,3077 821,2308 9,6923
Observations 13 13 13 13 13 13


Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
19







CAPITULO 3. ANALISIS DE CORRELACION



3.1. Diagrama de Dispersin

Una primera aproximacin con el fin de detectar algn tipo de relacin entre dos
variables ( X y Y), consiste en ubicar los pares de valores de en un plano cartesiano
hasta conformar la nube de puntos. Un diagrama de dispersin es la representacin
grfica de todos los pares de valores en sistema de ejes de coordenadas.

El diagrama de dispersin no es un mtodo estadstico como tal, ms bien estara
dentro de los llamados mtodos de "ojmetro", sin embargo, es una manera fcil de
visualizar si se puede presentar alguna posible relacin entre las variables.

El diagrama de dispersin puede presentar diferentes formas, tales como los que se
presentan en las figuras siguientes:


Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
20

La figura a) estara mostrando una posible relacin lineal entre las variables; en
tanto, que la figura b) tambin presentara una relacin lineal pero en este caso sera
inversa. Las figura c) y d) mostraran una posible relacin cuadrtica entre las
variables, pero en para el caso de la c) se podra representar un mximo en tanto
que para la d) sera un mnimo. La figura e) mostrara una tendencia de tipo cbico
entre las variables, en tanto que la d) en la que la pendiente de la lnea para cada
punto es positiva pero va decreciendo sin llegar a cero, podra indicar una relacin
de tipo exponencial entre las variables. La figura f) sera el caso en el cul no se
puede establecer ningn tipo de relacin entre las variables porque aparentemente
no existe.


3.2. Coeficiente de Correlacin Lineal (r)

Si bien es cierto que el diagrama de dispersin nos permite visualizar si existe o no
una posible relacin lineal entre las variables, el investigador debe siempre buscar
soportar sus conclusiones en trminos de alguna medida estadstica.

El coeficiente de correlacin lineal, r, es una medida sobre el tipo de relacin (signo)
y la fuerza (magnitud del coeficiente) en que estara relacionadas linealmente dos
variables. Usualmente el coeficiente de correlacin lineal se representa por la letra r,
indicando que es un estimador muestral (estadstico) y bajo las condiciones de una
muestra ideal este coeficiente debe ser una buena representacin del coeficiente de
correlacin poblacional (p). La formula para calcular r es la siguiente:

( )( )
( ) ( )



=
2
2
y y x x
y y x x
r
i i
i i
XY


( )( )
( ) ( )
(
(

(
(


2
2
2
2
n
y
y
n
x
x
n
y x
y x
r
i
i
i
i
i i
i i
XY


( )
( ) | | ( ) | |




=
2 2 2 2
y n y x n x
y x n y x
r
i i
i i
XY


Al examinar la frmula de r, se observa que el denominador es positivo debido a que
en el se encuentran sumas de cuadrados, en tanto, que en el numerador aparece la
covarianza de las variables. Lo anterior indica que el numerador es el que est
definiendo el signo del coeficiente de correlacin.
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
21

El coeficiente de correlacin no tiene unidades y puede tomar valores entre -1 y +1
( ) 1 1 < <
XY
r Su interpretacin depende del signo y la magnitud que tome. Si r
tiende a +1 como seria el caso de la figura a) estara indicando una relacin lineal
positiva o positiva entre las variables. Si r tiende a -1, existira una relacin lineal
negativa o inversa entre las variables. En caso de que el r tienda a cero no existira
relacin lineal entre las variables.

Los casos extremos de interpretacin de r serian: 1. cuando r=1, en esta situacin se
presenta una relacin lineal positiva perfecta entre las variables, siendo posible
ajustar todos los puntos a travs de una lnea recta con pendiente positiva (figura g).
2. r = -1, en este caso se presenta una relacin lineal negativa perfecta entre las
variables, siendo posible ajustar todos los puntos a travs de una lnea recta con
pendiente negativa (figura h). 3. si r=0 no existira relacin lineal entre las variables y
una lnea recta con pendiente cero estara representando todos los pares de valores
(figura i).



Las ventajas principales del coeficiente de correlacin lineal son las de que es fcil
de calcular y fcil de interpretar; adems de que es un paso superior al del diagrama
de dispersin.

La principal desventaja del coeficiente de correlacin es la de que solo puede medir
relacin lineal entre las variables; sin embargo las variables pueden presentar algn
otro tipo de relacin que no sea la lineal. En el caso de que existan ms de dos
variables que estn muy relacionadas simultneamente, el coeficiente de correlacin
podra presentar problemas ya que solamente mide la relacin entre dos variables.


A continuacin se presentan una serie de propiedades del coeficiente de correlacin:

1. Es de naturaleza simtrica, lo anterior indica que el coeficiente de correlacin
entre X y Y es igual al coeficiente de correlacin entre Y y X .


Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
22

2. Es independiente del origen y de la escala; si definimos X
*i
= aX
i
+ c y Y
*i
=
bY
i
+ d, donde a>0, b>0, y c y d son constantes, entonces r entre X
*
y Y
*

(variables transformadas) es igual a r entre X y Y (variables originales).

Una de las condiciones para que el coeficiente de correlacin se pueda aplicar es el
de que las variables deben de ser continuas y con distribucin normal. En caso de
que esto no se cumpla como es el caso de variables discretas se debe buscar otra
medida estadstica para establecer algn tipo de relacin entre las variables.


3.3. Pruebas de Hiptesis

Si el investigador cree que existe una relacin lineal fuerte entre las variables, pero
no esta seguro del tipo de relacin (negativa o positiva), el planteamiento de la
hiptesis y el procedimiento para probarla es de la forma siguiente:

Paso 1: Ho: 0 =

Paso 2: Ha: 0

Paso 3: alpha ( ) : Nivel de significancia.

Este es establecido o definido por el investigador. Los valores de significancia con
los cuales se trabajan pueden cambiar de una disciplina o ciencia a otra. Bajo
situaciones donde los experimentos tienen una lato grado de control, usualmente se
trabaja con niveles del 1% y 5%, (altamente significativo y significativo
respectivamente). En las investigaciones de las ciencias sociales, los investigadores
son un poco ms tolerantes dado el limitado grado de control que se tienen sobre las
variables, y en algunas ocasiones se encuentran estudios que reportan significancias
estadsticas hasta con un 20%.

Paso 4: Definir el estadstico de prueba

Para el caso de correlacin lineal simple, el estadstico de prueba se define como:

( )
2 2
2
1
2


=
n C
t
r
n r
t
,
. ~



donde res el coeficiente de correlacin lineal; n es el tamao de la muestra; n-2 son
los grados de libertad y es el valor al cual se iguala el parmetro poblacional en
la hiptesis nula. En este caso toma el valor de cero, pero en otra prueba puede
ser un valor distinto de cero, entre los lmites 1 y +1.

Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
23

Paso 5: Regiones de decisin

Dado que la hiptesis alterna tiene el signo de diferente, se esta trabajando con
los dos lados de la distribucin. Por lo tanto, la regin de rechazo se encuentra
repartida alpha medios a cada lado. El valor de los lmites derecho e izquierdo con
que comienzan las regiones de rechazo se determina mediante la tabla t, teniendo
en cuenta si la prueba es de un lado o dos lados y los grados de libertad. La figura
j muestra la regin de rechazo y aceptacin de la hiptesis nula de esta prueba:


Paso 6: Contraste y criterio de decisin

Se debe comparar el estadstico calculado ( )
C
t contra el estadstico tabulado
( )
2 2 n
t
,
. El criterio de decisin esta basado en lo siguiente: 1) si el t calculado es
mayor que el t de tablas positivo, cae en la regin de rechazo del lado derecho de
la distribucin y la decisin que se debe tomar es rechazar la hiptesis nula. 2) si
el t calculado es menor que el t de tablas negativo, el t calculado cae en la regin
de rechazo del lado izquierdo y por lo tanto la decisin tambin es rechazar la
hiptesis nula. 3) si el t calculado es mayor que el -t de las tablas y menor que +t
de las tablas, el t calculado cae en la regin de aceptacin y por lo tanto, la
decisin es no rechazar la hiptesis nula.


Paso 7: Conclusin del investigador

El investigador basado en el criterio de decisin concluye la prueba en trminos de
la hiptesis alterna o hiptesis del investigador y procede posteriormente a dar las
recomendaciones del caso.

Es importante aclarar que las hiptesis se plantean en trminos de los parmetros
poblacionales. Se usan los estadsticos para encontrar el estadstico de prueba, en
este caso r, que es el coeficiente de correlacin lineal, el cual se encuentra a partir
de los datos de la muestra, se utiliza para encontrar el valor de t calculado, pero la
Introduccin a la Econometra
Ramn Antonio Rosales lvarez y Jorge Alexander Bonilla Londoo
________________________________________________________________________________________
24
hiptesis sobre la asociacin lineal entre las variables se plantean sobre el
coeficiente de correlacin lineal para la poblacin ( ) .

La decisin sobre la significancia estadstica de el coeficiente de correlacin en la
prueba de hiptesis se afecta por el tamao de la muestra (n) o mejor an por los
grados de libertad (gl), lgicamente a mayor tamao de muestra (mayor gl) el valor
de r tiene mayor confiabilidad. Si n es grande se pueden encontrar valores de r
relativamente bajos pero que pueden dar significativos al comparar el estadstico de
prueba con el de las tablas; alternativamente se pueden encontrar r altos pero con
no significativos estadsticamente debido a que n es muy pequeo y por consiguiente
el nmero de grados de libertad (gl) es bajo.


3.4. Interpretacin Salidas de Computador E-VIEWS

Continuando con el ejemplo de datos hipotticos del estudio de demanda planteado
en el captulo anterior:

MATRIZ DE COVARIANZAS


DX PX I PZ PW
DX 263,621302 -47,982249 47,899408 60,017751 -53,781065
PX -47,982249 9,514793 -12,994083 -11,639053 10,733728
I 47,899408 -12,994083 63,171598 16,698225 -16,183432
PZ 60,017751 -11,639053 16,698225 18,130178 -12,650888
PW -53,781065 10,733728 -16,183432 -12,650888 13,408284

MATRIZ DE CORRELACION

DX PX I PZ PW
DX 1 -0,95805552 0,37117521 0,86813735 -0,9045916
PX -0,95805552 1 -0,53001118 -0,88616982 0,95030783
I 0,37117521 -0,53001118 1 0,49341045 -0,55606184
PZ 0,86813735 -0,88616982 0,49341045 1 -0,81139694
PW -0,9045916 0,95030783 -0,55606184 -0,81139694 1

También podría gustarte