Estadisticas Descriptivas

Introduccion a Stata
Clase 2: Estadsticas Descriptivas y Graficos

R. E. De Hoyos*
University of Cambridge
3 de marzo de 2005
1.
Introducci
on
En esta sesion del curso presentamos las distintas herramientas que se pueden
utilizarcomo un primer pasopara analizar los datos. Las dos formas mas
usuales de empezar un analisis estadstico son las tablas con estadsticas
descriptivas y el analisis grafico.
2.
Tablas con Estadsticas Descriptivas
codebook es un comando muy u

til para empezar a analizar la base de datos.
Si no se especifica una variable codebook presenta estadsticas descriptivas
sobre cada una de las variables en la base de datos, alternativamente se puede
obtener informacion sobre solo alguna(s) variable(s) en particular escribiendo
el nombre de la(s) variable(s) despues de codebook. Un comando alternativo
*
red29@cam.ac.uk
que presenta estadsticos similares a codebook pero de forma resumida es

summarize. Aqui se presenta un ejemplo del comando summarize:
sysuse auto
summarize price mpg
Cuadro 1: summarize
Variable Obs
Mean
Std. Dev.
Min
Max
price
74 6165.25
2949.49
3291
15906
mpg
74
5.78
12
41
21.29
El cuadro 1 presenta informacion sobre el n

umero de observaciones, la media, desviacion estandar y el rango de las variables. Muchas veces necesitamos
crear una tabla con determinados estadsticos descriptivos, para hecer esto se
puede hacer uso de los comandos tabstat o table. Estos comandos tienen
mucha flexibilidad no solo en los estadsticos que se pueden incluir pero tambien en el formato en que estos se presentan como se puede ver en el siguiente
ejemplo:
sysuse auto
tabstat price mpg trunk weight, statistics(mean n sum sk
median)
Cuadro 2: tamstat
Variable
mean
N
sum
skewness
p50
price
mpg
trunk
weight
6165.25 21.29
13.75
3019.45
74
74
74
74
456229
1576
1018
223440
1.65
.948
.029
.148
5006.5
20
14
3190
El comando inspect es una forma sencilla de obtener informacion sobre

la distribucion de una variable. Presenta peque
nas graficas con puntos de
frecuencias relativas y algunos estadsticos sobre el numero de observaciones
distintas de cero, etc. tabulate, por otro lado, realiza tablas con frecuencias
y presenta varios estadsticos de correlacon entre dos variables previamente
seleccionadas:
sysuse auto
tabulate rep78 foreign
Cuadro 3: tabulate
Repair record
1978
Car type
domestic
foreign
Total
27
30
18
11
Total
48
21
79
Comandos: codebook, summarize, inspect, tabstat, table, tabulate
2.1.
Estadsticos de Momentos
Toda distribucion puede ser inferida por sus momentos. Los momentos mas
utilizados son el primero (la media) y el segundo (la varianza). En la seccion
anterior vimos como podemos obtenerlos. Para probar estadsticamente la
diferencia entre dos medias provenientes de distribuciones independientes, es
necesario utilizar informacion acerca del segundo momento. Esto se puede
llevar al cabo utilizando el comando ci para formar intervalos de confianza
3
de las medias y ver si se intersectan o no. La no interseccion quiere decir que

no hay evidencia suficiente para rechazar la Ho: igualdad de medias.
Los momentos tercero y cuarto de la distribucion tambien nos dan informacion valiosa. La skewness o tercer momento nos dice si la distribucion es
simetrica con respecto a la media. Valores de este estadstico iguales a cero
indican una distribucion simetrica mientras que valores mayores (menores)
a cero indican que la cola de la distribucion esta sesgada hacia la derecha
(izquierda). La kurtosis o cuarto momento, mide la densidad que se concentra en las colas; una distribucion normal (del tipo Gauss) tiene una kurtosis
igual a tres. Valores que difieren de la normal se dice que tienen colas con
algunos picos (no nos referimos a picos en sentido estricton
umero infinito
de derivadassino solo a vecindarios en donde la distribucion no es tan suave
como la normal.)
Para obtener informacion hacerca de los momentos de la distribucion podemos
usar el comando summarize con la opcion detail. Pruebas para normalidad
de una distribucionen base al tercer y cuarto momentose pueder realizar
utilizando el comando sktest.
Comandos: ci, summarize, sktest
3.
Gr
aficos
La mejor manera de resumir la informacion contenida en los datos es haciendo

un analisis grafico de los mimsos. Stata tiene un gran n
umero de graficas
siendo scatter, twoway, histogram y kdensity entre los comandos mas
utlizados.
Las graficas twoway pueden presentarse de diferentes maneras, una de las
mas comunes es en forma de puntos.1 El comando scatter se utiliza en el
siguiente ejemplo para observar como se ha comportado la expectiativa de
1
Los siguientes ejemplos se pueden aplicar a graficas de lineas, areas o barras.
vida al nacer (le) a travez del tiempo (year). La base de datos (uslifeexp2)
que usamos para realizar la grafica 1 es una de las que provee el sistema
(integradas en Stata) y es llamada utilizando el programa sysuse. En el
segundo renglon del ejemplo especificamos que queremos una grafica del tipo
scatter que relacione las variables le y year.
sysuse uslifeexp2, clear
scatter le year
40
45
life expectancy
50
55
60
65
Figura 1: Grafica en forma de Puntos
1900
1910
1920
Year
1930
1940
O bien estos puntos se pueden unir utilizando la opcion connect:

scatter le year, connect(l)
40
45
life expectancy
50
55
60
65
Figura 2: Grafica en forma de Puntos Unidos
1900
1910
1920
Year
1930
1940
La mayora de las opciones graficas permite un analisis por grupos utilizando

el comando by:
scatter lexp gnppc, by(region)
Figura 3: Grafica por Grupos
N.A.
60
50
10000
20000
30000
40000
70
80
S.A.
50
60
Life expectancy at birth
70
80
Eur & C.Asia
10000
20000
30000
40000
GNP per capita

Graphs by Region
Histogramas de frecuencias y distribuciones de densidad kernel pueden ser

graficados utilizando los comandos histogram y kdensity respectivamente.
Tambien es posible combinar ambas funciones en un solo grafico como se
muestra en el siguiente ejemplo:
histogram volume, freq kdensity xaxis(1 2) ylabel(0(10)60,
grid) xlabel(12321 "mean"9735 1 s.d."14907 "+1 s.d."7149
2 s.d."17493)
Figura 4: Histograma y Kernel
10,000
Volume (thousands)/x
15,000
10
20
Frequency
30
40
50
60
5,000
2 s.d. 1 s.d.
mean +1 s.d. 17,493

Volume (thousands)
20,000
25,000
Note como dentro de las opciones de histogram se incluye el formato freq

indicando que la altura de las barras del histograma miden el n
umero de
observaciones en cada rango (las frecuencias). La opcion kdensity le dice a
Stata que queremos una funcion de densidad del tipo kernel superimpuesta
al histograma. Las otras dos opciones, ylabel y xlabel son solo los ttulos
de los ejes.
El intervalo que define el area de las barras de histogram puede ser ajustado
utilizando las opciones bar y width. Si se reduce el area de las barras de
un histograma hasta formar una grafica con lineas en lugar de barras, el
resultadeo es una distribucion de densidad en lugar de frecuencias. La forma
en que pasamos de un grafico de frecuencias a uno de densidad varia seg
un la
tecnica utilizada, siendo el metodo kernel uno de los mas comunes. La ventaja
de utilizar densidades kernel es que no se impone ninguna estructura, ya que
la linea que produce lo hace utilizando estadsiticos no parametricos.
Las opciones graficas de Stata le permiten a
nadir marcos, ttulos a los ejes,
cambiar de colores las distintas varibles graficadas, elegir la escala de los ejes,
etc. (vea help twoway options.)
Comandos: graph, twoway, scatter, histogram, kernel
4.
Resumen
En esta sesion exploramos varias opciones para comenzar una inspeccion de

la base de datos. Lo mas com
un es empezar un analisis produciendo tablas
con estadsticos descriptivos y de corralacion simple entre dos variables; los
comandos summarize, tabstat y tabulate son los ideales para estas tareas.
Por otro lado, vimos como producir graficos de puntos y lineas relacionando dos variables, asi mismo, aprendimos a graficar frecuencias relativas y
densidades usando histogram y kernel repectivamente.

Estadisticas Descriptivas

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadisticas Descriptivas

Cargado por

Copyright:

Formatos disponibles

Introduccion a Stata

Clase 2: Estadsticas Descriptivas y Graficos

Tablas con Estadsticas Descriptivas

codebook es un comando muy u

que presenta estadsticos similares a codebook pero de forma resumida es

El cuadro 1 presenta informacion sobre el n

El comando inspect es una forma sencilla de obtener informacion sobre

Comandos: codebook, summarize, inspect, tabstat, table, tabulate

de las medias y ver si se intersectan o no. La no interseccion quiere decir que

La mejor manera de resumir la informacion contenida en los datos es haciendo

Los siguientes ejemplos se pueden aplicar a graficas de lineas, areas o barras.

Figura 1: Grafica en forma de Puntos

O bien estos puntos se pueden unir utilizando la opcion connect:

Figura 2: Grafica en forma de Puntos Unidos

La mayora de las opciones graficas permite un analisis por grupos utilizando

Life expectancy at birth

Eur & C.Asia

GNP per capita

Histogramas de frecuencias y distribuciones de densidad kernel pueden ser

mean +1 s.d. 17,493

Note como dentro de las opciones de histogram se incluye el formato freq

En esta sesion exploramos varias opciones para comenzar una inspeccion de

También podría gustarte