Estadisticas Descriptivas

Introducción a Stata
Clase 2: Estadı́sticas Descriptivas y Gráficos
R. E. De Hoyos*
University of Cambridge
3 de marzo de 2005
1. Introducción
En esta sesión del curso presentamos las distintas herramientas que se pueden
utilizar—como un primer paso—para analizar los datos. Las dos formas más
usuales de empezar un análisis estadı́stico son las tablas con estadı́sticas
descriptivas y el análisis gráfico.
2. Tablas con Estadı́sticas Descriptivas
codebook es un comando muy útil para empezar a analizar la base de datos.

Si no se especifica una variable codebook presenta estadı́sticas descriptivas
sobre cada una de las variables en la base de datos, alternativamente se puede
obtener información sobre sólo alguna(s) variable(s) en particular escribiendo
el nombre de la(s) variable(s) despues de codebook. Un comando alternativo
*
red29@cam.ac.uk
1
que presenta estadı́sticos similares a codebook pero de forma resumida es
summarize. Aqui se presenta un ejemplo del comando summarize:
sysuse auto
summarize price mpg
Cuadro 1: summarize
Variable Obs Mean Std. Dev. Min Max
price 74 6165.25 2949.49 3291 15906

mpg 74 21.29 5.78 12 41
El cuadro 1 presenta información sobre el número de observaciones, la me-

dia, desviación estandar y el rango de las variables. Muchas veces necesitamos
crear una tabla con determinados estadı́sticos descriptivos, para hecer esto se
puede hacer uso de los comandos tabstat o table. Estos comandos tienen
mucha flexibilidad no sólo en los estadı́sticos que se pueden incluir pero tam-
bién en el formato en que estos se presentan como se puede ver en el siguiente
ejemplo:
sysuse auto
tabstat price mpg trunk weight, statistics(mean n sum sk
median)
Cuadro 2: tamstat
Variable price mpg trunk weight
mean 6165.25 21.29 13.75 3019.45

N 74 74 74 74
sum 456229 1576 1018 223440
skewness 1.65 .948 .029 .148
p50 5006.5 20 14 3190
2
El comando inspect es una forma sencilla de obtener informacion sobre
la distribución de una variable. Presenta pequeñas gráficas con puntos de
frecuencias relativas y algunos estadı́sticos sobre el numero de observaciones
distintas de cero, etc. tabulate, por otro lado, realiza tablas con frecuencias
y presenta varios estadı́sticos de correlacı́on entre dos variables previamente
seleccionadas:
sysuse auto
tabulate rep78 foreign
Cuadro 3: tabulate
Repair record Car type
1978 domestic foreign Total

1 2 0 2
2 8 0 8
3 27 3 30
4 9 9 18
5 2 9 11
Total 48 21 79
Comandos: codebook, summarize, inspect, tabstat, table, tabulate
2.1. Estadı́sticos de Momentos
Toda distribución puede ser inferida por sus momentos. Los momentos más
utilizados son el primero (la media) y el segundo (la varianza). En la sección
anterior vimos cómo podemos obtenerlos. Para probar estadı́sticamente la
diferencia entre dos medias provenientes de distribuciones independientes, es
necesario utilizar información acerca del segundo momento. Esto se puede
llevar al cabo utilizando el comando ci para formar intervalos de confianza
3
de las medias y ver si se intersectan o no. La no intersección quiere decir que
no hay evidencia suficiente para rechazar la Ho: igualdad de medias.
Los momentos tercero y cuarto de la distribución también nos dan infor-

mación valiosa. La skewness o tercer momento nos dice si la distribución es
simétrica con respecto a la media. Valores de este estadı́stico iguales a cero
indican una distribución simétrica mientras que valores mayores (menores)
a cero indican que la cola de la distribución esta sesgada hacia la derecha
(izquierda). La kurtosis o cuarto momento, mide la densidad que se concen-
tra en las colas; una distribución normal (del tipo Gauss) tiene una kurtosis
igual a tres. Valores que difieren de la normal se dice que tienen colas con
algunos picos (no nos referimos a picos en sentido estricto—número infinito
de derivadas—sino solo a vecindarios en donde la distribución no es tan suave
como la normal.)
Para obtener información hacerca de los momentos de la distribución podemos

usar el comando summarize con la opción detail. Pruebas para normalidad
de una distribución—en base al tercer y cuarto momento—se pueder realizar
utilizando el comando sktest.
Comandos: ci, summarize, sktest
3. Gráficos
La mejor manera de resumir la información contenida en los datos es haciendo

un análisis gráfico de los mimsos. Stata tiene un gran número de gráficas
siendo scatter, twoway, histogram y kdensity entre los comandos más
utlizados.
Las graficas twoway pueden presentarse de diferentes maneras, una de las

más comunes es en forma de puntos.1 El comando scatter se utiliza en el
siguiente ejemplo para observar cómo se ha comportado la expectiativa de
1
Los siguientes ejemplos se pueden aplicar a gráficas de lineas, áreas o barras.
4
vida al nacer (le) a travez del tiempo (year). La base de datos (uslifeexp2)
que usamos para realizar la gráfica 1 es una de las que provee el sistema
(integradas en Stata) y es llamada utilizando el programa sysuse. En el
segundo renglón del ejemplo especificamos que queremos una gráfica del tipo
“scatter” que relacione las variables le y year.
sysuse uslifeexp2, clear

scatter le year
Figura 1: Gráfica en forma de Puntos

65
60
life expectancy
50 45
40 55
1900 1910 1920 1930 1940

Year
O bien estos puntos se pueden unir utilizando la opción connect:
scatter le year, connect(l)
Figura 2: Gráfica en forma de Puntos Unidos

65
60
life expectancy
50 45
40 55
1900 1910 1920 1930 1940

Year
5
La mayorı́a de las opciones gráficas permite un análisis por grupos utilizando
el comando by:
scatter lexp gnppc, by(region)
Figura 3: Gráfica por Grupos

Eur & C.Asia N.A.
80
70
60
Life expectancy at birth
50
0 10000 20000 30000 40000
S.A.
80
70
60
50
0 10000 20000 30000 40000

GNP per capita
Graphs by Region
Histogramas de frecuencias y distribuciones de densidad kernel pueden ser

graficados utilizando los comandos histogram y kdensity respectivamente.
También es posible combinar ambas funciones en un sólo gráfico como se
muestra en el siguiente ejemplo:
histogram volume, freq kdensity xaxis(1 2) ylabel(0(10)60,

grid) xlabel(12321 "mean"9735 1 s.d."14907 "+1 s.d."7149
2 s.d."17493)
Figura 4: Histograma y Kernel

Volume (thousands)/x
5,000 10,000 15,000 20,000 25,000
40 60
50
Frequency
30 20
10
0
−2 s.d. −1 s.d. mean +1 s.d. 17,493

Volume (thousands)
6
Note como dentro de las opciones de histogram se incluye el formato freq
indicando que la altura de las barras del histograma miden el número de
observaciones en cada rango (las frecuencias). La opción kdensity le dice a
Stata que queremos una función de densidad del tipo kernel superimpuesta
al histograma. Las otras dos opciones, ylabel y xlabel son sólo los tı́tulos
de los ejes.
El intervalo que define el area de las barras de histogram puede ser ajustado
utilizando las opciones bar y width. Si se reduce el area de las barras de
un histograma hasta formar una gráfica con lineas en lugar de barras, el
resultadeo es una distribución de densidad en lugar de frecuencias. La forma
en que pasamos de un gráfico de frecuencias a uno de densidad varia según la
técnica utilizada, siendo el método kernel uno de los más comunes. La ventaja
de utilizar densidades kernel es que no se impone ninguna estructura, ya que
la linea que produce lo hace utilizando estadı́siticos no paramétricos.
Las opciones gráficas de Stata le permiten añadir marcos, tı́tulos a los ejes,
cambiar de colores las distintas varibles graficadas, elegir la escala de los ejes,
etc. (vea help twoway options.)
Comandos: graph, twoway, scatter, histogram, kernel
4. Resumen
En esta sesión exploramos varias opciones para comenzar una inspección de

la base de datos. Lo más común es empezar un análisis produciendo tablas
con estadı́sticos descriptivos y de corralación simple entre dos variables; los
comandos summarize, tabstat y tabulate son los ideales para estas tareas.
Por otro lado, vimos cómo producir gráficos de puntos y lineas relacionan-
do dos variables, asi mismo, aprendimos a graficar frecuencias relativas y
densidades usando histogram y kernel repectivamente.

Estadisticas Descriptivas

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Estadisticas Descriptivas

Cargado por

Copyright:

Formatos disponibles

Introducción a Stata

Clase 2: Estadı́sticas Descriptivas y Gráficos

2. Tablas con Estadı́sticas Descriptivas

codebook es un comando muy útil para empezar a analizar la base de datos.

price 74 6165.25 2949.49 3291 15906

El cuadro 1 presenta información sobre el número de observaciones, la me-

mean 6165.25 21.29 13.75 3019.45

1978 domestic foreign Total

Comandos: codebook, summarize, inspect, tabstat, table, tabulate

2.1. Estadı́sticos de Momentos

Los momentos tercero y cuarto de la distribución también nos dan infor-

Para obtener información hacerca de los momentos de la distribución podemos

Comandos: ci, summarize, sktest

La mejor manera de resumir la información contenida en los datos es haciendo

Las graficas twoway pueden presentarse de diferentes maneras, una de las

sysuse uslifeexp2, clear

Figura 1: Gráfica en forma de Puntos

1900 1910 1920 1930 1940

O bien estos puntos se pueden unir utilizando la opción connect:

scatter le year, connect(l)

Figura 2: Gráfica en forma de Puntos Unidos

1900 1910 1920 1930 1940

scatter lexp gnppc, by(region)

Figura 3: Gráfica por Grupos

0 10000 20000 30000 40000

0 10000 20000 30000 40000

Histogramas de frecuencias y distribuciones de densidad kernel pueden ser

histogram volume, freq kdensity xaxis(1 2) ylabel(0(10)60,

Figura 4: Histograma y Kernel

−2 s.d. −1 s.d. mean +1 s.d. 17,493

Comandos: graph, twoway, scatter, histogram, kernel

En esta sesión exploramos varias opciones para comenzar una inspección de

También podría gustarte