Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Estadisticas Descriptivas
Estadisticas Descriptivas
R. E. De Hoyos*
University of Cambridge
3 de marzo de 2005
1. Introducción
En esta sesión del curso presentamos las distintas herramientas que se pueden
utilizar—como un primer paso—para analizar los datos. Las dos formas más
usuales de empezar un análisis estadı́stico son las tablas con estadı́sticas
descriptivas y el análisis gráfico.
1
que presenta estadı́sticos similares a codebook pero de forma resumida es
summarize. Aqui se presenta un ejemplo del comando summarize:
sysuse auto
summarize price mpg
Cuadro 1: summarize
Variable Obs Mean Std. Dev. Min Max
sysuse auto
tabstat price mpg trunk weight, statistics(mean n sum sk
median)
Cuadro 2: tamstat
Variable price mpg trunk weight
2
El comando inspect es una forma sencilla de obtener informacion sobre
la distribución de una variable. Presenta pequeñas gráficas con puntos de
frecuencias relativas y algunos estadı́sticos sobre el numero de observaciones
distintas de cero, etc. tabulate, por otro lado, realiza tablas con frecuencias
y presenta varios estadı́sticos de correlacı́on entre dos variables previamente
seleccionadas:
sysuse auto
tabulate rep78 foreign
Cuadro 3: tabulate
Repair record Car type
Toda distribución puede ser inferida por sus momentos. Los momentos más
utilizados son el primero (la media) y el segundo (la varianza). En la sección
anterior vimos cómo podemos obtenerlos. Para probar estadı́sticamente la
diferencia entre dos medias provenientes de distribuciones independientes, es
necesario utilizar información acerca del segundo momento. Esto se puede
llevar al cabo utilizando el comando ci para formar intervalos de confianza
3
de las medias y ver si se intersectan o no. La no intersección quiere decir que
no hay evidencia suficiente para rechazar la Ho: igualdad de medias.
3. Gráficos
4
vida al nacer (le) a travez del tiempo (year). La base de datos (uslifeexp2)
que usamos para realizar la gráfica 1 es una de las que provee el sistema
(integradas en Stata) y es llamada utilizando el programa sysuse. En el
segundo renglón del ejemplo especificamos que queremos una gráfica del tipo
“scatter” que relacione las variables le y year.
5
La mayorı́a de las opciones gráficas permite un análisis por grupos utilizando
el comando by:
S.A.
80
70
60
50
6
Note como dentro de las opciones de histogram se incluye el formato freq
indicando que la altura de las barras del histograma miden el número de
observaciones en cada rango (las frecuencias). La opción kdensity le dice a
Stata que queremos una función de densidad del tipo kernel superimpuesta
al histograma. Las otras dos opciones, ylabel y xlabel son sólo los tı́tulos
de los ejes.
El intervalo que define el area de las barras de histogram puede ser ajustado
utilizando las opciones bar y width. Si se reduce el area de las barras de
un histograma hasta formar una gráfica con lineas en lugar de barras, el
resultadeo es una distribución de densidad en lugar de frecuencias. La forma
en que pasamos de un gráfico de frecuencias a uno de densidad varia según la
técnica utilizada, siendo el método kernel uno de los más comunes. La ventaja
de utilizar densidades kernel es que no se impone ninguna estructura, ya que
la linea que produce lo hace utilizando estadı́siticos no paramétricos.
Las opciones gráficas de Stata le permiten añadir marcos, tı́tulos a los ejes,
cambiar de colores las distintas varibles graficadas, elegir la escala de los ejes,
etc. (vea help twoway options.)
4. Resumen