Está en la página 1de 14

STATA 15

SESIÓN 03:
RESUMEN DE DATOS

Fuente: Microeconometrics Using Stata, Cameron & Trivedi (2009)


Contenido

3.1 Descripción de datos


3.2 Descripción de variables
3.3 Resumen estadístico
3.4 Tablas para datos
3.5 Pruebas estadisticas
3.6 Gráfico de datos

© Dat Company 2
3.1 Descripción de datos
• Nuestro objetivo es explicar los métodos y herramientas
disponibles en Stata.
• Una investigación formal debe controlar la influencia de
otros factores que también afectan a la variable
dependiente.

© Dat Company 3
3.2 Descripción de variables
• Usamos el comando describe, para enumerar varias
características de las variables que se usarán en la
regresión lineal.
describe nombre_variable

© Dat Company 4
3.3 Resumen estadístico
• Es esencial en cualquier análisis de datos verificar primero
los datos mediante el comando summarize.
summarize nombre_variable

• Se emplea el comando tabulate para ver si todas las


tienen el rango esperado o talvez existe alguna que no.
tabulate nombre_variable

© Dat Company 5
3.3 Resumen estadístico
• Para el resumen estadístico detallado de una sola variable,
digitamos:
summarize nombre_variable, detail

• Se evalua la mediana (percentil 50%) con la media si esta


es menor refleja un sesgo en los datos.
• Si el estadístico de Skewness es cero, refleja simetría en la
distribución de los datos.
• El estadístico de Kurtosis tiene un valor de referencia de 3, este
refleja una distribución normal de los datos

© Dat Company 6
3.3 Resumen estadístico
• El comando fsum Wolfe es un realce del comando
summarize que incluye información adicional tanto como
de percentiles y las etiquetas de las variables.

• El comando outsum Papps produce una fila de texto de


medias y desviación estándar para una o mas subconjunto
de datos, una columna para la muestra completa y otras
para las submuestras.

© Dat Company 7
3.4 Tablas para datos
• Las tablas de un solo sentido se pueden crear mediante el
comando table nombre_variable, el cual produce solo
frecuencias, o el comando tabulate nombre_variable, el
cual adicionalmente produce porcentaje y porcentajes
acumulativos.
• Las tablas de doble entrada también se pueden crear
utilizando estos comandos.
table nombre_variable1 nombre_variable2
• Proporciona frecuencias, porcentaje de filas y columnas y el
estadístico Pearson Chi-cuadrado.
tabulate nombre_variable1 nombre_variable2, row col chi2

© Dat Company 8
3.4 Tablas para datos

Tablas de múltiples sentidos o entradas


• Para una tabla de frecuencias, podemos utilizar el
comando.
table nombres_variables

© Dat Company 9
3.4 Tablas para datos

• Tablas de una solo sentido que presente un resumen de


estadísticos clave para una variable como la media, y la
desviación estándar, podemos utilizar el comando table
con la opción de contents( ).
Table nombre_variable, contents(N nombre_variable
mean nombre_variable sd nombre_variable p50
nombre_variable)
Nota: la opción contens () puede presentar muchos otros estadísticos, incluyendo el
mínimo y el máximo y los percentiles clave.

© Dat Company 10
3.4 Tablas para datos

• El comando table con la opcion contents() tambien


puede ser representado en tablas de doble sentido o de
múltiples sentidos para presentar resumen estadísticos.

• La tabulación, con el comando sumarize tambien puede


ser usado para producir tablas de un sentido o de doble
sentido con medias, desviaciones estándar y frecuencias.

© Dat Company 11
3.4 Tablas para datos

• El comando tabsat proporciona una tabla de resumen


estadísticos que permite una mayor flexibilidad que el
comando summarize.
tabsat nombre_variable1 nombre_variable2, stat(count mean
p50 sd skew kurt) col (stat)
Nota: La opción col(stat) presenta los resultados del resumen estadístico en
columnas y cada variable en un fila separada. Sin esta opción, tendríamos el
resumen estadístico en filas y variables en las columnas.

• Asimismo, se puede obtener una tabla doble sentido con el


resumen estadístico mediante la opción by( ).

© Dat Company 12
3.5 Pruebas estadísticas

• El comado ttest puede ser usado para probar hipótesis


sobre la media poblacional de una sola variable
(𝐻𝑜: 𝜇 = 𝜇∗ , para un valor especifico 𝜇∗ ) y para probar la
igualdad de medias (𝐻𝑜: 𝜇1 = 𝜇2 ).

• Para un análisis más general de la varianza y el análisis de


la covarianza, se pueden utilizar los comandos oneway y
anova.

© Dat Company 13
3.6 Gráfico de datos

• Es útil trazar un histograma o una estimación de densidad


de la variable dependiente. El comando kdensity
proporciona una estimación del núcleo de la densidad.
• Gráficos de densidad de kernel con ajuste para datos
altamente sesgados:
• kdensity nombre_variable1 if nombre_variable2==1, generate(kx1
kd1) n(número_observaciones)
• graph. twoway (line kd1 kx1) if (), name1(kd1)
• kdensity nombre_variable1 if nombre_variable2==1, generate (kx2
kd2) n(número_observaciones)
• graph. twoway (line kd2 kx2) if (), name2(kd2)
• graph. combine kd1 kd2, iscale(1.0)
© Dat Company 14

También podría gustarte