Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Juan D. Barón
Santiago de Chile, 8 de abril de 2013
1
I. CONCEPTOS ESTADÍSTICOS
BÁSICOS
2
Las decisiones se toman
bajo incertidumbre
• Las decisiones se basan en información incompleta
(ej. no sabemos la efectividad de nuevos programas)
• Cuando se discute un programa, siempre se usan
afirmaciones que dan cierta sensación de certeza
(ej. el programa reducirá la inasistencia escolar)
• Al momento de esas afirmaciones, era imposible
saber si eran ciertas
(El lenguaje es importante: Es probable que el
programa reduzca la inasistencia escolar)
• Muchas disciplinan usan la estadística para tomar
decisiones 3
Muestreo
Queremos conocer las características de una población,
pero existen restricciones de recursos y/o tiempo en la
recolección de datos
Población Muestra
Conjunto completo de Subconjunto observado
todos los objetos que de valores de la población
interesan a un de interés
investigador
Ejemplos
Los votantes de un país
Las mujeres entre 15 y 49 años
Los niños que asisten a la escuela 4
Obtención de una muestra
• En este curso verán varias formas de
seleccionar una muestra
• En el muestreo aleatorio simple cada
elemento de la población se elije
estrictamente al azar (aleatoriamente)
– La muestra resultante se llama: muestra aleatoria
5
Estadística descriptiva e inferencial
7
Medidas de dispersión o
variabilidad
• La media por sí sola no es una descripción
completa o suficiente de los datos. En general,
es de interés que tanta dispersión existe en los
datos
• Para ello existen diferentes medidas:
– Varianza y desviación típica
– Rango Inter-cuartil
– Coeficiente de variación
8
Varianza
• Varianza poblacional: • Varianza muestral:
12
Algunos tipos de variables
• Variables ficticias (dummy): variables que toman
solamente dos valores. En general indican alguna
características del individuo (ej. 0 para hombres;
1 para mujeres)
• Variables Continuas: Variables que pueden tomar
cualquier valor en un rango determinado
• Variables categóricas: Variable cuyos valores
indican una categoría (1=casado; 2=soltero;
3=divorciado)
13
Variables aleatorias
• Variable aleatoria:
Variable cuyo valor es incierto.
2
__ 3
__ 4
__ 5
__ 6
__ 5
__ 4
__ 3
__ 2
__
1 1
36 36 36 36 36 36 36 36 36
36 36
2 3 4 5 6 7 8 9 10 11 12 X
normal distribution
t-distribution
18
Intervalos de confianza
• Un estimador de un intervalo de confianza de
un parámetro poblacional es una regla
(basada en información muestral) para hallar
un intervalo que es probable que incluya ese
parámetro.
• Si se hacen repetidos muestreos de una
población y se calculan intervalos, a largo
plazo el “95%” de los intervalos contendrá el
verdadero valor desconocido del parámetro
19
Intervalo de confianza de
media poblacional (varianza no conocida)
20
Intervalos de confianza
• Los intervalos de confianza son calculados
fácilmente en Stata u otros programas
• Usualmente son presentados en gráficos:
21
II. PRUEBAS DE HIPOTESIS
22
Prueba de hipótesis
• Para realizar pruebas de hipótesis necesitamos
– Hipótesis nula en términos de parámetro poblacional (Ho)
– Una hipótesis alternativa (Ha)
– Un nivel de significancia de la prueba (α=5%)
– Un estadístico calculado a partir de la información en la
muestra (estadístico t)
– Conocer la distribución muestral para el estimador
(valor crítico)
– Una regla de decisión (En general, si el valor absoluto del
estadístico es mayor que el del valor crítico, entonces
rechace Ho en favor de Ha.)
23
El valor p
• La gran mayoría de programas estadísticos
arrojan un valor-p que nos sirve para hacer
una prueba de hipótesis bastante rápido
• El valor p es el nivel de significancia más bajo
al que puede rechazarse la hipótesis nula.
– El valor p toma valores entre 0 y 1
– Si: valor p < nivel de signif. (5%) => Rechaza Ho
– Lleva a las mismas conclusiones que hacer las
pruebas comparando estadístico con valor critico
en tablas 24
Prueba de la diferencia de medias
Queremos evaluar si los resultados promedio de hombres y mujeres en una
prueba académica son los mismos (Ho).
25
III. REGRESION SIMPLE
26
Terminología y = β 0 + β1 x + u
28
Terminología (cont.)
y = β 0 + β1 x + u
• En el modelo de regresión lineal simple y en
x, nos referimos a u como
– Término de error
– Representa TODOS aquellos factores, aparte de x
que afectan a y.
– u = unobserved (“no observado”)
29
Recuerde: esta línea (FRP) no la conocemos,
30
ni la conoceremos jamás
Terminología (cont.)
y = β 0 + β1 x + u
• En el modelo de regresión lineal simple y en
x, nos referimos a los parámetros como:
– β 0 : el intercepto
– β1 : coeficiente de pendiente
Si otros factores en u se mantienen constantes,
entonces x tiene un “efecto” lineal en y:
∆y = β1∆x
– Pregunta: Si x aumenta en una unidad, ceteris
paribus, ¿en cuánto aumenta y?
31
Supuestos sobre el modelo
∑ (x − x )( y
i i − y)
βˆ1 = i =1
n
∑ (x − x )
2
i
i =1
n
toda vez que ∑ ( xi − x ) > 0
2
i =1
33
El estimador MCO de la pendiente
• La pendiente estimada es la covarianza muestral
entre x y y dividida por la varianza muestral de x
35
Bondad de ajuste del modelo (R2)
R2 = SEC/STC = 1 – SRC/STC
300
SALARIO POR HOJA DE TRABAJO
100 0 200
0 5 10 15 20
ESCOLARIDAD EN AÑOS
Esta gráfica para Colombia, usa información para 696 personas entre 25 y 60 años de la
Encuesta de Hogares, año 1977. En el eje vertical esta el salario por hora y en el eje
horizontal esta el numero de años de escolaridad.
1
INTERPRETACION DE UNA ECUACION DE REGRESION
300
200
100
0
Salario = 4.12 + 3.26 S
0 5 10 15 20
ESCOLARIDAD EN AÑOS
1
INTERPRETACION DE UNA ECUACION DE REGRESION
. regress hwage s
------------------------------------------------------------------------------
hwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
s | 3.263788 .2440844 13.37 0.000 2.784555 3.74302
_cons | 4.117141 2.006894 2.05 0.041 .1768284 8.057453
------------------------------------------------------------------------------
44
Similitudes con Regresión Simple
• y = β0 + β1x1 + β2x2 + . . . βkxk + u
• β0 es el intercepto
• β1 a βk se conocen como parámetros de
pendiente
• u es el término de error
• Supuestos fuertes se necesitan para una
interpretación causal entre la variable y y las
variables independientes (x).
45
Ejemplo
salario = β 0 + β1educ + β 2 exper + u
• Estamos interesados en el efecto de la educación en el salario
(es decir beta1), pero manteniendo constantes otros factores
que afectan el salario. ¿Interpretación de beta2?
• En regresión simple, la experiencia está en el error, y debemos
asumir que la experiencia no tiene ninguna relación con la
educación (supuesto de media condicional cero). Increíble y
afecta la interpretación causal del modelo.
•Dado que la educación aparece explícitamente en la ecuación,
podemos medir el efecto de la educación en los salarios
manteniendo la experiencia constante.
•Aquí también necesitamos supuestos sobre la relación del
error con las variables educación y experiencia. 46
Regresionon multivariada (salida de Stata)
. reg SALARIO EDUC EXP
------------------------------------------------------------------------------
SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
EDUC | 2.678125 .2336497 11.46 0.000 2.219146 3.137105
EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837
_cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213
------------------------------------------------------------------------------
1
Repaso de estadística básica
Juan D. Barón
Santiago de Chile, 8 de abril de 2013
48