Está en la página 1de 48

Repaso de estadística básica

Juan D. Barón
Santiago de Chile, 8 de abril de 2013

1
I. CONCEPTOS ESTADÍSTICOS
BÁSICOS

2
Las decisiones se toman
bajo incertidumbre
• Las decisiones se basan en información incompleta
(ej. no sabemos la efectividad de nuevos programas)
• Cuando se discute un programa, siempre se usan
afirmaciones que dan cierta sensación de certeza
(ej. el programa reducirá la inasistencia escolar)
• Al momento de esas afirmaciones, era imposible
saber si eran ciertas
(El lenguaje es importante: Es probable que el
programa reduzca la inasistencia escolar)
• Muchas disciplinan usan la estadística para tomar
decisiones 3
Muestreo
Queremos conocer las características de una población,
pero existen restricciones de recursos y/o tiempo en la
recolección de datos
Población Muestra
Conjunto completo de Subconjunto observado
todos los objetos que de valores de la población
interesan a un de interés
investigador
Ejemplos
Los votantes de un país
Las mujeres entre 15 y 49 años
Los niños que asisten a la escuela 4
Obtención de una muestra
• En este curso verán varias formas de
seleccionar una muestra
• En el muestreo aleatorio simple cada
elemento de la población se elije
estrictamente al azar (aleatoriamente)
– La muestra resultante se llama: muestra aleatoria

5
Estadística descriptiva e inferencial

Estadística descriptiva Estadística Inferencial


Métodos gráficos y Constituye la base para
numéricos usados para hacer predicciones,
resumir, y procesar datos previsiones y estimaciones
para convertirlos en para transformar la
información información en
conocimiento

Ej: Estimaciones, pruebas de


hipótesis, análisis de
relaciones entre variables
6
Medidas de tendencia central
• A menudo queremos saber si los datos están
centrados o agrupados entorno a algún valor
• Para ello podemos usar diferentes medidas de
tendencia central:
– Media (Media aritmética): suma de todos los
valores dividida por el número de observaciones
– Moda
– Mediana

7
Medidas de dispersión o
variabilidad
• La media por sí sola no es una descripción
completa o suficiente de los datos. En general,
es de interés que tanta dispersión existe en los
datos
• Para ello existen diferentes medidas:
– Varianza y desviación típica
– Rango Inter-cuartil
– Coeficiente de variación

8
Varianza
• Varianza poblacional: • Varianza muestral:

• Estas medidas promedian la distancia total


entre cada observación y la media.

• El cuadrado asegura que las distancias positivas


no se cancelen con las negativas, y que toda la
información sea usada en el cálculo
9
Desviación típica o estándar
• Desviación estándar • Desviación estándar
poblacional: muestral:

• La desviación típica no es más que la raíz


cuadrada de la varianza

• A diferencia de la varianza, la desviación típica


esta expresada en las mismas unidades en que
están los datos 10
Medida de relación (lineal) entre
variables: coeficiente de correlación
• El coeficiente correlación (r) es una medida de la
relación (lineal), o asociación, que existe entre dos
variables
• Se calcula como el cociente entre la covarianza entre
las dos variables y el producto de las desviaciones
estándar de cada una de ellas
(poblacional y muestral)
• El coeficiente de correlación toma valores:
– Entre -1 y 1
– Cercanos a 1 si la relación es positiva
– Cercanos a -1 si la relación es negativa 11
Diferente correlaciones

12
Algunos tipos de variables
• Variables ficticias (dummy): variables que toman
solamente dos valores. En general indican alguna
características del individuo (ej. 0 para hombres;
1 para mujeres)
• Variables Continuas: Variables que pueden tomar
cualquier valor en un rango determinado
• Variables categóricas: Variable cuyos valores
indican una categoría (1=casado; 2=soltero;
3=divorciado)
13
Variables aleatorias
• Variable aleatoria:
Variable cuyo valor es incierto.

• Función de densidad de probabilidad (fdp):


(Discreta) Función que proporciona la probabilidad de
que la variable aleatoria tome cada valor
(Continua) El área bajo la fdp proporciona la
probabilidad de diferentes sucesos.
EJEMPLO DE DISTRIBUCIÓN DE PROBABILIDAD:
X ES LA SUMA DE DOS DADOS
Probabilidad

2
__ 3
__ 4
__ 5
__ 6
__ 5
__ 4
__ 3
__ 2
__
1 1
36 36 36 36 36 36 36 36 36
36 36

2 3 4 5 6 7 8 9 10 11 12 X

La distribución se muestra gráficamente. En este ejemplo ésta es simétrica, el valor más


alto que X toma es 7, y se reduce a cualquiera de los dos lados.
14
Variables aleatorias continuas ¿Cómo luce la
distribución Normal y t?

normal distribution

t-distribution

Tenga en cuenta que en la medida en que la muestra es mas grande (>100) la


distribución de probabilidad normal es una buena aproximación a la distribución
t de Student
Estimador y estimación
• Un estimador de un parámetro poblacional es
una variable aleatoria que depende de la
información de la muestra
– Vimos el estimador de la media, la varianza, y del
coeficiente de correlación poblacional
– Si aplicamos estos estimadores (fórmulas) a
diferentes muestras de la misma población,
obtendremos diversas estimaciones
– Dichas estimaciones son aproximaciones a esos
parámetro desconocidos de la población
17
Error estándar vs.
Desviación estándar
• La desviación estándar es una medida de la
dispersión de los datos alrededor de la media
en una muestra.
• El error estándar describe qué tan preciso es
el estimador de la media poblacional.
• Veremos algunos resultados de Stata que
muestran estas diferencias.

18
Intervalos de confianza
• Un estimador de un intervalo de confianza de
un parámetro poblacional es una regla
(basada en información muestral) para hallar
un intervalo que es probable que incluya ese
parámetro.
• Si se hacen repetidos muestreos de una
población y se calculan intervalos, a largo
plazo el “95%” de los intervalos contendrá el
verdadero valor desconocido del parámetro
19
Intervalo de confianza de
media poblacional (varianza no conocida)

20
Intervalos de confianza
• Los intervalos de confianza son calculados
fácilmente en Stata u otros programas
• Usualmente son presentados en gráficos:

21
II. PRUEBAS DE HIPOTESIS

22
Prueba de hipótesis
• Para realizar pruebas de hipótesis necesitamos
– Hipótesis nula en términos de parámetro poblacional (Ho)
– Una hipótesis alternativa (Ha)
– Un nivel de significancia de la prueba (α=5%)
– Un estadístico calculado a partir de la información en la
muestra (estadístico t)
– Conocer la distribución muestral para el estimador
(valor crítico)
– Una regla de decisión (En general, si el valor absoluto del
estadístico es mayor que el del valor crítico, entonces
rechace Ho en favor de Ha.)
23
El valor p
• La gran mayoría de programas estadísticos
arrojan un valor-p que nos sirve para hacer
una prueba de hipótesis bastante rápido
• El valor p es el nivel de significancia más bajo
al que puede rechazarse la hipótesis nula.
– El valor p toma valores entre 0 y 1
– Si: valor p < nivel de signif. (5%) => Rechaza Ho
– Lleva a las mismas conclusiones que hacer las
pruebas comparando estadístico con valor critico
en tablas 24
Prueba de la diferencia de medias
Queremos evaluar si los resultados promedio de hombres y mujeres en una
prueba académica son los mismos (Ho).

ttest write, by(female) unequal

Two-sample t test with unequal variances


------------------------------------------------------------------------------
Group | Obs Mean Std. Err. Std. Dev. [95% Conf. Interval]
---------+--------------------------------------------------------------------
male | 91 50.12088 1.080274 10.30516 47.97473 52.26703
female | 109 54.99083 .7790686 8.133715 53.44658 56.53507
---------+--------------------------------------------------------------------
combined | 200 52.775 .6702372 9.478586 51.45332 54.09668
---------+--------------------------------------------------------------------
diff | -4.869947 1.331894 -7.499159 -2.240734
------------------------------------------------------------------------------
diff = mean(male) - mean(female) t = -3.6564
Ho: diff = 0 Satterthwaite's degrees of freedom = 169.707

Ha: diff < 0 Ha: diff != 0 Ha: diff > 0


Pr(T < t) = 0.0002 Pr(|T| > |t|) = 0.0003 Pr(T > t) = 0.9998

25
III. REGRESION SIMPLE

26
Terminología y = β 0 + β1 x + u

• x y y vienen de dos poblaciones y queremos


“explicar y en términos de x” (ejemplos)
• En el modelo de regresión lineal simple,
donde y = β0 + β1x + u, nos referimos a y
como
– Variable Dependiente,
– Variable de lado izquierdo,
– Variable Explicada, o
– Regresando
27
Terminología (cont.)
y = β 0 + β1 x + u
• En el modelo de regresión lineal simple y en
x, nos referimos a x como
– Variable Independiente,
– Variable del lado derecho,
– Variable Explicativa,
– Regresora,
– Covariable, o
– Variables de Control

28
Terminología (cont.)
y = β 0 + β1 x + u
• En el modelo de regresión lineal simple y en
x, nos referimos a u como
– Término de error
– Representa TODOS aquellos factores, aparte de x
que afectan a y.
– u = unobserved (“no observado”)

29
Recuerde: esta línea (FRP) no la conocemos,
30
ni la conoceremos jamás
Terminología (cont.)
y = β 0 + β1 x + u
• En el modelo de regresión lineal simple y en
x, nos referimos a los parámetros como:
– β 0 : el intercepto
– β1 : coeficiente de pendiente
Si otros factores en u se mantienen constantes,
entonces x tiene un “efecto” lineal en y:
∆y = β1∆x
– Pregunta: Si x aumenta en una unidad, ceteris
paribus, ¿en cuánto aumenta y?
31
Supuestos sobre el modelo

• ¿Será que el modelo de regresión simple nos permite llegar a


conclusiones ceteris paribus sobre el efecto de x en y?

• Vimos que β1 sí mide el efecto de x en y, manteniendo todos los otros


factores (en u) constantes.
• Pero, ¿cómo podemos aprender sobre el efecto de x en y,
manteniendo otros factores constantes, cuando no conocemos los
otros factores?
• Solo podemos obtener estimadores confiables de β0 y β1 (de una
muestra aleatoria) cuando hacemos un supuesto bastante fuerte que
restringe la relación entre u y las variables explicatorias, x.
El estimador MCO de la pendiente

∑ (x − x )( y
i i − y)
βˆ1 = i =1
n

∑ (x − x )
2
i
i =1
n
toda vez que ∑ ( xi − x ) > 0
2

i =1

33
El estimador MCO de la pendiente
• La pendiente estimada es la covarianza muestral
entre x y y dividida por la varianza muestral de x

• Si x y y están correlacionadas positivamente, la


pendiente será positiva

• Si x y y están correlacionadas negativamente, la


pendiente será negativa

• Solo necesitamos que x varíe en la muestra


34
Más sobre MCO
• Intutivamente, MCO ajusta una línea a través de los
datos muestrales de modo que la suma de los
residuos al cuadrado sea la mínima posible, de ahí el
término mínimos cuadrados

35
Bondad de ajuste del modelo (R2)

• ¿Cómo saber qué tan bueno es el ajuste entre la


línea de regresión y los datos de la muestra?

• Podemos calcular la proporción de la suma total


de cuadrados (STC) que es explicada por el
modelo, llamada R-cuadrado de la regresión

R2 = SEC/STC = 1 – SRC/STC

El R2 nos dice la fracción de la variación muestral de y que es


explicada por x. (Toma valores entre 0 y 1)
36
INTERPRETACION DE UNA ECUACION DE REGRESION

300
SALARIO POR HOJA DE TRABAJO
100 0 200

0 5 10 15 20
ESCOLARIDAD EN AÑOS

Esta gráfica para Colombia, usa información para 696 personas entre 25 y 60 años de la
Encuesta de Hogares, año 1977. En el eje vertical esta el salario por hora y en el eje
horizontal esta el numero de años de escolaridad.
1
INTERPRETACION DE UNA ECUACION DE REGRESION

300
200
100
0
Salario = 4.12 + 3.26 S

0 5 10 15 20
ESCOLARIDAD EN AÑOS

SALARIO POR HOJA DE TRABAJO Fitted values

Y para Colombia esta es la gráfica. Para Colombia b1= 4.12, b2=3.26

1
INTERPRETACION DE UNA ECUACION DE REGRESION

. regress hwage s

Source | SS df MS Number of obs = 696


-------------+------------------------------ F( 1, 694) = 178.80
Model | 140010.958 1 140010.958 Prob > F = 0.0000
Residual | 543447.818 694 783.06602 R-squared = 0.2049
-------------+------------------------------ Adj R-squared = 0.2037
Total | 683458.776 695 983.393922 Root MSE = 27.983

------------------------------------------------------------------------------
hwage | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
s | 3.263788 .2440844 13.37 0.000 2.784555 3.74302
_cons | 4.117141 2.006894 2.05 0.041 .1768284 8.057453
------------------------------------------------------------------------------

Estos son los resultados! ¿Cuál es la interpretación de cada coeficiente?


Evaluando hipótesis:
La prueba de significancia
• Asuma que la ecuación de regresión está dada por
para t=1,2,...,T
yt = α + βxt + ut

• Los pasos para hacer la prueba de significancia:


1. Estimeα , β y SE(α ) , SE( β ) de la manera usual

2. Calcule el estadístico t. Este esta dado por la fórmula


β − β *
test statistic =
SE ( β )
donde β * es el valor de β bajo la hipótesis nula
La prueba de significancia (cont.)

3. Necesitaremos una distribución tabulada con la cual podamos comparar


el t-estadístico estimado. Se puede mostrar que los estadísticos calculados de
esta forma siguen una distribución t Student con T-2 grados de libertad.

4. Necesitaremos seleccionar un “nivel de significancia”, denotado α. A


este también se le conoce como el tamaño de la prueba y determina la región
donde rechazaremos o no rechazaremos la hipótesis nula que estamos
evaluando. Usualmente se usa un nivel de significancia de 5%.
Explicación intuitiva: Solo esperaremos un resultado tan extremo como este
o más extremo en 5% de las veces como consecuencia de la aleatoriedad de la
muestra.
También es común usar niveles de significancia de 10% y 1%, aunque 5% es
el más usado.
Encontrando la región de rechazo
en la prueba de significancia
5. Dado el nivel de significancia, podemos determinar la región de rechazo
y de no-rechazo. Para un test a dos colas:
f(x)

2.5% 95% non-rejection 2.5%


rejection region i rejection region
La prueba de significancia: Interpretación

6. Use la tabla de la distribución para obtener un valor crítico con el que


compararemos el estadístico t.

7. Finalmente, haga la prueba. Si el estadístico de la prueba cae en la


región de rechazo, rechace la hipótesis nula (H0), en otro caos NO SE
RECHAZA H0.

Lenguaje: Se habla de “rechazar y no rechazar” una hipótesis,


NO se habla de aceptar una hipótesis.
IV. REGRESION MULTIVARIADA

44
Similitudes con Regresión Simple
• y = β0 + β1x1 + β2x2 + . . . βkxk + u

• β0 es el intercepto
• β1 a βk se conocen como parámetros de
pendiente
• u es el término de error
• Supuestos fuertes se necesitan para una
interpretación causal entre la variable y y las
variables independientes (x).

45
Ejemplo
salario = β 0 + β1educ + β 2 exper + u
• Estamos interesados en el efecto de la educación en el salario
(es decir beta1), pero manteniendo constantes otros factores
que afectan el salario. ¿Interpretación de beta2?
• En regresión simple, la experiencia está en el error, y debemos
asumir que la experiencia no tiene ninguna relación con la
educación (supuesto de media condicional cero). Increíble y
afecta la interpretación causal del modelo.
•Dado que la educación aparece explícitamente en la ecuación,
podemos medir el efecto de la educación en los salarios
manteniendo la experiencia constante.
•Aquí también necesitamos supuestos sobre la relación del
error con las variables educación y experiencia. 46
Regresionon multivariada (salida de Stata)
. reg SALARIO EDUC EXP

Source | SS df MS Number of obs = 540


-------------+------------------------------ F( 2, 537) = 67.54
Model | 22513.6473 2 11256.8237 Prob > F = 0.0000
Residual | 89496.5838 537 166.660305 R-squared = 0.2010
-------------+------------------------------ Adj R-squared = 0.1980
Total | 112010.231 539 207.811189 Root MSE = 12.91

------------------------------------------------------------------------------
SALARIO | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
EDUC | 2.678125 .2336497 11.46 0.000 2.219146 3.137105
EXP | .5624326 .1285136 4.38 0.000 .3099816 .8148837
_cons | -26.48501 4.27251 -6.20 0.000 -34.87789 -18.09213
------------------------------------------------------------------------------

SALAˆ RIO = −26.49 + 2.68 EDUC + 0.56 EXP

1
Repaso de estadística básica
Juan D. Barón
Santiago de Chile, 8 de abril de 2013

48

También podría gustarte