Está en la página 1de 23

UNIVERSIDAD TECNOLÓGICA NACIONAL

FACULTAD REGIONAL AVELLANEDA

PROBABILIDAD Y ESTADÍSTICA
Módulo 6: Test de Hipótesis

Autores:
Mg. María Cristina Kanobel
Lic Luis Alberto Garaventa
Lic. Andrea Alvarez

Año 2016
1. TEST DE HIPÓTESIS

Dentro de la inferencia estadística uno de los puntos más importantes son los
Test o Pruebas de Hipótesis.
Llamamos hipótesis estadística a una afirmación, una conjetura, una sospecha.
Un test de hipótesis podemos considerarlo como un juicio, donde se contrastan dos
afirmaciones: “el imputado es inocente” versus “el imputado es culpable”. En un estado de
derecho se asume la inocencia y se tiene que probar la culpabilidad. Pues bien, un test de
Hipótesis se puede pensar de la misma forma, esto es, hay dos Hipótesis complementarias:

H0 Hipótesis nula (Inocencia)


H1 Hipótesis alternativa (culpabilidad)

Luego, hay que tener en cuenta que la carga de la prueba se dará en la hipótesis alternativa.
Es decir que, en general, la hipótesis nula se plantea con el objetivo de rechazarla, de modo
de aceptar la hipótesis alternativa: en el ejemplo de juicio, vemos que se parte de la
hipótesis de inocencia del sospechoso, cuando el objetivo es rechazar dicha hipótesis para
aceptar la alternativa, que es la afirmación de culpabilidad.
Las hipótesis que se plantean en un test se refieren a parámetros estadísticos o bien, ciertas
aseveraciones estadísticas.

Ante un test de hipótesis, vamos a tomar una decisión basándonos en los resultados de un
determinado estadístico. La decisión será “Rechazar la hipótesis nula (H0)” o “No rechazar
la hipótesis nula (H0)” y, evidentemente, pueden suceder que acertemos en nuestra
conclusión o que nos equivoquemos.
Por esta razón puede ocurrir que tomemos una decisión correcta o que cometamos un error.
Esto es:

Valor de verdad de Ho
H0 es Verdadera H0 es Falsa

Rechazar H0 Error Tipo I Correcto


Regla de decisión

No Rechazar H0 Correcta Error Tipo II

Llamamos Error tipo I al error que se produce cuando se rechaza la hipótesis nula siendo
esta cierta.
Error tipo II:
Es el error que se produce cuando se acepta la hipótesis nula siendo esta falsa.

Los Test de Hipótesis pueden ser de dos tipos:

1. Paramétricos: plantean una afirmación sobre un determinado parámetro de la


población o comparan parámetros de más de una población
2. No Paramétricos: plantean una afirmación sobre la forma de una distibución o de
la relación entre variables aleatorias

Para ejemplificar un test paramétrico podemos poner a prueba una afirmación sobre la
media de la población, esto es un Test de hipótesis para la media:

H0:  = 5
H1:   5

Un ejemplo de un test no paramétrico es el llamado test de bondad de ajuste, para analizar


la forma de la distribución de probabilidades de la población de estudio:
H0: X =Bi(8,¼)
H1: X Bi(8,¼)

El primer ejemplo es un contraste que se realiza sobre el valor de un parámetro


(paramétrico) y en el segundo caso es sobre la distribución de la variable (no paramétrico).

Esta claro que en la hipótesis nula (H0) se establece el valor determinado, ya sea del
parámetro o de la distribución y en la alternativa (H1) lo indeterminado.

TEST DE HIPÓTESIS PARAMÉTRICOS

A. Test de hipótesis para la media de una población.

Como ejemplos de test paramétricos analizaremos los test de hipótesis que se realizan para
estimar la media  desconocida de una población con desviación típica. Por ejemplo:

El fabricante de máquinas envasadora de azúcar sostiene que fueron reguladas para


envasar paquetes de 1000g con un desvío de 20 g. Para verificarlo, se envasan 50 paquetes
que, resultaron con un peso promedio de 1010 kg. Con este resultado, ¿se podría rechazar
la afirmación del fabricante con un nivel de significación del 5%?

Para poner a prueba la afirmación, desarrollaremos los siguientes cinco pasos (que
siempre utilizaremos para el planteo de cualquier prueba de hipótesis)

1°) Planteo de las hipótesis

H0:  = 1000
H1:   1000

Como se duda de la afirmación del fabricante, planteamos que el peso medio es distinto del
peso postulado. Con este planteo se hace un contraste bilateral o a dos colas

2°) Fijar el nivel de significación α

Llamamos α= P( Error T1)=P ( Rechazar Ho cuando Ho es verdadera)


En nuestro caso α= 0,05
3°) Elección del Estadístico de prueba

Un estadístico es un estimador puntual del parámetro que se quiere contrastar


En este caso utilizaremos X por ser el mejor estimador de μ

Sabemos que, si X = N (  ,  ) o bien, si X no tiene distribución normal pero n es “grande”



se cumple que X ~ N (  , )
n

En nuestro caso el valor observado en la muestra es


X obs = 1010

Como, en nuestro ejemplo, el valor de σ es conocido al estandarizar la variable


obtendremos:
X −
Z= : N(0,1)

n
Partiendo del supuesto de que la hipótesis nula es verdadera tendremos que  =1000,
entonces:

X − 1000
Z= • 50
20
Con la muestra particular que disponemos, obtendremos una estimación de Z que
llamaremos z observado. Esto es:
1010− 1000
Z= • 50
20

Zobs=3,53

Este valor de z observado en la muestra nos será útil para decidir si se rechaza o no se
rechaza la Hipótesis nula.

4°) Región crítica

La región critica o región de rechazo de Ho queda determinada por el nivel de


significación α y por el sentido de la hipótesis alternativa.
En nuestro ejemplo rechazaremos Ho si resulta que µ> 1000 o bien si µ<1000

Entonces, rechazaremos H0 si |zobs|>z1-/2 es decir que:

Rc= {z/ |Z|>Z1-/2}


5°) Regla de decisión

Si el valor del estadístico (valor observado) cae en el intervalo correspondiente a la región


crítica, se rechaza la Hipótesis nula.
Si no cae dentro de ese intervalo, caerá en el intervalo correspondiente a la región que
denominaremos Región de no rechazo de Ho

En nuestro caso, si zobs ε Rc, rechazaremos Ho, de lo contrario no será posible rechazar la
hipótesis Ho

B. Test de hipótesis orientados o unilaterales

En muchas ocasiones es más útil plantear contrastes unilaterales (de una cola).
Por ejemplo:

1°) Planteo de las hipótesis

H0:  = 0
H1:  > 0

2°) Fijar α
X − 0
3°) Estadístico: Z= • n (suponiendo que se conoce el desvío)

4°) Región crítica:
Se rechazará la hipótesis nula si el valor observado es superior al valor crítico. Es decir:
Rc = {z/ z >z1-}

5°) Si zobs ε Rc se rechaza Ho, de los contrario no será posible rechazarla

Otra cuestión importante es cómo se pueden establecer los Test de Hipótesis atendiendo
a las presunciones del investigador. Veamos el siguiente ejemplo:
Un industrial dispone de una máquina que es capaz de producir 350 salchichas a la
hora. Recibe una oferta de una nueva y moderna máquina para realizar dicho trabajo.
La nueva máquina produce un número 1 de salchichas a la hora.
¿Qué test de hipótesis utilizaría el industrial si no se muestra muy convencido del
cambio de la máquina?¿Y si está dispuesto a cambiar? Justifique su respuesta.

Evidentemente la decisión de cambiar la máquina deberá estar en función del rendimiento


1 de la nueva máquina y de la actitud del empresario.
En el primer caso el empresario no está muy convencido de cambiar, el contraste que se
planteará será el siguiente:

H0: 1 = 350 (No Cambio)


H1: 1 > 350

¿Cuál es el razonamiento?
Hemos explicado que la carga de la prueba se da en la hipótesis alternativa, y dado que el
industrial no está muy dispuesto a cambiar, para forzarlo a cambiar tendremos que
demostrar que la nueva máquina es mejor, esto es que, en promedio, tiene una mayor
producción.

En el segundo caso, dado que el industrial tiene interés por renovar la máquina, sólo
tendremos que probar que la nueva máquina no es peor que la antigua, es decir, que la
producción media no es menor.

H0:1 = 350 (Cambio)


H1 1 < 350

Errores en un test de hipótesis

A continuación analizaremos los errores que están asociados a un Test o Contraste de


Hipótesis:

Denominamos
 = P(Error Tipo I)
β = P(Error Tipo II)

Para entender esto plantearemos el siguiente ejemplo:

En una población infinita cuya desviación típica vale  =5, y que se distribuye según
una ley normal, se selecciona una muestra de tamaño 25, y nos planteamos el
siguiente contraste de hipótesis:

H0:  = 15
H1:   15

Rechazaremos H0 si la media muestral cae fuera del intervalo (13.5, 16.5)

a. Calcule la probabilidad de cometer error Tipo I


Sea X la Variable aleatoria X~ N(,5)

Llamamos  = P(Error tipo I) = P(Rechazar H0 siendo Verdadera)

En nuestro ejemplo, rechazaremos Ho si la media observada en la muestra


cae fuera del intervalo (13.5, 16.5):

(
P(Error tipo I) = P X  135 ) (
. + P X  16.5 =(*) )
 
Si suponemos H0 verdadera entonces  = 15, de modo que X ~ N   ,   = N(15,1)
 n

Estandarizando obtendremos:
 X − 15 135 . − 15  X − 15 16.5 − 15
(*)= P   + P  
 1 1   1 1 
= P( Z  −15
. ) + P( Z  15
.)

Entonces será:

 = P(Error tipo I) = 0,1338

b. Suponiendo que el verdadero valor de la media es 17 calcule la probabilidad de


error del Tipo II

El error de tipo II se produce cuando se acepta H0 siendo falsa, por lo que sólo
sabemos que  es distinto de 15.

Por ejemplo, supongamos que el verdadero valor de  es 17:

 
Luego X~N(17,5) y por consiguiente X ~ N   ,  =N(17,1)
 n
Entonces:

 = P(Error Tipo II) = P(Aceptar H0 siendo falsa)

( .  X  165
= P 135 . )
 135
. − 17 X − 17 16.5 − 17 
= P   
 1 1 1 
= P( −35 .)
.  Z  −05
= P (Z<-0.5)-P(Z<-3.5)
= 1- P (Z<0.5)-(1-P(Z<3.5))
= P (Z<3.5)- P(Z<0.5)
 = P(Error Tipo II) =0.3083

Potencia de un test

1-  = P(Rechazar H0 siendo falsa)

Del cálculo anterior obtendremos que:

Potencia del test = 1- P(Error Tipo II)


= 1- 0.3083
= 0,6917

En el siguiente cuadro se resumen los pasos de los distintos test de hipótesis


paramétricos para una población y para comparación de parámetros de dos poblaciones
TEST DE HIPÓTESIS

UNA POBLACIÓN

HIPÓTESIS HIPÓTESIS REGIÓN DE INTERVALO DE CONFIANZA DE


PARÁMETRO CONDICIONES NULA ALTERNATIVA ESTADÍSTICO RECHAZO PROBABILIDAD 1-
X −μ 0 1) Z>Z1-
>0 Z=
Población 1)
σ 2) Z<Z  σ σ 
Normal =0 <0 3) Z<Z/2  x − Z1− α ; x + Z1− α 
 n 
2)
 conocido n 2 n 2

3) 0 
 Z tiene distribución Z>Z1-/2
Normal Estándar
Población X −μ 0 1) t>t1-;n-1
>0 t=
Normal 1)
S. 2) t<t;n-1  s. s. 
 desconocido =0 <0 3) t<t/2;n-1  x − t 1− α ;n −1 ; x + t 1− α ;n −1 
 n 
2)
n 2 n 2
3) 0 
t tiene distribución t de
Student con n-1 t>t 1-/2;n-1
grados de libertad
Muestra grande p̂ − p 0 1) Z>Z1-α
Z=
p=p0 1) p>p0
p 0  (1 − p 0 )
2) Z<Z  p̂  (1 − p̂ ) p̂  (1 − p̂ ) 
 p̂ − Z1− α ; p̂ + Z1− α 
p 2) p<p 3) Z<Z/2  
3) pp0 n   2 n 2 n 
Z tiene distribución
Z>Z1-/2
Normal Estándar
Población 2=20 S2 n 1) 2>21-;n-1
Normal 1)  > 20
2 χ = 2
2
2) 2<2;n-1  n  s2 n  s2 
2 σ0  2 ; 2 
2 < 20 3) 2<2/2;n-1
 χB χA
2)
3) 2  20 2 tiene distribución
 
Chi Cuadrada con n-1
grados de libertad  >21-/2;n-1
2
PRUEBAS DE HIPÓTESIS PARA LA DIFERENCIA DE MEDIAS
DOS POBLACIONES

HIPÓTESIS REGIÓN DE
CONDICIONES HIPÓTESIS NULA ESTADÍSTICO
ALTERNATIVA RECHAZO
X1 − X 2 − D 0
Poblaciones Normales Z=
σ 12 σ 22 1. Z>Z1-
Independientes + 2. Z<Z
Desvíos poblacionales n1 n 2
conocidos 3. Z<Z/2 Z>Z1-/2
Z tiene distribución Normal
Estándar
X1 − X 2 − D 0
1. 1 -2>D0 t=
2. 1 -2<D0
1 1
1 -2=D0 Sp +
Poblaciones Normales 3. 1 -2D0 n1 n 2
Independientes donde
1. t>t1-;n-1
Desvíos poblacionales S..21 (n 1 − 1) + S.22 (n 2 − 1) 2. t<t;n-1
desconocidos pero Sp = 3. t<t/2;n-1  t>t1-/2;n-1
iguales n1 + n 2 − 2
t tiene distribución t de
Student con n1+n2-2 grados
de libertad
UNIDAD 1: Estadística descriptiva 11

TEST DE HIPÓTESIS NO PARAMÉTRICOS

Entre los distintos tipos de pruebas no paramétricas podemos destacar las siguientes:

• PRUEBAS DE ASOCIACIÓN
• PRUEBAS DE HOMOGENEIDAD
• TEST DE BONDAD DE AJUSTE

Se siguen los mismos pasos que en un test de hipótesis paramétrico:


1°) Planteo de hipótesis: Ho versus H1
2°) Fijar el nivel de significación
3°) Construir el estadístico de prueba:

En este tipo de pruebas se utiliza como estadístico Chi- Cuadrado, esto es:

χ 2
=
n
(f o − f e )2
gl;1−α
i =1 fe
Siendo:
gl : grados de libertad
f o : frecuencia observada en la muestra
f e : frecuencia esperada (teórica)

Para poder utilizar esta variable Chi-cuadrado si deben cumplir ciertas condiciones:

• Las muestras son extraídas aleatoriamente


• Las muestras son independientes
• Las muestras deben ser “grandes”
• Las frecuencias esperadas deben ser por lo menos 5

La región crítica será Rc = {χ 2 gl /  gl2   gl2 ;1− } donde  gl2 ;1− =  critico
2

PRUEBAS DE ASOCIACIÓN

Mediante el análisis de datos obtenidos en una muestra se pretende establecer si las


variables involucradas son independientes o bien, si hay algún tipo de asociación entre
ellas.
UNIDAD 1: Estadística descriptiva 12

Veamos el siguiente ejemplo:

En las proximidades a un plebiscito respecto de algunas restricciones


económicas se realizó una encuesta de intención de voto. Se obtuvieron los
siguientes resultados:

A Favor En Contra Totales


V 45 73 118
M 65 60 125
Totales 110 133 243

De los datos obtenidos, con un 5% de nivel de significación, es posible afirmar


que hay alguna relación entre género del votante e intención de voto?
De la observación de la tabla podríamos decir que aparentemente hay asociación pero...
¿cómo afirmar si esa asociación se debe al azar o no?
Partiendo de la suposición de que la opción en el plebiscito no depende del sexo,
entonces si 118 de los 243 encuestados son varones (o sea el 49%) deberíamos esperar
que, de los 110 votos a favor, 54 fueran de varones (esto es, el 49%). Razonando de la
misma forma en todas las celdas elaboramos una tabla de frecuencias esperadas.

A Favor En Contra Totales


V 54 64 118
M 56 69 125
Totales 110 133 243

Para facilitar el cálculo de la tabla de valores esperados tomemos un modelo genérico:

C1 Cj Tf
f1 a11 a1j Tf1

fi aj1 ajj Tfj


TC TC1 TCj TOTA
L

Para calcular el valor de la casilla aij hacemos:

Tfi .Tcj
aij =
TOTAL
Volvamos al ejemplo y desarrollemos los pasos de un test de hipótesis:
UNIDAD 1: Estadística descriptiva 13

1º) Ho: las variables son independientes


H1: las variables no son independientes

2º) Nivel de significación


En nuestro caso es α=0,05

3º) Estadístico de prueba


( fo − fe )
2
n
Para un test de asociación se utiliza χ 2
gl = con gl=(n-1)(m-1)
i =1 fe
donde n: cantidad de filas y m: cantidad de columnas

Para facilitar el cálculo, superpondremos ambas tablas, la de frecuencia observada y la


de frecuencia esperada, esta última con los datos entre paréntesis:

A Favor En Contra Totales


V 45 (54) 73 (64) 118
M 65 (56) 60 (69) 125
Totales 110 133 243

Entonces, tendremos que:


gl=(2-1).(2-1)=1

( 45 -54) ( 73 -64) ( 65 -56 ) ( 60 -69 )


2 2 2 2

χ 2
1;0,95 = + + + =
54 64 56 69

4º) Región de rechazo

Hacemos 1-α=1-0,05= 0,95


Luego, la región crítica será:

Rc= χ 21 >χ 21;0,95 
Esto significa que rechazaremos la hipótesis nula si el valor observado en la
muestra supera al valor crítico, es decir si χ obs > χ 2crítico = χ 21;0,95
2
UNIDAD 1: Estadística descriptiva 14

5º) Decisión
Si χ
2
observado Rc entonces se rechaza Ho y se acepta H1
En cambio,
si χ 2observado Rc , no se rechaza la Ho, esto es, no hay evidencias para afirmar lo
contrario.
En el caso del ejemplo que estamos analizando, quedan para el lector el cálculo del
valor observado y la toma de decisión.

TEST DE BONDAD DE AJUSTE

Con esta prueba se pretende establecer si la población de la cual provienen los datos
de una muestra aleatoria tiene una determinada distribución de probabilidades.
Entonces:
1°) Ho: la población tiene una determinada distribución de probabilidades
H1: la población no tiene dicha distribución de probabilidades

2°) Se fija el nivel de significación α

3°) Se utiliza el mismo estadístico

( fo − fe )
2
n
χ 2
gl = siendo gl= n-1-r
i =1 fe

donde:
n es la cantidad de datos distintos y
r es la cantidad de parámetros estimados.

4°) REGIÓN DE RECHAZO

Es la misma que en el caso anterior


UNIDAD 1: Estadística descriptiva 15

Esto es: 
Rc= χ 2 >χ 2crítico 
5°) Regla de decisión:

Se procede de igual forma que para la prueba de asociación.

Veamos un ejemplo:

Para analizar el número de artículos defectuosos en una fábrica, se tomó una


muestra aleatoria de 60 artículos y se observó el número de defectuosos,
obteniéndose los siguientes resultados:

Número de artículos Frecuencia observada


defectuosos
0 32
1 15
2 9
3 4
Total 60

Analizar si los datos ajustan con una distribución Poisson. Usar α = 0,05

Entonces,
1) Planteamos las hipótesis:

Ho: el número de artículos defectuosos tiene distribución Poisson


H1: el número de artículos defectuosos no tiene distribución Poisson

2) Fijamos el nivel de significación: α = 0,05

𝜆𝑘 𝑒 −𝜆
La variable aleatoria Poisson se distribuye según: 𝑃(𝑋 = 𝑘) =
𝑘!
Al proponer esta distribución es claro debemos estimar la media a partir de los datos de
la muestra. Con el promedio de la muestra estimaremos el valor esperado de artículos
defectuosos:

𝜆̂=(32x0+15x1+9x2+4x3)/60

𝜆̂ = 0,75

Entonces:
UNIDAD 1: Estadística descriptiva 16

𝜆𝑘 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘!
= 0,472
𝑘
𝜆 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘! ]=0.354
𝜆𝑘 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘! =0.133
𝜆𝑘 𝑒 −𝜆
𝑃(𝑋 = 𝑘) = 𝑘! =0,041

Las frecuencias esperadas se calculan multiplicando el tamaño de la muestra (n=60)


por cada valor de probabilidad, esto es f esperada= n. pi
Entonces, obtendremos la siguiente tabla:

Número de artículos Frecuencia observada Frecuencia esperada


defectuosos
0 32 28,32
1 15 21,24
2 9 7,98
3 4 2,46
Total 60

Se observa que la frecuencia esperada en la última celda es menor que 5. Por


consiguiente se deben combinar las dos últimas celdas, obteniendo una nueva tabla:

Número de artículos Frecuencia observada Frecuencia esperada


defectuosos
0 32 28,32
1 15 21,24
2 o mas 13 10,44
Total 60

3`) Estadístico de prueba:

Como en los casos anteriores utilizaremos el estadístico de prueba Chi cuadrado:

( fo − fe )
2
n
=
con n-r-1 grados de libertad
χ 2
gl
i =1 fe

En este ejemplo tendremos 2 grados de libertad porque n=4 y r =1

Calculamos el valor observado en la muestra :

( fo − fe )
2
n
χ 2
gl =
i =1 fe
Luego de hacer los cálculos obtendremos

X2observado= 2,94
UNIDAD 1: Estadística descriptiva 17

3) Región de rechazo de Ho:

5) Regla de decisión:

El valor observado es 2.94<3.84, esto significa que el valor de X 2 observado NO ENTRA


EN LA REGION CRITICA.
De este modo, NO ES POSIBLE RECHAZAR Ho

Significa que podemos concluir que la distribución de los defectos ajusta con una
distribución de Poisson ya que no hay evidencias para afirmar lo contrario.
UNIDAD 1: Estadística descriptiva 18

REGRESIÓN Y CORRELACIÓN LINEAL

Se trata de establecer si existe una relación lineal entre dos variables X e Y.


Que esto ocurra significa que para cada valor de la variable independiente (X, la cual no
es una variable aleatoria), la variable dependiente (Y, la cual es una v.a.) tomará valores
α + β.x en promedio.

a. Modelo de regresión

y = α + β.x + ε

y = α + β.x : Recta de regresión poblacional


ε : error aleatorio
X: variable independiente o explicativa
Y: variable dependiente o de respuesta
α : constante poblacional (ordenada al origen)
β : pendiente poblacional (constante)

x X

b. Supuestos del modelo de regresión

▪  : variable aleatoria distribuida normalmente con media 0.

▪  i y  j son estadísticamente independientes.

▪ La v.a. Y está distribuida normalmente con E(Y)= α + β.x

▪ Las observaciones y i son independientes entre sí.

▪ La varianza de Y es la constante  2 .
UNIDAD 1: Estadística descriptiva 19

f(y)

En resumen:
Y = N(α + β.x; σ 2 )
ε = N(0 : σ 2 )

c. ESTIMACIÓN DE LA RECTA DE REGRESIÓN POBLACIONAL

y=a+bx+e es la ecuación de la recta de regresión muestral

a= α̂
b= β̂
e= ˆ
(x ; y ) : datos de la muestra aleatoria
i i

ŷ i = a + b.x i : estimación del valor de y i de la muestra.

e i = yi − yˆ i

El criterio que se emplea es el de minimizar la suma de los cuadrados de e i , lo que se


llama Método de mínimos cuadrados

ei 2 = ( yi − yˆ i )2 = ( yi − a − b.xi )2
n n n

i =1 i =1 i =1

Se deduce que:

1 n
( )( )
 ( xi − x )( y i − y )

n

2
S xy

n i =1
x i − x y i − y 
i =1
b= 2 = ==
 ( xi − x ) 2  ( xi − x ) 2
S x 1
n
a = y − bx
UNIDAD 1: Estadística descriptiva 20

Fórmulas de cálculo de S 2 x ; S 2 y y S 2 xy

n n n

x i
2
y i
2
x y i i
i =1 i =1 i =1
S2 x = − x2 S2 y = − y2 S 2 xy = − x.y
n n n

Ejemplo:

a- Grafique los datos en un sistema de ejes cartesianos (diagrama de dispersión)


b- Estime la recta de regresión poblacional
c- Interprete a y b
d- Estime el valor medio de y para x=15, 19, 21

X 15 17 20 18 21 20
Y 6.5 7 9 8.5 9 8.2

d. FUENTES DE VARIACIÓN DE LA REGRESIÓN

y i − y = (yi − ŷ i ) − (ŷ i − y)

Variación total= Variación no explicada + Variación explicada

Recta de Regresión Muestral

VNE
VT
VE

(y − y) = (y i − ŷ i ) + (ŷ i − y)


n n n
2 2 2
i
i =1 i =1 i =1

SCT=SCe + SCR

SCT: suma de cuadrados total (variabilidad total)


SCe: suma de cuadrados de error (variabilidad total no explicada)
SCR: suma de cuadrados debida a la regresión de y sobre x(variabilidad total explicada)
UNIDAD 1: Estadística descriptiva 21

e. ERROR ESTÁNDAR DE LA REGRESIÓN (Se)

Varianza de los errores:


n

 (y − ŷ i )
2

SCe  y i − a  y i − b x i y i
i 2

Se = i =1
= =
2

n−2 n−2 n−2

Error estándar de la regresión:

Se = Se 2

f. COEFICIENTE DE DETERMINACIÓN

SCR
R2 =
SCT

Es la proporción de la variación total que ha sido explicada por la recta de


regresión.
0  R2 1

g. COEFICIENTE DE CORRELACIÓN MUESTRAL

S 2 xy
r= = R2
SxSy

El signo de r depende del signo de la S xy que coincide con el signo de b (pendiente de


la recta de regresión muestral).

−1  r  1

“r” es un estimador puntual del coeficiente de correlación poblacional que en


general se lo designa con la letra ρ (ro).

1.1.1. Distribución de X

• Si X es una v.a. Normal, X es otra v.a. Normal. (Corolario del teorema de suma
de normales independientes).
• Si X es una v.a. no Normal y n es “grande” ( n  30 ), X es aproximadamente
una v.a. Normal.(Corolario del T.C.L.).

1.1.1.1. Parámetros de X

• Valor esperado de X
UNIDAD 1: Estadística descriptiva 22

 n 
 Xi 
E(X) = E  = .......... .....
i =1

 n 
 
 
E (X ) = μ
• Varianza de X
 n 
 Xi 
V(X) = V  = .......... .....
i =1

 n 
 
 
σ2
V(X ) =
n

1.1.1.2. CONCLUSIONES

 σ 
• Si X = N(μ; σ ) entonces X = Nμ; 
 n
 σ 
• Si X no es normal entonces X  Nμ; si n  30 ( por el Teorema Central del
 n
límite)

1.2. VARIANZA MUESTRAL: S 2

Sea X una población y X1 ; X 2 ;...; X n  una muestra aleatoria de dicha población.

 (X − X)
n
2
i
i =1
S2 =
n

1.2.1. Parámetros de S2

• Valor esperado de S 2

 n 
(
  Xi − X )2

( )  = 1 E  (X − X )2  = .......... .......... .....
n
E S = E i =1
 n 
2
 n i =1
i

 
 

n −1 2
E(S2)= 
n

1.3. DESVÍO MUESTRAL: S


UNIDAD 1: Estadística descriptiva 23

También podría gustarte