Está en la página 1de 18

La distribucin

t
t
de
de
student
student

O lo que es lo mismo:
La relacin entre la cerveza y los estudios de estadstica
La distribucin t de student fue descubierta por William S. Gosset en 1908.
Gosset era un estadstico empleado por la compaa de cerveza Guinness con
quien tena un contrato que estipulaba que no poda usar su nombre en sus
publicaciones. l recurri al sobrenombre de Student que es como ahora
conocemos el tipo de estadstica que desarroll.
Lo interesante del caso es que su trabajo estaba enfocado al control de calidad
de la cerveza. En el pasado otros investigadores de la compaa Guinness haban
publicado artculos en los que se divulgaban secretos o informacin confidencial
sobre el proceso de la cerveza y por eso se oblig a Gosset a aceptar la clusula.
De acuerdo al Teorema del Lmite Central, la distribucin muestral de una
estadstica (como la media de la muestra) seguir una distribucin normal,
siempre y cuando el tamao de la muestra sea suficientemente grande suficientemente grande.
Entonces cuando conocemos la desviacin estndar de la poblacin
podemos calcular un valor o calificaci valor o calificaci n z n z y emplear la distribucin normal
para evaluar probabilidades sobre la media de la muestra.
Sin embargo, muchas veces los tamaos de las muestras son muy pequeos,
y frecuentemente no conocemos la desviacin estndar de la poblacin.
Cuando estos problemas ocurren, en estadstica se recurre a una
distribucin conocida como la t de t de student student cuyos valores estn dados
por:
n
s
x
t

=
Diferencia a probar
Desviacin estndar de
la diferencia o Error
Estndar
Podemos ver que la ecuacin es prcticamente igual a la utilizada para la
distribucin muestral de medias, pero reemplazando la desviaci desviaci n n
est est ndar ndar de la poblaci de la poblaci n n por la desviaci desviaci n est n est ndar de la muestra ndar de la muestra.
De manera similar al caso de la distribucin muestral de medias para el
caso de que n > 30, en donde usamos la distribucin normal, podemos
encontrar la distribucin de los valores t de t de student student para aquellos casos para aquellos casos
cuando n cuando n < 30 < 30.
Sin embargo, otra
diferencia en su uso
es el empleo de una o
ms tablas de valores
t en lugar de la tabla
para valor Z.
3 2 1 0 -1 -2 -3
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
2
5
10
15
20
25
30
50
100
df
Curva de Distribucin
T de Student
Para derivar la ecuacin de esta distribucin, Gosset supuso que las
muestras se seleccionan de una poblacin normal. Aunque esto parecera
una suposicin muy restrictiva, se puede mostrar que las poblaciones no
normales que poseen distribuciones en forma casi de campana tambin
proporcionan valores de t que se aproximan muy de cerca a esta
distribucin.
La distribucin t difiere de la de Z en que la varianza varianza de de t t no no es es igual igual a 1 a 1
como como en la de Z en la de Z, sino que depende depende del del tama tama o o de la de la muestra muestra y siempre es
mayor a uno. Unicamente cuando el tamao de la muestra tiende a infinito
las dos distribuciones sern las mismas.
3 2 1 0 -1 -2 -3
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
2
5
10
15
20
25
30
50
100
df
Curva de Distribucin
T de Student
Otra diferencia con la distribucin normal, es que la forma de la distribuci la forma de la distribuci n t n t
de de student student depende de un par depende de un par metro llamado el n metro llamado el n mero de grados de libertad mero de grados de libertad.
El nmero de grados de libertad es igual al tamao de la muestra (nmero de
observaciones independientes) menos 1.
gl = df= n 1
Nota: cuando usemos software es posible que el nmero de grados de libertad
se denomine como df o DF (degrees of freedom).
6 4 2 0 -2 -4 -6
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
2
5
10
15
20
25
30
50
100
df
Curva de Distribucin
T de Student
6 4 2 0 -2 -4 -6
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
Distribucin Normal
Normal, Media=0, DesvEst=1
3 2 1 0 -1 -2 -3
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
2
5
10
15
20
25
30
50
100
df
Curva de Distribucin
T de Student
Las curvas muestran la forma que puede tomar la distribucin t de student la
cual depende del n depende del n mero de grados de libertad mero de grados de libertad. Como se puede apreciar se
parece mucho a la distribucin normal. Incluso, para un n para un n mero grande de mero grande de
grados de libertad (es decir de n grados de libertad (es decir de n mero de datos en la muestra) las dos mero de datos en la muestra) las dos
distribuciones son iguales distribuciones son iguales.
2 grados de libertad
100 grados de libertad
Aunque parece una distribucin normal, la distribucin t tiene un poco ms de
rea en los extremos y menos en el centro cuando los grados de libertad son
pocos.
Otro punto a notar es que la distribucin t es ms bien una colecci colecci n de n de
distribuciones, una para cada n distribuciones, una para cada n mero de grados de libertad mero de grados de libertad.
El concepto de grados de libertad se puede visualizar haciendo referencia a la
varianza muestral que es igual a:
1
) (
2
2

n
x x
s
n
i
Esta frmula puede verse como un promedio de las distancias a la media sobre
n-1 datos .
La terminologa de grados de libertad resulta del hecho de que si bien s
2
considera n cantidades, slo n 1de ellas pueden determinarse libremente.
Por ejemplo, si tenemos 4 datos (n = 4) entonces tenemos cuatro diferencias:
Pero sabemos que la suma de ellas es = 0, por lo que si conocemos, por ejemplo:
entonces, la ltima diferencia queda definida porque
por lo tanto
Lo que indica que slo 3 de las diferencias (n 1= 4 1 = 3) son libres y la
otra queda definida por las dems.
x x
i

3 , 2 , 4
4 2 1
= = = x x x x x x
3
5 x x =
4- 2 3 5 + =
5 5 0 =
La distribucin t t de student tiene las siguientes propiedades:
La media de la distribucin es igual a 0
La varianza es igual a donde df (se usa tambin ) es el nmero
de grados de libertad
La varianza es siempre mayor que 1, aunque es muy cercana a 1 cuando se
tiene un nmero de grados de libertad grande.
Con infinitos grados de libertad la distribucin t t es igual a la normal.
2 1 0 -1 -2
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
2
5
10
15
20
25
30
50
100
df
Curva de Distribucin
T de Student
2
=
df
df
s
2 df
df
La distribucin t t de student se puede usar cuando cualquiera cualquiera de las siguientes
condiciones se cumplen:
La distribuci La distribuci n de la poblaci n de la poblaci n es normal n es normal
La distribuci La distribuci n de la muestra es sim n de la muestra es sim trica, unimodal, sin puntos dispersos y trica, unimodal, sin puntos dispersos y
alejados ( alejados (outliers outliers) y el tama ) y el tama o de la muestra es de 15 o menos o de la muestra es de 15 o menos
La distribuci La distribuci n de la muestra es moderadamente asim n de la muestra es moderadamente asim trica, unimodal, sin trica, unimodal, sin
puntos dispersos ( puntos dispersos (outliers outliers) y el tama ) y el tama o de la muestra est o de la muestra est entre 16 y 30 entre 16 y 30
El tama El tama o de la muestra es mayor de 30, sin puntos dispersos (aunque en o de la muestra es mayor de 30, sin puntos dispersos (aunque en este este
caso tambi caso tambi n se puede usar la distribuci n se puede usar la distribuci n normal). n normal).
Cuando se extrae una muestra de una poblacin con distribucin normal (o casi
normal), la media de la muestra puede compararse con la media de la
poblacin usando una valor t valor t calculado por medio de la ecuacin anterior. El
valor t puede entonces asociarse con una probabilidad acumulada nica que
representa la posibilidad posibilidad de que, dada una muestra aleatoriamente extrada de
la poblacin de tamao n, la media de la muestra sea la media de la muestra sea IGUAL, MENOR o MAYOR IGUAL, MENOR o MAYOR a a
la media de la poblaci la media de la poblaci n n,
La probabilidad acumulada para una calificacin t se puede calcular en la siguiente liga:
http://stattrek.com/Tables/T.aspx
Ejemplo 1
La compaa USALUZ produce focos. El presidente de la Ca. dice que sus focos duran
300 das. Entonces la competencia va a varios (ntese) supermercados y compra 15
focos para probar esa afirmacin. Los focos de la muestra duran en promedio 290 das
con una desviacin estndar de 50 das. Entonces, si quieren desmentir al presidente
de USALUZ necesita saber c c l l es es la la probabilidad probabilidad de de que que 15 15 focos focos seleccionados seleccionados al al
azar azar tengan tengan una una vida vida promedio promedio no mayor de 290 no mayor de 290 d d as as.
La solucin de este tipo de problemas requiere calcular el valor t basado en los datos
y despus usar una tabla de distribucin t para encontrar la probabilidad de forma
similar a lo que hicimos con la distribucin normal. Existe sin embargo software con
el que podemos evitar el uso de tablas.
Solucin
Primero necesitamos calcular el valor t usando nuestra frmula
Donde es la media de la muestra, la media de la poblacin, s es la desviacin
estndar de la muestra y n el tamao de la muestra.
OK qu nos dice este valor?
7746 . 0
91 . 12
10
15
50
300 290
=

= t
x
Ahora podemos usar una tabla o software como la T Distribution Calculator T Distribution Calculator
(http://stattrek.com/Tables/T.aspx) o minitab.
Usando sta ltima seleccionamos "T score" del men de random variable e
introducimos los datos:
* Grados de libertad (): 15 - 1 = 14.
* El valor t que obtuvimos =- 0.7745966.
El resultado nos da: 0.2257. Esto significa que si la verdadera vida de un foco es de
300 das, hay una probabilidad de 22.6% de que la vida promedio de 15 focos
seleccionados al azar sea menor menor o o igual igual a 290 das y nosotros ha sabramos a qu
atenernos si queremos poner en ridculo al Presidente o Jefe.
Nota: Piensas que 22% de probabilidades de que
pase algo es mucho o poco?
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
-0.7746
0.226
0
Distribucin t
14 grados de libertad
Veamos el resultado grficamente
Ejemplo 2
Supongamos que las calificaciones de una prueba estn distribudos normalmente
con una media de 100. Ahora supongamos que seleccionamos 20 estudiantes y les
hacemos un exmen. La desviacin estndar de la muestra es de 15. Cul es la
probabilidad de que el promedio en el grupo de muestra sea cuando ms 110?
Solucin:
Primero calculamos el valor t como en el caso anterior ya sea en tablas o con ayuda
de herramientas tipo Minitab, Excel, etc. Nuestros datos son:
Nmero de grados de libertad: n-1 = 20 -1 = 19
La media de la poblacin es igual a 100
La media de la muestra es igual a 110
La desviacin estndar de la muestra es igual a 15
El valor t es
Usando estos valores nos da un resultado de probabilidad acumulada de 0.00496.
Esto implica que hay una probabilidad de 0.45% de que el promedio en una muestra
sea mayor de 110.
Ejemplo 2
Supongamos que las calificaciones de una prueba estn distribudos normalmente
con una media de 100. Ahora supongamos que seleccionamos 20 estudiantes y les
hacemos un exmen. La desviacin estndar de la muestra es de 15.
Cu Cu l l es es la la probabilidad probabilidad de de que que el el promedio promedio en el en el grupo grupo de de muestra muestra sea sea m m s s 110? 110?
9814 . 2
20
15
100 110
=

= t
Veamos el resultado grficamente
0.4
0.3
0.2
0.1
0.0
X
D
e
n
s
i
d
a
d
2.9814
0.00496
0
Distribucin t
14 grados de libertad
Solucin:
De la tabla encontramos que t
0.05
para 24 grados de libertad es 1.711. Por tanto, el
fabricante queda satisfecho con esta afirmacin si una muestra de 25 lotes rinde un
valor t entre 1.711 y 1.711.
Se procede a calcular el valor de t:
Este es un valor muy por arriba de 1.711, por lo que el fabricante dira que no es cierta
la afirmacin. Sin embargo, si se encuentra la probabilidad de obtener un valor de t
con 24 grados de libertad igual o mayor a 2.25 se busca en la tabla y es
aproximadamente de 0.02. De aqu que es probable que el fabricante concluya que el
proceso produce un mejor rendimiento de producto que el que supona.
25 . 2
25
40
500 518
=

= t
Ejemplo 3:
Un ingeniero qumico afirma que el rendimiento medio de cierto proceso en lotes es
500 gramos por milmetro de materia prima. Para verificar esta afirmacin toma una
muestra de 25 lotes cada mes.
Si el valor de t calculado cae entre t
0.05
y t
0.05
, aceptara su afirmacin (con 90% de
confianza). Qu conclusin extraera de una muestra que tiene una media de 518
gramos por milmetro y una desviacin estndar de 40 gramos? Suponga que la
distribucin de rendimientos es aproximadamente normal.
Distribucin de probabilidad para t de student
-1.711 1.711
90% del rea
El valor de
t = 2.25 cae
en esta zona
de la
distribucin

También podría gustarte