Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Uno de los aspectos más relevantes de la Estadística es el aná lisis de la relació n o dependencia entre variables.
Frecuentemente resulta de interé s conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir
en mayor o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres
influyen significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media de los hijos cuyos
padres presentan una determinada estatura.
Los mé todos de regresió n estudian la construcció n de modelos para explicar o representar la dependencia entre una
variable respuesta o dependiente (Y ) y la(s) variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos el
modelo de regresió n lineal, que tiene lugar cuando la dependencia es de tipo lineal, y daremos respuesta a dos cuestiones
básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y ? ¿Es significativa la dependencia lineal entre esas
dos variables?.
• De ser así, utilizaremos el modelo de regresió n lineal simple para explicar y predecir la variable dependiente (Y ) a
partir de valores observados en la independiente (X).
Ejemplo 9.1. El inventor de un nuevo material aislante quiere determinar la magnitud de la compresió n (Y ) que se
producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes cantidades de presió n (X). Para ello
prueba 5 piezas de material bajo diferentes presiones. Los pares de valores observados (x, y) se muestran en la
siguiente tabla:
Y = β0 + β1X + ε
En esta expresió n estamos admitiendo que todos los factores o causas que influyen en la variable respuesta Y pueden
dividirse en dos grupos: el primero contiene a una variable explicativa X y el segundo incluye un conjunto amplio de factores
no controlados que englobaremos bajo el nombre de perturbació n o error aleatorio, ε, que provoca que la dependencia entre
las variables dependiente e independiente no sea perfecta, sino que esté sujeta a incertidumbre. Por ejemplo, en el consumo
de gasolina de un vehículo (Y ) influyen la velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera,
las condiciones ambientales, etc, que quedarían englobados en el error.
Lo que en primer lugar sería deseable en un modelo de regresió n es que estos errores aleatorios sean en media cero para
cualquier valor x de X, es decir, E[ε/X = x] = E[ε] = 0, y por lo tanto:
ˆ
•Para un valor x se predice un valor en Y dado por y =E[Y/X=x]= β0 + β1x, por lo que el modelo de predicció n puede
expresarse tambié n ˆ como Y = β0 + β1X.
• El parámetro β0 es la ordenada al origen del modelo (punto de corte con el eje Y) y β1 la pendiente, que puede interpretarse
como el incremento de la variable dependiente por cada incremento en una unidad de la variable independiente. Estos
parámetros son desconocidos y habrá que estimarlos de cara a realizar predicciones.
Ademá s de la hípotesis establecida sobre los errores de que en media han de ser cero, se establecen las siguientes hipó tesis:
Nuestro objetivo en adelante será medir la bondad del ajuste de la recta de regresió n a los datos observados y cuantificar al
mismo tiempo el grado de asociació n lineal existente entre las variables en cuestió n. A mejor ajuste, mejores serán las
predicciones realizadas con el modelo.
La evaluació n global de una recta de regresió n puede hacerse mediante la varianza residual, que como sabemos es un índice
de la precisió n del modelo. Sin embargo, esta medida no es ú til para comparar rectas de regresió n de variables distintas, o
comparar el grado de asociació n lineal entre distintos pares de variables, ya que depende de las unidades de medida de las
variables.
Como solució n al inconveniente planteado, para medir la asociació n lineal entre dos variables X e Y se utiliza una medida
adimensional denominada coeficiente de correlació n lineal, dado por:
Los intervalos de predicción y confianza a menudo se confunden entre sí. Sin embargo,
no son exactamente lo mismo.
Un intervalo de confianza es un rango de valores asociados con un parámetro de
población. Por ejemplo, la media de una población.
Al igual que la mayoría de las cosas en las estadísticas, no significa que pueda predecir
con certeza dónde caerá un solo valor.
Los intervalos de confianza siempre están asociados con un nivel de confianza, lo que
representa un grado de incertidumbre (los datos son aleatorios, por lo que los resultados
del análisis estadístico nunca son 100% seguros).
Por ejemplo, podría decir que la vida media de una batería (con un nivel de confianza del
95%) es de 100 a 110 horas. Esto le indica que una batería caerá en el rango de 100 a
110 horas el 95% del tiempo.
Del mismo modo, el intervalo de predicción le indica dónde caerá un valor en el futuro,
dadas suficientes muestras, un cierto porcentaje del tiempo. Un intervalo de predicción
del 95% de 100 a 110 horas para la vida media de una batería le indica que las baterías
futuras producidas caerán en ese rango el 95% del tiempo. Hay un 5% de posibilidades
de que una batería no caiga en este intervalo.
Cuando usarlo
E[Y/X = x] = β0 + β1x,
E[Y/X = x].
Ambas cantidades están sujetas a incertidumbre, que será tanto mayor cuanto peor sea el ajuste realizado
mediante la recta de regresión. Para concluir el tema, establecemos un intervalo de confianza para estas
cantidades.
Proposición. Podemos decir que con un (1 − α)x100% de confianza que cuando X = x, el valor predicho en Y
o el valor medio estimado en Y,E[Y/X = x], se encuentran en el intervalo:
La recta de regresió n ajustada era Y = −0.1 + 0.7X, con lo cual para un x=6 se predice un valor en Y
igual a
yˆ =−0.1+0.7∗6 = 4.1
b. ¿En qué medida son fiables las predicciones realizadas con la recta de regresió n ajustada?
Como el coeficiente de determinació n es igual a 0.81, las predicciones realizadas con la recta será n
fiables en un 81%.
c. Determinar un Intervalo al 95% de confianza para el valor medio de compresió n a una presió n de 6 .
Donde:
x = 6 es el nuevo valor para el pronóstico de la variable independiente fuera del periodo con datos de
observación
Tabla t-Student
Los grados de libertad n-1 están directamente relacionados con el tamaño de la muestra n. A medida que
el tamaño de la muestra y los grados de libertad se incrementan, S se vuelve una mejor estimación de y la
distribución t gradualmente se acerca a la distribución normal estandarizada hasta que ambas son
virtualmente idénticas. Con una muestra de 120 o más, S estima con la suficiente precisión como para que
haya poca diferencia entre las distribuciones t y Z. Por esta razón, la mayoría de los especialistas en
estadística usan Z en lugar de t cuando el tamaño de la muestra es igual o mayor de 30.
Ejemplo: Imagínese una clase con 40 sillas vacías, cada uno elige un asiento de los que están vacíos.
Naturalmente el primer alumno podrá elegir de entre 40 sillas, el segundo de entre 39, y así el número irá
disminuyendo hasta que llegue el último alumno. En este punto no hay otra elección (grado de libertad) y
aquel último estudiante simplemente se sentará en la silla que queda. De este modo, los 40 alumnos
tienen 39 o n-1 grados de libertad.
Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo, con 10
grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se
muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se
encuentran en cada extremo de la distribución. Buscando en la columna para un área de la cola superior y
en la fila correspondiente a 10 grados de libertad, se obtiene un valor crítico para t de 1.812. Puesto que t
es una distribución simétrica con una media 0, si el valor de la cola superior es +1.812, el valor para el área
de la cola inferior (0,05 inferior) sería -1.812. Un valor t de -1.812 significa que la probabilidad de que t sea
menor a -1.812, es 0,05, o 5% (vea la figura).
5. Dado el nivel de significancia, podemos determinar la región de rechazo y de no-rechazo. Para un test a
dos colas:
Nivel de confianza
Tipo de intervalo
Especifique si el intervalo que se utilizará será un intervalo de confianza de dos lados, un intervalo que solo
tiene un límite superior o un intervalo que solo tiene un límite inferior.
DESGRACIADAMENTE NO HAY UN ÚNICO TIPO DE TABLA t-STUDENT
1. 29. Intervalos de confianza e intervalos de predicción.
Hemos dicho (sección 27.3) que la recta ajustada puede utilizarse de dos maneras
distintas
d) para predecir varios valores futuros de Y para cada uno con un valor fijo de x
diferente.
e) realizar predicciones del valor de X que dio lugar al nuevo valor observado de Y.
nueva)
Si llamamos s(a+bx a
En particular si α = 0.05, el 95% de confianza significa que el intervalo es uno de una familia de
nueva
intervalos, tal que 95 de cada 100 contienen la verdadera media de Y para ese valor fijo de x (x )
; 5 no. Podemos confiar en que el que tenemos es uno de esos 95.
Figura 18. Intervalos de confianza junto con los intervalos de predicción para una observación
futura
La expresión general de los límites de predicción del (1-α) 100 % para una observación futura
(ynueva) para el valor xnueva de la variable explicativa es:
La única diferencia entre el intervalo de confianza (21) y el de predicción (22) es que aparece un 1
dentro de la raíz. Esta diferencia hace que la longitud de los intervalos de confianza pueda
hacerse tan pequeña como se quiera, con tal de tomar suficientes observaciones, mientras que la
longitud de los intervalos de predicción nunca pueda ser menor que 2 tn-2, α/2 σˆ
Si la cantidad de observaciones es grande la raíz que aparece en la expresión (22) es
aproximadamente igual a 1 y la longitud del intervalo de predicción de nivel 0.95, resulta cerca de
4s. Por lo tanto, si estamos interesados en predicción, 4σˆ es un excelente indicio de la calidad
del ajuste, y como consecuencia, de la incerteza de las predicciones.
Ejemplo: Interesa estudiar la relación entre la pureza del oxigeno (Y) producido en un proceso de
destilación y el porcentaje de hidrocarburos (X) presentes en el condensador principal de la unidad
de destilación. No se conoce un modelo determinístico funcional que relacione la pureza del
oxígeno con los niveles de hidrocarburo.
El diagrama de dispersión de la figura 19 muestra que a pesar de que ninguna curva simple
pasará por todos los puntos hay una tendencia lineal creciente de manera que es razonable
suponer que la media de la pureza de oxígeno esté relacionada linealmente con el nivel de
hidrocarburos.
La tabla 4 los coeficientes y sus errores estándar, resultantes de un ajuste de cuadrados mínimos
a los datos de la pureza de oxígeno. La variable X (% de hidrocarburos) es estadísticamente
significativa.
Figura 20
Los gráficos de la figura 20 nos permiten concluir que los datos no presentan alejamientos de los
supuestos de Normalidad y homoscedasticidad.
Figura 21. Recta ajustada junto con las bandas de confianza y de predicción del 95%
La banda interna de la figura 21 es la banda de confianza (21). El intervalo más angosto, (91.650 , 92.671),
se encuentra en el nivel promedio de hidrocarburos ( x = 1.196 %). Los intervalos se van ensanchando a
medida que aumenta la distancia a dicho valor promedio. Un alto porcentaje de valores observados cae
fuera de la banda de confianza. Esto pone de manifiesto que dichas bandas están formadas por intervalos
de confianza para la respuesta media, nada dicen respecto de los valores de la variable de interés.
La longitud de estos intervalos decrece con el aumento del tamaño de la muestra y/o de la dispersión de
los valores de la variable independiente.
Siguiendo con el ejemplo, en el nivel promedio de hidrocarburos (1.196 %), el intervalo de predicción es
(89.821 ; 94.500). Los intervalos de predicción (22) del 95% también se ensanchan con la distancia al nivel
promedio de hidrocarburos, aunque esto no se ve fácilmente de la figura.
Distribución T de Students.
Tiene características similares a la distribución normal, su diferencia principal radica en las áreas de los extremos las
cuales son más amplias, como consecuencia de que usualmente se trabaja con muestras pequeñas. La sintaxis en
Excel es: DISTR.T(x;grados_de_libertad;colas)
X es el valor numérico al que se ha de evaluar la distribución. Grados_de_libertad es un entero que indica el número
de grados de libertad. Colas especifica el número de colas de la distribución que se ha de devolver. Toma los valores
de 1 o 2.
La banda interna de la figura 21 es la banda de confianza (21). El intervalo más angosto, (91.650 , 92.671), se encuentra
en el nivel promedio de hidrocarburos ( x = 1.196 %). Los intervalos se van ensanchando a medida que aumenta la
distancia a dicho valor promedio. Un alto porcentaje de valores observados cae fuera de la banda de confianza. Esto
pone de manifiesto que dichas bandas están formadas por intervalos de confianza para la respuesta media, nada dicen
respecto de los valores de la variable de interés.
La longitud de estos intervalos decrece con el aumento del tamaño de la muestra y/o de la dispersión de los valores de
la variable independiente.
Siguiendo con el ejemplo, en el nivel promedio de hidrocarburos (1.196 %), el intervalo de predicción es (89.821 ;
94.500). Los intervalos de predicción (22) del 95% también se ensanchan con la distancia al nivel promedio de
hidrocarburos, aunque esto no se ve fácilmente de la figura.
El nombre de la distribución se debe a su autor W.S. Gosset, quien le dio el seudónimo de T de Student ante la
imposibilidad de presentar sus trabajos so pena de perder su empleo, esto sucedió a principio del siglo XX.
Esta distribución es recomendada cuando se requiere estimar la media poblacional y no se conoce la desviación
estándar y por lo tanto, hay que estimarla, eso si, siempre y cuando la distribución original sea aproximadamente
normal.
Otro término utilizado en ésta distribución continua, es el de grados de libertad (g.l), el cual de manera intuitiva se
expone así:
Y= x1 ± x2 ± x3 ± x4 , para satisfacer la ecuación, tres variables se pueden cambiar a libertad, pero una de ellas no, por
eso, cuando se tiene una sola muestra, se hable de n-1 g.l. A medida que se aumenten los g.l. la distribución t, se
aproxima a la distribución Z de la normal. Otra lectura que se puede dar es que los g.l es una medida del número de
observaciones independientes en la muestra, que se usan para estimar la desviación estándar.
En general, cuando el tamaño de muestra no sea muy pequeño y la simetría no sea alta, se puede usar para estimar
la media poblacional cuando no se conoce la desviación.
La tabla da áreas 1 - a , para valores menores o iguales a t y n g.l, se construyó con Excel.
1-a
Es importante resaltar que al ser una distribución simétrica al tener información sobre un valor positivo, se obtiene el
dato para el mismo valor con signo negativo.
Un hecho de relevancia significativa, es que se utiliza para calcular probabilidades con respecto al promedio, en estos
casos, el divisor al estandarizar los valores se divide sobre S/ Ö n, término que se conoce como el error estándar de la
media y mide la variabilidad de la media entre muestra y muestra. A mayor tamaño de muestra, menor es el error
estándar de la media.
Por último, se puede afirmar, la distribución t es útil para realizar inferencias acerca de la media poblacional cuando no
se conoce s y la población es normal, independiente del n, no obstante, aún cuando la distribución sea un tanto
sesgada, la t sigue siendo apropiada, esto se conoce como una distribución robusta, es decir, a cambios moderados
de los supuestos, el modelo sigue siendo valido. Como en el caso de la distribución normal, ésta distribución también
usa valores tabulados, tal como se aprecian en la tabla precedente, teniendo en cuenta, que a medida que los g.l
aumenten los valores tienden a ser igual a los encontrados en la tabla Z.
Ejemplo 1: Los valores de las matriculas de estudiantes en una universidad privada tienen un comportamiento
aproximadamente normal, donde el promedio es de 2.100.000. Se seleccionan 8 liquidaciones, siendo los valores los
siguientes: 1.950.000, 2.100.000, 2.250.000, 1.890.000, 2.250.000, 1.950.000, 2.050.000, 2.350.000. Determine la
probabilidad de que:
Solución manual:
m = 2.100.000 ; s = ?
a) P( <2.000.000)=P( <2.000.000)
P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)
La probabilidad se encuentra entre 0.9 y 0.95, según la tabla T que se encuentra más adelante, no obstante, al t ser
negativo, la probabilidad está entre 0.1 y 0.05, es decir, los valores complementarios..
Para buscar en la tabla, se tiene en cuenta la fila con 7 g.l y se ubica el 1.677, el cual se encuentra entre los valores
mencionados. De ahí que sea importante utilizar el Excel, que nos permite calcular la probabilidad exacta.
Existe una alta probabilidad de que el promedio de las matriculas se encuentre entre 2.000.000 y 2.200.000.
Dado que el valor de 6.70 es mucho mayor que el ubicado en la tabla de 3.49 y corresponde a 0.995, es claro, entonces,
que para valores mayores de 3.49, la probabilidad será de 1.
Por lo tanto, la probabilidad de que el promedio de matricula sea superiora a 2.500.000 es cero.
Solución Excel:
a) P( <2.000.000)=P( <2.000.000)
P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)
Como se dijo utilizando la tabla, la probabilidad está entre 0.1 y 0.05. La probabilidad exacta es de 0.0687. Es decir, la
probabilidad de que el promedio de matricula que pagan los estudiantes sea menor de 2.000.000 es baja.
=DISTR.T(1.677;7;1)= 0.0687
b) P (2.000.000 < < 2.200.000)= P( <2.200.000) ? P( £ 2.000.000).
Los resultados son similares a los ya presentados. Por la forma de calcular el Excel las probabilidades, se resta a uno
la probabilidad de 3.35, es decir, el programa calcula la cola de la derecha.
Se observa fácil, que el Excel permite calcular las probabilidades de manera más exactas que las usadas comúnmente
(tablas). Esto es importante tenerlo en cuenta, ya que cuando se tienen poblaciones muy grandes, esas pequeñas
diferencias se convierten en significativas.
Ejemplo 2: Los puntajes de un grupo de estudiantes se comportan normal, con promedio de 50, sin embargo, no se
conoce la desviación. Se tomó una m.a de 9 estudiantes encontrando una varianza de 36 y un promedio de 52. Cuál
es la probabilidad de que el promedio:
Solución manual:
m = 50 puntos ; s = ?
1-a
Como se observa en la tabla, el 2.0 se encuentra entre 1.86 y 2.306, valores que corresponden a las áreas de 0.95 y
0.975. Realizando una estimación burda, se promedian los dos valores correspondientes a las áreas. Encontrando que
la probabilidad de que el promedio del puntaje de los estudiantes sea mayor de 54 es muy baja, 0.0375.
c) P( <54)= P(t<(54-50)/(6/3)) = P(t<2) = 0.9625. Por el contrario de lo anterior, es muy probable que el promedio del
puntaje de los estudiantes sea menor de 54, dicha probabilidad equivale al 0.9625.
La probabilidad es de 0.65. Se aprecia que al ser simétrica la distribución t, se calcula la probabilidad utilizando el
inverso.
Solución Excel:
Los valores de t, estan diseñados para valores mayores, por eso, se le resta la unidad cuando se quiere calcular un
valor hacia la izquierda, situación diferente a la tabla.
(1 - =DISTR.T(1;8;1))- =DISTR.T(1;8;1))
En el applet podemos ver va rios ejemplos de distribución t de Student junto con la normal
estándar.
Distribución Normal
Distribución binomial
La distribución binomial modela una situación en la que hay n ensayos independientes con una probabilidad constante de éxito.
En algunos casos, una distribución Binomial puede aproximarse con una distribución Normal con la misma media y varianza.
Distribución de Poisson
Un intervalo de confianza para E (y | x⋆), el valor promedio (esperado) de y para un determinado x⋆, es
Pregunta
¿Cómo esperaría que el ancho del intervalo de confianza del 95% para el puntaje de coeficiente intelectual
promedio de los gemelos adoptivos cuyos gemelos biológicos tengan puntajes de coeficiente intelectual de
130 puntos (x⋆ = 130) se compare con el intervalo de confianza anterior (donde x ⋆ = 100)?
¿Cómo se comparan los intervalos de confianza donde x⋆ = 100 y x⋆ = 130 en términos de su ancho?
Resumen
El ancho del intervalo de confianza para E (y) aumenta a medida que x ⋆ se aleja del centro.
Conceptualmente: estamos mucho más seguros de nuestras predicciones en el centro de los datos que en
los bordes (y nuestro nivel de certeza disminuye aún más cuando se predicen fuera del rango de los datos:
extrapolación).
Matemáticamente: a medida que aumenta (x⋆ - x )̄ 2 términos, también aumenta el margen de error del
intervalo de confianza.
Pregunta
Anteriormente aprendimos cómo calcular un intervalo de confianza para el promedio y, E(y), para un
determinado x⋆.
Supongamos que no estamos interesados en el promedio, sino que queremos predecir un valor futuro de y
para una x⋆ dada.
¿Esperaría que haya más incertidumbre en torno a un promedio o un valor previsto específico?
La fórmula es muy similar, excepto que la variabilidad es mayor ya que hay un 1 agregado en la fórmula.
Nivel de predicción: si repetimos el estudio de obtener un conjunto de datos de regresión muchas veces,
cada vez formando un intervalo de predicción del XX% en x ⋆, y esperamos ver cuál es el valor futuro de y en
x⋆, entonces aproximadamente el XX% de los intervalos de predicción contendrán el valor real
correspondiente de y.
Ejercicio de aplicación:
Intervalo de predicción
Calcule un intervalo de predicción del 95% para el puntaje de CI promedio de gemelos adoptivos cuyos
gemelos biológicos tienen puntajes de CI de 100 puntos. Tenga en cuenta que el puntaje promedio de CI de
27 gemelos biológicos en la muestra es de 95.3 puntos, con una desviación estándar de 15.74 puntos.
Un intervalo de predicción es similar en espíritu a un intervalo de confianza, excepto que el intervalo de
predicción está diseñado para cubrir un "objetivo móvil", el valor futuro aleatorio de y, mientras que el
intervalo de confianza está diseñado para cubrir el "objetivo fijo", el promedio (esperado) valor de y, E (y),
para un determinado x⋆.
Aunque ambos están centrados en yˆ, el intervalo de predicción es más amplio que el intervalo de confianza,
para un determinado x⋆ y nivel de confianza. Esto tiene sentido, ya que:
• el intervalo de predicción debe tener en cuenta la tendencia de y a fluctuar desde su valor medio,
mientras que
• el intervalo de confianza simplemente necesita dar cuenta de la incertidumbre en la estimación del
valor medio.
• Para un conjunto de datos dado, el error al estimar E (y) e yˆ crece a medida que x ⋆ se aleja de x .̄ Por
lo tanto, cuanto más x⋆ se aleje de x ̄, más amplios serán los intervalos de confianza y predicción.
• Si se viola alguna de las condiciones subyacentes al modelo, entonces los intervalos de confianza y
los intervalos de predicción también pueden ser inválidos. Por eso es tan importante verificar las
condiciones examinando los residuos, etc.
El modelo de regresión lineal simple es un supuesto acerca de la relación entre x y y. Si los resultados
tienen una relación estadísticamente significativa entre x y y, y si el ajuste que proporciona la ecuación de
regresión parece bueno, ésta podría utilizarse para estimaciones y predicciones.
La longitud de este intervalo es mayor que la del anterior (menos precisión) porque no corresponde a un
valor medio sino a uno específico.
Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio de venta trimestral para
todos los restaurantes cercanos a centros escolares con 10,000 estudiantes:
b) Se desea predecir, mediante un intervalo del 95% de confianza, las ventas trimestrales para un
restaurante que se construirá cercano a un centro estudiantil de 10,000 estudiantes :
Para un mismo valor (x) de la variable explicativa, un intervalo de predicción refleja, además de la
variabilidad debida a que la recta estimada no representa exactamente la media verdadera de la
variable respuesta para ese valor de X, refleja la variabilidad individual de la variable respuesta
alrededor de la media verdadera y por esa razón es de mayor amplitud que el intervalo de
confianza.
Figura 18. Intervalos de confianza junto con los intervalos de predicción para una observación
futura
La expresión general de los límites de predicción del (1-α) 100 % para una observación futura
(ynueva) para el valor xnueva de la variable explicativa es:
La única diferencia entre el intervalo de confianza (21) y el de predicción (22) es que aparece un 1
dentro de la raíz. Esta diferencia hace que la longitud de los intervalos de confianza pueda
hacerse tan pequeña como se quiera, con tal de tomar suficientes observaciones, mientras que la
longitud de los intervalos de predicción nunca pueda ser menor que 2 tn-2, α/2 σˆ
Si la cantidad de observaciones es grande la raíz que aparece en la expresión (22) es igual
aproximadamente a 1 y la longitud del intervalo de predicción de nivel 0.95, resulta cerca de 4s.
Por lo tanto, si estamos interesados en predicción, 4σˆ es un excelente indicio de la calidad del
ajuste, y como consecuencia, de la incerteza de las predicciones.
Como ya se vió, la notación 𝑡(𝑛−2, .95) es el t-valor correspondiente al punto porcentual 95ésimo con n-2
grados de libertad.(¡OJO! Aunque en la notación aparece t(n-2, .95), se corresponde con un nivel de
confianza del 90%, y el .95 resulta del reparto del 10% restante entre la cola superior e inferior(5% cada una)
Si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se muestra en la tabla. El
nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se encuentran en cada extremo
de la distribución. Buscando en la columna para un área de la cola superior y en la fila correspondiente a 38
grados de libertad, se obtiene un valor crítico para t de 1.686. Puesto que t es una distribución simétrica con
una media 0, si el valor de la cola superior es +1.686, el valor para el área de la cola inferior (0,05 inferior)
sería -1.686. Un valor t de -1.686 significa que la probabilidad de que t sea menor a -1.686, es 0,05, o 5%
(vea la figura).