Compendio de Intervalo de Confianza

Capítulo 9.
Regresió n lineal simple

9.1 Introducció n
Uno de los aspectos más relevantes de la Estadística es el aná lisis de la relació n o dependencia entre variables.
Frecuentemente resulta de interé s conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir
en mayor o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres
influyen significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media de los hijos cuyos
padres presentan una determinada estatura.
Los mé todos de regresió n estudian la construcció n de modelos para explicar o representar la dependencia entre una
variable respuesta o dependiente (Y ) y la(s) variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos el
modelo de regresió n lineal, que tiene lugar cuando la dependencia es de tipo lineal, y daremos respuesta a dos cuestiones
básicas:
• ¿Es significativo el efecto que una variable X causa sobre otra Y ? ¿Es significativa la dependencia lineal entre esas
dos variables?.
• De ser así, utilizaremos el modelo de regresió n lineal simple para explicar y predecir la variable dependiente (Y ) a
partir de valores observados en la independiente (X).
Ejemplo 9.1. El inventor de un nuevo material aislante quiere determinar la magnitud de la compresió n (Y ) que se
producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes cantidades de presió n (X). Para ello
prueba 5 piezas de material bajo diferentes presiones. Los pares de valores observados (x, y) se muestran en la
siguiente tabla:
9.2 El modelo de regresió n lineal
La estructura del modelo de regresió n lineal es la siguiente:
Y = β0 + β1X + ε
En esta expresió n estamos admitiendo que todos los factores o causas que influyen en la variable respuesta Y pueden
dividirse en dos grupos: el primero contiene a una variable explicativa X y el segundo incluye un conjunto amplio de factores
no controlados que englobaremos bajo el nombre de perturbació n o error aleatorio, ε, que provoca que la dependencia entre
las variables dependiente e independiente no sea perfecta, sino que esté sujeta a incertidumbre. Por ejemplo, en el consumo
de gasolina de un vehículo (Y ) influyen la velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera,
las condiciones ambientales, etc, que quedarían englobados en el error.
Lo que en primer lugar sería deseable en un modelo de regresió n es que estos errores aleatorios sean en media cero para
cualquier valor x de X, es decir, E[ε/X = x] = E[ε] = 0, y por lo tanto:
E[Y/X =x]=β0 +β1x+E[ε/X =x]=β0 +β1x En dicha expresió n se observa que:
• La media de Y, para un valor fijo x, varía linealmente con x.
ˆ
•Para un valor x se predice un valor en Y dado por y =E[Y/X=x]= β0 + β1x, por lo que el modelo de predicció n puede
expresarse tambié n ˆ como Y = β0 + β1X.
• El parámetro β0 es la ordenada al origen del modelo (punto de corte con el eje Y) y β1 la pendiente, que puede interpretarse
como el incremento de la variable dependiente por cada incremento en una unidad de la variable independiente. Estos
parámetros son desconocidos y habrá que estimarlos de cara a realizar predicciones.
Ademá s de la hípotesis establecida sobre los errores de que en media han de ser cero, se establecen las siguientes hipó tesis:
9.5 El coeficiente de correlación lineal y el coeficiente de determinación
Nuestro objetivo en adelante será medir la bondad del ajuste de la recta de regresió n a los datos observados y cuantificar al
mismo tiempo el grado de asociació n lineal existente entre las variables en cuestió n. A mejor ajuste, mejores serán las
predicciones realizadas con el modelo.
La evaluació n global de una recta de regresió n puede hacerse mediante la varianza residual, que como sabemos es un índice
de la precisió n del modelo. Sin embargo, esta medida no es ú til para comparar rectas de regresió n de variables distintas, o
comparar el grado de asociació n lineal entre distintos pares de variables, ya que depende de las unidades de medida de las
variables.
El coeficiente de correlación lineal
Como solució n al inconveniente planteado, para medir la asociació n lineal entre dos variables X e Y se utiliza una medida
adimensional denominada coeficiente de correlació n lineal, dado por:
9.6 Predicció n a partir del modelo
¿Qué es un intervalo de predicción?
Un intervalo de predicción es un tipo de intervalo de confianza (IC) utilizado con

predicciones en el análisis de regresión; Es un rango de valores que predice el valor de
una nueva observación, basado en su modelo existente.
Los intervalos de predicción y confianza a menudo se confunden entre sí. Sin embargo,
no son exactamente lo mismo.
Un intervalo de confianza es un rango de valores asociados con un parámetro de
población. Por ejemplo, la media de una población.
Un intervalo de predicción es donde espera que caiga un valor futuro.
Las incertidumbres con los intervalos
Al igual que la mayoría de las cosas en las estadísticas, no significa que pueda predecir
con certeza dónde caerá un solo valor.
Los intervalos de confianza siempre están asociados con un nivel de confianza, lo que
representa un grado de incertidumbre (los datos son aleatorios, por lo que los resultados
del análisis estadístico nunca son 100% seguros).
Por ejemplo, podría decir que la vida media de una batería (con un nivel de confianza del
95%) es de 100 a 110 horas. Esto le indica que una batería caerá en el rango de 100 a
110 horas el 95% del tiempo.
Del mismo modo, el intervalo de predicción le indica dónde caerá un valor en el futuro,
dadas suficientes muestras, un cierto porcentaje del tiempo. Un intervalo de predicción
del 95% de 100 a 110 horas para la vida media de una batería le indica que las baterías
futuras producidas caerán en ese rango el 95% del tiempo. Hay un 5% de posibilidades
de que una batería no caiga en este intervalo.
Cuando usarlo
Es muy común usar el intervalo de confianza en lugar del intervalo de predicción,

especialmente en econometría. Sin embargo, debe usar un intervalo de predicción en
lugar de un nivel de confianza si desea resultados precisos. Supongamos que calcula un
intervalo de confianza para el gasto diario medio de su negocio y lo encuentra entre $
5,000 y $ 6,000. Eso te dice dónde está probablemente la media. Si usa ese CI para hacer
un intervalo de predicción, tendrá un intervalo mucho más estrecho. Por ejemplo, el
intervalo de predicción puede ser de $ 2,500 a $ 7,500 en el mismo nivel de confianza. Si
usa el intervalo de confianza, es muy probable que el intervalo tenga más errores, lo que
significa que los valores caerán fuera de ese intervalo con más frecuencia de lo que
predice.
Cómo encontrar un intervalo de predicción

Recordamos que en el modelo ajustado de la recta de regresión,
y, por otro lado,
E[Y/X = x] = β0 + β1x,
luego yˆ puede interpretarse de dos formas:
1. Como predicción del valor que tomará Y cuando X = x.
2. Como estimación del valor medio en Y para el valor X = x, es decir,
E[Y/X = x].
Ambas cantidades están sujetas a incertidumbre, que será tanto mayor cuanto peor sea el ajuste realizado
mediante la recta de regresión. Para concluir el tema, establecemos un intervalo de confianza para estas
cantidades.
Proposición. Podemos decir que con un (1 − α)x100% de confianza que cuando X = x, el valor predicho en Y
o el valor medio estimado en Y,E[Y/X = x], se encuentran en el intervalo:
Ejemplo 9.4. Para los datos del Ejemplo 9.1,
a. Predecir el valor en la compresió n para un nivel de presió n igual a 6.
La recta de regresió n ajustada era Y = −0.1 + 0.7X, con lo cual para un x=6 se predice un valor en Y
igual a
yˆ =−0.1+0.7∗6 = 4.1
b. ¿En qué medida son fiables las predicciones realizadas con la recta de regresió n ajustada?
Como el coeficiente de determinació n es igual a 0.81, las predicciones realizadas con la recta será n
fiables en un 81%.
c. Determinar un Intervalo al 95% de confianza para el valor medio de compresió n a una presió n de 6 .
El intervalo de confianza resulta:
Donde:
SSxx = Σ(x𝑖 −𝑥̅ )2
x = 6 es el nuevo valor para el pronóstico de la variable independiente fuera del periodo con datos de
observación
Tabla t-Student
En apariencia, la distribución t es muy similar a la distribución normal estandarizada. Ambas

distribuciones tienen forma de campana. Sin embargo, la distribución t tiene mayor área en los extremos y
menor en el centro, a diferencia de la distribución normal. Puesto que el valor de es desconocido, y se
emplea S para estimarlo, los valores t son más variables que los valores Z.
Debe tenerse en cuenta que a medida que la muestra es más grande (>100) la distribución
de probabilidad normal es una buena aproximación a la distribución t de Student
Los grados de libertad n-1 están directamente relacionados con el tamaño de la muestra n. A medida que
el tamaño de la muestra y los grados de libertad se incrementan, S se vuelve una mejor estimación de y la
distribución t gradualmente se acerca a la distribución normal estandarizada hasta que ambas son
virtualmente idénticas. Con una muestra de 120 o más, S estima con la suficiente precisión como para que
haya poca diferencia entre las distribuciones t y Z. Por esta razón, la mayoría de los especialistas en
estadística usan Z en lugar de t cuando el tamaño de la muestra es igual o mayor de 30.
Como se estableció anteriormente, la distribución t supone que la variable aleatoria X se distribuye

normalmente. En la práctica, sin embargo, mientras el tamaño de la muestra sea lo suficientemente
grande y la población no sea muy sesgada, la distribución t servirá para estimar la media poblacional
cuando sea desconocida.
Los grados de libertad de esta distribución se calculan con la siguiente fórmula
Donde n = tamaño de la muestra.
Ejemplo: Imagínese una clase con 40 sillas vacías, cada uno elige un asiento de los que están vacíos.
Naturalmente el primer alumno podrá elegir de entre 40 sillas, el segundo de entre 39, y así el número irá
disminuyendo hasta que llegue el último alumno. En este punto no hay otra elección (grado de libertad) y
aquel último estudiante simplemente se sentará en la silla que queda. De este modo, los 40 alumnos
tienen 39 o n-1 grados de libertad.
Para leer en la tabla de la distribución t se procede de la siguiente manera:

Usted encontrará los valores críticos de t para los grados de libertad adecuados en la tabla para la
distribución t.
Las columnas de la tabla representan el área de la cola superior de la distribución t.
Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo, con 10
grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se
muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se
encuentran en cada extremo de la distribución. Buscando en la columna para un área de la cola superior y
en la fila correspondiente a 10 grados de libertad, se obtiene un valor crítico para t de 1.812. Puesto que t
es una distribución simétrica con una media 0, si el valor de la cola superior es +1.812, el valor para el área
de la cola inferior (0,05 inferior) sería -1.812. Un valor t de -1.812 significa que la probabilidad de que t sea
menor a -1.812, es 0,05, o 5% (vea la figura).
Encontrando la región de rechazo en la prueba de significancia
5. Dado el nivel de significancia, podemos determinar la región de rechazo y de no-rechazo. Para un test a
dos colas:
Nivel de confianza
El nivel de confianza, 1 - α, tiene la siguiente interpretación. Si se extraen miles de muestras de n ítems de

una población usando un muestreo aleatorio simple y se calcula un intervalo de confianza para cada
muestra, la proporción de esos intervalos que incluirán la pendiente de la población verdadera es 1 - α.
Intervalo de una cara o de dos caras
Tipo de intervalo
Especifique si el intervalo que se utilizará será un intervalo de confianza de dos lados, un intervalo que solo
tiene un límite superior o un intervalo que solo tiene un límite inferior.
DESGRACIADAMENTE NO HAY UN ÚNICO TIPO DE TABLA t-STUDENT
1. 29. Intervalos de confianza e intervalos de predicción.
Hemos dicho (sección 27.3) que la recta ajustada puede utilizarse de dos maneras
distintas
a) para estimar de la media poblacional de Y para cada x fijo.
b) para predecir un valor futuro de Y para un valor fijo de x.

Hemos dicho anteriormente (sección 27.3) que la recta ajustada puede utilizarse de dos
maneras distintas, pero ahora agregaremos algunas más:
c) para estimar de la media poblacional de Y para varios valores de x diferentes.
d) para predecir varios valores futuros de Y para cada uno con un valor fijo de x
diferente.
e) realizar predicciones del valor de X que dio lugar al nuevo valor observado de Y.
Esto se llama predicción inversa.
Los intervalos que resultan de a) - d) están todos centrados en

yˆ , difieren
únicamente en su amplitud debido a la diferencia en las varianzas.
29.1 Intervalos de confianza para la respuesta media

Debe tenerse en cuenta la incerteza de la recta ajustada. Para ello se construye una banda
nueva
alrededor de la recta de regresión ajustada, tal que para cada valor fijo de x (x ), el intervalo
nueva
determinado por la banda y una recta vertical a la abscisa en x , sea un intervalo de confianza
del (1-α) 100%:
nueva)
Si llamamos s(a+bx a
tenemos que los límites de un intervalo de confianza para la media de la variable Y
dado el valor x nueva son
En particular si α = 0.05, el 95% de confianza significa que el intervalo es uno de una familia de
nueva
intervalos, tal que 95 de cada 100 contienen la verdadera media de Y para ese valor fijo de x (x )
; 5 no. Podemos confiar en que el que tenemos es uno de esos 95.
29.2 Intervalos de predicción para una observación futura

Para un mismo valor (x) de la variable explicativa, un intervalo de predicción refleja, además de la
variabilidad debida a que la recta estimada no representa exactamente la media verdadera de la
variable respuesta para ese valor de X, la variabilidad individual de la variable respuesta
alrededor de la media verdadera y es por esa razón es de mayor amplitud que el intervalo de
confianza.
Figura 18. Intervalos de confianza junto con los intervalos de predicción para una observación
futura
La expresión general de los límites de predicción del (1-α) 100 % para una observación futura
(ynueva) para el valor xnueva de la variable explicativa es:
La única diferencia entre el intervalo de confianza (21) y el de predicción (22) es que aparece un 1
dentro de la raíz. Esta diferencia hace que la longitud de los intervalos de confianza pueda
hacerse tan pequeña como se quiera, con tal de tomar suficientes observaciones, mientras que la
longitud de los intervalos de predicción nunca pueda ser menor que 2 tn-2, α/2 σˆ
Si la cantidad de observaciones es grande la raíz que aparece en la expresión (22) es
aproximadamente igual a 1 y la longitud del intervalo de predicción de nivel 0.95, resulta cerca de
4s. Por lo tanto, si estamos interesados en predicción, 4σˆ es un excelente indicio de la calidad
del ajuste, y como consecuencia, de la incerteza de las predicciones.
Ejemplo: Interesa estudiar la relación entre la pureza del oxigeno (Y) producido en un proceso de
destilación y el porcentaje de hidrocarburos (X) presentes en el condensador principal de la unidad
de destilación. No se conoce un modelo determinístico funcional que relacione la pureza del
oxígeno con los niveles de hidrocarburo.
El diagrama de dispersión de la figura 19 muestra que a pesar de que ninguna curva simple
pasará por todos los puntos hay una tendencia lineal creciente de manera que es razonable
suponer que la media de la pureza de oxígeno esté relacionada linealmente con el nivel de
hidrocarburos.
La tabla 4 los coeficientes y sus errores estándar, resultantes de un ajuste de cuadrados mínimos
a los datos de la pureza de oxígeno. La variable X (% de hidrocarburos) es estadísticamente
significativa.
Figura 20
Los gráficos de la figura 20 nos permiten concluir que los datos no presentan alejamientos de los
supuestos de Normalidad y homoscedasticidad.
Figura 21. Recta ajustada junto con las bandas de confianza y de predicción del 95%
La banda interna de la figura 21 es la banda de confianza (21). El intervalo más angosto, (91.650 , 92.671),
se encuentra en el nivel promedio de hidrocarburos ( x = 1.196 %). Los intervalos se van ensanchando a
medida que aumenta la distancia a dicho valor promedio. Un alto porcentaje de valores observados cae
fuera de la banda de confianza. Esto pone de manifiesto que dichas bandas están formadas por intervalos
de confianza para la respuesta media, nada dicen respecto de los valores de la variable de interés.
La longitud de estos intervalos decrece con el aumento del tamaño de la muestra y/o de la dispersión de
los valores de la variable independiente.
Siguiendo con el ejemplo, en el nivel promedio de hidrocarburos (1.196 %), el intervalo de predicción es
(89.821 ; 94.500). Los intervalos de predicción (22) del 95% también se ensanchan con la distancia al nivel
promedio de hidrocarburos, aunque esto no se ve fácilmente de la figura.
Distribución T de Students.
Tiene características similares a la distribución normal, su diferencia principal radica en las áreas de los extremos las
cuales son más amplias, como consecuencia de que usualmente se trabaja con muestras pequeñas. La sintaxis en
Excel es: DISTR.T(x;grados_de_libertad;colas)
X es el valor numérico al que se ha de evaluar la distribución. Grados_de_libertad es un entero que indica el número
de grados de libertad. Colas especifica el número de colas de la distribución que se ha de devolver. Toma los valores
de 1 o 2.
La banda interna de la figura 21 es la banda de confianza (21). El intervalo más angosto, (91.650 , 92.671), se encuentra
en el nivel promedio de hidrocarburos ( x = 1.196 %). Los intervalos se van ensanchando a medida que aumenta la
distancia a dicho valor promedio. Un alto porcentaje de valores observados cae fuera de la banda de confianza. Esto
pone de manifiesto que dichas bandas están formadas por intervalos de confianza para la respuesta media, nada dicen
respecto de los valores de la variable de interés.
La longitud de estos intervalos decrece con el aumento del tamaño de la muestra y/o de la dispersión de los valores de
la variable independiente.
Siguiendo con el ejemplo, en el nivel promedio de hidrocarburos (1.196 %), el intervalo de predicción es (89.821 ;
94.500). Los intervalos de predicción (22) del 95% también se ensanchan con la distancia al nivel promedio de
hidrocarburos, aunque esto no se ve fácilmente de la figura.
El nombre de la distribución se debe a su autor W.S. Gosset, quien le dio el seudónimo de T de Student ante la
imposibilidad de presentar sus trabajos so pena de perder su empleo, esto sucedió a principio del siglo XX.
Esta distribución es recomendada cuando se requiere estimar la media poblacional y no se conoce la desviación
estándar y por lo tanto, hay que estimarla, eso si, siempre y cuando la distribución original sea aproximadamente
normal.
Otro término utilizado en ésta distribución continua, es el de grados de libertad (g.l), el cual de manera intuitiva se
expone así:
Y= x1 ± x2 ± x3 ± x4 , para satisfacer la ecuación, tres variables se pueden cambiar a libertad, pero una de ellas no, por
eso, cuando se tiene una sola muestra, se hable de n-1 g.l. A medida que se aumenten los g.l. la distribución t, se
aproxima a la distribución Z de la normal. Otra lectura que se puede dar es que los g.l es una medida del número de
observaciones independientes en la muestra, que se usan para estimar la desviación estándar.
En general, cuando el tamaño de muestra no sea muy pequeño y la simetría no sea alta, se puede usar para estimar
la media poblacional cuando no se conoce la desviación.
En general, las características relevantes del modelo se sintetizan en la siguiente diapositiva.
TABLA DE LA DISTRIBUCION t - Student
La tabla da áreas 1 - a , para valores menores o iguales a t y n g.l, se construyó con Excel.
1-a
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925

3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841
4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604
5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032
6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707
7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250
10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169
11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106
12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055
13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012
14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977
15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947
16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921
17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898
18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878
19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861
20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845
21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831
22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819
23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807
24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797
25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787
26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779
27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771
28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763
29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756
30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750
40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704
60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660
120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617
¥ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576
Es importante resaltar que al ser una distribución simétrica al tener información sobre un valor positivo, se obtiene el
dato para el mismo valor con signo negativo.
Un hecho de relevancia significativa, es que se utiliza para calcular probabilidades con respecto al promedio, en estos
casos, el divisor al estandarizar los valores se divide sobre S/ Ö n, término que se conoce como el error estándar de la
media y mide la variabilidad de la media entre muestra y muestra. A mayor tamaño de muestra, menor es el error
estándar de la media.
Por último, se puede afirmar, la distribución t es útil para realizar inferencias acerca de la media poblacional cuando no
se conoce s y la población es normal, independiente del n, no obstante, aún cuando la distribución sea un tanto
sesgada, la t sigue siendo apropiada, esto se conoce como una distribución robusta, es decir, a cambios moderados
de los supuestos, el modelo sigue siendo valido. Como en el caso de la distribución normal, ésta distribución también
usa valores tabulados, tal como se aprecian en la tabla precedente, teniendo en cuenta, que a medida que los g.l
aumenten los valores tienden a ser igual a los encontrados en la tabla Z.
Ejemplo 1: Los valores de las matriculas de estudiantes en una universidad privada tienen un comportamiento
aproximadamente normal, donde el promedio es de 2.100.000. Se seleccionan 8 liquidaciones, siendo los valores los
siguientes: 1.950.000, 2.100.000, 2.250.000, 1.890.000, 2.250.000, 1.950.000, 2.050.000, 2.350.000. Determine la
probabilidad de que:
· El promedio sea menor de 2.000.000.
· El promedio se encuentre entre 2.000.000 y 2.200.000
· El promedio sea mayor o igual a 2.500.000
Solución manual:
Sea X = Liquidación matriculas.
m = 2.100.000 ; s = ?
=2.098.750 s=168.644.8085 n=8
a) P( <2.000.000)=P( <2.000.000)
P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)
La probabilidad se encuentra entre 0.9 y 0.95, según la tabla T que se encuentra más adelante, no obstante, al t ser
negativo, la probabilidad está entre 0.1 y 0.05, es decir, los valores complementarios..
Para buscar en la tabla, se tiene en cuenta la fila con 7 g.l y se ubica el 1.677, el cual se encuentra entre los valores
mencionados. De ahí que sea importante utilizar el Excel, que nos permite calcular la probabilidad exacta.
b) P (2.000.000 < < 2.200.000)= P( <2.200.000) ? P( £ 2.000.000).
Luego de tipificar, se tiene:
P(t<3.35) ? P(t<-1.677) = 0.995 ?0.075= 0.92
Existe una alta probabilidad de que el promedio de las matriculas se encuentre entre 2.000.000 y 2.200.000.
c) P( >2.500.000)= P(t> 6.70) = 1- P(t< 6.70)= 1-1=0
Dado que el valor de 6.70 es mucho mayor que el ubicado en la tabla de 3.49 y corresponde a 0.995, es claro, entonces,
que para valores mayores de 3.49, la probabilidad será de 1.
Por lo tanto, la probabilidad de que el promedio de matricula sea superiora a 2.500.000 es cero.
Solución Excel:
a) P( <2.000.000)=P( <2.000.000)
P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)
Como se dijo utilizando la tabla, la probabilidad está entre 0.1 y 0.05. La probabilidad exacta es de 0.0687. Es decir, la
probabilidad de que el promedio de matricula que pagan los estudiantes sea menor de 2.000.000 es baja.
=DISTR.T(1.677;7;1)= 0.0687
b) P (2.000.000 < < 2.200.000)= P( <2.200.000) ? P( £ 2.000.000).
Luego de tipificar, se tiene:
P(t<3.35) ? P(t<-1.677) = 0.995 ?0.075= 0.92
(1- =DISTR.T(3.35;7;1) - =DISTR.T(1.677;7;1)= ?
(1- 0.006125) ? 0.06872 = 0.9251
Los resultados son similares a los ya presentados. Por la forma de calcular el Excel las probabilidades, se resta a uno
la probabilidad de 3.35, es decir, el programa calcula la cola de la derecha.
c) P( >2.500.000)= P(t> 6.70) = =DISTR.T(6.7;7;1) = 0.00013
Se observa fácil, que el Excel permite calcular las probabilidades de manera más exactas que las usadas comúnmente
(tablas). Esto es importante tenerlo en cuenta, ya que cuando se tienen poblaciones muy grandes, esas pequeñas
diferencias se convierten en significativas.
Ejemplo 2: Los puntajes de un grupo de estudiantes se comportan normal, con promedio de 50, sin embargo, no se
conoce la desviación. Se tomó una m.a de 9 estudiantes encontrando una varianza de 36 y un promedio de 52. Cuál
es la probabilidad de que el promedio:
· Sea mayor de 54?
· Sea menor que 54?
· Esté comprendido entre 48 y 52 puntos?
Solución manual:
Sea X = Puntaje estudiantes.
m = 50 puntos ; s = ?
=52 s2=36 s=6 n=9
a) P( >54)=1- P(t<(54-50)/(6/3)) = 1- P(t<2) = 1- 0.9625 = 0.0375
1-a
n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995
1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657
8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355
Como se observa en la tabla, el 2.0 se encuentra entre 1.86 y 2.306, valores que corresponden a las áreas de 0.95 y
0.975. Realizando una estimación burda, se promedian los dos valores correspondientes a las áreas. Encontrando que
la probabilidad de que el promedio del puntaje de los estudiantes sea mayor de 54 es muy baja, 0.0375.
c) P( <54)= P(t<(54-50)/(6/3)) = P(t<2) = 0.9625. Por el contrario de lo anterior, es muy probable que el promedio del
puntaje de los estudiantes sea menor de 54, dicha probabilidad equivale al 0.9625.
d) P(48< >52)=P( <52)-P( <48)=P(t<(52-50)/(6/3))-P(t<(48-50)/(6/3))=
P(t<1)- P(t<-1)= 0.825 ?(1-0.825) = 0.65
La probabilidad es de 0.65. Se aprecia que al ser simétrica la distribución t, se calcula la probabilidad utilizando el
inverso.
Solución Excel:
Los valores de t, estan diseñados para valores mayores, por eso, se le resta la unidad cuando se quiere calcular un
valor hacia la izquierda, situación diferente a la tabla.
a) P( >54)= P(t>2) = =DISTR.T(2;8;1) = 0.04025
b) P( <54)= P(t<2)= (1 - =DISTR.T(2;8;1)) = 0.95975
c) P(48< >52)= P( <52)-P( <48) = P(t<1)-P(t<-1)=
(1 - =DISTR.T(1;8;1))- =DISTR.T(1;8;1))
= (1 - 0.1732.97) ? 0.173297 = 0.6534
Las distribuciones t de Student fueron descubiertas por William S. Gosset (1876-1937)

en 1908 cuando trabajaba para la compañía de cervezas Guinness en Dublín (Irlanda).
No pudo publicar sus descubrimientos usando su propio nombre porque Gui nness habí a
prohibido a sus empleados que publicaran información confid encial. Gosset firmó sus
publicaciones usando el nombre de "Stud ent". Gosset tenía buena relación con Karl
Pearson que había sido su maestro. Necesitaba una distribución que pudiera usar cuand o
el tamaño de la muestra fuera pequeño y la v arianza desconocid a y tenía que ser estimada
a partir de los datos. Las distribuciones t se usan para tener en cuenta la incertidumbre
añadida que resulta por esta estimación. Fisher comprendió la importancia de los trabajos
de Gosset para muestras pequeñas.
Si el tamaño de la muestra es n entonces decimos que la distribución t tiene n -1 grados

de libertad. Hay una distribución t diferente para cada tamaño de la muestra. Estas
distribuciones son una familia de distribuciones de probabilidad conti nuas. Las curvas d e
densidad son simétricas y con forma de campana como la distribución normal estándar.
Sus medias son 0 y sus varianzas son may ores que 1 (tienen c olas más pesadas). Las
colas de las distribuciones t disminuyen más lentamente que las colas de la distribución
normal. Si los grados de libertad son mayores más próxima a 1 es la varianza y la función
de densidad es más parecida a la densidad normal.
Cuando n es mayor que 30, la diferencia entre la normal y la distribución t de Student no

suele ser muy importante. En la imagen p odemos ver varios ejemplos de funciones d e
distribución acumulada.
En Probabilidades en Distribuciones t-Student puedes ver una c omparación más preci sa

entre las distribuciones t -Student y la normal estándar.
En el applet podemos ver va rios ejemplos de distribución t de Student junto con la normal
estándar.
Se aprecia cómo cuando el parámetro es 25 la distribución es muy parecida a la normal

estándar.
Los punt os grises controlan la escala vertical y horizontal de la gráfica y pulsando e l

boton derecho y arrastrando podemos move rla a derecha e izquierda.
ENLACES
Cálculo de probabilidades en distribuciones t de Student
Distribución Normal
La distribución normal fue estudiada por Gauss.
Una, dos y tres desviaciones típicas
Propiedad de las distribuciones normales.
Cálculo de probabilidades en distribuciones normales
Cálculo aproximado de probabilidades de diferentes intervalos en distribuciones normales.
Distribución binomial
La distribución binomial modela una situación en la que hay n ensayos independientes con una probabilidad constante de éxito.
Aproximación normal a la distribución Binomial
En algunos casos, una distribución Binomial puede aproximarse con una distribución Normal con la misma media y varianza.
Distribución de Poisson
La distribución de Poisson también se llama distribución de sucesos raros.

¿Podemos hacer CI para predecir el coeficiente intelectual de un gemelo adoptivo?
Dos tipos de intervalos disponibles:
Intervalo de confianza para el coeficiente intelectual promedio del gemelo adoptivo
Intervalo de predicción para el coeficiente intelectual de un solo gemelo adoptivo
Intervalos de confianza para valores promedio
Un intervalo de confianza para E (y | x⋆), el valor promedio (esperado) de y para un determinado x⋆, es
donde Sy es la desviación estándar de los residuos, calculada como
Sy se llama error estándar residual en la salida de regresión R.

Calcule un intervalo de confianza del 95% para el promedio de puntaje de CI (COEFICIENTE INTELECTUAL) de
los gemelos adoptivos cuyos gemelos biológicos tienen puntajes de CI de 100 puntos. Tenga en cuenta que
el puntaje promedio del coeficiente intelectual de 27 gemelos biológicos en la muestra es de 95.3 puntos,
con una desviación estándar de 15.74 puntos.
Pregunta
¿Cómo esperaría que el ancho del intervalo de confianza del 95% para el puntaje de coeficiente intelectual
promedio de los gemelos adoptivos cuyos gemelos biológicos tengan puntajes de coeficiente intelectual de
130 puntos (x⋆ = 130) se compare con el intervalo de confianza anterior (donde x ⋆ = 100)?
¿Cómo se comparan los intervalos de confianza donde x⋆ = 100 y x⋆ = 130 en términos de su ancho?
Resumen
El ancho del intervalo de confianza para E (y) aumenta a medida que x ⋆ se aleja del centro.
Conceptualmente: estamos mucho más seguros de nuestras predicciones en el centro de los datos que en
los bordes (y nuestro nivel de certeza disminuye aún más cuando se predicen fuera del rango de los datos:
extrapolación).
Matemáticamente: a medida que aumenta (x⋆ - x )̄ 2 términos, también aumenta el margen de error del
intervalo de confianza.
Pregunta
Anteriormente aprendimos cómo calcular un intervalo de confianza para el promedio y, E(y), para un
determinado x⋆.
Supongamos que no estamos interesados en el promedio, sino que queremos predecir un valor futuro de y
para una x⋆ dada.
¿Esperaría que haya más incertidumbre en torno a un promedio o un valor previsto específico?
La fórmula es muy similar, excepto que la variabilidad es mayor ya que hay un 1 agregado en la fórmula.
Nivel de predicción: si repetimos el estudio de obtener un conjunto de datos de regresión muchas veces,
cada vez formando un intervalo de predicción del XX% en x ⋆, y esperamos ver cuál es el valor futuro de y en
x⋆, entonces aproximadamente el XX% de los intervalos de predicción contendrán el valor real
correspondiente de y.
Ejercicio de aplicación:
Intervalo de predicción
Calcule un intervalo de predicción del 95% para el puntaje de CI promedio de gemelos adoptivos cuyos
gemelos biológicos tienen puntajes de CI de 100 puntos. Tenga en cuenta que el puntaje promedio de CI de
27 gemelos biológicos en la muestra es de 95.3 puntos, con una desviación estándar de 15.74 puntos.
Un intervalo de predicción es similar en espíritu a un intervalo de confianza, excepto que el intervalo de
predicción está diseñado para cubrir un "objetivo móvil", el valor futuro aleatorio de y, mientras que el
intervalo de confianza está diseñado para cubrir el "objetivo fijo", el promedio (esperado) valor de y, E (y),
para un determinado x⋆.
Aunque ambos están centrados en yˆ, el intervalo de predicción es más amplio que el intervalo de confianza,
para un determinado x⋆ y nivel de confianza. Esto tiene sentido, ya que:
• el intervalo de predicción debe tener en cuenta la tendencia de y a fluctuar desde su valor medio,
mientras que
• el intervalo de confianza simplemente necesita dar cuenta de la incertidumbre en la estimación del
valor medio.
• Para un conjunto de datos dado, el error al estimar E (y) e yˆ crece a medida que x ⋆ se aleja de x .̄ Por
lo tanto, cuanto más x⋆ se aleje de x ̄, más amplios serán los intervalos de confianza y predicción.
• Si se viola alguna de las condiciones subyacentes al modelo, entonces los intervalos de confianza y
los intervalos de predicción también pueden ser inválidos. Por eso es tan importante verificar las
condiciones examinando los residuos, etc.
Uso de la ecuación de regresión lineal para evaluar y predecir.
El modelo de regresión lineal simple es un supuesto acerca de la relación entre x y y. Si los resultados
tienen una relación estadísticamente significativa entre x y y, y si el ajuste que proporciona la ecuación de
regresión parece bueno, ésta podría utilizarse para estimaciones y predicciones.
Intervalo de confianza para estimar la media de y para un valor dado xp de x.
Intervalo de predicción para estimar un valor individual de Y para un valor dado x p de x:
La longitud de este intervalo es mayor que la del anterior (menos precisión) porque no corresponde a un
valor medio sino a uno específico.
Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio de venta trimestral para
todos los restaurantes cercanos a centros escolares con 10,000 estudiantes:
b) Se desea predecir, mediante un intervalo del 95% de confianza, las ventas trimestrales para un
restaurante que se construirá cercano a un centro estudiantil de 10,000 estudiantes :
Para un mismo valor (x) de la variable explicativa, un intervalo de predicción refleja, además de la
variabilidad debida a que la recta estimada no representa exactamente la media verdadera de la
variable respuesta para ese valor de X, refleja la variabilidad individual de la variable respuesta
alrededor de la media verdadera y por esa razón es de mayor amplitud que el intervalo de
confianza.
Figura 18. Intervalos de confianza junto con los intervalos de predicción para una observación
futura
La expresión general de los límites de predicción del (1-α) 100 % para una observación futura
(ynueva) para el valor xnueva de la variable explicativa es:
La única diferencia entre el intervalo de confianza (21) y el de predicción (22) es que aparece un 1
dentro de la raíz. Esta diferencia hace que la longitud de los intervalos de confianza pueda
hacerse tan pequeña como se quiera, con tal de tomar suficientes observaciones, mientras que la
longitud de los intervalos de predicción nunca pueda ser menor que 2 tn-2, α/2 σˆ
Si la cantidad de observaciones es grande la raíz que aparece en la expresión (22) es igual
aproximadamente a 1 y la longitud del intervalo de predicción de nivel 0.95, resulta cerca de 4s.
Por lo tanto, si estamos interesados en predicción, 4σˆ es un excelente indicio de la calidad del
ajuste, y como consecuencia, de la incerteza de las predicciones.
Como ya se vió, la notación 𝑡(𝑛−2, .95) es el t-valor correspondiente al punto porcentual 95ésimo con n-2
grados de libertad.(¡OJO! Aunque en la notación aparece t(n-2, .95), se corresponde con un nivel de
confianza del 90%, y el .95 resulta del reparto del 10% restante entre la cola superior e inferior(5% cada una)
De ahí viene el 0.95 en la notación 𝑡(𝑛−2,.95)∗
Si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se muestra en la tabla. El
nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se encuentran en cada extremo
de la distribución. Buscando en la columna para un área de la cola superior y en la fila correspondiente a 38
grados de libertad, se obtiene un valor crítico para t de 1.686. Puesto que t es una distribución simétrica con
una media 0, si el valor de la cola superior es +1.686, el valor para el área de la cola inferior (0,05 inferior)
sería -1.686. Un valor t de -1.686 significa que la probabilidad de que t sea menor a -1.686, es 0,05, o 5%
(vea la figura).
OTRO EJEMPLO DE CÁLCULO PARA AFIANZAR EL MÉTODO
Las columnas de la tabla representan el área de la cola superior de la distribución t.

Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo, con 10
grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se
muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se
encuentran en cada extremo de la distribución(cola). Buscando en la columna para un área de la cola
superior y en la fila correspondiente a 10 grados de libertad, se obtiene un valor crítico para t de 1.8125.
Puesto que t es una distribución simétrica con una media 0, si el valor de la cola superior es +1.812, el valor
para el área de la cola inferior (0,05 inferior) sería -1.8125. Un valor t de -1.8125 significa que la
probabilidad de que t sea menor a -1.8125, es 0,05, o 5% (vea la figura).

Compendio de Intervalo de Confianza

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Compendio de Intervalo de Confianza

Cargado por

Copyright:

Formatos disponibles

Capítulo 9.

Regresió n lineal simple

9.2 El modelo de regresió n lineal

La estructura del modelo de regresió n lineal es la siguiente:

E[Y/X =x]=β0 +β1x+E[ε/X =x]=β0 +β1x En dicha expresió n se observa que:

• La media de Y, para un valor fijo x, varía linealmente con x.

9.5 El coeficiente de correlación lineal y el coeficiente de determinación

El coeficiente de correlación lineal

9.6 Predicció n a partir del modelo

¿Qué es un intervalo de predicción?

Un intervalo de predicción es un tipo de intervalo de confianza (IC) utilizado con

Un intervalo de predicción es donde espera que caiga un valor futuro.

Las incertidumbres con los intervalos

Es muy común usar el intervalo de confianza en lugar del intervalo de predicción,

Cómo encontrar un intervalo de predicción

y, por otro lado,

luego yˆ puede interpretarse de dos formas:

1. Como predicción del valor que tomará Y cuando X = x.

2. Como estimación del valor medio en Y para el valor X = x, es decir,

Ejemplo 9.4. Para los datos del Ejemplo 9.1,

a. Predecir el valor en la compresió n para un nivel de presió n igual a 6.

El intervalo de confianza resulta:

SSxx = Σ(x𝑖 −𝑥̅ )2

En apariencia, la distribución t es muy similar a la distribución normal estandarizada. Ambas

Como se estableció anteriormente, la distribución t supone que la variable aleatoria X se distribuye

Los grados de libertad de esta distribución se calculan con la siguiente fórmula

Donde n = tamaño de la muestra.

Para leer en la tabla de la distribución t se procede de la siguiente manera:

Las columnas de la tabla representan el área de la cola superior de la distribución t.

Encontrando la región de rechazo en la prueba de significancia

El nivel de confianza, 1 - α, tiene la siguiente interpretación. Si se extraen miles de muestras de n ítems de

Intervalo de una cara o de dos caras

a) para estimar de la media poblacional de Y para cada x fijo.

b) para predecir un valor futuro de Y para un valor fijo de x.

c) para estimar de la media poblacional de Y para varios valores de x diferentes.

Esto se llama predicción inversa.

Los intervalos que resultan de a) - d) están todos centrados en

29.1 Intervalos de confianza para la respuesta media

tenemos que los límites de un intervalo de confianza para la media de la variable Y

dado el valor x nueva son

29.2 Intervalos de predicción para una observación futura

En general, las características relevantes del modelo se sintetizan en la siguiente diapositiva.

TABLA DE LA DISTRIBUCION t - Student

n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657

2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925

4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604

5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032

6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707

7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499

8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355

9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250

10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169

11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106

12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055

13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012

14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977

15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947

16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921

17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898

18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878

19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861

20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845