Está en la página 1de 57

Capítulo 9.

Regresió n lineal simple


9.1 Introducció n

Uno de los aspectos más relevantes de la Estadística es el aná lisis de la relació n o dependencia entre variables.
Frecuentemente resulta de interé s conocer el efecto que una o varias variables pueden causar sobre otra, e incluso predecir
en mayor o menor grado valores en una variable a partir de otra. Por ejemplo, supongamos que la altura de los padres
influyen significativamente en la de los hijos. Podríamos estar interesados en estimar la altura media de los hijos cuyos
padres presentan una determinada estatura.

Los mé todos de regresió n estudian la construcció n de modelos para explicar o representar la dependencia entre una
variable respuesta o dependiente (Y ) y la(s) variable(s) explicativa(s) o dependiente(s), X . En este Tema abordaremos el
modelo de regresió n lineal, que tiene lugar cuando la dependencia es de tipo lineal, y daremos respuesta a dos cuestiones
básicas:

• ¿Es significativo el efecto que una variable X causa sobre otra Y ? ¿Es significativa la dependencia lineal entre esas
dos variables?.
• De ser así, utilizaremos el modelo de regresió n lineal simple para explicar y predecir la variable dependiente (Y ) a
partir de valores observados en la independiente (X).

Ejemplo 9.1. El inventor de un nuevo material aislante quiere determinar la magnitud de la compresió n (Y ) que se
producirá en una pieza de 2 pulgadas de espesor cuando se somete a diferentes cantidades de presió n (X). Para ello
prueba 5 piezas de material bajo diferentes presiones. Los pares de valores observados (x, y) se muestran en la
siguiente tabla:

9.2 El modelo de regresió n lineal

La estructura del modelo de regresió n lineal es la siguiente:

Y = β0 + β1X + ε

En esta expresió n estamos admitiendo que todos los factores o causas que influyen en la variable respuesta Y pueden
dividirse en dos grupos: el primero contiene a una variable explicativa X y el segundo incluye un conjunto amplio de factores
no controlados que englobaremos bajo el nombre de perturbació n o error aleatorio, ε, que provoca que la dependencia entre
las variables dependiente e independiente no sea perfecta, sino que esté sujeta a incertidumbre. Por ejemplo, en el consumo
de gasolina de un vehículo (Y ) influyen la velocidad (X) y una serie de factores como el efecto conductor, el tipo de carretera,
las condiciones ambientales, etc, que quedarían englobados en el error.

Lo que en primer lugar sería deseable en un modelo de regresió n es que estos errores aleatorios sean en media cero para
cualquier valor x de X, es decir, E[ε/X = x] = E[ε] = 0, y por lo tanto:

E[Y/X =x]=β0 +β1x+E[ε/X =x]=β0 +β1x En dicha expresió n se observa que:

• La media de Y, para un valor fijo x, varía linealmente con x.

ˆ
•Para un valor x se predice un valor en Y dado por y =E[Y/X=x]= β0 + β1x, por lo que el modelo de predicció n puede
expresarse tambié n ˆ como Y = β0 + β1X.
• El parámetro β0 es la ordenada al origen del modelo (punto de corte con el eje Y) y β1 la pendiente, que puede interpretarse
como el incremento de la variable dependiente por cada incremento en una unidad de la variable independiente. Estos
parámetros son desconocidos y habrá que estimarlos de cara a realizar predicciones.

Ademá s de la hípotesis establecida sobre los errores de que en media han de ser cero, se establecen las siguientes hipó tesis:

9.5 El coeficiente de correlación lineal y el coeficiente de determinación

Nuestro objetivo en adelante será medir la bondad del ajuste de la recta de regresió n a los datos observados y cuantificar al
mismo tiempo el grado de asociació n lineal existente entre las variables en cuestió n. A mejor ajuste, mejores serán las
predicciones realizadas con el modelo.

La evaluació n global de una recta de regresió n puede hacerse mediante la varianza residual, que como sabemos es un índice
de la precisió n del modelo. Sin embargo, esta medida no es ú til para comparar rectas de regresió n de variables distintas, o
comparar el grado de asociació n lineal entre distintos pares de variables, ya que depende de las unidades de medida de las
variables.

El coeficiente de correlación lineal

Como solució n al inconveniente planteado, para medir la asociació n lineal entre dos variables X e Y se utiliza una medida
adimensional denominada coeficiente de correlació n lineal, dado por:

9.6 Predicció n a partir del modelo

¿Qué es un intervalo de predicción?

Un intervalo de predicción es un tipo de intervalo de confianza (IC) utilizado con


predicciones en el análisis de regresión; Es un rango de valores que predice el valor de
una nueva observación, basado en su modelo existente.

Los intervalos de predicción y confianza a menudo se confunden entre sí. Sin embargo,
no son exactamente lo mismo.
Un intervalo de confianza es un rango de valores asociados con un parámetro de
población. Por ejemplo, la media de una población.

Un intervalo de predicción es donde espera que caiga un valor futuro.

Las incertidumbres con los intervalos

Al igual que la mayoría de las cosas en las estadísticas, no significa que pueda predecir
con certeza dónde caerá un solo valor.

Los intervalos de confianza siempre están asociados con un nivel de confianza, lo que
representa un grado de incertidumbre (los datos son aleatorios, por lo que los resultados
del análisis estadístico nunca son 100% seguros).

Por ejemplo, podría decir que la vida media de una batería (con un nivel de confianza del
95%) es de 100 a 110 horas. Esto le indica que una batería caerá en el rango de 100 a
110 horas el 95% del tiempo.

Del mismo modo, el intervalo de predicción le indica dónde caerá un valor en el futuro,
dadas suficientes muestras, un cierto porcentaje del tiempo. Un intervalo de predicción
del 95% de 100 a 110 horas para la vida media de una batería le indica que las baterías
futuras producidas caerán en ese rango el 95% del tiempo. Hay un 5% de posibilidades
de que una batería no caiga en este intervalo.

Cuando usarlo

Es muy común usar el intervalo de confianza en lugar del intervalo de predicción,


especialmente en econometría. Sin embargo, debe usar un intervalo de predicción en
lugar de un nivel de confianza si desea resultados precisos. Supongamos que calcula un
intervalo de confianza para el gasto diario medio de su negocio y lo encuentra entre $
5,000 y $ 6,000. Eso te dice dónde está probablemente la media. Si usa ese CI para hacer
un intervalo de predicción, tendrá un intervalo mucho más estrecho. Por ejemplo, el
intervalo de predicción puede ser de $ 2,500 a $ 7,500 en el mismo nivel de confianza. Si
usa el intervalo de confianza, es muy probable que el intervalo tenga más errores, lo que
significa que los valores caerán fuera de ese intervalo con más frecuencia de lo que
predice.

Cómo encontrar un intervalo de predicción


Recordamos que en el modelo ajustado de la recta de regresión,

y, por otro lado,

E[Y/X = x] = β0 + β1x,

luego yˆ puede interpretarse de dos formas:

1. Como predicción del valor que tomará Y cuando X = x.

2. Como estimación del valor medio en Y para el valor X = x, es decir,

E[Y/X = x].

Ambas cantidades están sujetas a incertidumbre, que será tanto mayor cuanto peor sea el ajuste realizado
mediante la recta de regresión. Para concluir el tema, establecemos un intervalo de confianza para estas
cantidades.

Proposición. Podemos decir que con un (1 − α)x100% de confianza que cuando X = x, el valor predicho en Y
o el valor medio estimado en Y,E[Y/X = x], se encuentran en el intervalo:

Ejemplo 9.4. Para los datos del Ejemplo 9.1,

a. Predecir el valor en la compresió n para un nivel de presió n igual a 6.

La recta de regresió n ajustada era Y = −0.1 + 0.7X, con lo cual para un x=6 se predice un valor en Y
igual a

yˆ =−0.1+0.7∗6 = 4.1
b. ¿En qué medida son fiables las predicciones realizadas con la recta de regresió n ajustada?

Como el coeficiente de determinació n es igual a 0.81, las predicciones realizadas con la recta será n
fiables en un 81%.

c. Determinar un Intervalo al 95% de confianza para el valor medio de compresió n a una presió n de 6 .

El intervalo de confianza resulta:

Donde:

SSxx = Σ(x𝑖 −𝑥̅ )2

x = 6 es el nuevo valor para el pronóstico de la variable independiente fuera del periodo con datos de
observación

Tabla t-Student

En apariencia, la distribución t es muy similar a la distribución normal estandarizada. Ambas


distribuciones tienen forma de campana. Sin embargo, la distribución t tiene mayor área en los extremos y
menor en el centro, a diferencia de la distribución normal. Puesto que el valor de es desconocido, y se
emplea S para estimarlo, los valores t son más variables que los valores Z.
Debe tenerse en cuenta que a medida que la muestra es más grande (>100) la distribución
de probabilidad normal es una buena aproximación a la distribución t de Student

Los grados de libertad n-1 están directamente relacionados con el tamaño de la muestra n. A medida que
el tamaño de la muestra y los grados de libertad se incrementan, S se vuelve una mejor estimación de y la
distribución t gradualmente se acerca a la distribución normal estandarizada hasta que ambas son
virtualmente idénticas. Con una muestra de 120 o más, S estima con la suficiente precisión como para que
haya poca diferencia entre las distribuciones t y Z. Por esta razón, la mayoría de los especialistas en
estadística usan Z en lugar de t cuando el tamaño de la muestra es igual o mayor de 30.

Como se estableció anteriormente, la distribución t supone que la variable aleatoria X se distribuye


normalmente. En la práctica, sin embargo, mientras el tamaño de la muestra sea lo suficientemente
grande y la población no sea muy sesgada, la distribución t servirá para estimar la media poblacional
cuando sea desconocida.

Los grados de libertad de esta distribución se calculan con la siguiente fórmula

Donde n = tamaño de la muestra.

Ejemplo: Imagínese una clase con 40 sillas vacías, cada uno elige un asiento de los que están vacíos.
Naturalmente el primer alumno podrá elegir de entre 40 sillas, el segundo de entre 39, y así el número irá
disminuyendo hasta que llegue el último alumno. En este punto no hay otra elección (grado de libertad) y
aquel último estudiante simplemente se sentará en la silla que queda. De este modo, los 40 alumnos
tienen 39 o n-1 grados de libertad.

Para leer en la tabla de la distribución t se procede de la siguiente manera:


Usted encontrará los valores críticos de t para los grados de libertad adecuados en la tabla para la
distribución t.

Las columnas de la tabla representan el área de la cola superior de la distribución t.

Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo, con 10
grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se
muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se
encuentran en cada extremo de la distribución. Buscando en la columna para un área de la cola superior y
en la fila correspondiente a 10 grados de libertad, se obtiene un valor crítico para t de 1.812. Puesto que t
es una distribución simétrica con una media 0, si el valor de la cola superior es +1.812, el valor para el área
de la cola inferior (0,05 inferior) sería -1.812. Un valor t de -1.812 significa que la probabilidad de que t sea
menor a -1.812, es 0,05, o 5% (vea la figura).

Encontrando la región de rechazo en la prueba de significancia

5. Dado el nivel de significancia, podemos determinar la región de rechazo y de no-rechazo. Para un test a
dos colas:
Nivel de confianza

El nivel de confianza, 1 - α, tiene la siguiente interpretación. Si se extraen miles de muestras de n ítems de


una población usando un muestreo aleatorio simple y se calcula un intervalo de confianza para cada
muestra, la proporción de esos intervalos que incluirán la pendiente de la población verdadera es 1 - α.

Intervalo de una cara o de dos caras

Tipo de intervalo

Especifique si el intervalo que se utilizará será un intervalo de confianza de dos lados, un intervalo que solo
tiene un límite superior o un intervalo que solo tiene un límite inferior.
DESGRACIADAMENTE NO HAY UN ÚNICO TIPO DE TABLA t-STUDENT
1. 29. Intervalos de confianza e intervalos de predicción.

Hemos dicho (sección 27.3) que la recta ajustada puede utilizarse de dos maneras
distintas

a) para estimar de la media poblacional de Y para cada x fijo.

b) para predecir un valor futuro de Y para un valor fijo de x.


Hemos dicho anteriormente (sección 27.3) que la recta ajustada puede utilizarse de dos
maneras distintas, pero ahora agregaremos algunas más:

c) para estimar de la media poblacional de Y para varios valores de x diferentes.

d) para predecir varios valores futuros de Y para cada uno con un valor fijo de x

diferente.

e) realizar predicciones del valor de X que dio lugar al nuevo valor observado de Y.

Esto se llama predicción inversa.

Los intervalos que resultan de a) - d) están todos centrados en


yˆ , difieren
únicamente en su amplitud debido a la diferencia en las varianzas.

29.1 Intervalos de confianza para la respuesta media


Debe tenerse en cuenta la incerteza de la recta ajustada. Para ello se construye una banda
nueva
alrededor de la recta de regresión ajustada, tal que para cada valor fijo de x (x ), el intervalo
nueva
determinado por la banda y una recta vertical a la abscisa en x , sea un intervalo de confianza
del (1-α) 100%:

nueva)
Si llamamos s(a+bx a

tenemos que los límites de un intervalo de confianza para la media de la variable Y

dado el valor x nueva son

En particular si α = 0.05, el 95% de confianza significa que el intervalo es uno de una familia de
nueva
intervalos, tal que 95 de cada 100 contienen la verdadera media de Y para ese valor fijo de x (x )
; 5 no. Podemos confiar en que el que tenemos es uno de esos 95.

29.2 Intervalos de predicción para una observación futura


Para un mismo valor (x) de la variable explicativa, un intervalo de predicción refleja, además de la
variabilidad debida a que la recta estimada no representa exactamente la media verdadera de la
variable respuesta para ese valor de X, la variabilidad individual de la variable respuesta
alrededor de la media verdadera y es por esa razón es de mayor amplitud que el intervalo de
confianza.

Figura 18. Intervalos de confianza junto con los intervalos de predicción para una observación
futura

La expresión general de los límites de predicción del (1-α) 100 % para una observación futura
(ynueva) para el valor xnueva de la variable explicativa es:

La única diferencia entre el intervalo de confianza (21) y el de predicción (22) es que aparece un 1
dentro de la raíz. Esta diferencia hace que la longitud de los intervalos de confianza pueda
hacerse tan pequeña como se quiera, con tal de tomar suficientes observaciones, mientras que la
longitud de los intervalos de predicción nunca pueda ser menor que 2 tn-2, α/2 σˆ
Si la cantidad de observaciones es grande la raíz que aparece en la expresión (22) es

aproximadamente igual a 1 y la longitud del intervalo de predicción de nivel 0.95, resulta cerca de
4s. Por lo tanto, si estamos interesados en predicción, 4σˆ es un excelente indicio de la calidad
del ajuste, y como consecuencia, de la incerteza de las predicciones.

Ejemplo: Interesa estudiar la relación entre la pureza del oxigeno (Y) producido en un proceso de
destilación y el porcentaje de hidrocarburos (X) presentes en el condensador principal de la unidad
de destilación. No se conoce un modelo determinístico funcional que relacione la pureza del
oxígeno con los niveles de hidrocarburo.
El diagrama de dispersión de la figura 19 muestra que a pesar de que ninguna curva simple
pasará por todos los puntos hay una tendencia lineal creciente de manera que es razonable
suponer que la media de la pureza de oxígeno esté relacionada linealmente con el nivel de
hidrocarburos.

La tabla 4 los coeficientes y sus errores estándar, resultantes de un ajuste de cuadrados mínimos
a los datos de la pureza de oxígeno. La variable X (% de hidrocarburos) es estadísticamente
significativa.

Figura 20
Los gráficos de la figura 20 nos permiten concluir que los datos no presentan alejamientos de los
supuestos de Normalidad y homoscedasticidad.

Figura 21. Recta ajustada junto con las bandas de confianza y de predicción del 95%

La banda interna de la figura 21 es la banda de confianza (21). El intervalo más angosto, (91.650 , 92.671),
se encuentra en el nivel promedio de hidrocarburos ( x = 1.196 %). Los intervalos se van ensanchando a
medida que aumenta la distancia a dicho valor promedio. Un alto porcentaje de valores observados cae
fuera de la banda de confianza. Esto pone de manifiesto que dichas bandas están formadas por intervalos
de confianza para la respuesta media, nada dicen respecto de los valores de la variable de interés.

La longitud de estos intervalos decrece con el aumento del tamaño de la muestra y/o de la dispersión de
los valores de la variable independiente.

Siguiendo con el ejemplo, en el nivel promedio de hidrocarburos (1.196 %), el intervalo de predicción es
(89.821 ; 94.500). Los intervalos de predicción (22) del 95% también se ensanchan con la distancia al nivel
promedio de hidrocarburos, aunque esto no se ve fácilmente de la figura.
Distribución T de Students.
Tiene características similares a la distribución normal, su diferencia principal radica en las áreas de los extremos las
cuales son más amplias, como consecuencia de que usualmente se trabaja con muestras pequeñas. La sintaxis en
Excel es: DISTR.T(x;grados_de_libertad;colas)

X es el valor numérico al que se ha de evaluar la distribución. Grados_de_libertad es un entero que indica el número
de grados de libertad. Colas especifica el número de colas de la distribución que se ha de devolver. Toma los valores
de 1 o 2.

La banda interna de la figura 21 es la banda de confianza (21). El intervalo más angosto, (91.650 , 92.671), se encuentra
en el nivel promedio de hidrocarburos ( x = 1.196 %). Los intervalos se van ensanchando a medida que aumenta la
distancia a dicho valor promedio. Un alto porcentaje de valores observados cae fuera de la banda de confianza. Esto
pone de manifiesto que dichas bandas están formadas por intervalos de confianza para la respuesta media, nada dicen
respecto de los valores de la variable de interés.

La longitud de estos intervalos decrece con el aumento del tamaño de la muestra y/o de la dispersión de los valores de
la variable independiente.

Siguiendo con el ejemplo, en el nivel promedio de hidrocarburos (1.196 %), el intervalo de predicción es (89.821 ;
94.500). Los intervalos de predicción (22) del 95% también se ensanchan con la distancia al nivel promedio de
hidrocarburos, aunque esto no se ve fácilmente de la figura.

El nombre de la distribución se debe a su autor W.S. Gosset, quien le dio el seudónimo de T de Student ante la
imposibilidad de presentar sus trabajos so pena de perder su empleo, esto sucedió a principio del siglo XX.

Esta distribución es recomendada cuando se requiere estimar la media poblacional y no se conoce la desviación
estándar y por lo tanto, hay que estimarla, eso si, siempre y cuando la distribución original sea aproximadamente
normal.

Otro término utilizado en ésta distribución continua, es el de grados de libertad (g.l), el cual de manera intuitiva se
expone así:

Y= x1 ± x2 ± x3 ± x4 , para satisfacer la ecuación, tres variables se pueden cambiar a libertad, pero una de ellas no, por
eso, cuando se tiene una sola muestra, se hable de n-1 g.l. A medida que se aumenten los g.l. la distribución t, se
aproxima a la distribución Z de la normal. Otra lectura que se puede dar es que los g.l es una medida del número de
observaciones independientes en la muestra, que se usan para estimar la desviación estándar.

En general, cuando el tamaño de muestra no sea muy pequeño y la simetría no sea alta, se puede usar para estimar
la media poblacional cuando no se conoce la desviación.

En general, las características relevantes del modelo se sintetizan en la siguiente diapositiva.

TABLA DE LA DISTRIBUCION t - Student

La tabla da áreas 1 - a , para valores menores o iguales a t y n g.l, se construyó con Excel.

1-a

n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657

2 0.816 1.061 1.386 1.886 2.920 4.303 6.965 9.925


3 0.765 0.978 1.250 1.638 2.353 3.182 4.541 5.841

4 0.741 0.941 1.190 1.533 2.132 2.776 3.747 4.604

5 0.727 0.920 1.156 1.476 2.015 2.571 3.365 4.032

6 0.718 0.906 1.134 1.440 1.943 2.447 3.143 3.707

7 0.711 0.896 1.119 1.415 1.895 2.365 2.998 3.499

8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355

9 0.703 0.883 1.100 1.383 1.833 2.262 2.821 3.250

10 0.700 0.879 1.093 1.372 1.812 2.228 2.764 3.169

11 0.697 0.876 1.088 1.363 1.796 2.201 2.718 3.106

12 0.695 0.873 1.083 1.356 1.782 2.179 2.681 3.055

13 0.694 0.870 1.079 1.350 1.771 2.160 2.650 3.012

14 0.692 0.868 1.076 1.345 1.761 2.145 2.624 2.977

15 0.691 0.866 1.074 1.341 1.753 2.131 2.602 2.947

16 0.690 0.865 1.071 1.337 1.746 2.120 2.583 2.921

17 0.689 0.863 1.069 1.333 1.740 2.110 2.567 2.898

18 0.688 0.862 1.067 1.330 1.734 2.101 2.552 2.878

19 0.688 0.861 1.066 1.328 1.729 2.093 2.539 2.861

20 0.687 0.860 1.064 1.325 1.725 2.086 2.528 2.845

21 0.686 0.859 1.063 1.323 1.721 2.080 2.518 2.831

22 0.686 0.858 1.061 1.321 1.717 2.074 2.508 2.819

23 0.685 0.858 1.060 1.319 1.714 2.069 2.500 2.807

24 0.685 0.857 1.059 1.318 1.711 2.064 2.492 2.797

25 0.684 0.856 1.058 1.316 1.708 2.060 2.485 2.787

26 0.684 0.856 1.058 1.315 1.706 2.056 2.479 2.779

27 0.684 0.855 1.057 1.314 1.703 2.052 2.473 2.771

28 0.683 0.855 1.056 1.313 1.701 2.048 2.467 2.763

29 0.683 0.854 1.055 1.311 1.699 2.045 2.462 2.756

30 0.683 0.854 1.055 1.310 1.697 2.042 2.457 2.750

40 0.681 0.851 1.050 1.303 1.684 2.021 2.423 2.704

60 0.679 0.848 1.046 1.296 1.671 2.000 2.390 2.660

120 0.677 0.845 1.041 1.289 1.658 1.980 2.358 2.617

¥ 0.674 0.842 1.036 1.282 1.645 1.960 2.326 2.576

Es importante resaltar que al ser una distribución simétrica al tener información sobre un valor positivo, se obtiene el
dato para el mismo valor con signo negativo.
Un hecho de relevancia significativa, es que se utiliza para calcular probabilidades con respecto al promedio, en estos
casos, el divisor al estandarizar los valores se divide sobre S/ Ö n, término que se conoce como el error estándar de la
media y mide la variabilidad de la media entre muestra y muestra. A mayor tamaño de muestra, menor es el error
estándar de la media.

Por último, se puede afirmar, la distribución t es útil para realizar inferencias acerca de la media poblacional cuando no
se conoce s y la población es normal, independiente del n, no obstante, aún cuando la distribución sea un tanto
sesgada, la t sigue siendo apropiada, esto se conoce como una distribución robusta, es decir, a cambios moderados
de los supuestos, el modelo sigue siendo valido. Como en el caso de la distribución normal, ésta distribución también
usa valores tabulados, tal como se aprecian en la tabla precedente, teniendo en cuenta, que a medida que los g.l
aumenten los valores tienden a ser igual a los encontrados en la tabla Z.

Ejemplo 1: Los valores de las matriculas de estudiantes en una universidad privada tienen un comportamiento
aproximadamente normal, donde el promedio es de 2.100.000. Se seleccionan 8 liquidaciones, siendo los valores los
siguientes: 1.950.000, 2.100.000, 2.250.000, 1.890.000, 2.250.000, 1.950.000, 2.050.000, 2.350.000. Determine la
probabilidad de que:

· El promedio sea menor de 2.000.000.

· El promedio se encuentre entre 2.000.000 y 2.200.000

· El promedio sea mayor o igual a 2.500.000

Solución manual:

Sea X = Liquidación matriculas.

m = 2.100.000 ; s = ?

=2.098.750 s=168.644.8085 n=8

a) P( <2.000.000)=P( <2.000.000)

P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)

La probabilidad se encuentra entre 0.9 y 0.95, según la tabla T que se encuentra más adelante, no obstante, al t ser
negativo, la probabilidad está entre 0.1 y 0.05, es decir, los valores complementarios..

Para buscar en la tabla, se tiene en cuenta la fila con 7 g.l y se ubica el 1.677, el cual se encuentra entre los valores
mencionados. De ahí que sea importante utilizar el Excel, que nos permite calcular la probabilidad exacta.

b) P (2.000.000 < < 2.200.000)= P( <2.200.000) ? P( £ 2.000.000).

Luego de tipificar, se tiene:

P(t<3.35) ? P(t<-1.677) = 0.995 ?0.075= 0.92

Existe una alta probabilidad de que el promedio de las matriculas se encuentre entre 2.000.000 y 2.200.000.

c) P( >2.500.000)= P(t> 6.70) = 1- P(t< 6.70)= 1-1=0

Dado que el valor de 6.70 es mucho mayor que el ubicado en la tabla de 3.49 y corresponde a 0.995, es claro, entonces,
que para valores mayores de 3.49, la probabilidad será de 1.

Por lo tanto, la probabilidad de que el promedio de matricula sea superiora a 2.500.000 es cero.

Solución Excel:

a) P( <2.000.000)=P( <2.000.000)

P(t<(2.000.000-2.100.000)/(168644.8085/2.8284)= P(t<-1.677)

Como se dijo utilizando la tabla, la probabilidad está entre 0.1 y 0.05. La probabilidad exacta es de 0.0687. Es decir, la
probabilidad de que el promedio de matricula que pagan los estudiantes sea menor de 2.000.000 es baja.

=DISTR.T(1.677;7;1)= 0.0687
b) P (2.000.000 < < 2.200.000)= P( <2.200.000) ? P( £ 2.000.000).

Luego de tipificar, se tiene:

P(t<3.35) ? P(t<-1.677) = 0.995 ?0.075= 0.92

(1- =DISTR.T(3.35;7;1) - =DISTR.T(1.677;7;1)= ?

(1- 0.006125) ? 0.06872 = 0.9251

Los resultados son similares a los ya presentados. Por la forma de calcular el Excel las probabilidades, se resta a uno
la probabilidad de 3.35, es decir, el programa calcula la cola de la derecha.

c) P( >2.500.000)= P(t> 6.70) = =DISTR.T(6.7;7;1) = 0.00013

Se observa fácil, que el Excel permite calcular las probabilidades de manera más exactas que las usadas comúnmente
(tablas). Esto es importante tenerlo en cuenta, ya que cuando se tienen poblaciones muy grandes, esas pequeñas
diferencias se convierten en significativas.

Ejemplo 2: Los puntajes de un grupo de estudiantes se comportan normal, con promedio de 50, sin embargo, no se
conoce la desviación. Se tomó una m.a de 9 estudiantes encontrando una varianza de 36 y un promedio de 52. Cuál
es la probabilidad de que el promedio:

· Sea mayor de 54?

· Sea menor que 54?

· Esté comprendido entre 48 y 52 puntos?

Solución manual:

Sea X = Puntaje estudiantes.

m = 50 puntos ; s = ?

=52 s2=36 s=6 n=9

a) P( >54)=1- P(t<(54-50)/(6/3)) = 1- P(t<2) = 1- 0.9625 = 0.0375

1-a

n 0.75 0.80 0.85 0.90 0.95 0.975 0.99 0.995

1 1.000 1.376 1.963 3.078 6.314 12.706 31.821 63.657

8 0.706 0.889 1.108 1.397 1.860 2.306 2.896 3.355

Como se observa en la tabla, el 2.0 se encuentra entre 1.86 y 2.306, valores que corresponden a las áreas de 0.95 y
0.975. Realizando una estimación burda, se promedian los dos valores correspondientes a las áreas. Encontrando que
la probabilidad de que el promedio del puntaje de los estudiantes sea mayor de 54 es muy baja, 0.0375.

c) P( <54)= P(t<(54-50)/(6/3)) = P(t<2) = 0.9625. Por el contrario de lo anterior, es muy probable que el promedio del
puntaje de los estudiantes sea menor de 54, dicha probabilidad equivale al 0.9625.

d) P(48< >52)=P( <52)-P( <48)=P(t<(52-50)/(6/3))-P(t<(48-50)/(6/3))=

P(t<1)- P(t<-1)= 0.825 ?(1-0.825) = 0.65

La probabilidad es de 0.65. Se aprecia que al ser simétrica la distribución t, se calcula la probabilidad utilizando el
inverso.

Solución Excel:
Los valores de t, estan diseñados para valores mayores, por eso, se le resta la unidad cuando se quiere calcular un
valor hacia la izquierda, situación diferente a la tabla.

a) P( >54)= P(t>2) = =DISTR.T(2;8;1) = 0.04025

b) P( <54)= P(t<2)= (1 - =DISTR.T(2;8;1)) = 0.95975

c) P(48< >52)= P( <52)-P( <48) = P(t<1)-P(t<-1)=

(1 - =DISTR.T(1;8;1))- =DISTR.T(1;8;1))

= (1 - 0.1732.97) ? 0.173297 = 0.6534

Las distribuciones t de Student fueron descubiertas por William S. Gosset (1876-1937)


en 1908 cuando trabajaba para la compañía de cervezas Guinness en Dublín (Irlanda).
No pudo publicar sus descubrimientos usando su propio nombre porque Gui nness habí a
prohibido a sus empleados que publicaran información confid encial. Gosset firmó sus
publicaciones usando el nombre de "Stud ent". Gosset tenía buena relación con Karl
Pearson que había sido su maestro. Necesitaba una distribución que pudiera usar cuand o
el tamaño de la muestra fuera pequeño y la v arianza desconocid a y tenía que ser estimada
a partir de los datos. Las distribuciones t se usan para tener en cuenta la incertidumbre
añadida que resulta por esta estimación. Fisher comprendió la importancia de los trabajos
de Gosset para muestras pequeñas.

Si el tamaño de la muestra es n entonces decimos que la distribución t tiene n -1 grados


de libertad. Hay una distribución t diferente para cada tamaño de la muestra. Estas
distribuciones son una familia de distribuciones de probabilidad conti nuas. Las curvas d e
densidad son simétricas y con forma de campana como la distribución normal estándar.
Sus medias son 0 y sus varianzas son may ores que 1 (tienen c olas más pesadas). Las
colas de las distribuciones t disminuyen más lentamente que las colas de la distribución
normal. Si los grados de libertad son mayores más próxima a 1 es la varianza y la función
de densidad es más parecida a la densidad normal.

Cuando n es mayor que 30, la diferencia entre la normal y la distribución t de Student no


suele ser muy importante. En la imagen p odemos ver varios ejemplos de funciones d e
distribución acumulada.

En Probabilidades en Distribuciones t-Student puedes ver una c omparación más preci sa


entre las distribuciones t -Student y la normal estándar.

En el applet podemos ver va rios ejemplos de distribución t de Student junto con la normal
estándar.

Se aprecia cómo cuando el parámetro es 25 la distribución es muy parecida a la normal


estándar.

Los punt os grises controlan la escala vertical y horizontal de la gráfica y pulsando e l


boton derecho y arrastrando podemos move rla a derecha e izquierda.
ENLACES

Cálculo de probabilidades en distribuciones t de Student

Distribución Normal

La distribución normal fue estudiada por Gauss.

Una, dos y tres desviaciones típicas

Propiedad de las distribuciones normales.

Cálculo de probabilidades en distribuciones normales

Cálculo aproximado de probabilidades de diferentes intervalos en distribuciones normales.

Distribución binomial

La distribución binomial modela una situación en la que hay n ensayos independientes con una probabilidad constante de éxito.

Aproximación normal a la distribución Binomial

En algunos casos, una distribución Binomial puede aproximarse con una distribución Normal con la misma media y varianza.
Distribución de Poisson

La distribución de Poisson también se llama distribución de sucesos raros.


¿Podemos hacer CI para predecir el coeficiente intelectual de un gemelo adoptivo?

Dos tipos de intervalos disponibles:

Intervalo de confianza para el coeficiente intelectual promedio del gemelo adoptivo

Intervalo de predicción para el coeficiente intelectual de un solo gemelo adoptivo

Intervalos de confianza para valores promedio

Un intervalo de confianza para E (y | x⋆), el valor promedio (esperado) de y para un determinado x⋆, es

donde Sy es la desviación estándar de los residuos, calculada como

Sy se llama error estándar residual en la salida de regresión R.


Calcule un intervalo de confianza del 95% para el promedio de puntaje de CI (COEFICIENTE INTELECTUAL) de
los gemelos adoptivos cuyos gemelos biológicos tienen puntajes de CI de 100 puntos. Tenga en cuenta que
el puntaje promedio del coeficiente intelectual de 27 gemelos biológicos en la muestra es de 95.3 puntos,
con una desviación estándar de 15.74 puntos.

Pregunta

¿Cómo esperaría que el ancho del intervalo de confianza del 95% para el puntaje de coeficiente intelectual
promedio de los gemelos adoptivos cuyos gemelos biológicos tengan puntajes de coeficiente intelectual de
130 puntos (x⋆ = 130) se compare con el intervalo de confianza anterior (donde x ⋆ = 100)?

¿Cómo se comparan los intervalos de confianza donde x⋆ = 100 y x⋆ = 130 en términos de su ancho?
Resumen

El ancho del intervalo de confianza para E (y) aumenta a medida que x ⋆ se aleja del centro.

Conceptualmente: estamos mucho más seguros de nuestras predicciones en el centro de los datos que en
los bordes (y nuestro nivel de certeza disminuye aún más cuando se predicen fuera del rango de los datos:
extrapolación).

Matemáticamente: a medida que aumenta (x⋆ - x )̄ 2 términos, también aumenta el margen de error del
intervalo de confianza.

Pregunta

Anteriormente aprendimos cómo calcular un intervalo de confianza para el promedio y, E(y), para un
determinado x⋆.

Supongamos que no estamos interesados en el promedio, sino que queremos predecir un valor futuro de y
para una x⋆ dada.
¿Esperaría que haya más incertidumbre en torno a un promedio o un valor previsto específico?

La fórmula es muy similar, excepto que la variabilidad es mayor ya que hay un 1 agregado en la fórmula.

Nivel de predicción: si repetimos el estudio de obtener un conjunto de datos de regresión muchas veces,
cada vez formando un intervalo de predicción del XX% en x ⋆, y esperamos ver cuál es el valor futuro de y en
x⋆, entonces aproximadamente el XX% de los intervalos de predicción contendrán el valor real
correspondiente de y.

Ejercicio de aplicación:

Intervalo de predicción

Calcule un intervalo de predicción del 95% para el puntaje de CI promedio de gemelos adoptivos cuyos
gemelos biológicos tienen puntajes de CI de 100 puntos. Tenga en cuenta que el puntaje promedio de CI de
27 gemelos biológicos en la muestra es de 95.3 puntos, con una desviación estándar de 15.74 puntos.
Un intervalo de predicción es similar en espíritu a un intervalo de confianza, excepto que el intervalo de
predicción está diseñado para cubrir un "objetivo móvil", el valor futuro aleatorio de y, mientras que el
intervalo de confianza está diseñado para cubrir el "objetivo fijo", el promedio (esperado) valor de y, E (y),
para un determinado x⋆.

Aunque ambos están centrados en yˆ, el intervalo de predicción es más amplio que el intervalo de confianza,
para un determinado x⋆ y nivel de confianza. Esto tiene sentido, ya que:

• el intervalo de predicción debe tener en cuenta la tendencia de y a fluctuar desde su valor medio,
mientras que
• el intervalo de confianza simplemente necesita dar cuenta de la incertidumbre en la estimación del
valor medio.
• Para un conjunto de datos dado, el error al estimar E (y) e yˆ crece a medida que x ⋆ se aleja de x .̄ Por
lo tanto, cuanto más x⋆ se aleje de x ̄, más amplios serán los intervalos de confianza y predicción.
• Si se viola alguna de las condiciones subyacentes al modelo, entonces los intervalos de confianza y
los intervalos de predicción también pueden ser inválidos. Por eso es tan importante verificar las
condiciones examinando los residuos, etc.

Uso de la ecuación de regresión lineal para evaluar y predecir.

El modelo de regresión lineal simple es un supuesto acerca de la relación entre x y y. Si los resultados
tienen una relación estadísticamente significativa entre x y y, y si el ajuste que proporciona la ecuación de
regresión parece bueno, ésta podría utilizarse para estimaciones y predicciones.

Intervalo de confianza para estimar la media de y para un valor dado xp de x.

Intervalo de predicción para estimar un valor individual de Y para un valor dado x p de x:

La longitud de este intervalo es mayor que la del anterior (menos precisión) porque no corresponde a un
valor medio sino a uno específico.

Ejercicio:
a) Se desea estimar, mediante un intervalo del 95% de confianza, el promedio de venta trimestral para
todos los restaurantes cercanos a centros escolares con 10,000 estudiantes:
b) Se desea predecir, mediante un intervalo del 95% de confianza, las ventas trimestrales para un
restaurante que se construirá cercano a un centro estudiantil de 10,000 estudiantes :

Para un mismo valor (x) de la variable explicativa, un intervalo de predicción refleja, además de la
variabilidad debida a que la recta estimada no representa exactamente la media verdadera de la
variable respuesta para ese valor de X, refleja la variabilidad individual de la variable respuesta
alrededor de la media verdadera y por esa razón es de mayor amplitud que el intervalo de
confianza.

Figura 18. Intervalos de confianza junto con los intervalos de predicción para una observación
futura

La expresión general de los límites de predicción del (1-α) 100 % para una observación futura
(ynueva) para el valor xnueva de la variable explicativa es:
La única diferencia entre el intervalo de confianza (21) y el de predicción (22) es que aparece un 1
dentro de la raíz. Esta diferencia hace que la longitud de los intervalos de confianza pueda
hacerse tan pequeña como se quiera, con tal de tomar suficientes observaciones, mientras que la
longitud de los intervalos de predicción nunca pueda ser menor que 2 tn-2, α/2 σˆ
Si la cantidad de observaciones es grande la raíz que aparece en la expresión (22) es igual
aproximadamente a 1 y la longitud del intervalo de predicción de nivel 0.95, resulta cerca de 4s.
Por lo tanto, si estamos interesados en predicción, 4σˆ es un excelente indicio de la calidad del
ajuste, y como consecuencia, de la incerteza de las predicciones.

Como ya se vió, la notación 𝑡(𝑛−2, .95) es el t-valor correspondiente al punto porcentual 95ésimo con n-2
grados de libertad.(¡OJO! Aunque en la notación aparece t(n-2, .95), se corresponde con un nivel de
confianza del 90%, y el .95 resulta del reparto del 10% restante entre la cola superior e inferior(5% cada una)

De ahí viene el 0.95 en la notación 𝑡(𝑛−2,.95)∗

Si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se muestra en la tabla. El
nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se encuentran en cada extremo
de la distribución. Buscando en la columna para un área de la cola superior y en la fila correspondiente a 38
grados de libertad, se obtiene un valor crítico para t de 1.686. Puesto que t es una distribución simétrica con
una media 0, si el valor de la cola superior es +1.686, el valor para el área de la cola inferior (0,05 inferior)
sería -1.686. Un valor t de -1.686 significa que la probabilidad de que t sea menor a -1.686, es 0,05, o 5%
(vea la figura).

OTRO EJEMPLO DE CÁLCULO PARA AFIANZAR EL MÉTODO

Las columnas de la tabla representan el área de la cola superior de la distribución t.


Cada fila representa el valor t determinado para cada grado de libertad específico. Por ejemplo, con 10
grados de libertad, si se quiere un nivel de confianza del 90%, se encuentra el valor t apropiado como se
muestra en la tabla. El nivel de confianza del 90% significa que el 5% de los valores (un área de 0,05) se
encuentran en cada extremo de la distribución(cola). Buscando en la columna para un área de la cola
superior y en la fila correspondiente a 10 grados de libertad, se obtiene un valor crítico para t de 1.8125.
Puesto que t es una distribución simétrica con una media 0, si el valor de la cola superior es +1.812, el valor
para el área de la cola inferior (0,05 inferior) sería -1.8125. Un valor t de -1.8125 significa que la
probabilidad de que t sea menor a -1.8125, es 0,05, o 5% (vea la figura).

También podría gustarte