Está en la página 1de 89

PROFESOR: LUIS E.

NIETO BARAJAS

3. Conceptos de probabilidad

¾ La Probabilidad es una medida de la incertidumbre

¾ La incertidumbre que mide es la asociada a la eventual ocurrencia


de sucesos inciertos.

¾ Toda medida requiere de un patrón de referencia que posibilite la


interpretación de los resultados que produce.

¾ En el caso de la Probabilidad se ha adoptado un patrón que se


basa en las propiedades de las frecuencias relativas.

¾ De esta manera, la probabilidad se caracteriza a través de la forma


como opera, es decir a través de sus propiedades.

¾ Sea A un evento incierto, es decir uno cuya ocurrencia no


necesariamente es segura. Entonces, la probabilidad de que A
ocurra se denota como P(A) y esta medida debe cumplir las
siguientes propiedades básicas:

i) 0 ≤ P(A) ≤ 1 .
ii) P(A) = 1 sólo si A ocurre seguro.
iii) P(A) = 0 sólo si A no ocurre seguro.

105
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Otras propiedades, que involucran dos eventos son las siguientes.


Sean A y B dos eventos inciertos.
iv) Si A ocurre siempre que ocurre B (B ⊆ A) entonces,
P(B) ≤ P(A) .
v) Si sucede que A y B no pueden ocurrir simultáneamente
(B ∩ A = φ) entonces, P(A ∪ B) = P(A) + P(B) .

¾ Además, es conveniente introducir la siguiente definición: Sean A y


B dos eventos inciertos de forma que P(A) ≠ 0 . Entonces, la
Probabilidad Condicional de B dado A se define como

P(A ∩ B)
P(B A ) =
P(A)

¾ Con esta definición, se puede introducir una más. Sean A y B dos


eventos. Entonces se dice que A y B son independientes si se tiene
que
P(A ∩ B) = P(A) × P(B)

y en ese caso, P(B A ) = P(B) .

¾ Todas estas propiedades han sido adoptadas con el propósito de


reproducir, para las probabilidades, el comportamiento que tienen
las frecuencias relativas. De hecho, en los casos más simples las
probabilidades se calculan directamente como frecuencias
relativas.

106
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Existe, sin embargo, una inmensa variedad de situaciones en


donde las frecuencias no están disponibles en la forma necesaria y
es ahí donde las probabilidades cobran importancia ya que, en
particular, se pueden calcular utilizando otros procedimientos.

¾ Para empezar, no todos los fenómenos inciertos se manifiestan a


través de eventos en donde sólo es relevante si estos ocurren o no.
En muchas aplicaciones, el fenómeno aleatorio bajo estudio puede
producir distintos resultados e interesa el análisis de todos los
resultados posibles.

¾ Aparece entonces, asociado a la observación de un fenómeno


aleatorio, el concepto de variable aleatoria. Como en el caso del
AE, una variable no es más que la codificación numérica de los
posibles resultados que se derivan de la observación de un
fenómeno.

¾ De la misma forma que en el AE, las variables -ahora aleatorias-


pueden clasificarse como cualitativas y cuantitativas, o con mas
detalle en nominales, ordinales, discretas y continuas, de acuerdo
con su naturaleza.

¾ El interés se concentra en la descripción de la incertidumbre


asociada al fenómeno aleatorio bajo estudio, es decir, la
incertidumbre asociada a sus posibles resultados. Por su parte, la
variable aleatoria asigna un valor distinto a cada posible resultado
diferente.

107
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Entonces, el problema equivale a describir la incertidumbre


asociada a la variable aleatoria, es decir a la ocurrencia de sus
distintos valores.

¾ Ahora bien, si la ocurrencia de cada posible valor es incierta, la


incertidumbre correspondiente se puede describir a través de la
probabilidad respectiva.

¾ Como conclusión, la incertidumbre asociada a una variable


aleatoria queda descrita en cuanto se describe el conjunto de
valores que puede producir y la probabilidad asociada con cada
valor.

¾ En este punto es conveniente introducir dos nuevos términos:

1. Al conjunto de los valores que puede producir una variable


aleatoria X se le conoce como el Soporte de la variable y
habitualmente se le denota como X.

2. Al soporte, junto con la relación que asocia a cada valor de la


variable aleatoria su probabilidad de ocurrencia, se le conoce
con el nombre de Función de Probabilidad y habitualmente se
denota como PX, P(X) ó P(X = x).

¾ Con estos conceptos se tiene que la incertidumbre asociada a una


variable aleatoria queda descrita en cuanto se conoce su función de
probabilidad.

108
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Imagine una variable aleatoria X que, al ser observada, produce


uno de los siguientes valores: x1, x2, x3, x4, x5 y x6 .

¾ Como ya se ha indicado, la incertidumbre asociada a X queda


descrita en cuanto se informa de los valores x1 a x6 y de los valores
de probabilidad P(X = x1), … P(X = x6).

¾ Esta información puede reportarse a través de una tabla como


sigue:
Función de Probabilidad de X

X P(X = x)
x1 P(X = x1)
x2 P(X = x2)
x3 P(X = x3)
x4 P(X = x4)
x5 P(X = x5)
x6 P(X = x6)
1.00

‰ Equivalentemente, si se abrevia para a cada valor de X, pi


= P(X = xi) la tabla tiene el siguiente aspecto:

X P(X = x)
x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
1.00

109
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Esta representación establece una similitud evidente entre la


función de probabilidad y la tabla de frecuencias relativas. Es muy
importante percibir ahora las diferencias.

¾ La diferencia más importante entre las frecuencias y las


probabilidades estriba en el hecho de que las primeras describen la
información observada (ya registrada) en un banco de datos,
mientras que las probabilidades describen la manera en como
podría registrarse la información por observarse (futura) de una
variable aleatoria.

X fr / p
0 0.10
1 0.30
2 0.20
3 0.20
4 0.15
5 0.05
1.00

‰ En la tabla que antecede, si los valores de la segunda columna


fuesen frecuencias relativas, estos se podrían interpretar, por
ejemplo, como sigue:

1. Un 15% de los casos en el banco presentó un valor de 4.

2. El valor que se presentó con más frecuencia (la moda) fue el 1


(30%).

110
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ Por otra parte, esta tabla debiese incluir el tamaño del banco (n).

X fr / p
0 0.10
1 0.30
2 0.20
3 0.20
4 0.15
5 0.05
1.00

‰ Si, por el contrario, la tabla se refiriese a una función de


probabilidad, la interpretación seguiría otra línea. Por ejemplo:

1. Con una probabilidad de 0.15 se espera que, al observar la


variable, se presente un valor de 4.

2. El valor que se espera con mayor probabilidad (la moda) es el


1 (0.30).

‰ En este caso la noción de tamaño del banco simplemente no existe.

¾ Las características más notables de este ejemplo se pueden


generalizar para concluir que, así como la tabla de frecuencias es
un resumen eficiente (suficiente y minimal) de la información
contenida en un banco de datos, la función de probabilidad
constituye el resumen correspondiente si el propósito es describir la
incertidumbre asociada a una variable aleatoria.

111
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Por otra parte, una vez que ha sido establecida esta


correspondencia entre tabla de frecuencias y función de
probabilidad, surge de manera natural la idea de transportar
también al terreno de la probabilidad otros resúmenes propios del
Análisis Exploratorio.

¾ El objetivo es el mismo: proveer una descripción, en este caso del


comportamiento de la variable aleatoria. El concepto también
coincide: emplear resúmenes parciales que si bien no capturan
toda la información relevante, destacan algún aspecto que puede
ser de especial interés.

¾ De esta manera es posible referirse a las medidas de localización y


dispersión para variables aleatorias introduciendo algunas
modificaciones en las definiciones correspondientes.

MEDIDAS DE LOCALIZACIÓN
(para variables aleatorias)

Moda. Es el valor más probable de X.

Mediana. Es el valor X(0.5), en el soporte de X, que satisface


simultáneamente las dos siguientes condiciones:

P( X ≤ X(0.5) ) ≥ 0.5
P( X ≥ X(0.5) ) ≥ 0.5 .

112
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Cuantil (de orden q). Es el valor X(q), en el soporte de X, que


satisface simultáneamente las dos siguientes condiciones:

P( X ≤ X(q) ) ≥ q
P( X ≥ X(q) ) ≥ 1-q .

Mínimo. Es el valor más pequeño, X[-], en el soporte de X.

Máximo. Es el valor más grande, X[+], en el soporte de X.

Media (Valor Esperado ó Esperanza). Es un promedio ponderado


de los valores en el soporte de X donde las probabilidades
respectivas sirven como pesos. Por ejemplo, si la variable X
produce los valores x1, x2, x3, x4, x5 y x6 con probabilidades p1, p2,
p3, p4, p5 y p6 respectivamente, entonces la media de X se calcula
como:
6
µ = E(X) = ∑ pi x i
i =1

¾ Como puede observarse, todas las medidas de localización


originalmente diseñadas para servir propósitos descriptivos en el
AE tienen una versión equivalente en Probabilidad que se obtiene,
para todo propósito práctico, sustituyendo frecuencias relativas por
probabilidades.

113
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Posiblemente el caso en el que esta identificación resulta menos


clara es la media. Aparentemente se tiene una diferencia relevante
cuando aquí se define como un promedio ponderado mientras que
en AE se definió como un promedio aritmético simple. Esta
diferencia es sólo aparente.

¾ Recuerde que en un banco de datos puede presentarse la


repetición de valores. De hecho, el propósito del cálculo de
frecuencias es precisamente dar cuenta de esas repeticiones.

¾ Por otra parte, en el soporte de una variable solamente se incluyen


los valores distintos de X.

¾ Así pues si se observa que la definición de la media en AE se


refiere al promedio sobre todos los casos en el banco, mientras que
en Probabilidad se consideran los valores en el soporte, es
inmediato comprobar que las dos definiciones coinciden.

¾ Considere el siguiente conjunto de datos que describe los años


transcurridos desde la obtención del título profesional para el grupo.

114
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Años
4
3
5
5
3
9
0
5
4
4
9
3
15
3
3
5
5
6
2

‰ Compruebe que si calcula la media utilizando, primero, la fórmula


n
µ= X= 1
n ∑ xi
i =1

en donde n es el número de casos y después construye la tabla de


frecuencias relativas, sin agrupar, y calcula ahora
k
E(X) = ∑ fri xi
i =1

donde k es el número de valores distintos en el banco (de


renglones en la tabla de frecuencias), obtiene el mismo resultado.

¾ De la misma manera se puede proceder con las medidas de


dispersión.

115
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

MEDIDAS DE DISPERSIÓN
(para variables aleatorias)

Rango. Es el valor R que se calcula como la diferencia entre los


valores máximo y el mínimo de la variable:
R = X[+] – X[-].

Rango entre cuartiles. Es el valor REC, que se calcula como la


diferencia entre los cuantiles de orden 0.75 (tercer cuartil) y 0.25
(primer cuartil):
REC = X(0.75) – X(0.25).

Error Medio. Es un promedio ponderado de las diferencias que


guardan, en valor absoluto, los valores en el soporte de X respecto
a una medida de localización. Las probabilidades respectivas sirven
como pesos y por ejemplo, si la variable X produce los valores x1,
x2, x3, x4, x5 y x6 con probabilidades p1, p2, p3, p4, p5 y p6
respectivamente, y X(0.5) es la mediana de X, entonces el EM,
respecto a la mediana, se calcula como:
6
EM(X) = ∑ pi x i − X(0.5)
i =1

Varianza. Es el valor σ2 que se calcula como un promedio


ponderado de las diferencias que guardan, elevadas al cuadrado,
los valores en el soporte de X respecto a la media de la variable.
Las probabilidades respectivas sirven como pesos y por ejemplo, si

116
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

la variable X produce los valores x1, x2, x3, x4, x5 y x6 con


probabilidades p1, p2, p3, p4, p5 y p6 respectivamente, entonces la
varianza de X se calcula como:
6
σ2(X) = Var(X) = ∑ pi ( x i − µ)2 .
i =1

Desviación estándar. Es el valor σ que se calcula como la raíz


cuadrada de la varianza. De nuevo, por ejemplo, si la variable X
produce los valores x1, x2, x3, x4, x5 y x6 con probabilidades p1, p2,
p3, p4, p5 y p6, entonces la desviación estándar de X resulta:

6
σ(X) = [Var(X)] 1/2
= ∑ pi ( x i − µ)2 .
i =1

¾ Tanto las medidas de localización como las medidas de dispersión


que se han presentado para las variables aleatorias parten del
supuesto de que el soporte X de la variable X esta formado por un
número finito de posibles valores.

¾ Estrictamente en la práctica, este supuesto es correcto. Sin


embargo, existen modelos de probabilidad que son muy útiles y
convenientes y que tienen un soporte con un número infinito de
posibles valores.

117
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En tal caso es necesario modificar, en cierto sentido, las


definiciones de algunos de estos resúmenes. Considere el caso en
que el soporte es infinito pero discreto. Es decir, el caso en que X =
{ x1, x2, x3,… } donde los valores constituyen una secuencia de
puntos aislados sin fin.

¾ La primera consecuencia de esta estructura es que en


correspondencia con los valores en X, debe existir una secuencia,
también infinita, de probabilidades { p1, p2, p3,… }. Cada una de
estos valores debe cumplir con las propiedades que caracterizan a
las probabilidades y en conjunto deben satisfacer, la condición:


∑ pi = 1.
i =1

En términos técnicos, se dice que la sucesión definida por la suma


de las probabilidades debe converger a 1.

¾ Además, todos los resúmenes que involucran promedios


ponderados deben incorporar la modificación correspondiente. Esto
significa que en el caso de variables aleatorias discretas con
soporte infinito se tiene que:

µ = E(X) = ∑ pi x i ,
i =1


EM(X) = ∑ pi x i − X(0.5) ,
i =1

118
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS


σ2 = ∑ pi ( x i − µ)2 y
i =1


σ= ∑ pi ( x i − µ)2 .
i =1

¾ Naturalmente, ahora cada una de estas medidas define una


sucesión que, al menos en teoría, podría no converger. Por
supuesto, los modelos más comunes y, en particular, los que se
consideran en este texto no presentan esa anomalía.

¾ Un caso ligeramente más sofisticado es el de las variables


aleatorias continuas. Como en AE, se dice que una variable es
continua si puede producir cualquier valor en un intervalo. Es decir,
si el soporte X es un intervalo.

¾ Conceptualmente, la dificultad más importante cuando se


consideran variables continuas radica en el hecho de que si X es un
intervalo, no existe forma de recorrer puntualmente, uno a la vez,
los valores en el soporte para calcular los promedios requeridos.

¾ Suponga, por ejemplo, que tiene una variable continua con soporte
X igual al intervalo [0, 10]. Evidentemente, el mínimo valor en el
soporte es cero pero no es posible establecer cual es el que le
sigue. Cualquier candidato, digamos A, queda descartado
automáticamente si se reconoce que entre cero y el número A
existe una infinidad de valores más.

119
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ La solución a este dilema está inspirada en la idea, ya bien


conocida, de agrupar. Suponga que el soporte X se divide en un
número finito, digamos k, de subintervalos o clases. Suponga,
además, que las probabilidades asociadas a todas y cada una de
las clases son p1A , p 2A ,...., pkA .

¾ Si ahora se elige, en cada clase un valor de X como representante


A A A
y se forma la colección x1 , x 2 ,...., x k entonces una aproximación
al valor de, por ejemplo, la media está dado por:
k
*
E (X) = ∑ piA x iA
i =1

¾ Es intuitivamente claro que la calidad de esta aproximación será


mejor en la medida en que el número de clases aumente y la
longitud de todos y cada uno de los subintervalos sea cada vez
menor. De esta manera, y desde un punto de vista técnico de
nuevo, se tiene que la Media se puede obtener como resultado de
un proceso límite:
k
∑ piA x iA k →∞
 → E(X)
i =1

¾ Ahora bien, es un resultado bien conocido del cálculo integral que


una suma como la que se ha construido, cuando converge, lo hace
a una integral. En este caso,
k
∑ piA x iA k →∞
 → ∫ x f(x) dx
i =1 X

120
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

en donde f(x) es una función con las siguientes características:

1. f(x) ≥ 0 para toda x en X.

2. ∫ f(x) dx = 1.
X

‰ A la función f(x) se le conoce como la función de densidad de


probabilidad de X.

¾ La otra propiedad importante de f(x) es la siguiente: Para cualquier


intervalo [a, b] que se encuentre contenido en el soporte de X, la
probabilidad del evento A = {a ≤ X ≤ b} se calcula como:

b
P(A) = ∫a f(x) dx .

¾ Esta propiedad implica que, en particular, un peculiar resultado


según el cual si x es un valor fijo cualquiera de una variable
aleatoria X continua entonces

P( X = x ) = 0.

¾ Es decir, cualquier modelo de probabilidad para variables


continuas:
1. Asigna a un intervalo una probabilidad que se calcula como el
área bajo la curva definida por la función de densidad.

121
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

2. A todo valor aislado de la variable le asigna probabilidad cero.

¾ Es importante observar que las variables aleatorias continuas no


cuentan con función de probabilidad; en su lugar se tiene la función
de densidad de probabilidad.

¾ Comente cuales son las similitudes y diferencias entre la función de


probabilidad (para variables discretas) y la función de densidad
(para variables continuas).

¾ Existe otra función definida para ambos tipos de variables: La


Función de Distribución. Si X es una variable aleatoria y x es un
valor cualquiera, entonces, la función de distribución de X evaluada
en x se define como

FX(x) = P(X ≤ x).

¾ A la Función de Distribución también se le llama función de


probabilidad acumulada y la forma de cálculo es distinta para las
variables discretas y continuas.

Caso discreto:

FX (x) = P(X ≤ x) = ∑y ≤ x P(X = y) = ∑y ≤ x p y .

122
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Caso Continuo:
x
FX (x) = P(X ≤ x) = ∫ f(y)dy .
−∞

¾ Volviendo al problema de describir una variable aleatoria, ahora es


posible plantear la descripción en términos más generales que
incluyan tanto a las variables discretas como a las continuas:

Una variable aleatoria está completamente descrita en cuanto se


define su soporte y su función de distribución.

¾ En relación con este tema vale la pena observar que existe una
cantidad incontable de variables aleatorias.

¾ De hecho, cualquier colección de números positivos cuya suma sea


finita puede dar lugar a una función de probabilidad y por tanto a
una variable discreta.

¾ Por su parte cualquier función positiva cuya área bajo la curva sea,
también, finita puede dar lugar a una función de densidad y por
tanto a una variable continua.

¾ Una forma muy conveniente de trabajar con variables aleatorias es


a través de modelos.

123
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Un modelo (paramétrico) para una variable aleatoria es una


ecuación que permite el cálculo de una función de distribución (o de
probabilidad o de densidad) una vez que se fijan los valores de un
conjunto de índices o parámetros.

¾ Alguno de los modelos parámetricos más comunes son los


siguientes:

Variables discretas:

1. Uniforme.
2. Triangular.
3. Bernoulli
4. Binomial.
5. Poisson.
6. Geométrica
7. Binomial Negativa.

Variables Continuas:

1. Uniforme
2. Triangular.
3. Exponencial,
4. Normal,
5. Ji cuadrada
6. t de Student
7. F.

124
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Algunos de estos modelos, o mejor dicho, algunas de estas familias


de modelos ya han sido presentadas. Sin embargo y para tener un
panorama conjunto, aquí se revisan nuevamente.

¾ Modelo Uniforme Discreto.


Soporte:
X = {1, 2, 3, …N}.
Función de Probabilidad:
P(X = x) = 1/N para todo x en X.

Función de Probabilidad
Uniforme Discreta (N=10)

0.15

0.12

0.09

0.06

0.03

0.00
0 1 2 3 4 5 6 7 8 9 10 11

Esperanza:
E(X) = (N+1)/2
Varianza:
Var(X) = (N2 –1)/12
Esta familia tiene tantos elementos como valores existen de N
enteros mayores que 1.

125
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Triangular Discreto.


Soporte:
X = {1, 2, 3, …N}.

Función de Probabilidad:
P(X = x) = bx para todo x en X.
( b = 2/{(N(N+1)} ).

Esperanza:
E(X) = (2N+1)/3
Varianza:
Var(X) = {(N –1)(N +1)}/18

Esta familia de modelos tiene tantos elementos como valores N


existen enteros y mayores que 1.

Función de Probabilidad
Triangular Discreta (N=10)

0.18

0.15

0.12

0.09

0.06

0.03

0
0 1 2 3 4 5 6 7 8 9 10 11

126
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Bernoulli.
Soporte:
X = {0, 1}.

Función de Probabilidad:
P(X = x) = px (1-p)(1-x) para todo x en X.

Función de Probabilidad
Bernoulli (p = 0.25)

1.00

0.80

0.60

0.40

0.20

0.00
-0.5 0 0.5 1 1.5

Esperanza:
E(X) = p
Varianza:
Var(X) = p(1-p)

Esta familia de modelos tiene tantos elementos como valores


existen de p en el intervalo [0,1].

127
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Binomial.
Soporte:
X = {0, 1,…., N}.

Función de Probabilidad:

N
P(X = x) =   p x (1 − p)N - x para todo x en X.
x

Función de Probabilidad
Binomial (p = 0.75, N = 10)

0.30

0.25

0.20

0.15

0.10

0.05

0.00
0 2 4 6 8 10 12

Esperanza:
E(X) = Np
Varianza:
Var(X) = Np(1-p)
Esta familia de modelos tiene tantos elementos como parejas
existen de valores de N enteros positivos y de p en el intervalo
[0,1].

128
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Poisson.
Soporte:
X = {0, 1, 2,…. }.

Función de Probabilidad:
λx exp( − λ )
P(X = x) = para todo x en X.
x!

Función de Probabilidad
Poisson ( λ = 5 )

0.20

0.16

0.12

0.08

0.04

0.00
0 5 10 15 20

Esperanza:
E(X) = λ
Varianza:
Var(X) = λ

Esta familia de modelos tiene tantos elementos como valores de λ


existen positivos.

129
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Geométrico.
Soporte:
X = {0, 1, 2,…. }.

Función de Probabilidad:

P(X = x ) = p(1 − p )
x

para todo x en X.

Función de Probabilidad
Geométrica ( p = 0.2 )

0.24

0.20

0.16

0.12

0.08

0.04

0.00
0 5 10 15 20

Esperanza:
E(X) = (1-p) / p
Varianza:
Var(X) = (1-p) / p2
Esta familia de modelos tiene tantos elementos como valores de p
existen en [0, 1].

130
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Binomial Negativa.


Soporte:
X = {0, 1, 2,…. }.

Función de Probabilidad:
 r + x − 1 r
P(X = x) =   p (1 − p) x
 x 
para todo x en X.

Función de Probabilidad Binomial


Negativa (r = 3, p = 0.3) )

0.12

0.08

0.04

0.00
0 5 10 15 20

Esperanza:
E(X) = r (1-p) / p
Varianza:
Var(x) = r (1-p) / p2
Esta familia de modelos tiene tantos elementos como existen
parejas de valores r entero positivo y p en [0, 1].

131
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Uniforme Continua.


Soporte:
X = [a, b]. (a<b)

Función de Densidad:
1
f X (x) =
(b − a)
para todo x en X y cero en otro caso.

Función de Densidad Uniforme


(a = 0, b = 10) )

0.15

0.12

0.09

0.06

0.03

0.00
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11

Esperanza:
E(X) = (a + b) / 2
Varianza:
Var(X) = (b - a)2 / 12

Esta familia de modelos tiene tantos elementos como existen


parejas de valores a y b con a < b.

132
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Exponencial.
Soporte:
X = (0, ∞).

Función de Densidad:
fX (x) = λ exp( −λx )
para todo x en X y cero en otro caso.

Función de Densidad Exponencial


( λ= 0.5)

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0 1 2 3 4 5 6 7 8 9 10 11 12

Esperanza:
E(X) = λ-1
Varianza:
Var(X) = λ-2
Esta familia de modelos tiene tantos elementos como valores de λ
positivos.

133
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Normal.
Soporte:
X = (-∞, ∞).
Función de Densidad:
1 1
f(x) = 2 1/ 2
exp { − 2
( x − µ)2 }
(2πσ ) 2σ
para todo x en X .

Función de Densidad Normal


Estándar ( µ= 0, σ2 = 1)

0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
-5.0 -3.0 -1.0 1.0 3.0 5.0

Esperanza:
E(X) = µ
Varianza:
Var(X) = σ2
Esta familia de modelos tiene tantos elementos como parejas
existen de valores µ en los reales y σ2 positivos.

134
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo Ji cuadrada (χ2).


Soporte:
X = (0, ∞).
Función de Densidad:
1
f(x) = (2)- r / 2 x ( r / 2 − 1)
exp(− x / 2)
Γ(r/2)
para todo x en X .

Esperanza:
E(X) = r
Varianza:
Var(X) = 2 r

Esta familia de modelos tiene tantos elementos como valores de r


existen enteros positivos. Al parámetro r se le conoce como el
número de grados de libertad o, mas brevemente, grados de
libertad.

‰ El modelo Ji cuadrada está relacionado con el modelo Normal en


virtud de que si Z tiene una distribución Normal estándar, entonces
Z2 sigue una distribución Ji cuadrada con r = 1 (un grado de
libertad).

‰ Por otra parte, si U es Ji cuadrada con r grados de libertad y V es Ji


cuadrada con s grados de libertad y, además U y V son
independientes, entonces la variable W = U + V tiene una
distribución Ji cuadrada con r + s grados de libertad.

135
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Ji cuadrada con 4 g.l.

0.20

0.16

0.12

0.08

0.04

0.00
0 3 6 9 12 15 18

Ji cuadrada con 10 g.l

0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
0 5 10 15 20 25 30

Ji cuadrada con 30 g.l

0.06

0.05

0.04

0.03

0.02

0.01

0.00
10 20 30 40 50 60

136
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo t de Student.
Soporte:
X = (-∞, ∞).

Función de Densidad:
Γ[(r + 1)/2]
f(x) = (rπ)-1/2 (1+ x 2 /r)- (r +1)/2
Γ(r/2)
para todo x en X .

Normal Estándar T con 2 grados T con 10 grados

0.45
0.40

0.35
0.30
0.25
0.20

0.15
0.10

0.05
0.00
-5.0 -3.0 -1.0 1.0 3.0 5.0

Esperanza:
E(X) = 0 (si r > 1)
Varianza:
Var(X) = r / (r-2) (si r > 2)

Esta familia de modelos tiene tantos elementos como existen


valores de r enteros positivos. A r se le conoce como los grados
de libertad de la distribución.

137
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ El modelo t de Student se aproxima al modelo Normal estándar a


medida que el número de grados de libertad aumenta.

‰ Por otra parte, es interesante tener presente el siguiente resultado.


Si Z es Normal estándar, V es Ji cuadrada con r grados de libertad
y estas dos variables son independientes entonces

Z
W=
V /r

tiene una distribución t de Student con r grados de libertad.

138
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Modelo F.
Soporte:
X = (0, ∞).
Función de Densidad:
m/2
Γ[(m + n)/2]  m  x ( m − 2) / 2
f(x) =  
Γ(m/2)Γ(n/2)  n  [1 + (m / n)x](m + n) / 2
para todo x en X .

Esperanza:
E(X) = n / (n-2) (si n > 2)
Varianza:
Var(X) = [2n2 (m+n-2)]/ [m(n-2)2 (n-4)], (si n > 4)

Esta familia de modelos tiene tantos elementos como parejas


existen de enteros positivos m y n. Al parámetro m se le conoce
como grados de libertad del numerador mientras que a n se le
llama grados de libertad del denominador.

Distribución F (3,3)
0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0 1 2 3 4 5 6

139
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Distribución F (10,10)
0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0 1 2 3 4 5 6

Distribución F (40,40)
1.4

1.2

1.0

0.8

0.6

0.4

0.2

0.0
0 1 2 3 4 5 6

140
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Distribución F (3,40)
0.8

0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0 1 2 3 4 5 6

Distribución F (40,3)
0.7

0.6

0.5

0.4

0.3

0.2

0.1

0.0
0 1 2 3 4 5 6

141
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ El modelo F está relacionado con el modelo Ji cuadrada y por tanto


con el modelo Normal. Específicamente, si U y V son dos variables
aleatorias independientes y U es Ji cuadrada con m grados de
libertad mientras que V es Ji cuadrada con n grados de libertad,
entonces la variable
U/m
W =
V/ n
sigue una distribución F con m grados de libertad en el numerador
y n grados de libertad en el denominador.

142
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

4. Estimación y Pronóstico

¾ Un problema inherente al uso de modelos es el de la selección del


modelo.

¾ Este problema, cuando se recurre al empleo de familias


paramétricas de modelos, se puede plantear en dos etapas.

¾ El primer paso consiste en la selección de la familia apropiada


(Normal, Poisson, Binomial, etc., etc.). En general, esta fase se
resuelve tomando en cuenta las características generales de la
variable en cuestión. Primero hay que establecer si se trata de una
variable discreta o continua y determinar cual es su soporte.

¾ También se toma en cuenta el tipo concreto de fenómeno que se


intenta describir. Existe experiencia que puede resultar muy valiosa
para determinara la familia apropiada.

¾ La segunda parte del problema, una vez que se ha decidido la


familia, se refiere a la selección del modelo particular, dentro de la
familia. En otras palabras la selección del parámetro.

¾ En términos generales, los parámetros se seleccionan para que el


modelo reproduzca en la manera más fiel posible el
comportamiento observado en los datos.

143
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Existen distintos métodos o técnicas que pueden emplearse para


este fin. Conceptualmente, se distinguen en lo que se refiere a los
aspectos del banco de datos que pretenden reproducir.

¾ El más simple, y muy útil en muchos casos, es el Método de


Momentos que se basa, precisamente, en la noción de momento.

¾ Si se tiene un banco con los datos x1, x2,... xn entonces se define el


momento muestral de orden r como el promedio de los datos, cada
uno de ellos elevado a la potencia r (con r un entero positivo).

n
mr = 1
n ∑ (xi )r
i =1

¾ Es interesante notar que esta noción de momento generaliza la


idea de la media. En particular, para el caso r = 1, m1 coincide
precisamente con la media X . Además, se puede comprobar que la
varianza se puede expresar en función de los dos primeros
momentos:

n −1 2
S = m2 – m12
n

¾ Por su parte, si se tiene una variable aleatoria X, se define el


momento poblacional de orden r como el valor esperado de la
variable elevada a la potencia r (con r un entero positivo). Así,

144
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

k
Mr = ∑ (x i )r pi en el caso discreto,
i =1

Mr = ∫ x r f(x) dx en el caso continuo.


X

¾ Como en el caso de un banco de datos, para las variables


aleatorias se tienen las mismas relaciones con la esperanza y la
varianza.

E(X) = M1

Var(X) = M2 - M12

¾ El método utiliza el hecho de que los momentos de una variable


aleatoria con una distribución que pertenece a una familia
paramétrica están, en general, relacionados con los parámetros de
la familia.

¾ Algoritmo: Así, el método de momentos procede en forma


secuencial estableciendo la igualdad de los momentos del modelo
con los momentos de los datos en el banco hasta determinar los
valores de los parámetros.

145
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

1. El primer paso consiste en establecer la igualdad de los


momentos de orden 1 es decir, la esperanza del modelo con la
media de los datos. Si esta igualdad determina los parámetros
involucrados el proceso termina.

2. En caso contrario, se establece la igualdad entre los momentos


de orden 2 lo cual equivale a establecer la igualdad entre la
varianza del modelo y la varianza de los datos.

3. Si estas dos ecuaciones determinan por completo el valor de los


parámetros el proceso finaliza; en caso contrario, el proceso
continua estableciendo la igualdad entre los momentos de orden
sucesivamente mayor hasta fijar los parámetros.

¾ Como ejemplo considere el ejemplo de unos datos que se pretende


aproximar con un modelo Poisson. En el caso de este modelo la
esperanza coincide con el valor del parámetro λ.

o Así, la igualdad M1 = m1 se traduce en la ecuación

λ= X

Que determina el valor del parámetro y el proceso de ajuste


termina.

146
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Otro ejemplo útil es el caso Normal. Para este modelo se tienen dos
parámetros. La primera ecuación M1 = m1 equivale a la igualdad

µ= X

o Que determina el valor del parámetro µ mientras que la segunda


(M2 = m2) equivale a la igualdad de las varianzas y, por tanto, se
traduce en la relación

σ 2 = S2

y, de esta forma, el proceso de ajuste termina.

¾ Aquí, es de la mayor importancia introducir una consideración que


se presenta con frecuencia en la práctica. En diversas
circunstancias el banco de datos recoge la información disponible
sobre el fenómeno de interés pero esta información no es toda la
que el fenómeno puede producir.

¾ De esta manera el banco contiene solamente una fracción de la


información posible. De hecho, en esos casos existe, al menos
potencialmente, la posibilidad de contar con otros bancos de datos
sobre el mismo fenómeno.

147
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En estas circunstancias la aplicación del método de momentos (o


de cualquier otro método de ajuste) produce el valor óptimo de los
parámetros para describir el comportamiento de los datos en el
banco disponible pero es necesario reconocer que un estudio
similar que utilizase otro banco de datos podría arrojar valores
distintos para los parámetros y por tanto, una descripción diferente
del fenómeno bajo estudio.

¾ Este hecho plantea una situación que sólo se puede abordar desde
la perspectiva de la Inferencia Estadística.

¾ Por una parte, el valor que se obtiene en el ajuste del modelo ya no


puede considerarse como el parámetro que describe el
comportamiento del fenómeno sino únicamente una aproximación a
su valor desconocido.

¾ En los términos comunes del lenguaje estadístico se dice que el


valor obtenido constituye una estimación (o valor estimado) del
parámetro y con el fin de distinguir ambos valores si el parámetro
es θ, la estimación (o estimador) se denota con el símbolo θ̂ .

¾ Por otra parte, si el valor del estimador depende del particular


banco de datos que se haya empleado para la estimación, se
plantea el siguiente dilema: ¿Cómo determinar el grado en que el
estimador aproxima el verdadero valor desconocido del parámetro?

148
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En otras palabras: ¿Cómo determinar el grado en que el banco


disponible refleja el resultado que se obtendría si se contase con
toda la información del fenómeno (población)?

¾ Este problema se ha resuelto incorporando un supuesto más en el


proceso. Primero dos definiciones.

‰ Cuando se cuenta con toda la información que el fenómeno bajo


estudio puede producir se dice que se tiene un Censo.

‰ De la misma manera, cuando únicamente se cuenta con una


fracción de la información que el fenómeno bajo estudio puede
producir se dice que se tiene una Muestra.

¾ El supuesto que permite, de nuevo, utilizar las herramientas de la


probabilidad para describir esta nueva fuente de incertidumbre
consiste en considerar a los datos disponibles como si hubiesen
sido seleccionados de entre todos los datos potencialmente
posibles a través de un sorteo (muestreo aletorio).

¾ Conceptualmente esto equivale a suponer, en el caso más simple,


que todos los datos posibles se alojaron en una urna de donde se
extrajeron por sorteo aquellos que finalmente forman el banco.

149
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ De esta manera, se establece un principio de representatividad del


banco (que ahora recibe el nombre de muestra aleatoria). La idea
es que se cuenta con datos que se produjeron con un
procedimiento que concede a todos los datos potenciales la misma
oportunidad de aparecer en la muestra.

¾ En nivel más técnico, esta forma de seleccionar la muestra (que se


conoce como muestreo probabilístico) equivale a suponer que cada
dato disponible procede de la observación de una variable aleatoria
que tiene como distribución el modelo establecido.

¾ Como consecuencia el estimador, que se calcula a partir de los


datos disponibles (aleatorios), también se puede considerar a su
vez como una variable aleatoria cuya distribución permite evaluar el
grado en que el estimador se aproxima al verdadero valor del
parámetro.

¾ En particular, es posible calcular medidas de localización y


dispersión a partir del modelo que describe el comportamiento del
estimador para, por ejemplo, determinar su esperanza y su
varianza.

150
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ De esta manera, el valor del estimador se puede interpretar como si


fuese el resultado de observar una variable aleatoria y si se tiene
que
ˆ =θ
E(θ)

se puede concluir que esa variable aleatoria produce valores


alrededor del verdadero valor de θ . En este caso se dice que el
estimador es insesgado.

¾ Si, por otra parte se calcula la varianza del estimador, Var( θˆ ) , es


posible establecer qué tan similar podría haber resultado la
estimación si se hubiese contado con otro banco de datos del
mismo tipo.

¾ De hecho, y como se verá en el caso de los modelos de regresión,


la varianza permite determinar el efecto que en la calidad de una
estimación tiene un posible incremento en el tamaño del banco (el
tamaño de la muestra).

¾ Todas estas ideas se ilustrarán, en la siguiente sección, con los


modelos estadísticos que se emplean para describir la asociación
lineal entre variables. Es decir, con los modelos de regresión lineal.

¾ Antes de proceder, vale la pena mencionar que la idea que subyace


en la producción de muestras probabilísticas no es un mero artificio
conceptual.

151
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En una variedad de aplicaciones reales, la selección de los datos


que constituyen la muestra se lleva a cabo explícitamente a través
de un sorteo o de un procedimiento que emula un sorteo. De
hecho, existe toda una rama de la disciplina estadística (conocida
como muestreo) que se ocupa de estas técnicas.

PRONÓSTICOS PROBABILÍSTICOS

¾ La idea básica que da origen a la producción de pronósticos


probabilísticos es la identificación de las frecuencias relativas con
las probabilidades.

¾ Como ya se ha indicado, las frecuencias tienen el propósito de


describir lo que ya ocurrió, a partir de la información contenida en
un banco de datos.

¾ Por su parte, las probabilidades pretenden la descripción de lo que


puede ocurrir en el futuro.

¾ Identificar frecuencias con probabilidades, tiene sentido sólo si, en


un nivel más primario, se acepta que lo que va a ocurrir es similar
con lo que ya ha ocurrido.

¾ Esta idea se traduce, cuando no se utilizan modelos, a suponer que


el valor futuro se habrá de producir como si fuese resultado de un
sorteo entre los valores que se han presentado en el pasado.

152
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En ese caso, además, la probabilidad con la que se supone


aparecerá un valor futuro es igual a la frecuencia relativa con la que
se presentó en el banco de datos.

¾ En otras palabras, el valor futuro se considera una observación de


una variable aleatoria.

¾ El soporte de la variable aleatoria está determinado por valores que


aparecieron en el banco (y sólo esos) y su función de probabilidad
por las frecuencias relativas correspondientes.

¾ Este procedimiento tiene ventajas:

1. Es simple,
2. Hace uso del resumen eficiente,
3. No pone en duda la representatividad de la información en el
banco.

¾ Pero también implica desventajas:

1. No contempla la posibilidad de valores que no hayan ocurrido


previamente,
2. No permite el contraste de pronósticos que proceden de bancos
similares pero diferentes.
3. No toma en cuenta el procedimiento de construcción del banco.

153
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En tales circunstancias es conveniente y resulta natural, el empleo


de modelos para la producción de pronósticos probabilísticos.

¾ Si el pronóstico se considera el producto de la observación de una


variable aleatoria, es posible y razonable utilizar un modelo para
describir el comportamiento de esa variable aleatoria.

¾ Si además se considera conveniente utilizar un modelo


relativamente simple y con propiedades que sean interpretables
con facilidad, entonces una posibilidad son las familias
paramétricas de modelos (Binomial, Poisson, Normal, Uniforme y
Exponencial entre otras).

¾ Ahora bien, es importante reconocer que los pronósticos que se


obtienen a partir de modelos prácticamente nunca coinciden con los
que se obtienen en forma directa de las frecuencias relativas. No
tendría por que ocurrir de otro modo, estos pronósticos se fundan
en supuestos diferentes y tienen distintos alcances.

¾ Considere el ejemplo de la variable cursos que se discutió


anteriormente. Ahí, se tenía por una parte las frecuencias
observadas que se muestran en la segunda columna de la
siguiente tabla.

154
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

X fr Poisson
0 0.1350 0.0963
1 0.2050 0.2254
2 0.2150 0.2637
3 0.2050 0.2057
4 0.1350 0.1203
5 0.0950 0.0563
6 0.0050 0.0220
7 0.0000 0.0073
8 0.0000 0.0021
9 0.0050 0.0006
10 0.0001
11 0.0000
12 0.0000
13 0.0000
14 0.0000
15 0.0000

‰ Con esa información, recurriendo únicamente a las frecuencias


relativas, se podría pronosticar, por ejemplo, entre cero y cuatro
cursos con una probabilidad de 0.895. Por supuesto, un pronóstico
puntual podría ser X = 2 con una probabilidad de 0.215. También se
puede afirmar que X > 6 sólo ocurrirá con probabilidad 0.005.

‰ Emplearemos ahora un modelo Poisson. Este modelo se especifica


al determinar el valor de su único parámetro λ. Al usar el método de
momentos tenemos:
X = 2.34 , y µ = E(X ) = λ

155
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Al igualar obtenemos el estimador para λ


λˆ = 2.34

‰ Al emplear un modelo Poisson con λ = 2.34 se obtienen las


probabilidades en la tercera columna de la tabla y se puede
pronosticar que se observarán entre cero y cuatro cursos con una
probabilidad de 0.9114. De la misma manera, un pronóstico puntual
podría ser X = 2 pero ahora con una probabilidad de 0.2637.
También en forma análoga, se tiene que la probabilidad de
observar un valor de X > 6 es de 0.0102.

Ajuste Poisson (Cursos)


0.30

0.25

0.20

0.15

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8 9

‰ Como puede constatarse, los resultados son parecidos pero no


iguales. En particular, con las frecuencias relativas no tiene sentido
plantearse la ocurrencia de valores mayores que 9 mientras que
con el modelo Poisson, los valores de 10 y más pueden producirse
con probabilidad 0.00017.

156
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ Es importante notar que, en términos generales, los pronósticos del


modelo Poisson son compatibles con los obtenidos directamente a
partir de las frecuencias. La diferencia cualitativa más notable es
que con el modelo algunos valores que no ocurrieron en el banco
tienen una probabilidad positiva.

‰ Por otra parte, si se adopta un modelo distinto (como el Binomial


Negativo para los datos del ejemplo) también se pueden registrar
cambios en los pronósticos.

X fr Bin. Neg.
0 0.1350 0.1328
1 0.2050 0.2329
2 0.2150 0.2334
3 0.2050 0.1754
4 0.1350 0.1099
5 0.0950 0.0606
6 0.0050 0.0303
7 0.0000 0.0141
8 0.0000 0.0062
9 0.0050 0.0026
10 0.0010
11 0.0004
12 0.0002
13 0.0001
14 0.0000
15 0.0000

157
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ Recordemos que el modelo binomial negativo se determina al


especificar sus dos parámetros r y p. Al usar el método de
momentos tenemos:
X = 2.34 y S 2 = 2.567236
por otro lado
µ = E(X) = r (1-p) / p y σ2 = Var(x) = r (1-p) / p2
Al igualar y despejar tenemos que:
X X2
p̂ = 2 y r= 2
σ S −X
Que para el caso de la variable cursos toman los valores
p̂ = 0.9114 y r̂ = 24

‰ Calcule los pronósticos con el modelo Binomial Negativo (con


parámetros r = 24 y p = 0.91) equivalentes a los que se han
presentado hasta aquí y compárelos.

Ajuste Binomial Negativa (Cursos)


0.30

0.25

0.20

0.15

0.10

0.05

0.00
0 1 2 3 4 5 6 7 8 9

158
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ En este punto vale la pena recordar que los modelos Poisson y


Binomial Negativo, al igual que los demás que se han considerado
en este texto, constituyen en realidad familias de modelos y que
existen tantos modelos en cada familia como valores posibles
puedan asignarse a los parámetros respectivos.

¾ Ejercicio de clase: realice un pronóstico probabilístico para las


variables Salario y Antigüedad del banco de datos 1 utilizando un
modelo probabilístico adecuado.

159
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

5. Modelos de regresión lineal

¾ Suponga que cuenta con un banco de datos que contiene


información relativa a dos variables X y Y las cuales se presume
guardan una relación aproximadamente lineal. El ejemplo de las
variables Estatura y Peso que ya se ha examinado es pertinente en
este punto.

C aso E statu ra P eso


1 166 60
2 170 66
3 174 75
4 168 60
5 195 98
6 186 85
7 170 70
8 165 73
9 153 49
10 168 72
11 171 71
12 178 62
13 165 61
14 171 70
15 183 100
16 170 75
17 175 62
18 165 56
19 168 50

160
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Peso y Estatura
100

90

80

70

60

50

40
150 160 170 180 190 200

¾ En la Figura se muestra el Diagrama de Dispersión correspondiente


y, como ya se ha discutido, es claro que estos datos presentan
evidencia de asociación entre las respectivas variables, en
particular sugieren una relación lineal.

¾ Si el propósito del estudio es pronosticar el valor de una


observación futura de la variable Peso, resulta natural sugerir el
empleo de la variable Estatura como elemento auxiliar en el
pronóstico.

¾ Específicamente, parece razonable el empleo de la distribución


condicional de la variable Peso, dado el valor de la variable
Estatura, en lugar de la distribución marginal de la variable Peso.

161
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Más aun, y en virtud de la evidencia gráfica, resulta pertinente


explorar la viabilidad de un modelo que incorpore explícitamente la
relación lineal que se presume guardan estas dos variables.

¾ Precisamente con esa idea, un segundo paso después del análisis


gráfico, consiste en la evaluación cuantitativa de la fuerza con que
se manifiesta esta relación.

¾ En este punto resulta conveniente el cálculo del, ya conocido,


coeficiente de correlación.

S XY
R X, Y =
S XX S YY

¾ Para el cálculo de este coeficiente es necesario recordar que:

S XY = ∑ ( x i − x )( y i − y ) ,

S XX = ∑ ( x i − x )2 y

S YY = ∑ ( y i − y )2 .

¾ Así, para los datos del ejemplo se tiene que

SXY = 1824.5,
SYY = 3423.2 y
SXX = 1498.4;

162
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Por tanto,
RX,Y = 0.806 y R 2X, Y = 0.649 .

¾ Estos cálculos permiten establecer que existe evidencia de


asociación lineal positiva en los datos. La interpretación concreta,
es la siguiente:

¾ El patrón de asociación lineal con la Estatura explica el 65% de la


variabilidad del Peso.

¾ Recordando la discusión que se presentó cuando se trató el


Análisis Exploratorio de Asociación, si se cuenta con la información
de dos variables cuantitativas para n casos de forma que el banco
incluye los pares (x1, y1), (x2, y2), … (xn, yn) entonces se dice que las
variables tienen una relación lineal si existen dos constantes β0 y β1
tales que la ecuación

y i = β0 + β1 x i

se cumple en forma exacta para todos y cada uno de los casos en


el banco.

¾ Evidentemente, esta no es la situación con los datos de la Estatura


y el Peso. El patrón que se manifiesta es, mas bien, una tendencia.
En otras palabras, una relación lineal aproximada.

163
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En consecuencia, es necesario precisar la noción de tendencia


lineal e incorporarla explícitamente en un modelo estadístico para
pronósticos.

¾ La forma en que la idea de tendencia lineal se incorpora en los


modelos estadísticos para pronósticos, particularmente en los de
regresión es la siguiente.

¾ Para cada valor fijo x de la variable explicativa (en este caso la


Estatura) se considera que el valor correspondiente de la variable
de respuesta Y (el Peso en el ejemplo) se produce de acuerdo a
una ecuación de la forma

y = β0 + β1 x + ε

en donde ε es una variable aleatoria que suma una gran cantidad


de factores que, además de la Estatura, influyen en el Peso.

¾ Este supuesto se conoce con el nombre de supuesto estructural de


separabilidad aditiva. Este es sólo el primero de diversos supuestos
que se suelen incorporar en los modelos de regresión.

¾ En principio se supone que ε tiene una distribución Normal. Este


supuesto, de normalidad, es particularmente razonable si se
considera que ε es un error de medición.

164
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Por su parte el supuesto de media cero considera que los factores


que componen y se integran en ε tienen efectos que pueden ser
tanto negativos como positivos y se compensan en promedio, de
manera que E(ε) = 0.

¾ Particularmente por conveniencia se adopta un supuesto más, de


homoscedasticidad, según el cual los errores asociados a las
distintas observaciones tienen la misma varianza, aunque
desconocida, σ 2 .

¾ Finalmente, los modelos estadísticos de regresión incorporan el


supuesto de independencia. Es decir, suponen que los errores o
perturbaciones asociadas a las distintas observaciones (y, en
consecuencia, las observaciones mismas de la variable Y) no están
relacionadas en forma alguna.

¾ En consecuencia, un Modelo de Regresión Lineal Simple supone


que la distribución condicional de la variable Y, dado un valor fijo x
de la variable explicativa X, es de la forma

Y ~ Normal (β0 + β1x, σ2)

y que los datos disponibles en el banco constituyen observaciones


independientes de la variable Y.

165
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Vale la pena insistir en los supuestos clave que involucra un


modelo de este tipo:

1. Separabilidad Aditiva
2. Normalidad
3. Homoscedasticidad
4. Independencia.

¾ La idea práctica más importante en el desarrollo conceptual de este


tipo de modelos es que, si los valores de los parámetros β0, β1 y σ2
fuesen conocidos, entonces el comportamiento de Y dado un valor
fijo de X, por ejemplo x, estaría completamente descrito por un
modelo Normal cuyos parámetros serían totalmente conocidos.

¾ Por ejemplo, si fuese posible establecer que los parámetros toman


los valores β0 = -135, β1 = 1.2 y σ2 = 64, entonces para una Estatura
de X = 170 centímetros, la respectiva distribución condicional del
Peso resultaría una Normal con media

µ = -135 + (1.2)*(170) = 69

y varianza

σ2 = 64.

166
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ Así, cualquier pronóstico sobre el Peso dada una Estatura de 170


cms. Se obtendría del modelo correspondiente.

Distribución Normal (69, 64).

0.05

0.04

0.03

0.02

0.01

0.00
40 50 60 70 80 90 100

‰ En nuestro ejemplo de peso y estatura no se conocen los valores


de los parámetros. Esta es la situación en general y, por tanto, es
necesario seleccionarlos o, con un lenguaje más estadístico,
estimarlos, a partir de los datos en el banco disponible.

¾ De hecho, la estructura que se conoce como modelo de regresión


lineal simple no es un modelo sino una familia paramétrica de
modelos en el sentido que se ha discutido previamente.

167
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Esta familia tiene tres parámetros (β0, β1 y σ2) y contiene tantos


modelos como combinaciones de:

1. ordenada al origen (β0) en los reales,


2. pendiente (β1) también en los reales y
3. varianza (σ2) positiva

existan. Por supuesto, hay una cantidad infinita e incontable de este


tipo de modelos.

¾ Por otra parte, y ya que de parámetros se trata, es interesante


observar que un modelo de esta familia no solamente describe una
distribución condicional para Y sino que, en cuanto se fijan los
valores de los parámetros (β0, β1 y σ2), al cambiar el valor de x se
pueden obtener todas las distribuciones condicionales de Y dada X.

¾ El problema que resta es el de estimación de los parámetros –el


banco típicamente es sólo una muestra- y, en particular, interesa
que el método de estimación ajuste el modelo a los datos tomando
en cuenta que éste será utilizado para producir pronósticos.

¾ Suponga que, con algún procedimiento, se determinan los valores


estimados de los parámetros βˆ 0 , βˆ 1 y σˆ 2 . Entonces, la estimación
de la esperanza condicional de Y, dado un valor fijo de la variable
Estatura X = x, está dada por

168
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

µˆ x = βˆ 0 + βˆ 1x .

Observe que µ̂ x estima el punto en torno al cual se espera que


ocurran los valores de Y cuando X tome el valor x.

¾ En ese sentido, y aún cuando se sabe que todo pronóstico puntual


tiene confiabilidad cero puesto que el modelo Normal es continuo,
es que a µˆ x suele considerársele un pronóstico puntual para Y
cuando X = x.

¾ De hecho, usualmente se utiliza la notación ŷ x = µˆ x , o


simplemente ŷ = µˆ x , y a la ecuación

ŷ = βˆ 0 + βˆ 1x
se le conoce como la recta ajustada.

¾ Ahora bien si, al menos en términos indicativos, el valor de


yˆ = µˆ x puede interpretarse como un pronóstico, entonces se
puede proponer un criterio para la estimación de los parámetros del
modelo.

¾ La idea es seleccionar los parámetros que produzcan los mejores


pronósticos. En concreto, aquellos que, para cada valor de X en el
banco de datos, produzcan el valor ŷ más cercano al
correspondiente valor observado y.

169
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En otras palabras, los parámetros deben seleccionarse de manera


que la diferencia
e = y - ŷ

sea lo más pequeña posible para todos y cada uno de los casos en
el banco.

¾ Es fácil comprobar, con un argumento gráfico, que no es posible


minimizar todos los errores de predicción {e1,e2,…en}
simultáneamente. Es necesario entonces definir una medida
individual cuya minimización pueda interpretarse como una forma
de minimización global de los errores.

¾ Existen distintas posibilidades pero la más común, que además


resulta simple, es la siguiente:
n
∆ = ∑ ei2
i =1

o equivalentemente,
n
∆ = ∑ (y i − ŷ i )2 .
i =1

¾ Más explícitamente aún se puede escribir, en términos de los


parámetros:
n
∆(βˆ 0 , βˆ 1 ) = ∑ (y i − βˆ 0 − βˆ 1x i )2
i =1

170
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ La propuesta es seleccionar los valores de los parámetros que


minimicen el valor de la función ∆.

¾ Este criterio se conoce en la literatura con el nombre de Método de


Mínimos Cuadrados.

¾ Es evidente que ∆ no puede tomar valores negativos y que la única


manera en que puede alcanzar el valor cero es cuando todos y
cada uno de los errores son iguales a cero (cuando el ajuste es
perfecto).

¾ Casualmente es interesante notar que si los errores tienen media


igual a cero entonces, salvo porque el número de datos no aparece
como divisor, ∆ coincide con la varianza de {e1, e2, …en}. Así que el
método de mínimos cuadrados también puede interpretarse como
un método de mínima varianza.

¾ El caso es que la minimización de ∆ puede llevarse a cabo de


distintas formas. Una de ellas consiste en reconocer que es una
función diferenciable de β̂ 0 y β̂1 . De esta forma, se pueden calcular

las derivadas parciales de ∆ respecto a estos dos parámetros;


Establecer la igualdad con cero de las dos expresiones y resolver el
par de ecuaciones.

¾ Las derivadas parciales son las siguientes:

171
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

∂∆ n
= 2∑ (y i − βˆ 0 − βˆ 1x i )(-1)
∂βˆ 0 i =1

∂∆ n
= 2∑ (y i − βˆ 0 − βˆ 1x i )(-x i )
ˆ
∂β1 i =1

De donde se obtiene el sistema de ecuaciones lineales:


n n
nβˆ 0 + βˆ 1 ∑ x i = ∑ y i
i =1 i =1

n n n
βˆ 0 ∑ x i + βˆ 1 ∑ x i2 = ∑ x i y i
i =1 i =1 i =1

Cuya solución está dada por los valores:

βˆ 0 = y − βˆ 1x
n
∑ (x i - x )(y i − y )
βˆ 1 = i =1
n
∑ (x i - x )2
i =1

Equivalentemente,

βˆ 0 = y − βˆ 1x
S
βˆ 1 = XY
S XX

se conocen como los estimadores de mínimos cuadrados de los


coeficientes de la regresión.

172
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Por su parte a la recta que definen estos estimadores


ŷ = βˆ 0 + βˆ 1x
se le conoce como la recta ajustada de mínimos cuadrados.

¾ Para los datos de Peso y estatura se tiene que:


x = 171.63 ,
y = 69.25 ,
SXY = 1824.5 y
SXX = 1498.4

De manera que
βˆ 0 = −139.768

βˆ 1 = 1.218
y, por tanto, la recta ajustada por mínimos cuadrados resulta:
ŷ = −139.768 + 1.218 x

100

90

80

70

60

50

40
150 160 170 180 190 200

173
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ La gráfica exhibe los datos del ejemplo junto con la correspondiente


recta ajustada por mínimos cuadrados.

¾ De acuerdo con la discusión de las ideas que subyacen la


producción de estimadores, es claro que tanto β̂0 como β̂1 han sido
calculados a partir de los datos disponibles y que de ellos, las
observaciones de la variable Y son el resultado de registrar
variables aleatorias.

¾ Por tanto los valores estimados de los parámetros también se


pueden considerar como el resultado de observar sendas variables
aleatorias. A partir de los supuestos del modelo es posible probar
que

βˆ 1 ~ N(β1, σ 2 / S xx )
y
 n

βˆ 0 ~ N β 0 , σ 2 ∑ x i2 (nS xx ) 
 i =1 

¾ En particular, entonces, se tiene que

E(βˆ 1) = β1
y

E(βˆ 0 ) = β0 .

174
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ De manera que tanto β̂0 como β̂1 son estimadores insesgados de


los respectivos parámetros desconocidos. Por otra parte, es
interesante observar como la varianza de cada uno depende tanto
de la varianza en el modelo σ2 como de los datos de la variable X.

¾ Concretamente, en el caso de β̂1 , la varianza de este estimador


decrece a medida que la varianza de los datos de la variable X
aumenta.

¾ En lo que se refiere a β̂0 , el resultado es menos obvio pero es


posible comprobar que su varianza decrece a medida que la media
de los datos de la variable X se aproxima a cero.

¾ En cualquier caso, se tienen los estimadores de los parámetros


(coeficientes) del modelo de regresión y, por tanto la recta ajustada.
Sin embargo aún no se ha determinado por completo la distribución
condicional de Y dado un valor fijo de X. Falta por estimar la
varianza σ2.

¾ Para estimar el parámetro σ2 también se pueden utilizar distintos


argumentos. La forma más simple y común se basa en el cálculo de
las diferencias
ei = y i - ŷ i i = 1, 2, …, n

entre las observaciones y los valores obtenidos de la recta de


mínimos cuadrados.

175
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Los valores {e1, e2, …en} que se conocen como errores residuales,
tienen media cero y en cierto sentido aproximan el comportamiento
de las variables aleatorias {ε1, ε2, …εn}. En particular, su varianza
estima la varianza de ε.

¾ Puesto, que como ya se indicó la media aritmética de e1, e2, …en es


cero, la correspondiente varianza resulta simplemente
n
S2 = n1 ∑(ei − e)2
i =1
n
= 1
n ∑ei2
i =1
n
= 1
n ∑(yi − ŷi )2
i =1

¾ De esta manera, el estimador de la varianza σ2 está dado por la


suma de cuadrados de los residuales dividida por el tamaño del
banco. Es decir,
n
σˆ 2 = 1
n ∑ (yi − ŷ i )2
i =1

2
Como variable aleatoria, se tiene que σ̂ presenta el siguiente
comportamiento:

nσˆ 2 / σ2 ~ χ(n
2
− 2) .

ˆ 2 / σ2 tiene una distribución Ji cuadrada con n-2


Es decir, nσ
grados de libertad.

176
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ La variable W tiene una distribución Ji cuadrada, con r grados de


libertad, si es continua, tiene como soporte el intervalo (0, ∞) y su
función de densidad está dada por:

r/2
1  1 r/2 −1
f(w) =   w exp(− w/2)
Γ(r/2)  2 

‰ Dos resultados interesantes son los siguientes:

1. Si Z es Normal estándar, entonces Z2 es Ji cuadrada con 1


grado de libertad.

2. Si W1 es Ji cuadrada con r1 g. l., W2 es Ji cuadrada con r2 g. l. y


son independientes entonces, W = W1+W2 resulta Ji cuadrada
con r1+r2 g. l.

‰ El modelo Ji cuadrada tiene un solo parámetro, que puede tomar


cualquier valor positivo y que se conoce con el nombre de grados
de libertad. Si W es una variable aleatoria Ji cuadrada con r grados
de libertad entonces,

E(W) = r
Var(W) = 2r

177
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

0.30 3 grados 10 grados 5 grados

0.25

0.20

0.15

0.10

0.05

0.00
0 5 10 15 20

¾ Al margen de las características generales del modelo Ji cuadrada,


es conveniente en este punto notar que:

E(σˆ 2 ) = σ2 (n − 2)/n

2
de manera que σ̂ no es un estimador insesgado. Sin embargo, si
2
en lugar de σ̂ se utiliza
~2 = nσˆ 2 /(n − 2)
σ

el nuevo estimador sí es insesgado.

¾ Es importante observar que ambos estimadores son muy


parecidos, especialmente si n es grande. En cualquier caso en los
que resta de este texto se empleará la versión insesgada:

n
~2 = 1 ∑(y − ŷ )2
σ n- 2 i i
i =1

178
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

‰ Este estimador tiene las propiedades básicas:

~2 / σ2 ~ χ2
1. (n - 2)σ (n− 2)

~2 ) = σ2
2. E(σ
~2 ) = 2σ4 /(n - 2)
3. Var(σ

¾ Volviendo a los datos del ejemplo, se tiene que


n
∑ (y i − ŷ i )2 = 1201.7 y n-2 = 17.
i =1

Por lo tanto,
~2 = 70.687
σ y ~ = 8.408
σ

¾ Con estos resultados se puede intentar la determinación de la


distribución condicional de Y dado un valor fijo cualquiera de X. Una
primera aproximación sería, para un valor fijo x,

~2 )
Y ~ N(βˆ 0 + βˆ 1x, σ

¾ Sin embargo y precisamente porque los valores de los parámetros


constituyen sólo una estimación y no necesariamente coinciden con
los verdaderos valores desconocidos, es necesario incorporar esa
incertidumbre en el modelo.

179
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ En la literatura estadística ha sido establecido el procedimiento por


medio del cual la incertidumbre adicional se toma en cuenta.

¾ En primer lugar, el modelo Normal se sustituye por un modelo t (de


Student) que es muy parecido pero con colas más pesadas.

¾ Una variable W tiene una distribución t de Student con r grados de


libertad si es continua con soporte (-∞, ∞) y su función de densidad
está dada por:

Γ[(r + 1)/2]
f(w) = (rπ)-1/2 (1 + w 2 /2)-(r +1)/2
Γ(r/2)

¾ El modelo t de Student se aproxima al modelo Normal estándar a


medida que el número de grados de libertad aumenta.

¾ Por otra parte, es interesante tener presente el siguiente resultado.


Si Z es Normal estándar, V es Ji cuadrada con r grados de libertad
y estas dos variables son independientes entonces

Z
W=
V/r

tiene una distribución t de Student con r grados de libertad.

180
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Normal Estándar T con 2 grados T con 10 grados

0.45
0.40

0.35
0.30
0.25
0.20

0.15
0.10

0.05
0.00
-5.0 -3.0 -1.0 1.0 3.0 5.0

¾ Volviendo al argumento principal, como una primera medida para


tomar en cuenta la incertidumbre asociada a los estimadores de los
parámetros en la distribución condicional de Y, el modelo Normal se
sustituye por un modelo t.

¾ Además, como una segunda forma de corrección, la varianza se


incrementa de manera que, a medida que los pronósticos se
intentan para valores de X más lejanos de los que se tienen en el
banco de datos, la precisión disminuye.

¾ El resultado concreto establece que, para todo propósito práctico


Y - µˆ x
~ t(n − 2) .
{
~ 1 + 1 + (x − x )2
σ n S xx
}
1/2

181
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Es decir, el valor de la variable Y, debidamente estandarizada,


utilizando la desviación estándar estimada y un factor de
corrección, no sigue ya una distribución Normal sino una
distribución t de Student con n-2 grados de libertad.

¾ Se puede comprobar que toda distribución t de Student es


simétrica, unimodal (con moda en cero) y su densidad tiene forma
de campana como la Normal (con una varianza mayor como se ha
indicado).

¾ En estas condiciones, si se denota por t(r, p) el cuantil de orden p de


una t con r grados de libertad, entonces un pronóstico para el valor
de Y cuando X = x, con confiabilidad de (1-α)×100% está dado por

{~ 1 + 1 + (x − x )
µˆ x ± t (n - 2, 1- α/2) σ n S xx
2
}
1/2
.

¾ Consideremos el caso del ejemplo. Ahí se tiene que

n = 19, x = 171.63 , SXX = 1498.4,

βˆ 0 = −139.768 , βˆ 1 = 1.218 y σ
~ = 8.408

Si ahora, de tablas, se observa que el cuantil de orden 0.975 de


una distribución t con 17 grados de libertad resulta t(17, 0.975) = 2.11
entonces, un pronóstico con 95% de confiabilidad para el valor de Y
cuando X = x está dado por el intervalo

182
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

[ −139 .768 + 1.218 x]

{
± (2.11) ∗ (8.408) ∗ 1 + 191 + (x −171.63) 2
1498.4
}
1/2

Bandas de pronóstico al 95% para el Peso.

120

100

80

60

40

20
150 160 170 180 190 200

¾ La recta ajustada por mínimos cuadrados es la recta óptima, en el


sentido de que minimiza la suma de cuadrados de los errores en
los pronósticos para los casos que aparecen en el banco de datos
disponible.

¾ Sin embargo, como ya se ha comentado, los valores de los


parámetros obtenidos por este método constituyen solamente
estimaciones de los valores verdaderos (y desconocidos).

183
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Es natural preguntarse entonces, cuales otros valores podrían ser


estimaciones aceptables de esos parámetros desconocidos o si un
valor específico es compatible con la estimación que se ha
obtenido.

¾ La clave para resolver estas interrogantes se encuentra en el


modelo de probabilidad que describe el comportamiento de los
estimadores como variables aleatorias.

¾ Como ya se ha indicado, bajo los supuestos del modelo de


regresión lineal simple se tiene que
βˆ 1 ~ N(β1, σ 2 / S xx )
y
n
βˆ 0 ~ N(β0 , σ 2 ∑ x i2 /(nS xx ))
i =1

¾ Considere, como ejemplo, el caso de βˆ 1 . A partir del modelo


correspondiente se sigue que el error en la estimación tiene la
siguiente distribución
βˆ 1 - β1 ~ N(0, σ 2 / S xx ) .

¾ En consecuencia, si la varianza σ2 fuese conocida sería posible


calcular intervalos para el error en el pronóstico y, por tanto,
intervalos para otros valores estimados igualmente aceptables, con
grado de confiabilidad determinado.

184
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

~2 y
¾ Ahora bien, σ2 no es conocida pero se puede estimar con σ
entonces, se podría afirmar que aproximadamente,
~2 / S ) .
βˆ 1 - β1 ~ N(0, σ xx

¾ La corrección precisa, como en el caso de los pronósticos, recurre


al empleo de la distribución t de Student. El resultado es el
siguiente:
S XX (βˆ 1 - β1 )
~ ~ t(n − 2)
σ

¾ Por lo tanto, si t(n-2, p) es el cuantil de orden p de la distribución t de


Student con n-2 grados de libertad, entonces

S XX (βˆ 1 - β1 )
P( −t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2) ) = 1 - α
σ

De tal manera que cualquier valor β1 que cumpla con la condición

S XX (βˆ 1 - β1 )
− t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2)
σ

es un valor tan compatible como βˆ 1 con el banco de datos


disponible.

¾ En otros términos, se puede decir que un estimación por intervalo


para el verdadero valor de β1 , con una confiabilidad de

185
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

(1-α)×100%, está dada por

~2
σ
βˆ 1 ± t (n − 2,1− α / 2) .
S XX

¾ De hecho, en un sentido contrario, se puede decir que todo valor


del parámetro que no cumpla la condición

S XX (βˆ 1 - β1 )
− t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2)
σ

no es compatible con el banco de datos disponible (con un nivel


de confiabilidad de (1-α)×100%).

¾ Si por ejemplo, hubiese razones –contextuales, teóricas o de algún


otro tipo- para plantear que β1 puede tomar el valor (conocido)
β1∗ entonces, con un nivel de confiabilidad (1-α)×100%, se puede
afirmar que la hipótesis β1 = β1∗ se rechaza, a partir de la evidencia
en el banco de datos, si no se cumple la condición

S XX (βˆ 1 - β1* )
− t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2)
σ

186
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS


¾ Es decir, la hipótesis β1 = β1 se rechaza –con un nivel de

confiabilidad (1-α)×100%-, si

S XX βˆ 1 - β1∗
~ > t (n − 2,1− α / 2)
σ

¾ Un caso de interés particular es β 1∗ = 0. Es decir, el contraste de la


hipótesis H : β1 = 0. La hipótesis se rechaza, con un nivel de
confiabilidad (1-α)×100%, si

S XX βˆ 1
~ > t (n − 2,1− α / 2)
σ

¾ La importancia del contraste de H : β1 = 0 (contra la alternativa


HA : β1 ≠ 0 ) es de importancia porque si el banco de datos es
compatible con H, entonces existe evidencia para declarar que, al
menos linealmente, la variable X no influye en los pronósticos de Y.

¾ En el caso del ejemplo, se tiene que βˆ 1 = 1.218 ,


~2 = 70.687 ( σ
σ ~ = 8.408 ) y SXX = 1498.4. Además, de tablas se
observa que t(17, 0.975) = 2.11. Por tanto, el intervalo con 95% de
confiabilidad para β1 está dado por

70.687
1.218 ± 2.11
1498.4

187
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

es decir, [0.7597, 1.6763]. En otras palabras, cualquier valor entre


0.7597 y 1.6763 es un valor de β1 compatible con los datos
(siempre con 95% de confiabilidad).

¾ Con el mismo nivel de confiabilidad, 95%, se puede afirmar que los


valores fuera de este intervalo no son compatibles con la evidencia
que proporciona el banco de datos. En particular, puesto que el
cero está fuera del intervalo, se rechaza la hipótesis H : β1 = 0. Este
hecho puede también comprobarse si se verifica que

S XX β̂ 1
~ = 5.6078
σ

mientras que t(17, 0.975) = 2.11. Por tanto,

S XX βˆ 1
~ > t (n − 2,1− α / 2)
σ

y se obtiene el resultado.

¾ El caso de β̂0 es similar. Como ya se ha indicado, bajo los


supuestos del modelo,
n
βˆ 0 ~ N(β0 , σ 2 ∑ x i2 /(nS xx ))
i =1

En consecuencia,

188
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

n
βˆ 0 - β0 ~ N(0, σ 2 ∑ x i2 /(nS xx ))
i =1

¾ Nuevamente si σ2 fuese conocida, ese modelo podría emplearse


para describir el grado de aproximación de β̂0 como estimador de
β0 . Como ya se comentó, la varianza es desconocida pero puede
~ 2 y como una primera aproximación puede
estimarse con σ
afirmarse que

n
βˆ 0 - β0 ~ N(0, σ ∑ i
~ 2 x 2 /(nS ))
xx
i =1

¾ La versión precisa de esta afirmación, utilizando la t de Student, es


la siguiente:

nS xx (βˆ 0 - β0 )
~ t(n − 2)
∑ x i2 σ~

¾ De donde se tiene que una estimación por intervalo para el


verdadero valor de β0 , con una confiabilidad de (1-α)×100%, está
dada por

βˆ 0 ± t (n − 2,1− α / 2)
σ ∑ i .
~2 ( x2 )
nS XX

189
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Asimismo, el contraste de H : β0 = β∗0 (contra la alternativa

HA : β 0 ≠ β∗0 ) puede llevarse a cabo, con una confiabilidad (1-

α)×100%, comprobando si β∗0 pertenece al intervalo descrito. La


hipótesis se rechaza si el valor en la hipótesis se encuentra fuera
del intervalo y, en caso contrario, se puede afirmar que la evidencia
en el banco no permite rechazarla.

¾ Equivalentemente, también es posible llevar a cabo el contraste de


H : β0 = β∗0 , con un nivel de confiabilidad (1-α)×100%, si se rechaza
cuando

nS xx (βˆ 0 - β ∗0 )
~ > t (n − 2,1− α / 2)
∑ i
x 2
σ

¾ Recurriendo, una vez más, a los datos del ejemplo se tiene


~ = 8.408 ), X = 171.63 y SXX =
~2 = 70.687 ( σ
βˆ 0 = −139.768 , σ
1498.4. Por otra parte y como ya se indicó, de tablas se observa
que el cuantil relevante es t(17, 0.975) = 2.11. Por tanto, el intervalo
con 95% de confiabilidad para β0 está dado por

- 139.768 ± 2.11× 8.408 × 4.440

es decir, [-218.534, -61.002].

190
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

o Respecto al parámetro σ2 se puede proceder de forma similar. El


estimador insesgado de la varianza está dado
n
~2 = 1 ∑(y − ŷ )2
σ n- 2 i i
i =1

Por otra parte, como se indicó,


~2 / σ2 ~ χ2 .
(n - 2) σ (n− 2)

Ahora, si se tiene que

P( χ(n
2
− 2) ≤ χ(n− 2, p) ) = p ,
2

es decir, si χ(r,2 p) es el cuantil de orden p de una Ji cuadrada con r

grados de libertad entonces


~2 / σ2 ≥ χ2
P( (n - 2) σ (n−2, α) ) = 1- α .

De donde se sigue que

~2 / χ2
P( σ2 ≤ (n - 2) σ (n−2, α) ) = 1- α

de forma que una estimación por intervalo, con una confiabilidad de


(1-α)×100% para σ2 está dada por el intervalo

~2 / χ2
( 0, (n - 2) σ (n− 2, α) ) .

191
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

Cuantiles de orden p de una distribución


Ji Cuadrada con r grados de libertad.

p
r 0.010 0.050 0.100 0.200 0.800 0.900 0.950 0.990

1 0.000 0.004 0.016 0.064 1.642 2.706 3.841 6.635


2 0.020 0.103 0.211 0.446 3.219 4.605 5.991 9.210
3 0.115 0.352 0.548 1.005 4.642 6.251 7.815 11.341
4 0.297 0.711 1.064 1.649 5.989 7.779 9.488 13.277
5 0.554 1.145 1.610 2.343 7.289 9.236 11.070 15.086

6 0.872 1.635 2.204 3.070 8.558 10.645 12.592 16.812


7 1.239 2.167 2.833 3.822 9.803 12.017 14.067 18.475
8 1.646 2.733 3.490 4.594 11.030 13.362 15.507 20.090
9 2.088 3.325 4.168 5.380 12.242 14.684 16.919 21.666
10 2.558 3.940 4.865 6.179 13.442 15.987 18.307 23.209

11 3.053 4.575 5.578 6.989 14.631 17.275 19.675 24.725


12 3.571 5.226 6.304 7.807 15.812 18.549 21.026 26.217
13 4.107 5.892 7.042 8.634 16.985 19.812 22.362 27.688
14 4.660 6.571 7.790 9.467 18.151 21.064 23.685 29.141
15 5.229 7.261 8.547 10.307 19.311 22.307 24.996 30.578

16 5.812 7.962 9.312 11.152 20.465 23.542 26.296 32.000


17 6.408 8.672 10.085 12.002 21.615 24.769 27.587 33.409
18 7.015 9.390 10.865 12.857 22.760 25.989 28.869 34.805
19 7.633 10.117 11.651 13.716 23.900 27.204 30.144 36.191
20 8.260 10.851 12.443 14.578 25.038 28.412 31.410 37.566

21 8.897 11.591 13.240 15.445 26.171 29.615 32.671 38.932


22 9.542 12.338 14.041 16.314 27.301 30.813 33.942 40.289
23 10.196 13.091 14.848 17.187 28.429 32.007 35.172 41.638
24 10.856 13.848 15.659 18.062 29.553 33.196 36.415 42.980
25 11.524 14.611 16.473 18.940 30.675 34.382 37.652 44.314

26 12.198 15.379 17.292 19.820 31.795 35.563 38.885 45.642


27 12.879 16.151 18.114 20.703 32.912 36.741 40.113 46.963
28 13.565 16.928 18.939 21.588 34.027 37.916 41.337 48.278
29 14.256 17.708 19.768 22.475 35.139 39.087 42.557 49.588
30 14.953 18.493 20.599 23.364 36.250 40.256 43.773 50.892
192
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS

¾ Volviendo al ejemplo, de las tablas se puede observar que

χ(17,
2
0.05) = 8.672

mientras que
~2 = 70.687
σ

de manera que, con 95% de confiabilidad, el intervalo para σ2


resulta ( 0, 17 × 70.687 / 8.672) . Es decir, ( 0, 138.57) .

¾ En otras palabras, se puede afirmar que con un 95% de


confiabilidad la varianza desconocida σ 2 no es mayor que 138.57.
Equivalentemente, la desviación estándar σ no es mayor que
11.772.

193
Especialización en Evaluación de Proyectos Estadística y Probabilidad

También podría gustarte