Pdfslide - Tips - 3 Conceptos de Probabilidad Lnietoindexarchivosnotasep2pdf Entonces Se

PROFESOR: LUIS E.
NIETO BARAJAS
3. Conceptos de probabilidad
¾ La Probabilidad es una medida de la incertidumbre
¾ La incertidumbre que mide es la asociada a la eventual ocurrencia

de sucesos inciertos.
¾ Toda medida requiere de un patrón de referencia que posibilite la

interpretación de los resultados que produce.
¾ En el caso de la Probabilidad se ha adoptado un patrón que se

basa en las propiedades de las frecuencias relativas.
¾ De esta manera, la probabilidad se caracteriza a través de la forma

como opera, es decir a través de sus propiedades.
¾ Sea A un evento incierto, es decir uno cuya ocurrencia no

necesariamente es segura. Entonces, la probabilidad de que A
ocurra se denota como P(A) y esta medida debe cumplir las
siguientes propiedades básicas:
i) 0 ≤ P(A) ≤ 1 .
ii) P(A) = 1 sólo si A ocurre seguro.
iii) P(A) = 0 sólo si A no ocurre seguro.
105
Especialización en Evaluación de Proyectos Estadística y Probabilidad
PROFESOR: LUIS E. NIETO BARAJAS
¾ Otras propiedades, que involucran dos eventos son las siguientes.

Sean A y B dos eventos inciertos.
iv) Si A ocurre siempre que ocurre B (B ⊆ A) entonces,
P(B) ≤ P(A) .
v) Si sucede que A y B no pueden ocurrir simultáneamente
(B ∩ A = φ) entonces, P(A ∪ B) = P(A) + P(B) .
¾ Además, es conveniente introducir la siguiente definición: Sean A y

B dos eventos inciertos de forma que P(A) ≠ 0 . Entonces, la
Probabilidad Condicional de B dado A se define como
P(A ∩ B)
P(B A ) =
P(A)
¾ Con esta definición, se puede introducir una más. Sean A y B dos

eventos. Entonces se dice que A y B son independientes si se tiene
que
P(A ∩ B) = P(A) × P(B)
y en ese caso, P(B A ) = P(B) .
¾ Todas estas propiedades han sido adoptadas con el propósito de

reproducir, para las probabilidades, el comportamiento que tienen
las frecuencias relativas. De hecho, en los casos más simples las
probabilidades se calculan directamente como frecuencias
relativas.
106
¾ Existe, sin embargo, una inmensa variedad de situaciones en

donde las frecuencias no están disponibles en la forma necesaria y
es ahí donde las probabilidades cobran importancia ya que, en
particular, se pueden calcular utilizando otros procedimientos.
¾ Para empezar, no todos los fenómenos inciertos se manifiestan a

través de eventos en donde sólo es relevante si estos ocurren o no.
En muchas aplicaciones, el fenómeno aleatorio bajo estudio puede
producir distintos resultados e interesa el análisis de todos los
resultados posibles.
¾ Aparece entonces, asociado a la observación de un fenómeno

aleatorio, el concepto de variable aleatoria. Como en el caso del
AE, una variable no es más que la codificación numérica de los
posibles resultados que se derivan de la observación de un
fenómeno.
¾ De la misma forma que en el AE, las variables -ahora aleatorias-

pueden clasificarse como cualitativas y cuantitativas, o con mas
detalle en nominales, ordinales, discretas y continuas, de acuerdo
con su naturaleza.
¾ El interés se concentra en la descripción de la incertidumbre

asociada al fenómeno aleatorio bajo estudio, es decir, la
incertidumbre asociada a sus posibles resultados. Por su parte, la
variable aleatoria asigna un valor distinto a cada posible resultado
diferente.
107
¾ Entonces, el problema equivale a describir la incertidumbre

asociada a la variable aleatoria, es decir a la ocurrencia de sus
distintos valores.
¾ Ahora bien, si la ocurrencia de cada posible valor es incierta, la

incertidumbre correspondiente se puede describir a través de la
probabilidad respectiva.
¾ Como conclusión, la incertidumbre asociada a una variable

aleatoria queda descrita en cuanto se describe el conjunto de
valores que puede producir y la probabilidad asociada con cada
valor.
¾ En este punto es conveniente introducir dos nuevos términos:
1. Al conjunto de los valores que puede producir una variable

aleatoria X se le conoce como el Soporte de la variable y
habitualmente se le denota como X.
2. Al soporte, junto con la relación que asocia a cada valor de la

variable aleatoria su probabilidad de ocurrencia, se le conoce
con el nombre de Función de Probabilidad y habitualmente se
denota como PX, P(X) ó P(X = x).
¾ Con estos conceptos se tiene que la incertidumbre asociada a una

variable aleatoria queda descrita en cuanto se conoce su función de
probabilidad.
108
¾ Imagine una variable aleatoria X que, al ser observada, produce

uno de los siguientes valores: x1, x2, x3, x4, x5 y x6 .
¾ Como ya se ha indicado, la incertidumbre asociada a X queda

descrita en cuanto se informa de los valores x1 a x6 y de los valores
de probabilidad P(X = x1), … P(X = x6).
¾ Esta información puede reportarse a través de una tabla como

sigue:
Función de Probabilidad de X
X P(X = x)
x1 P(X = x1)
x2 P(X = x2)
x3 P(X = x3)
x4 P(X = x4)
x5 P(X = x5)
x6 P(X = x6)
1.00
Equivalentemente, si se abrevia para a cada valor de X, pi

= P(X = xi) la tabla tiene el siguiente aspecto:
X P(X = x)
x1 p1
x2 p2
x3 p3
x4 p4
x5 p5
x6 p6
1.00
109
¾ Esta representación establece una similitud evidente entre la

función de probabilidad y la tabla de frecuencias relativas. Es muy
importante percibir ahora las diferencias.
¾ La diferencia más importante entre las frecuencias y las

probabilidades estriba en el hecho de que las primeras describen la
información observada (ya registrada) en un banco de datos,
mientras que las probabilidades describen la manera en como
podría registrarse la información por observarse (futura) de una
variable aleatoria.
X fr / p
0 0.10
1 0.30
2 0.20
3 0.20
4 0.15
5 0.05
1.00
En la tabla que antecede, si los valores de la segunda columna

fuesen frecuencias relativas, estos se podrían interpretar, por
ejemplo, como sigue:
1. Un 15% de los casos en el banco presentó un valor de 4.
2. El valor que se presentó con más frecuencia (la moda) fue el 1

(30%).
110
Por otra parte, esta tabla debiese incluir el tamaño del banco (n).
X fr / p
0 0.10
1 0.30
2 0.20
3 0.20
4 0.15
5 0.05
1.00
Si, por el contrario, la tabla se refiriese a una función de

probabilidad, la interpretación seguiría otra línea. Por ejemplo:
1. Con una probabilidad de 0.15 se espera que, al observar la

variable, se presente un valor de 4.
2. El valor que se espera con mayor probabilidad (la moda) es el

1 (0.30).
En este caso la noción de tamaño del banco simplemente no existe.
¾ Las características más notables de este ejemplo se pueden

generalizar para concluir que, así como la tabla de frecuencias es
un resumen eficiente (suficiente y minimal) de la información
contenida en un banco de datos, la función de probabilidad
constituye el resumen correspondiente si el propósito es describir la
incertidumbre asociada a una variable aleatoria.
111
¾ Por otra parte, una vez que ha sido establecida esta

correspondencia entre tabla de frecuencias y función de
probabilidad, surge de manera natural la idea de transportar
también al terreno de la probabilidad otros resúmenes propios del
Análisis Exploratorio.
¾ El objetivo es el mismo: proveer una descripción, en este caso del

comportamiento de la variable aleatoria. El concepto también
coincide: emplear resúmenes parciales que si bien no capturan
toda la información relevante, destacan algún aspecto que puede
ser de especial interés.
¾ De esta manera es posible referirse a las medidas de localización y

dispersión para variables aleatorias introduciendo algunas
modificaciones en las definiciones correspondientes.
MEDIDAS DE LOCALIZACIÓN
(para variables aleatorias)
Moda. Es el valor más probable de X.
Mediana. Es el valor X(0.5), en el soporte de X, que satisface

simultáneamente las dos siguientes condiciones:
P( X ≤ X(0.5) ) ≥ 0.5
P( X ≥ X(0.5) ) ≥ 0.5 .
112
Cuantil (de orden q). Es el valor X(q), en el soporte de X, que

satisface simultáneamente las dos siguientes condiciones:
P( X ≤ X(q) ) ≥ q
P( X ≥ X(q) ) ≥ 1-q .
Mínimo. Es el valor más pequeño, X[-], en el soporte de X.
Máximo. Es el valor más grande, X[+], en el soporte de X.
Media (Valor Esperado ó Esperanza). Es un promedio ponderado

de los valores en el soporte de X donde las probabilidades
respectivas sirven como pesos. Por ejemplo, si la variable X
produce los valores x1, x2, x3, x4, x5 y x6 con probabilidades p1, p2,
p3, p4, p5 y p6 respectivamente, entonces la media de X se calcula
como:
6
µ = E(X) = ∑ pi x i
i =1
¾ Como puede observarse, todas las medidas de localización

originalmente diseñadas para servir propósitos descriptivos en el
AE tienen una versión equivalente en Probabilidad que se obtiene,
para todo propósito práctico, sustituyendo frecuencias relativas por
probabilidades.
113
¾ Posiblemente el caso en el que esta identificación resulta menos

clara es la media. Aparentemente se tiene una diferencia relevante
cuando aquí se define como un promedio ponderado mientras que
en AE se definió como un promedio aritmético simple. Esta
diferencia es sólo aparente.
¾ Recuerde que en un banco de datos puede presentarse la

repetición de valores. De hecho, el propósito del cálculo de
frecuencias es precisamente dar cuenta de esas repeticiones.
¾ Por otra parte, en el soporte de una variable solamente se incluyen

los valores distintos de X.
¾ Así pues si se observa que la definición de la media en AE se

refiere al promedio sobre todos los casos en el banco, mientras que
en Probabilidad se consideran los valores en el soporte, es
inmediato comprobar que las dos definiciones coinciden.
¾ Considere el siguiente conjunto de datos que describe los años

transcurridos desde la obtención del título profesional para el grupo.
114
Años
4
3
5
5
3
9
0
5
4
4
9
3
15
3
3
5
5
6
2
Compruebe que si calcula la media utilizando, primero, la fórmula

n
µ= X= 1
n ∑ xi
i =1
en donde n es el número de casos y después construye la tabla de

frecuencias relativas, sin agrupar, y calcula ahora
k
E(X) = ∑ fri xi
i =1
donde k es el número de valores distintos en el banco (de

renglones en la tabla de frecuencias), obtiene el mismo resultado.
¾ De la misma manera se puede proceder con las medidas de

dispersión.
115
MEDIDAS DE DISPERSIÓN
(para variables aleatorias)
Rango. Es el valor R que se calcula como la diferencia entre los

valores máximo y el mínimo de la variable:
R = X[+] – X[-].
Rango entre cuartiles. Es el valor REC, que se calcula como la

diferencia entre los cuantiles de orden 0.75 (tercer cuartil) y 0.25
(primer cuartil):
REC = X(0.75) – X(0.25).
Error Medio. Es un promedio ponderado de las diferencias que

guardan, en valor absoluto, los valores en el soporte de X respecto
a una medida de localización. Las probabilidades respectivas sirven
como pesos y por ejemplo, si la variable X produce los valores x1,
x2, x3, x4, x5 y x6 con probabilidades p1, p2, p3, p4, p5 y p6
respectivamente, y X(0.5) es la mediana de X, entonces el EM,
respecto a la mediana, se calcula como:
6
EM(X) = ∑ pi x i − X(0.5)
i =1
Varianza. Es el valor σ2 que se calcula como un promedio

ponderado de las diferencias que guardan, elevadas al cuadrado,
los valores en el soporte de X respecto a la media de la variable.
Las probabilidades respectivas sirven como pesos y por ejemplo, si
116
la variable X produce los valores x1, x2, x3, x4, x5 y x6 con

probabilidades p1, p2, p3, p4, p5 y p6 respectivamente, entonces la
varianza de X se calcula como:
6
σ2(X) = Var(X) = ∑ pi ( x i − µ)2 .
i =1
Desviación estándar. Es el valor σ que se calcula como la raíz

cuadrada de la varianza. De nuevo, por ejemplo, si la variable X
produce los valores x1, x2, x3, x4, x5 y x6 con probabilidades p1, p2,
p3, p4, p5 y p6, entonces la desviación estándar de X resulta:
6
σ(X) = [Var(X)] 1/2
= ∑ pi ( x i − µ)2 .
i =1
¾ Tanto las medidas de localización como las medidas de dispersión

que se han presentado para las variables aleatorias parten del
supuesto de que el soporte X de la variable X esta formado por un
número finito de posibles valores.
¾ Estrictamente en la práctica, este supuesto es correcto. Sin

embargo, existen modelos de probabilidad que son muy útiles y
convenientes y que tienen un soporte con un número infinito de
posibles valores.
117
¾ En tal caso es necesario modificar, en cierto sentido, las

definiciones de algunos de estos resúmenes. Considere el caso en
que el soporte es infinito pero discreto. Es decir, el caso en que X =
{ x1, x2, x3,… } donde los valores constituyen una secuencia de
puntos aislados sin fin.
¾ La primera consecuencia de esta estructura es que en

correspondencia con los valores en X, debe existir una secuencia,
también infinita, de probabilidades { p1, p2, p3,… }. Cada una de
estos valores debe cumplir con las propiedades que caracterizan a
las probabilidades y en conjunto deben satisfacer, la condición:
∞
∑ pi = 1.
i =1
En términos técnicos, se dice que la sucesión definida por la suma

de las probabilidades debe converger a 1.
¾ Además, todos los resúmenes que involucran promedios

ponderados deben incorporar la modificación correspondiente. Esto
significa que en el caso de variables aleatorias discretas con
soporte infinito se tiene que:
∞
µ = E(X) = ∑ pi x i ,
i =1
∞
EM(X) = ∑ pi x i − X(0.5) ,
i =1
118
∞
σ2 = ∑ pi ( x i − µ)2 y
i =1
∞
σ= ∑ pi ( x i − µ)2 .
i =1
¾ Naturalmente, ahora cada una de estas medidas define una

sucesión que, al menos en teoría, podría no converger. Por
supuesto, los modelos más comunes y, en particular, los que se
consideran en este texto no presentan esa anomalía.
¾ Un caso ligeramente más sofisticado es el de las variables

aleatorias continuas. Como en AE, se dice que una variable es
continua si puede producir cualquier valor en un intervalo. Es decir,
si el soporte X es un intervalo.
¾ Conceptualmente, la dificultad más importante cuando se

consideran variables continuas radica en el hecho de que si X es un
intervalo, no existe forma de recorrer puntualmente, uno a la vez,
los valores en el soporte para calcular los promedios requeridos.
¾ Suponga, por ejemplo, que tiene una variable continua con soporte
X igual al intervalo [0, 10]. Evidentemente, el mínimo valor en el
soporte es cero pero no es posible establecer cual es el que le
sigue. Cualquier candidato, digamos A, queda descartado
automáticamente si se reconoce que entre cero y el número A
existe una infinidad de valores más.
119
¾ La solución a este dilema está inspirada en la idea, ya bien

conocida, de agrupar. Suponga que el soporte X se divide en un
número finito, digamos k, de subintervalos o clases. Suponga,
además, que las probabilidades asociadas a todas y cada una de
las clases son p1A , p 2A ,...., pkA .
¾ Si ahora se elige, en cada clase un valor de X como representante

A A A
y se forma la colección x1 , x 2 ,...., x k entonces una aproximación
al valor de, por ejemplo, la media está dado por:
k
*
E (X) = ∑ piA x iA
i =1
¾ Es intuitivamente claro que la calidad de esta aproximación será

mejor en la medida en que el número de clases aumente y la
longitud de todos y cada uno de los subintervalos sea cada vez
menor. De esta manera, y desde un punto de vista técnico de
nuevo, se tiene que la Media se puede obtener como resultado de
un proceso límite:
k
∑ piA x iA k →∞
 → E(X)
i =1
¾ Ahora bien, es un resultado bien conocido del cálculo integral que

una suma como la que se ha construido, cuando converge, lo hace
a una integral. En este caso,
k
∑ piA x iA k →∞
 → ∫ x f(x) dx
i =1 X
120
en donde f(x) es una función con las siguientes características:
1. f(x) ≥ 0 para toda x en X.
2. ∫ f(x) dx = 1.
X
A la función f(x) se le conoce como la función de densidad de

probabilidad de X.
¾ La otra propiedad importante de f(x) es la siguiente: Para cualquier

intervalo [a, b] que se encuentre contenido en el soporte de X, la
probabilidad del evento A = {a ≤ X ≤ b} se calcula como:
b
P(A) = ∫a f(x) dx .
¾ Esta propiedad implica que, en particular, un peculiar resultado

según el cual si x es un valor fijo cualquiera de una variable
aleatoria X continua entonces
P( X = x ) = 0.
¾ Es decir, cualquier modelo de probabilidad para variables

continuas:
1. Asigna a un intervalo una probabilidad que se calcula como el
área bajo la curva definida por la función de densidad.
121
2. A todo valor aislado de la variable le asigna probabilidad cero.
¾ Es importante observar que las variables aleatorias continuas no

cuentan con función de probabilidad; en su lugar se tiene la función
de densidad de probabilidad.
¾ Comente cuales son las similitudes y diferencias entre la función de

probabilidad (para variables discretas) y la función de densidad
(para variables continuas).
¾ Existe otra función definida para ambos tipos de variables: La

Función de Distribución. Si X es una variable aleatoria y x es un
valor cualquiera, entonces, la función de distribución de X evaluada
en x se define como
FX(x) = P(X ≤ x).
¾ A la Función de Distribución también se le llama función de

probabilidad acumulada y la forma de cálculo es distinta para las
variables discretas y continuas.
Caso discreto:
FX (x) = P(X ≤ x) = ∑y ≤ x P(X = y) = ∑y ≤ x p y .
122
Caso Continuo:
x
FX (x) = P(X ≤ x) = ∫ f(y)dy .
−∞
¾ Volviendo al problema de describir una variable aleatoria, ahora es

posible plantear la descripción en términos más generales que
incluyan tanto a las variables discretas como a las continuas:
Una variable aleatoria está completamente descrita en cuanto se

define su soporte y su función de distribución.
¾ En relación con este tema vale la pena observar que existe una
cantidad incontable de variables aleatorias.
¾ De hecho, cualquier colección de números positivos cuya suma sea

finita puede dar lugar a una función de probabilidad y por tanto a
una variable discreta.
¾ Por su parte cualquier función positiva cuya área bajo la curva sea,
también, finita puede dar lugar a una función de densidad y por
tanto a una variable continua.
¾ Una forma muy conveniente de trabajar con variables aleatorias es

a través de modelos.
123
¾ Un modelo (paramétrico) para una variable aleatoria es una

ecuación que permite el cálculo de una función de distribución (o de
probabilidad o de densidad) una vez que se fijan los valores de un
conjunto de índices o parámetros.
¾ Alguno de los modelos parámetricos más comunes son los

siguientes:
Variables discretas:
1. Uniforme.
2. Triangular.
3. Bernoulli
4. Binomial.
5. Poisson.
6. Geométrica
7. Binomial Negativa.
Variables Continuas:
1. Uniforme
2. Triangular.
3. Exponencial,
4. Normal,
5. Ji cuadrada
6. t de Student
7. F.
124
¾ Algunos de estos modelos, o mejor dicho, algunas de estas familias

de modelos ya han sido presentadas. Sin embargo y para tener un
panorama conjunto, aquí se revisan nuevamente.
¾ Modelo Uniforme Discreto.

Soporte:
X = {1, 2, 3, …N}.
Función de Probabilidad:
P(X = x) = 1/N para todo x en X.
Función de Probabilidad
Uniforme Discreta (N=10)
0.15
0.12
0.09
0.06
0.03
0.00
0 1 2 3 4 5 6 7 8 9 10 11
Esperanza:
E(X) = (N+1)/2
Varianza:
Var(X) = (N2 –1)/12
Esta familia tiene tantos elementos como valores existen de N
enteros mayores que 1.
125
¾ Modelo Triangular Discreto.

Soporte:
X = {1, 2, 3, …N}.
P(X = x) = bx para todo x en X.
( b = 2/{(N(N+1)} ).
Esperanza:
E(X) = (2N+1)/3
Varianza:
Var(X) = {(N –1)(N +1)}/18
Esta familia de modelos tiene tantos elementos como valores N

existen enteros y mayores que 1.
Triangular Discreta (N=10)
0.18
0.15
0.12
0.09
0.06
0.03
0
0 1 2 3 4 5 6 7 8 9 10 11
126
¾ Modelo Bernoulli.
Soporte:
X = {0, 1}.
P(X = x) = px (1-p)(1-x) para todo x en X.
Bernoulli (p = 0.25)
1.00
0.80
0.60
0.40
0.20
0.00
-0.5 0 0.5 1 1.5
Esperanza:
E(X) = p
Varianza:
Var(X) = p(1-p)
Esta familia de modelos tiene tantos elementos como valores

existen de p en el intervalo [0,1].
127
¾ Modelo Binomial.
Soporte:
X = {0, 1,…., N}.
N
P(X = x) =   p x (1 − p)N - x para todo x en X.
x
Binomial (p = 0.75, N = 10)
0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 2 4 6 8 10 12
Esperanza:
E(X) = Np
Varianza:
Var(X) = Np(1-p)
Esta familia de modelos tiene tantos elementos como parejas
existen de valores de N enteros positivos y de p en el intervalo
[0,1].
128
¾ Modelo Poisson.
Soporte:
X = {0, 1, 2,…. }.
λx exp( − λ )
P(X = x) = para todo x en X.
x!
Poisson ( λ = 5 )
0.20
0.16
0.12
0.08
0.04
0.00
0 5 10 15 20
Esperanza:
E(X) = λ
Varianza:
Var(X) = λ
Esta familia de modelos tiene tantos elementos como valores de λ

existen positivos.
129
¾ Modelo Geométrico.
Soporte:
X = {0, 1, 2,…. }.
P(X = x ) = p(1 − p )
x
para todo x en X.
Geométrica ( p = 0.2 )
0.24
0.20
0.16
0.12
0.08
0.04
0.00
0 5 10 15 20
Esperanza:
E(X) = (1-p) / p
Varianza:
Var(X) = (1-p) / p2
Esta familia de modelos tiene tantos elementos como valores de p
existen en [0, 1].
130
¾ Modelo Binomial Negativa.

Soporte:
X = {0, 1, 2,…. }.
 r + x − 1 r
P(X = x) =   p (1 − p) x
 x 
para todo x en X.
Función de Probabilidad Binomial

Negativa (r = 3, p = 0.3) )
0.12
0.08
0.04
0.00
0 5 10 15 20
Esperanza:
E(X) = r (1-p) / p
Varianza:
Var(x) = r (1-p) / p2
Esta familia de modelos tiene tantos elementos como existen
parejas de valores r entero positivo y p en [0, 1].
131
¾ Modelo Uniforme Continua.

Soporte:
X = [a, b]. (a<b)
Función de Densidad:
1
f X (x) =
(b − a)
para todo x en X y cero en otro caso.
Función de Densidad Uniforme

(a = 0, b = 10) )
0.15
0.12
0.09
0.06
0.03
0.00
-2 -1 0 1 2 3 4 5 6 7 8 9 10 11
Esperanza:
E(X) = (a + b) / 2
Varianza:
Var(X) = (b - a)2 / 12

parejas de valores a y b con a < b.
132
¾ Modelo Exponencial.
Soporte:
X = (0, ∞).
fX (x) = λ exp( −λx )
para todo x en X y cero en otro caso.
Función de Densidad Exponencial

( λ= 0.5)
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6 7 8 9 10 11 12
Esperanza:
E(X) = λ-1
Varianza:
Var(X) = λ-2
Esta familia de modelos tiene tantos elementos como valores de λ
positivos.
133
¾ Modelo Normal.
Soporte:
X = (-∞, ∞).
1 1
f(x) = 2 1/ 2
exp { − 2
( x − µ)2 }
(2πσ ) 2σ
para todo x en X .
Función de Densidad Normal

Estándar ( µ= 0, σ2 = 1)
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
-5.0 -3.0 -1.0 1.0 3.0 5.0
Esperanza:
E(X) = µ
Varianza:
Var(X) = σ2
existen de valores µ en los reales y σ2 positivos.
134
¾ Modelo Ji cuadrada (χ2).

Soporte:
X = (0, ∞).
1
f(x) = (2)- r / 2 x ( r / 2 − 1)
exp(− x / 2)
Γ(r/2)
para todo x en X .
Esperanza:
E(X) = r
Varianza:
Var(X) = 2 r
Esta familia de modelos tiene tantos elementos como valores de r

existen enteros positivos. Al parámetro r se le conoce como el
número de grados de libertad o, mas brevemente, grados de
libertad.
El modelo Ji cuadrada está relacionado con el modelo Normal en

virtud de que si Z tiene una distribución Normal estándar, entonces
Z2 sigue una distribución Ji cuadrada con r = 1 (un grado de
libertad).
Por otra parte, si U es Ji cuadrada con r grados de libertad y V es Ji

cuadrada con s grados de libertad y, además U y V son
independientes, entonces la variable W = U + V tiene una
distribución Ji cuadrada con r + s grados de libertad.
135
Ji cuadrada con 4 g.l.
0.20
0.16
0.12
0.08
0.04
0.00
0 3 6 9 12 15 18
Ji cuadrada con 10 g.l
0.10
0.09
0.08
0.07
0.06
0.05
0.04
0.03
0.02
0.01
0.00
0 5 10 15 20 25 30
Ji cuadrada con 30 g.l
0.06
0.05
0.04
0.03
0.02
0.01
0.00
10 20 30 40 50 60
136
¾ Modelo t de Student.
Soporte:
X = (-∞, ∞).
Γ[(r + 1)/2]
f(x) = (rπ)-1/2 (1+ x 2 /r)- (r +1)/2
Γ(r/2)
para todo x en X .
Normal Estándar T con 2 grados T con 10 grados
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
-5.0 -3.0 -1.0 1.0 3.0 5.0
Esperanza:
E(X) = 0 (si r > 1)
Varianza:
Var(X) = r / (r-2) (si r > 2)

valores de r enteros positivos. A r se le conoce como los grados
de libertad de la distribución.
137
El modelo t de Student se aproxima al modelo Normal estándar a

medida que el número de grados de libertad aumenta.
Por otra parte, es interesante tener presente el siguiente resultado.

Si Z es Normal estándar, V es Ji cuadrada con r grados de libertad
y estas dos variables son independientes entonces
Z
W=
V /r
tiene una distribución t de Student con r grados de libertad.
138
¾ Modelo F.
Soporte:
X = (0, ∞).
m/2
Γ[(m + n)/2]  m  x ( m − 2) / 2
f(x) =  
Γ(m/2)Γ(n/2)  n  [1 + (m / n)x](m + n) / 2
para todo x en X .
Esperanza:
E(X) = n / (n-2) (si n > 2)
Varianza:
Var(X) = [2n2 (m+n-2)]/ [m(n-2)2 (n-4)], (si n > 4)

existen de enteros positivos m y n. Al parámetro m se le conoce
como grados de libertad del numerador mientras que a n se le
llama grados de libertad del denominador.
Distribución F (3,3)
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6
139
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6
1.4
1.2
1.0
0.8
0.6
0.4
0.2
0.0
0 1 2 3 4 5 6
140
0.8
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6
0.7
0.6
0.5
0.4
0.3
0.2
0.1
0.0
0 1 2 3 4 5 6
141
El modelo F está relacionado con el modelo Ji cuadrada y por tanto

con el modelo Normal. Específicamente, si U y V son dos variables
aleatorias independientes y U es Ji cuadrada con m grados de
libertad mientras que V es Ji cuadrada con n grados de libertad,
entonces la variable
U/m
W =
V/ n
sigue una distribución F con m grados de libertad en el numerador
y n grados de libertad en el denominador.
142
4. Estimación y Pronóstico
¾ Un problema inherente al uso de modelos es el de la selección del

modelo.
¾ Este problema, cuando se recurre al empleo de familias

paramétricas de modelos, se puede plantear en dos etapas.
¾ El primer paso consiste en la selección de la familia apropiada

(Normal, Poisson, Binomial, etc., etc.). En general, esta fase se
resuelve tomando en cuenta las características generales de la
variable en cuestión. Primero hay que establecer si se trata de una
variable discreta o continua y determinar cual es su soporte.
¾ También se toma en cuenta el tipo concreto de fenómeno que se

intenta describir. Existe experiencia que puede resultar muy valiosa
para determinara la familia apropiada.
¾ La segunda parte del problema, una vez que se ha decidido la

familia, se refiere a la selección del modelo particular, dentro de la
familia. En otras palabras la selección del parámetro.
¾ En términos generales, los parámetros se seleccionan para que el

modelo reproduzca en la manera más fiel posible el
comportamiento observado en los datos.
143
¾ Existen distintos métodos o técnicas que pueden emplearse para

este fin. Conceptualmente, se distinguen en lo que se refiere a los
aspectos del banco de datos que pretenden reproducir.
¾ El más simple, y muy útil en muchos casos, es el Método de

Momentos que se basa, precisamente, en la noción de momento.
¾ Si se tiene un banco con los datos x1, x2,... xn entonces se define el

momento muestral de orden r como el promedio de los datos, cada
uno de ellos elevado a la potencia r (con r un entero positivo).
n
mr = 1
n ∑ (xi )r
i =1
¾ Es interesante notar que esta noción de momento generaliza la

idea de la media. En particular, para el caso r = 1, m1 coincide
precisamente con la media X . Además, se puede comprobar que la
varianza se puede expresar en función de los dos primeros
momentos:
n −1 2
S = m2 – m12
n
¾ Por su parte, si se tiene una variable aleatoria X, se define el

momento poblacional de orden r como el valor esperado de la
variable elevada a la potencia r (con r un entero positivo). Así,
144
k
Mr = ∑ (x i )r pi en el caso discreto,
i =1
Mr = ∫ x r f(x) dx en el caso continuo.

X
¾ Como en el caso de un banco de datos, para las variables

aleatorias se tienen las mismas relaciones con la esperanza y la
varianza.
E(X) = M1
Var(X) = M2 - M12
¾ El método utiliza el hecho de que los momentos de una variable

aleatoria con una distribución que pertenece a una familia
paramétrica están, en general, relacionados con los parámetros de
la familia.
¾ Algoritmo: Así, el método de momentos procede en forma

secuencial estableciendo la igualdad de los momentos del modelo
con los momentos de los datos en el banco hasta determinar los
valores de los parámetros.
145
1. El primer paso consiste en establecer la igualdad de los

momentos de orden 1 es decir, la esperanza del modelo con la
media de los datos. Si esta igualdad determina los parámetros
involucrados el proceso termina.
2. En caso contrario, se establece la igualdad entre los momentos

de orden 2 lo cual equivale a establecer la igualdad entre la
varianza del modelo y la varianza de los datos.
3. Si estas dos ecuaciones determinan por completo el valor de los

parámetros el proceso finaliza; en caso contrario, el proceso
continua estableciendo la igualdad entre los momentos de orden
sucesivamente mayor hasta fijar los parámetros.
¾ Como ejemplo considere el ejemplo de unos datos que se pretende

aproximar con un modelo Poisson. En el caso de este modelo la
esperanza coincide con el valor del parámetro λ.
o Así, la igualdad M1 = m1 se traduce en la ecuación
λ= X
Que determina el valor del parámetro y el proceso de ajuste

termina.
146
¾ Otro ejemplo útil es el caso Normal. Para este modelo se tienen dos
parámetros. La primera ecuación M1 = m1 equivale a la igualdad
µ= X
o Que determina el valor del parámetro µ mientras que la segunda

(M2 = m2) equivale a la igualdad de las varianzas y, por tanto, se
traduce en la relación
σ 2 = S2
y, de esta forma, el proceso de ajuste termina.
¾ Aquí, es de la mayor importancia introducir una consideración que

se presenta con frecuencia en la práctica. En diversas
circunstancias el banco de datos recoge la información disponible
sobre el fenómeno de interés pero esta información no es toda la
que el fenómeno puede producir.
¾ De esta manera el banco contiene solamente una fracción de la

información posible. De hecho, en esos casos existe, al menos
potencialmente, la posibilidad de contar con otros bancos de datos
sobre el mismo fenómeno.
147
¾ En estas circunstancias la aplicación del método de momentos (o

de cualquier otro método de ajuste) produce el valor óptimo de los
parámetros para describir el comportamiento de los datos en el
banco disponible pero es necesario reconocer que un estudio
similar que utilizase otro banco de datos podría arrojar valores
distintos para los parámetros y por tanto, una descripción diferente
del fenómeno bajo estudio.
¾ Este hecho plantea una situación que sólo se puede abordar desde
la perspectiva de la Inferencia Estadística.
¾ Por una parte, el valor que se obtiene en el ajuste del modelo ya no

puede considerarse como el parámetro que describe el
comportamiento del fenómeno sino únicamente una aproximación a
su valor desconocido.
¾ En los términos comunes del lenguaje estadístico se dice que el

valor obtenido constituye una estimación (o valor estimado) del
parámetro y con el fin de distinguir ambos valores si el parámetro
es θ, la estimación (o estimador) se denota con el símbolo θ̂ .
¾ Por otra parte, si el valor del estimador depende del particular

banco de datos que se haya empleado para la estimación, se
plantea el siguiente dilema: ¿Cómo determinar el grado en que el
estimador aproxima el verdadero valor desconocido del parámetro?
148
¾ En otras palabras: ¿Cómo determinar el grado en que el banco

disponible refleja el resultado que se obtendría si se contase con
toda la información del fenómeno (población)?
¾ Este problema se ha resuelto incorporando un supuesto más en el

proceso. Primero dos definiciones.
Cuando se cuenta con toda la información que el fenómeno bajo

estudio puede producir se dice que se tiene un Censo.
De la misma manera, cuando únicamente se cuenta con una

fracción de la información que el fenómeno bajo estudio puede
producir se dice que se tiene una Muestra.
¾ El supuesto que permite, de nuevo, utilizar las herramientas de la

probabilidad para describir esta nueva fuente de incertidumbre
consiste en considerar a los datos disponibles como si hubiesen
sido seleccionados de entre todos los datos potencialmente
posibles a través de un sorteo (muestreo aletorio).
¾ Conceptualmente esto equivale a suponer, en el caso más simple,

que todos los datos posibles se alojaron en una urna de donde se
extrajeron por sorteo aquellos que finalmente forman el banco.
149
¾ De esta manera, se establece un principio de representatividad del

banco (que ahora recibe el nombre de muestra aleatoria). La idea
es que se cuenta con datos que se produjeron con un
procedimiento que concede a todos los datos potenciales la misma
oportunidad de aparecer en la muestra.
¾ En nivel más técnico, esta forma de seleccionar la muestra (que se

conoce como muestreo probabilístico) equivale a suponer que cada
dato disponible procede de la observación de una variable aleatoria
que tiene como distribución el modelo establecido.
¾ Como consecuencia el estimador, que se calcula a partir de los

datos disponibles (aleatorios), también se puede considerar a su
vez como una variable aleatoria cuya distribución permite evaluar el
grado en que el estimador se aproxima al verdadero valor del
parámetro.
¾ En particular, es posible calcular medidas de localización y

dispersión a partir del modelo que describe el comportamiento del
estimador para, por ejemplo, determinar su esperanza y su
varianza.
150
¾ De esta manera, el valor del estimador se puede interpretar como si

fuese el resultado de observar una variable aleatoria y si se tiene
que
ˆ =θ
E(θ)
se puede concluir que esa variable aleatoria produce valores

alrededor del verdadero valor de θ . En este caso se dice que el
estimador es insesgado.
¾ Si, por otra parte se calcula la varianza del estimador, Var( θˆ ) , es

posible establecer qué tan similar podría haber resultado la
estimación si se hubiese contado con otro banco de datos del
mismo tipo.
¾ De hecho, y como se verá en el caso de los modelos de regresión,

la varianza permite determinar el efecto que en la calidad de una
estimación tiene un posible incremento en el tamaño del banco (el
tamaño de la muestra).
¾ Todas estas ideas se ilustrarán, en la siguiente sección, con los

modelos estadísticos que se emplean para describir la asociación
lineal entre variables. Es decir, con los modelos de regresión lineal.
¾ Antes de proceder, vale la pena mencionar que la idea que subyace

en la producción de muestras probabilísticas no es un mero artificio
conceptual.
151
¾ En una variedad de aplicaciones reales, la selección de los datos

que constituyen la muestra se lleva a cabo explícitamente a través
de un sorteo o de un procedimiento que emula un sorteo. De
hecho, existe toda una rama de la disciplina estadística (conocida
como muestreo) que se ocupa de estas técnicas.
PRONÓSTICOS PROBABILÍSTICOS
¾ La idea básica que da origen a la producción de pronósticos

probabilísticos es la identificación de las frecuencias relativas con
las probabilidades.
¾ Como ya se ha indicado, las frecuencias tienen el propósito de

describir lo que ya ocurrió, a partir de la información contenida en
un banco de datos.
¾ Por su parte, las probabilidades pretenden la descripción de lo que

puede ocurrir en el futuro.
¾ Identificar frecuencias con probabilidades, tiene sentido sólo si, en

un nivel más primario, se acepta que lo que va a ocurrir es similar
con lo que ya ha ocurrido.
¾ Esta idea se traduce, cuando no se utilizan modelos, a suponer que

el valor futuro se habrá de producir como si fuese resultado de un
sorteo entre los valores que se han presentado en el pasado.
152
¾ En ese caso, además, la probabilidad con la que se supone

aparecerá un valor futuro es igual a la frecuencia relativa con la que
se presentó en el banco de datos.
¾ En otras palabras, el valor futuro se considera una observación de

una variable aleatoria.
¾ El soporte de la variable aleatoria está determinado por valores que

aparecieron en el banco (y sólo esos) y su función de probabilidad
por las frecuencias relativas correspondientes.
¾ Este procedimiento tiene ventajas:
1. Es simple,
2. Hace uso del resumen eficiente,
3. No pone en duda la representatividad de la información en el
banco.
¾ Pero también implica desventajas:
1. No contempla la posibilidad de valores que no hayan ocurrido

previamente,
2. No permite el contraste de pronósticos que proceden de bancos
similares pero diferentes.
3. No toma en cuenta el procedimiento de construcción del banco.
153
¾ En tales circunstancias es conveniente y resulta natural, el empleo

de modelos para la producción de pronósticos probabilísticos.
¾ Si el pronóstico se considera el producto de la observación de una

variable aleatoria, es posible y razonable utilizar un modelo para
describir el comportamiento de esa variable aleatoria.
¾ Si además se considera conveniente utilizar un modelo

relativamente simple y con propiedades que sean interpretables
con facilidad, entonces una posibilidad son las familias
paramétricas de modelos (Binomial, Poisson, Normal, Uniforme y
Exponencial entre otras).
¾ Ahora bien, es importante reconocer que los pronósticos que se

obtienen a partir de modelos prácticamente nunca coinciden con los
que se obtienen en forma directa de las frecuencias relativas. No
tendría por que ocurrir de otro modo, estos pronósticos se fundan
en supuestos diferentes y tienen distintos alcances.
¾ Considere el ejemplo de la variable cursos que se discutió

anteriormente. Ahí, se tenía por una parte las frecuencias
observadas que se muestran en la segunda columna de la
siguiente tabla.
154
X fr Poisson
0 0.1350 0.0963
1 0.2050 0.2254
2 0.2150 0.2637
3 0.2050 0.2057
4 0.1350 0.1203
5 0.0950 0.0563
6 0.0050 0.0220
7 0.0000 0.0073
8 0.0000 0.0021
9 0.0050 0.0006
10 0.0001
11 0.0000
12 0.0000
13 0.0000
14 0.0000
15 0.0000
Con esa información, recurriendo únicamente a las frecuencias

relativas, se podría pronosticar, por ejemplo, entre cero y cuatro
cursos con una probabilidad de 0.895. Por supuesto, un pronóstico
puntual podría ser X = 2 con una probabilidad de 0.215. También se
puede afirmar que X > 6 sólo ocurrirá con probabilidad 0.005.
Emplearemos ahora un modelo Poisson. Este modelo se especifica

al determinar el valor de su único parámetro λ. Al usar el método de
momentos tenemos:
X = 2.34 , y µ = E(X ) = λ
155
Al igualar obtenemos el estimador para λ

λˆ = 2.34
Al emplear un modelo Poisson con λ = 2.34 se obtienen las

probabilidades en la tercera columna de la tabla y se puede
pronosticar que se observarán entre cero y cuatro cursos con una
probabilidad de 0.9114. De la misma manera, un pronóstico puntual
podría ser X = 2 pero ahora con una probabilidad de 0.2637.
También en forma análoga, se tiene que la probabilidad de
observar un valor de X > 6 es de 0.0102.
Ajuste Poisson (Cursos)

0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9
Como puede constatarse, los resultados son parecidos pero no

iguales. En particular, con las frecuencias relativas no tiene sentido
plantearse la ocurrencia de valores mayores que 9 mientras que
con el modelo Poisson, los valores de 10 y más pueden producirse
con probabilidad 0.00017.
156
Es importante notar que, en términos generales, los pronósticos del

modelo Poisson son compatibles con los obtenidos directamente a
partir de las frecuencias. La diferencia cualitativa más notable es
que con el modelo algunos valores que no ocurrieron en el banco
tienen una probabilidad positiva.
Por otra parte, si se adopta un modelo distinto (como el Binomial

Negativo para los datos del ejemplo) también se pueden registrar
cambios en los pronósticos.
X fr Bin. Neg.
0 0.1350 0.1328
1 0.2050 0.2329
2 0.2150 0.2334
3 0.2050 0.1754
4 0.1350 0.1099
5 0.0950 0.0606
6 0.0050 0.0303
7 0.0000 0.0141
8 0.0000 0.0062
9 0.0050 0.0026
10 0.0010
11 0.0004
12 0.0002
13 0.0001
14 0.0000
15 0.0000
157
Recordemos que el modelo binomial negativo se determina al

especificar sus dos parámetros r y p. Al usar el método de
momentos tenemos:
X = 2.34 y S 2 = 2.567236
por otro lado
µ = E(X) = r (1-p) / p y σ2 = Var(x) = r (1-p) / p2
Al igualar y despejar tenemos que:
X X2
p̂ = 2 y r= 2
σ S −X
Que para el caso de la variable cursos toman los valores
p̂ = 0.9114 y r̂ = 24
Calcule los pronósticos con el modelo Binomial Negativo (con

parámetros r = 24 y p = 0.91) equivalentes a los que se han
presentado hasta aquí y compárelos.
Ajuste Binomial Negativa (Cursos)

0.30
0.25
0.20
0.15
0.10
0.05
0.00
0 1 2 3 4 5 6 7 8 9
158
En este punto vale la pena recordar que los modelos Poisson y

Binomial Negativo, al igual que los demás que se han considerado
en este texto, constituyen en realidad familias de modelos y que
existen tantos modelos en cada familia como valores posibles
puedan asignarse a los parámetros respectivos.
¾ Ejercicio de clase: realice un pronóstico probabilístico para las

variables Salario y Antigüedad del banco de datos 1 utilizando un
modelo probabilístico adecuado.
159
5. Modelos de regresión lineal
¾ Suponga que cuenta con un banco de datos que contiene

información relativa a dos variables X y Y las cuales se presume
guardan una relación aproximadamente lineal. El ejemplo de las
variables Estatura y Peso que ya se ha examinado es pertinente en
este punto.
C aso E statu ra P eso

1 166 60
2 170 66
3 174 75
4 168 60
5 195 98
6 186 85
7 170 70
8 165 73
9 153 49
10 168 72
11 171 71
12 178 62
13 165 61
14 171 70
15 183 100
16 170 75
17 175 62
18 165 56
19 168 50
160
Peso y Estatura
100
90
80
70
60
50
40
150 160 170 180 190 200
¾ En la Figura se muestra el Diagrama de Dispersión correspondiente

y, como ya se ha discutido, es claro que estos datos presentan
evidencia de asociación entre las respectivas variables, en
particular sugieren una relación lineal.
¾ Si el propósito del estudio es pronosticar el valor de una

observación futura de la variable Peso, resulta natural sugerir el
empleo de la variable Estatura como elemento auxiliar en el
pronóstico.
¾ Específicamente, parece razonable el empleo de la distribución

condicional de la variable Peso, dado el valor de la variable
Estatura, en lugar de la distribución marginal de la variable Peso.
161
¾ Más aun, y en virtud de la evidencia gráfica, resulta pertinente

explorar la viabilidad de un modelo que incorpore explícitamente la
relación lineal que se presume guardan estas dos variables.
¾ Precisamente con esa idea, un segundo paso después del análisis

gráfico, consiste en la evaluación cuantitativa de la fuerza con que
se manifiesta esta relación.
¾ En este punto resulta conveniente el cálculo del, ya conocido,

coeficiente de correlación.
S XY
R X, Y =
S XX S YY
¾ Para el cálculo de este coeficiente es necesario recordar que:
S XY = ∑ ( x i − x )( y i − y ) ,
S XX = ∑ ( x i − x )2 y
S YY = ∑ ( y i − y )2 .
¾ Así, para los datos del ejemplo se tiene que
SXY = 1824.5,
SYY = 3423.2 y
SXX = 1498.4;
162
Por tanto,
RX,Y = 0.806 y R 2X, Y = 0.649 .
¾ Estos cálculos permiten establecer que existe evidencia de

asociación lineal positiva en los datos. La interpretación concreta,
es la siguiente:
¾ El patrón de asociación lineal con la Estatura explica el 65% de la

variabilidad del Peso.
¾ Recordando la discusión que se presentó cuando se trató el

Análisis Exploratorio de Asociación, si se cuenta con la información
de dos variables cuantitativas para n casos de forma que el banco
incluye los pares (x1, y1), (x2, y2), … (xn, yn) entonces se dice que las
variables tienen una relación lineal si existen dos constantes β0 y β1
tales que la ecuación
y i = β0 + β1 x i
se cumple en forma exacta para todos y cada uno de los casos en

el banco.
¾ Evidentemente, esta no es la situación con los datos de la Estatura

y el Peso. El patrón que se manifiesta es, mas bien, una tendencia.
En otras palabras, una relación lineal aproximada.
163
¾ En consecuencia, es necesario precisar la noción de tendencia

lineal e incorporarla explícitamente en un modelo estadístico para
pronósticos.
¾ La forma en que la idea de tendencia lineal se incorpora en los

modelos estadísticos para pronósticos, particularmente en los de
regresión es la siguiente.
¾ Para cada valor fijo x de la variable explicativa (en este caso la

Estatura) se considera que el valor correspondiente de la variable
de respuesta Y (el Peso en el ejemplo) se produce de acuerdo a
una ecuación de la forma
y = β0 + β1 x + ε
en donde ε es una variable aleatoria que suma una gran cantidad

de factores que, además de la Estatura, influyen en el Peso.
¾ Este supuesto se conoce con el nombre de supuesto estructural de

separabilidad aditiva. Este es sólo el primero de diversos supuestos
que se suelen incorporar en los modelos de regresión.
¾ En principio se supone que ε tiene una distribución Normal. Este

supuesto, de normalidad, es particularmente razonable si se
considera que ε es un error de medición.
164
¾ Por su parte el supuesto de media cero considera que los factores

que componen y se integran en ε tienen efectos que pueden ser
tanto negativos como positivos y se compensan en promedio, de
manera que E(ε) = 0.
¾ Particularmente por conveniencia se adopta un supuesto más, de

homoscedasticidad, según el cual los errores asociados a las
distintas observaciones tienen la misma varianza, aunque
desconocida, σ 2 .
¾ Finalmente, los modelos estadísticos de regresión incorporan el

supuesto de independencia. Es decir, suponen que los errores o
perturbaciones asociadas a las distintas observaciones (y, en
consecuencia, las observaciones mismas de la variable Y) no están
relacionadas en forma alguna.
¾ En consecuencia, un Modelo de Regresión Lineal Simple supone

que la distribución condicional de la variable Y, dado un valor fijo x
de la variable explicativa X, es de la forma
Y ~ Normal (β0 + β1x, σ2)
y que los datos disponibles en el banco constituyen observaciones

independientes de la variable Y.
165
¾ Vale la pena insistir en los supuestos clave que involucra un

modelo de este tipo:
1. Separabilidad Aditiva
2. Normalidad
3. Homoscedasticidad
4. Independencia.
¾ La idea práctica más importante en el desarrollo conceptual de este

tipo de modelos es que, si los valores de los parámetros β0, β1 y σ2
fuesen conocidos, entonces el comportamiento de Y dado un valor
fijo de X, por ejemplo x, estaría completamente descrito por un
modelo Normal cuyos parámetros serían totalmente conocidos.
¾ Por ejemplo, si fuese posible establecer que los parámetros toman

los valores β0 = -135, β1 = 1.2 y σ2 = 64, entonces para una Estatura
de X = 170 centímetros, la respectiva distribución condicional del
Peso resultaría una Normal con media
µ = -135 + (1.2)*(170) = 69
y varianza
σ2 = 64.
166
Así, cualquier pronóstico sobre el Peso dada una Estatura de 170

cms. Se obtendría del modelo correspondiente.
Distribución Normal (69, 64).
0.05
0.04
0.03
0.02
0.01
0.00
40 50 60 70 80 90 100
En nuestro ejemplo de peso y estatura no se conocen los valores

de los parámetros. Esta es la situación en general y, por tanto, es
necesario seleccionarlos o, con un lenguaje más estadístico,
estimarlos, a partir de los datos en el banco disponible.
¾ De hecho, la estructura que se conoce como modelo de regresión

lineal simple no es un modelo sino una familia paramétrica de
modelos en el sentido que se ha discutido previamente.
167
¾ Esta familia tiene tres parámetros (β0, β1 y σ2) y contiene tantos

modelos como combinaciones de:
1. ordenada al origen (β0) en los reales,

2. pendiente (β1) también en los reales y
3. varianza (σ2) positiva
existan. Por supuesto, hay una cantidad infinita e incontable de este

tipo de modelos.
¾ Por otra parte, y ya que de parámetros se trata, es interesante

observar que un modelo de esta familia no solamente describe una
distribución condicional para Y sino que, en cuanto se fijan los
valores de los parámetros (β0, β1 y σ2), al cambiar el valor de x se
pueden obtener todas las distribuciones condicionales de Y dada X.
¾ El problema que resta es el de estimación de los parámetros –el

banco típicamente es sólo una muestra- y, en particular, interesa
que el método de estimación ajuste el modelo a los datos tomando
en cuenta que éste será utilizado para producir pronósticos.
¾ Suponga que, con algún procedimiento, se determinan los valores

estimados de los parámetros βˆ 0 , βˆ 1 y σˆ 2 . Entonces, la estimación
de la esperanza condicional de Y, dado un valor fijo de la variable
Estatura X = x, está dada por
168
µˆ x = βˆ 0 + βˆ 1x .
Observe que µ̂ x estima el punto en torno al cual se espera que

ocurran los valores de Y cuando X tome el valor x.
¾ En ese sentido, y aún cuando se sabe que todo pronóstico puntual

tiene confiabilidad cero puesto que el modelo Normal es continuo,
es que a µˆ x suele considerársele un pronóstico puntual para Y
cuando X = x.
¾ De hecho, usualmente se utiliza la notación ŷ x = µˆ x , o

simplemente ŷ = µˆ x , y a la ecuación
ŷ = βˆ 0 + βˆ 1x
se le conoce como la recta ajustada.
¾ Ahora bien si, al menos en términos indicativos, el valor de

yˆ = µˆ x puede interpretarse como un pronóstico, entonces se
puede proponer un criterio para la estimación de los parámetros del
modelo.
¾ La idea es seleccionar los parámetros que produzcan los mejores

pronósticos. En concreto, aquellos que, para cada valor de X en el
banco de datos, produzcan el valor ŷ más cercano al
correspondiente valor observado y.
169
¾ En otras palabras, los parámetros deben seleccionarse de manera

que la diferencia
e = y - ŷ
sea lo más pequeña posible para todos y cada uno de los casos en
el banco.
¾ Es fácil comprobar, con un argumento gráfico, que no es posible

minimizar todos los errores de predicción {e1,e2,…en}
simultáneamente. Es necesario entonces definir una medida
individual cuya minimización pueda interpretarse como una forma
de minimización global de los errores.
¾ Existen distintas posibilidades pero la más común, que además

resulta simple, es la siguiente:
n
∆ = ∑ ei2
i =1
o equivalentemente,
n
∆ = ∑ (y i − ŷ i )2 .
i =1
¾ Más explícitamente aún se puede escribir, en términos de los

parámetros:
n
∆(βˆ 0 , βˆ 1 ) = ∑ (y i − βˆ 0 − βˆ 1x i )2
i =1
170
¾ La propuesta es seleccionar los valores de los parámetros que

minimicen el valor de la función ∆.
¾ Este criterio se conoce en la literatura con el nombre de Método de

Mínimos Cuadrados.
¾ Es evidente que ∆ no puede tomar valores negativos y que la única

manera en que puede alcanzar el valor cero es cuando todos y
cada uno de los errores son iguales a cero (cuando el ajuste es
perfecto).
¾ Casualmente es interesante notar que si los errores tienen media

igual a cero entonces, salvo porque el número de datos no aparece
como divisor, ∆ coincide con la varianza de {e1, e2, …en}. Así que el
método de mínimos cuadrados también puede interpretarse como
un método de mínima varianza.
¾ El caso es que la minimización de ∆ puede llevarse a cabo de

distintas formas. Una de ellas consiste en reconocer que es una
función diferenciable de β̂ 0 y β̂1 . De esta forma, se pueden calcular
las derivadas parciales de ∆ respecto a estos dos parámetros;

Establecer la igualdad con cero de las dos expresiones y resolver el
par de ecuaciones.
¾ Las derivadas parciales son las siguientes:
171
∂∆ n
= 2∑ (y i − βˆ 0 − βˆ 1x i )(-1)
∂βˆ 0 i =1
∂∆ n
= 2∑ (y i − βˆ 0 − βˆ 1x i )(-x i )
ˆ
∂β1 i =1
De donde se obtiene el sistema de ecuaciones lineales:

n n
nβˆ 0 + βˆ 1 ∑ x i = ∑ y i
i =1 i =1
n n n
βˆ 0 ∑ x i + βˆ 1 ∑ x i2 = ∑ x i y i
i =1 i =1 i =1
Cuya solución está dada por los valores:
βˆ 0 = y − βˆ 1x
n
∑ (x i - x )(y i − y )
βˆ 1 = i =1
n
∑ (x i - x )2
i =1
Equivalentemente,
βˆ 0 = y − βˆ 1x
S
βˆ 1 = XY
S XX
se conocen como los estimadores de mínimos cuadrados de los

coeficientes de la regresión.
172
¾ Por su parte a la recta que definen estos estimadores

ŷ = βˆ 0 + βˆ 1x
se le conoce como la recta ajustada de mínimos cuadrados.
¾ Para los datos de Peso y estatura se tiene que:

x = 171.63 ,
y = 69.25 ,
SXY = 1824.5 y
SXX = 1498.4
De manera que
βˆ 0 = −139.768
βˆ 1 = 1.218
y, por tanto, la recta ajustada por mínimos cuadrados resulta:
ŷ = −139.768 + 1.218 x
100
90
80
70
60
50
40
150 160 170 180 190 200
173
¾ La gráfica exhibe los datos del ejemplo junto con la correspondiente

recta ajustada por mínimos cuadrados.
¾ De acuerdo con la discusión de las ideas que subyacen la

producción de estimadores, es claro que tanto β̂0 como β̂1 han sido
calculados a partir de los datos disponibles y que de ellos, las
observaciones de la variable Y son el resultado de registrar
variables aleatorias.
¾ Por tanto los valores estimados de los parámetros también se

pueden considerar como el resultado de observar sendas variables
aleatorias. A partir de los supuestos del modelo es posible probar
que
βˆ 1 ~ N(β1, σ 2 / S xx )
y
 n

βˆ 0 ~ N β 0 , σ 2 ∑ x i2 (nS xx ) 
 i =1 
¾ En particular, entonces, se tiene que
E(βˆ 1) = β1
y
E(βˆ 0 ) = β0 .
174
¾ De manera que tanto β̂0 como β̂1 son estimadores insesgados de

los respectivos parámetros desconocidos. Por otra parte, es
interesante observar como la varianza de cada uno depende tanto
de la varianza en el modelo σ2 como de los datos de la variable X.
¾ Concretamente, en el caso de β̂1 , la varianza de este estimador

decrece a medida que la varianza de los datos de la variable X
aumenta.
¾ En lo que se refiere a β̂0 , el resultado es menos obvio pero es

posible comprobar que su varianza decrece a medida que la media
de los datos de la variable X se aproxima a cero.
¾ En cualquier caso, se tienen los estimadores de los parámetros

(coeficientes) del modelo de regresión y, por tanto la recta ajustada.
Sin embargo aún no se ha determinado por completo la distribución
condicional de Y dado un valor fijo de X. Falta por estimar la
varianza σ2.
¾ Para estimar el parámetro σ2 también se pueden utilizar distintos

argumentos. La forma más simple y común se basa en el cálculo de
las diferencias
ei = y i - ŷ i i = 1, 2, …, n
entre las observaciones y los valores obtenidos de la recta de

mínimos cuadrados.
175
¾ Los valores {e1, e2, …en} que se conocen como errores residuales,
tienen media cero y en cierto sentido aproximan el comportamiento
de las variables aleatorias {ε1, ε2, …εn}. En particular, su varianza
estima la varianza de ε.
¾ Puesto, que como ya se indicó la media aritmética de e1, e2, …en es

cero, la correspondiente varianza resulta simplemente
n
S2 = n1 ∑(ei − e)2
i =1
n
= 1
n ∑ei2
i =1
n
= 1
n ∑(yi − ŷi )2
i =1
¾ De esta manera, el estimador de la varianza σ2 está dado por la

suma de cuadrados de los residuales dividida por el tamaño del
banco. Es decir,
n
σˆ 2 = 1
n ∑ (yi − ŷ i )2
i =1
2
Como variable aleatoria, se tiene que σ̂ presenta el siguiente
comportamiento:
nσˆ 2 / σ2 ~ χ(n
2
− 2) .
ˆ 2 / σ2 tiene una distribución Ji cuadrada con n-2

Es decir, nσ
grados de libertad.
176
¾ La variable W tiene una distribución Ji cuadrada, con r grados de

libertad, si es continua, tiene como soporte el intervalo (0, ∞) y su
función de densidad está dada por:
r/2
1  1 r/2 −1
f(w) =   w exp(− w/2)
Γ(r/2)  2 
Dos resultados interesantes son los siguientes:
1. Si Z es Normal estándar, entonces Z2 es Ji cuadrada con 1

grado de libertad.
2. Si W1 es Ji cuadrada con r1 g. l., W2 es Ji cuadrada con r2 g. l. y

son independientes entonces, W = W1+W2 resulta Ji cuadrada
con r1+r2 g. l.
El modelo Ji cuadrada tiene un solo parámetro, que puede tomar

cualquier valor positivo y que se conoce con el nombre de grados
de libertad. Si W es una variable aleatoria Ji cuadrada con r grados
de libertad entonces,
E(W) = r
Var(W) = 2r
177
0.30 3 grados 10 grados 5 grados
0.25
0.20
0.15
0.10
0.05
0.00
0 5 10 15 20
¾ Al margen de las características generales del modelo Ji cuadrada,

es conveniente en este punto notar que:
E(σˆ 2 ) = σ2 (n − 2)/n
2
de manera que σ̂ no es un estimador insesgado. Sin embargo, si
2
en lugar de σ̂ se utiliza
~2 = nσˆ 2 /(n − 2)
σ
el nuevo estimador sí es insesgado.
¾ Es importante observar que ambos estimadores son muy

parecidos, especialmente si n es grande. En cualquier caso en los
que resta de este texto se empleará la versión insesgada:
n
~2 = 1 ∑(y − ŷ )2
σ n- 2 i i
i =1
178
Este estimador tiene las propiedades básicas:
~2 / σ2 ~ χ2
1. (n - 2)σ (n− 2)
~2 ) = σ2
2. E(σ
~2 ) = 2σ4 /(n - 2)
3. Var(σ
¾ Volviendo a los datos del ejemplo, se tiene que

n
∑ (y i − ŷ i )2 = 1201.7 y n-2 = 17.
i =1
Por lo tanto,
~2 = 70.687
σ y ~ = 8.408
σ
¾ Con estos resultados se puede intentar la determinación de la

distribución condicional de Y dado un valor fijo cualquiera de X. Una
primera aproximación sería, para un valor fijo x,
~2 )
Y ~ N(βˆ 0 + βˆ 1x, σ
¾ Sin embargo y precisamente porque los valores de los parámetros

constituyen sólo una estimación y no necesariamente coinciden con
los verdaderos valores desconocidos, es necesario incorporar esa
incertidumbre en el modelo.
179
¾ En la literatura estadística ha sido establecido el procedimiento por

medio del cual la incertidumbre adicional se toma en cuenta.
¾ En primer lugar, el modelo Normal se sustituye por un modelo t (de

Student) que es muy parecido pero con colas más pesadas.
¾ Una variable W tiene una distribución t de Student con r grados de

libertad si es continua con soporte (-∞, ∞) y su función de densidad
está dada por:
Γ[(r + 1)/2]
f(w) = (rπ)-1/2 (1 + w 2 /2)-(r +1)/2
Γ(r/2)
¾ El modelo t de Student se aproxima al modelo Normal estándar a

medida que el número de grados de libertad aumenta.
¾ Por otra parte, es interesante tener presente el siguiente resultado.

Si Z es Normal estándar, V es Ji cuadrada con r grados de libertad
y estas dos variables son independientes entonces
Z
W=
V/r
tiene una distribución t de Student con r grados de libertad.
180
Normal Estándar T con 2 grados T con 10 grados
0.45
0.40
0.35
0.30
0.25
0.20
0.15
0.10
0.05
0.00
-5.0 -3.0 -1.0 1.0 3.0 5.0
¾ Volviendo al argumento principal, como una primera medida para

tomar en cuenta la incertidumbre asociada a los estimadores de los
parámetros en la distribución condicional de Y, el modelo Normal se
sustituye por un modelo t.
¾ Además, como una segunda forma de corrección, la varianza se

incrementa de manera que, a medida que los pronósticos se
intentan para valores de X más lejanos de los que se tienen en el
banco de datos, la precisión disminuye.
¾ El resultado concreto establece que, para todo propósito práctico

Y - µˆ x
~ t(n − 2) .
{
~ 1 + 1 + (x − x )2
σ n S xx
}
1/2
181
¾ Es decir, el valor de la variable Y, debidamente estandarizada,

utilizando la desviación estándar estimada y un factor de
corrección, no sigue ya una distribución Normal sino una
distribución t de Student con n-2 grados de libertad.
¾ Se puede comprobar que toda distribución t de Student es

simétrica, unimodal (con moda en cero) y su densidad tiene forma
de campana como la Normal (con una varianza mayor como se ha
indicado).
¾ En estas condiciones, si se denota por t(r, p) el cuantil de orden p de

una t con r grados de libertad, entonces un pronóstico para el valor
de Y cuando X = x, con confiabilidad de (1-α)×100% está dado por
{~ 1 + 1 + (x − x )
µˆ x ± t (n - 2, 1- α/2) σ n S xx
2
}
1/2
.
¾ Consideremos el caso del ejemplo. Ahí se tiene que
n = 19, x = 171.63 , SXX = 1498.4,
βˆ 0 = −139.768 , βˆ 1 = 1.218 y σ
~ = 8.408
Si ahora, de tablas, se observa que el cuantil de orden 0.975 de

una distribución t con 17 grados de libertad resulta t(17, 0.975) = 2.11
entonces, un pronóstico con 95% de confiabilidad para el valor de Y
cuando X = x está dado por el intervalo
182
[ −139 .768 + 1.218 x]
{
± (2.11) ∗ (8.408) ∗ 1 + 191 + (x −171.63) 2
1498.4
}
1/2
Bandas de pronóstico al 95% para el Peso.
120
100
80
60
40
20
150 160 170 180 190 200
¾ La recta ajustada por mínimos cuadrados es la recta óptima, en el

sentido de que minimiza la suma de cuadrados de los errores en
los pronósticos para los casos que aparecen en el banco de datos
disponible.
¾ Sin embargo, como ya se ha comentado, los valores de los

parámetros obtenidos por este método constituyen solamente
estimaciones de los valores verdaderos (y desconocidos).
183
¾ Es natural preguntarse entonces, cuales otros valores podrían ser

estimaciones aceptables de esos parámetros desconocidos o si un
valor específico es compatible con la estimación que se ha
obtenido.
¾ La clave para resolver estas interrogantes se encuentra en el

modelo de probabilidad que describe el comportamiento de los
estimadores como variables aleatorias.
¾ Como ya se ha indicado, bajo los supuestos del modelo de

regresión lineal simple se tiene que
βˆ 1 ~ N(β1, σ 2 / S xx )
y
n
βˆ 0 ~ N(β0 , σ 2 ∑ x i2 /(nS xx ))
i =1
¾ Considere, como ejemplo, el caso de βˆ 1 . A partir del modelo

correspondiente se sigue que el error en la estimación tiene la
siguiente distribución
βˆ 1 - β1 ~ N(0, σ 2 / S xx ) .
¾ En consecuencia, si la varianza σ2 fuese conocida sería posible

calcular intervalos para el error en el pronóstico y, por tanto,
intervalos para otros valores estimados igualmente aceptables, con
grado de confiabilidad determinado.
184
~2 y
¾ Ahora bien, σ2 no es conocida pero se puede estimar con σ
entonces, se podría afirmar que aproximadamente,
~2 / S ) .
βˆ 1 - β1 ~ N(0, σ xx
¾ La corrección precisa, como en el caso de los pronósticos, recurre

al empleo de la distribución t de Student. El resultado es el
siguiente:
S XX (βˆ 1 - β1 )
~ ~ t(n − 2)
σ
¾ Por lo tanto, si t(n-2, p) es el cuantil de orden p de la distribución t de

Student con n-2 grados de libertad, entonces
S XX (βˆ 1 - β1 )
P( −t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2) ) = 1 - α
σ
De tal manera que cualquier valor β1 que cumpla con la condición
S XX (βˆ 1 - β1 )
− t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2)
σ
es un valor tan compatible como βˆ 1 con el banco de datos

disponible.
¾ En otros términos, se puede decir que un estimación por intervalo

para el verdadero valor de β1 , con una confiabilidad de
185
(1-α)×100%, está dada por
~2
σ
βˆ 1 ± t (n − 2,1− α / 2) .
S XX
¾ De hecho, en un sentido contrario, se puede decir que todo valor

del parámetro que no cumpla la condición
S XX (βˆ 1 - β1 )
− t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2)
σ
no es compatible con el banco de datos disponible (con un nivel

de confiabilidad de (1-α)×100%).
¾ Si por ejemplo, hubiese razones –contextuales, teóricas o de algún

otro tipo- para plantear que β1 puede tomar el valor (conocido)
β1∗ entonces, con un nivel de confiabilidad (1-α)×100%, se puede
afirmar que la hipótesis β1 = β1∗ se rechaza, a partir de la evidencia
en el banco de datos, si no se cumple la condición
S XX (βˆ 1 - β1* )
− t (n − 2,1− α / 2) ≤ ~ ≤ t (n − 2,1− α / 2)
σ
186
∗
¾ Es decir, la hipótesis β1 = β1 se rechaza –con un nivel de
confiabilidad (1-α)×100%-, si
S XX βˆ 1 - β1∗
~ > t (n − 2,1− α / 2)
σ
¾ Un caso de interés particular es β 1∗ = 0. Es decir, el contraste de la

hipótesis H : β1 = 0. La hipótesis se rechaza, con un nivel de
confiabilidad (1-α)×100%, si
S XX βˆ 1
~ > t (n − 2,1− α / 2)
σ
¾ La importancia del contraste de H : β1 = 0 (contra la alternativa

HA : β1 ≠ 0 ) es de importancia porque si el banco de datos es
compatible con H, entonces existe evidencia para declarar que, al
menos linealmente, la variable X no influye en los pronósticos de Y.
¾ En el caso del ejemplo, se tiene que βˆ 1 = 1.218 ,

~2 = 70.687 ( σ
σ ~ = 8.408 ) y SXX = 1498.4. Además, de tablas se
observa que t(17, 0.975) = 2.11. Por tanto, el intervalo con 95% de
confiabilidad para β1 está dado por
70.687
1.218 ± 2.11
1498.4
187
es decir, [0.7597, 1.6763]. En otras palabras, cualquier valor entre

0.7597 y 1.6763 es un valor de β1 compatible con los datos
(siempre con 95% de confiabilidad).
¾ Con el mismo nivel de confiabilidad, 95%, se puede afirmar que los

valores fuera de este intervalo no son compatibles con la evidencia
que proporciona el banco de datos. En particular, puesto que el
cero está fuera del intervalo, se rechaza la hipótesis H : β1 = 0. Este
hecho puede también comprobarse si se verifica que
S XX β̂ 1
~ = 5.6078
σ
mientras que t(17, 0.975) = 2.11. Por tanto,
S XX βˆ 1
~ > t (n − 2,1− α / 2)
σ
y se obtiene el resultado.
¾ El caso de β̂0 es similar. Como ya se ha indicado, bajo los

supuestos del modelo,
n
βˆ 0 ~ N(β0 , σ 2 ∑ x i2 /(nS xx ))
i =1
En consecuencia,
188
n
βˆ 0 - β0 ~ N(0, σ 2 ∑ x i2 /(nS xx ))
i =1
¾ Nuevamente si σ2 fuese conocida, ese modelo podría emplearse

para describir el grado de aproximación de β̂0 como estimador de
β0 . Como ya se comentó, la varianza es desconocida pero puede
~ 2 y como una primera aproximación puede
estimarse con σ
afirmarse que
n
βˆ 0 - β0 ~ N(0, σ ∑ i
~ 2 x 2 /(nS ))
xx
i =1
¾ La versión precisa de esta afirmación, utilizando la t de Student, es

la siguiente:
nS xx (βˆ 0 - β0 )
~ t(n − 2)
∑ x i2 σ~
¾ De donde se tiene que una estimación por intervalo para el

verdadero valor de β0 , con una confiabilidad de (1-α)×100%, está
dada por
βˆ 0 ± t (n − 2,1− α / 2)
σ ∑ i .
~2 ( x2 )
nS XX
189
¾ Asimismo, el contraste de H : β0 = β∗0 (contra la alternativa
HA : β 0 ≠ β∗0 ) puede llevarse a cabo, con una confiabilidad (1-
α)×100%, comprobando si β∗0 pertenece al intervalo descrito. La

hipótesis se rechaza si el valor en la hipótesis se encuentra fuera
del intervalo y, en caso contrario, se puede afirmar que la evidencia
en el banco no permite rechazarla.
¾ Equivalentemente, también es posible llevar a cabo el contraste de

H : β0 = β∗0 , con un nivel de confiabilidad (1-α)×100%, si se rechaza
cuando
nS xx (βˆ 0 - β ∗0 )
~ > t (n − 2,1− α / 2)
∑ i
x 2
σ
¾ Recurriendo, una vez más, a los datos del ejemplo se tiene

~ = 8.408 ), X = 171.63 y SXX =
~2 = 70.687 ( σ
βˆ 0 = −139.768 , σ
1498.4. Por otra parte y como ya se indicó, de tablas se observa
que el cuantil relevante es t(17, 0.975) = 2.11. Por tanto, el intervalo
con 95% de confiabilidad para β0 está dado por
- 139.768 ± 2.11× 8.408 × 4.440
es decir, [-218.534, -61.002].
190
o Respecto al parámetro σ2 se puede proceder de forma similar. El

estimador insesgado de la varianza está dado
n
~2 = 1 ∑(y − ŷ )2
σ n- 2 i i
i =1
Por otra parte, como se indicó,

~2 / σ2 ~ χ2 .
(n - 2) σ (n− 2)
Ahora, si se tiene que
P( χ(n
2
− 2) ≤ χ(n− 2, p) ) = p ,
2
es decir, si χ(r,2 p) es el cuantil de orden p de una Ji cuadrada con r
grados de libertad entonces

~2 / σ2 ≥ χ2
P( (n - 2) σ (n−2, α) ) = 1- α .
De donde se sigue que
~2 / χ2
P( σ2 ≤ (n - 2) σ (n−2, α) ) = 1- α
de forma que una estimación por intervalo, con una confiabilidad de

(1-α)×100% para σ2 está dada por el intervalo
~2 / χ2
( 0, (n - 2) σ (n− 2, α) ) .
191
Cuantiles de orden p de una distribución

Ji Cuadrada con r grados de libertad.
p
r 0.010 0.050 0.100 0.200 0.800 0.900 0.950 0.990
1 0.000 0.004 0.016 0.064 1.642 2.706 3.841 6.635

2 0.020 0.103 0.211 0.446 3.219 4.605 5.991 9.210
3 0.115 0.352 0.548 1.005 4.642 6.251 7.815 11.341
4 0.297 0.711 1.064 1.649 5.989 7.779 9.488 13.277
5 0.554 1.145 1.610 2.343 7.289 9.236 11.070 15.086
6 0.872 1.635 2.204 3.070 8.558 10.645 12.592 16.812

7 1.239 2.167 2.833 3.822 9.803 12.017 14.067 18.475
8 1.646 2.733 3.490 4.594 11.030 13.362 15.507 20.090
9 2.088 3.325 4.168 5.380 12.242 14.684 16.919 21.666
10 2.558 3.940 4.865 6.179 13.442 15.987 18.307 23.209
11 3.053 4.575 5.578 6.989 14.631 17.275 19.675 24.725

12 3.571 5.226 6.304 7.807 15.812 18.549 21.026 26.217
13 4.107 5.892 7.042 8.634 16.985 19.812 22.362 27.688
14 4.660 6.571 7.790 9.467 18.151 21.064 23.685 29.141
15 5.229 7.261 8.547 10.307 19.311 22.307 24.996 30.578
16 5.812 7.962 9.312 11.152 20.465 23.542 26.296 32.000

17 6.408 8.672 10.085 12.002 21.615 24.769 27.587 33.409
18 7.015 9.390 10.865 12.857 22.760 25.989 28.869 34.805
19 7.633 10.117 11.651 13.716 23.900 27.204 30.144 36.191
20 8.260 10.851 12.443 14.578 25.038 28.412 31.410 37.566
21 8.897 11.591 13.240 15.445 26.171 29.615 32.671 38.932

22 9.542 12.338 14.041 16.314 27.301 30.813 33.942 40.289
23 10.196 13.091 14.848 17.187 28.429 32.007 35.172 41.638
24 10.856 13.848 15.659 18.062 29.553 33.196 36.415 42.980
25 11.524 14.611 16.473 18.940 30.675 34.382 37.652 44.314
26 12.198 15.379 17.292 19.820 31.795 35.563 38.885 45.642

27 12.879 16.151 18.114 20.703 32.912 36.741 40.113 46.963
28 13.565 16.928 18.939 21.588 34.027 37.916 41.337 48.278
29 14.256 17.708 19.768 22.475 35.139 39.087 42.557 49.588
30 14.953 18.493 20.599 23.364 36.250 40.256 43.773 50.892
192
¾ Volviendo al ejemplo, de las tablas se puede observar que
χ(17,
2
0.05) = 8.672
mientras que
~2 = 70.687
σ
de manera que, con 95% de confiabilidad, el intervalo para σ2

resulta ( 0, 17 × 70.687 / 8.672) . Es decir, ( 0, 138.57) .
¾ En otras palabras, se puede afirmar que con un 95% de

confiabilidad la varianza desconocida σ 2 no es mayor que 138.57.
Equivalentemente, la desviación estándar σ no es mayor que
11.772.
193

Pdfslide - Tips - 3 Conceptos de Probabilidad Lnietoindexarchivosnotasep2pdf Entonces Se

Cargado por

Información del documento

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Pdfslide - Tips - 3 Conceptos de Probabilidad Lnietoindexarchivosnotasep2pdf Entonces Se

Cargado por

Copyright:

Formatos disponibles

PROFESOR: LUIS E.

¾ La Probabilidad es una medida de la incertidumbre

¾ La incertidumbre que mide es la asociada a la eventual ocurrencia

¾ Toda medida requiere de un patrón de referencia que posibilite la

¾ En el caso de la Probabilidad se ha adoptado un patrón que se

¾ De esta manera, la probabilidad se caracteriza a través de la forma

¾ Sea A un evento incierto, es decir uno cuya ocurrencia no

¾ Otras propiedades, que involucran dos eventos son las siguientes.

¾ Además, es conveniente introducir la siguiente definición: Sean A y

¾ Con esta definición, se puede introducir una más. Sean A y B dos

y en ese caso, P(B A ) = P(B) .

¾ Todas estas propiedades han sido adoptadas con el propósito de

¾ Existe, sin embargo, una inmensa variedad de situaciones en

¾ Para empezar, no todos los fenómenos inciertos se manifiestan a

¾ Aparece entonces, asociado a la observación de un fenómeno

¾ De la misma forma que en el AE, las variables -ahora aleatorias-

¾ El interés se concentra en la descripción de la incertidumbre

¾ Entonces, el problema equivale a describir la incertidumbre

¾ Ahora bien, si la ocurrencia de cada posible valor es incierta, la

¾ Como conclusión, la incertidumbre asociada a una variable

¾ En este punto es conveniente introducir dos nuevos términos:

1. Al conjunto de los valores que puede producir una variable

2. Al soporte, junto con la relación que asocia a cada valor de la

¾ Con estos conceptos se tiene que la incertidumbre asociada a una

¾ Imagine una variable aleatoria X que, al ser observada, produce

¾ Como ya se ha indicado, la incertidumbre asociada a X queda

¾ Esta información puede reportarse a través de una tabla como

 Equivalentemente, si se abrevia para a cada valor de X, pi

¾ Esta representación establece una similitud evidente entre la

¾ La diferencia más importante entre las frecuencias y las

 En la tabla que antecede, si los valores de la segunda columna

1. Un 15% de los casos en el banco presentó un valor de 4.

2. El valor que se presentó con más frecuencia (la moda) fue el 1

 Si, por el contrario, la tabla se refiriese a una función de

1. Con una probabilidad de 0.15 se espera que, al observar la

2. El valor que se espera con mayor probabilidad (la moda) es el

 En este caso la noción de tamaño del banco simplemente no existe.

¾ Las características más notables de este ejemplo se pueden

¾ Por otra parte, una vez que ha sido establecida esta

¾ El objetivo es el mismo: proveer una descripción, en este caso del

¾ De esta manera es posible referirse a las medidas de localización y

Moda. Es el valor más probable de X.

Mediana. Es el valor X(0.5), en el soporte de X, que satisface

Cuantil (de orden q). Es el valor X(q), en el soporte de X, que

Mínimo. Es el valor más pequeño, X[-], en el soporte de X.

Máximo. Es el valor más grande, X[+], en el soporte de X.

Media (Valor Esperado ó Esperanza). Es un promedio ponderado

¾ Como puede observarse, todas las medidas de localización

¾ Posiblemente el caso en el que esta identificación resulta menos

¾ Recuerde que en un banco de datos puede presentarse la

¾ Por otra parte, en el soporte de una variable solamente se incluyen

¾ Así pues si se observa que la definición de la media en AE se

¾ Considere el siguiente conjunto de datos que describe los años

 Compruebe que si calcula la media utilizando, primero, la fórmula

en donde n es el número de casos y después construye la tabla de

donde k es el número de valores distintos en el banco (de

¾ De la misma manera se puede proceder con las medidas de

Rango. Es el valor R que se calcula como la diferencia entre los

Rango entre cuartiles. Es el valor REC, que se calcula como la

Error Medio. Es un promedio ponderado de las diferencias que

Varianza. Es el valor σ2 que se calcula como un promedio

la variable X produce los valores x1, x2, x3, x4, x5 y x6 con

Desviación estándar. Es el valor σ que se calcula como la raíz

Equivalentemente, si se abrevia para a cada valor de X, pi

En la tabla que antecede, si los valores de la segunda columna

Si, por el contrario, la tabla se refiriese a una función de

En este caso la noción de tamaño del banco simplemente no existe.

Compruebe que si calcula la media utilizando, primero, la fórmula

A la función f(x) se le conoce como la función de densidad de

El modelo Ji cuadrada está relacionado con el modelo Normal en

Por otra parte, si U es Ji cuadrada con r grados de libertad y V es Ji

El modelo t de Student se aproxima al modelo Normal estándar a

Por otra parte, es interesante tener presente el siguiente resultado.

El modelo F está relacionado con el modelo Ji cuadrada y por tanto