Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Actualizado: 01/08/2017
URJC-DEIO C. Beltrn
ndice general
1. Descripcin de datos
.............................
1.1.1.
Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.2.
Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.1.3.
1.2.1.
Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2.2.
11
1.2.3.
Series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
13
14
1.3.1.
15
1.3.2.
Correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
16
2. Probabilidad y variables aleatorias
21
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
21
22
2.2.1.
Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
22
2.2.2.
Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
24
30
2.3.1.
Concepto y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . .
30
2.3.2.
Distribucin binomial
.............................
36
2.3.3.
Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
40
2.3.4.
Distribucin de Poisson
............................
40
44
2.4.1.
Concepto y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.4.2.
Distribucin exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . .
50
ndice general
2.4.3.
Distribucin normal
..............................
54
2.4.4.
59
2.4.5.
61
2.4.6.
Anlisis de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
62
3. Inferencia estadstica
67
3.1. Apartados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
67
67
69
71
74
3.5.1.
Estimadores insesgados
............................
75
76
3.6.1.
Hiptesis de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . .
76
3.6.2.
3.6.3.
79
3.6.4.
80
3.6.5.
84
3.6.6.
85
3.6.7.
..........................
86
89
3.7.1.
89
3.7.2.
92
3.7.3.
95
4. Regresin
97
4.1. Apartados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
97
.........................
97
102
4.3.1.
Recta de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
102
4.3.2.
.....................
106
4.3.3.
107
.......................
109
4.5. Intervalos en regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
112
URJC-DEIO C. Beltrn
II
ndice general
4.5.1.
4.5.2.
113
116
4.6.1.
116
118
URJC-DEIO C. Beltrn
III
ndice general
URJC-DEIO C. Beltrn
IV
Captulo 1
Descripcin de datos
1.1.
Sntesis numrica de los datos
Media.
1.1.1.
Media
Datos:
Nos interesa estudiar su resistencia a la traccin medida en psi (libras por pulgada
cuadrada).
Hemos medido la resistencia de cada junta y hemos obtenido los siguientes datos
10000
X xi = 10406700 psi.
i=1
Operaciones 1:
La media poblacional se calcula mediante la frmula de la media aritmtica:
P10000 xi
10406700
i=1
= 1040, 67 psi.
10000
10000
psi.
D = {x1, . . . , xN },
PN
xi
i=1
En realidad sera demasiado caro medir la resistencia a la traccin de todas las juntas del
lote (N = 10.000).
P8
xi
8440
x=
i=1
= 1055, 0 psi.
Solucin:
URJC-DEIO C. Beltrn
2
Muestra:
Normalmente no podremos analizar toda una poblacin (estadstica) pues suele tener un
muestral (
x, s2, r, etc.).
Los parmetros poblacionales son nicos pero los parmetros muestrales no, pues de-
Media muestral:
D = {x1, . . . , xn},
Pn
xi
x=
i=1
1.1.2.
Varianza
Datos:
Objetivo:
traccin.
URJC-DEIO C. Beltrn
3
1.1. Sntesis numrica de los datos
Operaciones 3:
1.2).
P8
(xi
x)2
1348
s2 =
i=1
= 192,57 psi2.
81
7
La desviacin tpica muestral es la raz cuadrada de la varianza
s=
x s,
x 2s,
Solucin:
URJC-DEIO C. Beltrn
4
1.1. Sntesis numrica de los datos
x.
Varianza poblacional 2 :
D = {x1, . . . , xN },
PN
(xi )2
2 =
i=1
Esta frmula calcula el promedio del cuadrado de las desviaciones respecto a la media
poblacional.
Varianza muestral s2 :
varianza muestral:
Pn
(xi
x)2
s2 =
i=1
n1
varianza poblacional.
s=
varianza muestral.
URJC-DEIO C. Beltrn
5
1.1. Sntesis numrica de los datos
x s,
x + s].
x 2s,
x + 2s].
Ejemplo 4 (tartas)
Caso 2: Despus de un sorteo a cara o cruz, Pedro come dos tartas y Juan no come
ninguna.
Objetivo:
P2
xi
1+1
i=1
=1
P2
(xi )2
(1 1)2 + (1 1)2
2 =
i=1
= 0.
P2
xi
2+0
i=1
=1
P2
(xi )2
(2 1)2 + (0 1)2
2 =
i=1
= 1.
3. Aunque en los dos casos tenemos la misma media, la varianza en el primer caso es nula
Solucin:
1. = 1 tarta y 2 = 0 tartas2.
2. = 1 tarta y 2 = 1 tarta2.
3. En los dos casos tenemos la misma media. Las varianzas indican que hay un nivel de
dispersin diferente.
URJC-DEIO C. Beltrn
6
1.1. Sntesis numrica de los datos
1.1.3.
Objetivo:
Operaciones 5:
q1 = d 1
=d
=d
(n+1)
1 (6+1)
1,75
q2 = d 2
=d
=d
(n+1)
2 (6+1)
El tercer cuartil:
q3 = d 3
=d
=d
(n+1)
3 (6+1)
5,25
= 400.
URJC-DEIO C. Beltrn
7
El rango:
Solucin:
Tenemos aproximadamente:
Notar que
Sin embargo, q2 = 160 KWh s es un valor central de la muestra D. Por eso decimos que
Cuartiles qi :
Para calcularlos:
qi = d i
=d
(n+1)
a,b
i {1, 2, 3}.
Rango:
Rango = dn d1.
1.2.
Histograma.
Serie temporal.
URJC-DEIO C. Beltrn
8
1.2. Sntesis grfica de los datos
1.2.1.
Histograma
Figura 1.4: Tabla de las distancias recorridas por las pelotas de golf.
Datos:
Para comprobar que un lote de pelotas de golf cumple con los estndares, una magnitud a
estudiar es la distancia recorrida despus de golpear la pelota con un palo de golf (bajo
Hemos tomado una muestra de 100 pelotas y hemos anotado la distancia recorrida (yar-
1 yarda = 0,91 m.
Operaciones 6:
100 = 10 intervalos
de clase.
En la Tabla 1.1 tenemos los intervalos de clase, las marcas de clase y las frecuencias
absolutas.
URJC-DEIO C. Beltrn
Nmero de
Intervalo
Marca
Frecuencia
intervalo
de clase
de clase
absoluta
[247, 5
252, 5[
250
[252, 5
257, 5[
255
[257, 5
262, 5[
260
[262, 5
267, 5[
265
10
[267, 5
272, 5[
270
28
[272, 5
277, 5[
275
19
[277, 5
282, 5[
280
20
[282, 5
287, 5[
285
[287, 5
292, 5[
290
4
10
[292, 5
297, 5[
295
Total
100
Figura 1.5: Histograma de las distancias en yardas alcanzadas por las pelotas de golf.
General (Histogramas)
En ese caso:
x s,
x + s].
x 2s,
x + 2s].
Representacin de un histograma:
celdas.
URJC-DEIO C. Beltrn
10
intervalo de clase.
de datos.
1.2.2.
Datos:
Nos interesa estudiar su resistencia a la compresin medida en psi (libras por pulgada
cuadrada).
105
221
183
186
121
181
180
143
97
154
153
174
120
168
167
141
245
228
174
199
181
158
176
110
163
131
154
115
160
208
158
133
207
180
190
193
194
133
156
123
134
178
76
167
184
135
229
146
218
157
101
171
165
172
158
169
199
151
142
163
145
171
148
158
160
175
149
87
160
237
150
135
196
201
200
176
150
170
118
149
Operaciones 7:
URJC-DEIO C. Beltrn
11
1.2. Sntesis grfica de los datos
El box-plot facilita la comparacin grfica de varios conjuntos de datos (ver Fig. 1.8).
URJC-DEIO C. Beltrn
12
1.2. Sntesis grfica de los datos
1.2.3.
Series temporales
2014
Ventas
2015
Ventas
2016
Ventas
17
20
28
20
26
2
30
14
20
21
13
17
URJC-DEIO C. Beltrn
13
1.3. Datos bivariantes
Para representar una serie temporal el eje horizontal corresponde al tiempo y el eje
vertical corresponde a la magnitud o caracterstica analizada.
La representacin de una serie temporal es muy til para desvelar patrones temporales
(ten-
Figura 1.10: Serie temporal de los datos del ejemplo de la aleacin ligera.
1.3.
Datos bivariantes
El diagrama de dispersin.
El coeficiente de correlacin.
URJC-DEIO C. Beltrn
14
1.3.1.
Diagrama de dispersin (Scatter plot)
Datos:
En ese proceso, cada semiconductor es conectado a una placa base mediante un cable.
de la placa base).
Objetivo:
Representar los diagramas de dispersin para los pares de variables (X1, Y ) y (X2, Y ).
Operaciones 9:
Podemos observar que hay una fuerte relacin lineal entre las variables Longitud del
Sin embargo, hay una dbil relacin lineal entre las variables Altura del semiconductor
y Resistencia de la conexin.
URJC-DEIO C. Beltrn
15
1.3. Datos bivariantes
variables X e Y .
1.3.2.
Correlacin
Datos:
placa base).
X = Longitud del cable que conecta el semiconductor a la placa base.
Sxy
r=
pSxxSyy
URJC-DEIO C. Beltrn
16
donde
Pn
Pn
xi
yi
i=1
i=1
xy
xiyi
n
i=1
Pn
xi
i=1
xx
x2
i=1
Pn
yi
i=1
yy
y2
i
i=1
Objetivo:
Calcular la correlacin muestral entre las variables X Y a partir de los datos de la tabla
1.4.
Interpretar el resultado.
Sxy
r=
= 0,982,
pSxxSyy
P25
P25
i=1
i=1
i
xy = P25
= 2027,74
i=1
iyi
25
P25 x
i=1
iyi = 8008,50
P25 x
i=1
i = 206
P25 y
i=1
i = 725,82
P25
i=1
xx = P25
x2
= 698,56
i=1
i
25
P25 x2 = 2396
i=1
P25
i=1
yy = P25
y2
= 6106,41
i=1
25
P25 y2 = 27179.
i=1
Solucin:
Existe pues una fuerte relacin lineal y positiva entre la Longitud del cable y la
1.11).
General (Coeficiente de correlacin)
Correlacin poblacional :
URJC-DEIO C. Beltrn
17
PN
(xi x)(yi y)
i=1
PN
(x
PN
(y
i=1
i x)2
i=1
i y )2
Correlacin muestral r :
Pn
(xi
x)(yi
y)
r=
i=1
p(Pn (x
(y
i=1
x)2) (Pn
i=1
y)2)
Sxy
r=
pSxxSyy
donde
Pn
Pn
, xi
yi
i=1
i=1
xy
xiyi
i=1
Pn
xi
i=1
xx
x2
i=1
Pn
yi
i=1
yy
y2
i=1
lineal.
Valores de |r| cercanos a 1 indican que entre las variables X e Y hay relacin lineal.
Correlacin fuerte
|r| [0,8, 1]
Correlacin moderada
Correlacin dbil
URJC-DEIO C. Beltrn
18
URJC-DEIO C. Beltrn
19
URJC-DEIO C. Beltrn
20
Captulo 2
2.1.
Introduccin
etc.
Datos:
Operaciones 12:
21
2.2. Variables aleatorias y probabilidad
2.2.
Probabilidad.
2.2.1.
Variables aleatorias
Ejemplo 13 (Red de telefona)
Datos:
Asumimos que cada lnea no puede transportar ms de una conversacin de forma si-
multnea.
URJC-DEIO C. Beltrn
22
Duran 5 minutos.
Operaciones 13:
Sin embargo, las llamadas pueden durar ms de 5 minutos (ver Fig. 2.1).
Antes de cada llamada, slo podemos estimar cuanto va a durar la llamada. Estimamos
X.
Es una variable numrica cuyo valor observado puede variar de forma impredecible
No debemos confundir una variable aleatoria con una variable algebraica (solucin de
una ecuacin).
Tipos:
Ejemplos: Nmero de llamadas a una centralita por minuto, nmero de piezas defec-
URJC-DEIO C. Beltrn
23
2.2.2.
Probabilidad
telefnicas X?
Datos:
Duran 5 minutos.
Operaciones 14:
La compana, aunque no puede predecir con exactitud cunto va a durar cada llamada,
sabe que:
P (X [2, 8]) = 80 %.
P (2 X 8) = 80 %.
Expresamos la probabilidad con un nmero del intervalo [0, 1] (en tanto por uno) o [0 %,
100 %]
(en tanto por ciento).
URJC-DEIO C. Beltrn
24
Para realizar clculos de probabilidad, siempre usaremos la notacin tanto por uno.
Datos:
Lanzamos dos dados y sumamos los puntos obtenidos. Definimos la variable aleatoria
X = D1 + D2.
Regla de Laplace:
Se puede aplicar en los experimentos donde todos sus sucesos elementales tienen la
P (A) =
Operaciones 15:
El lanzamiento de dos dados se puede representar por 36 pares de resultados. Por ejemplo
Tenemos pues 36 sucesos elementales y cada uno de ellos tiene las mismas posibilidades
de ocurrir (con dados equilibrados).
URJC-DEIO C. Beltrn
25
P (X = 0)
P (X = 1) = 0
P (X = 2)
1/36
P (X = 3)
2/36
P (X = 4)
3/36
P (X = 5)
4/36
P (X = 6)
5/36
P (X = 7)
=
6/36
P (X = 8)
5/36
...
P (X = 12)
1/36
P (X 13)
Se puede aplicar en los experimentos donde todos los sucesos elementales tienen la misma
P (A) =
Datos:
URJC-DEIO C. Beltrn
26
es decir, el suceso A12 ocurre cuando sale C1 o C2 y los sucesos A23 y A34, anlogamente.
P (E) = 6/6 = 1.
Probabilidad de la interseccin:
Probabilidad de la unin:
3/6
4/6
=
1 P (A12).
P () = 0.
Intuitivamente est claro que los sucesos A12 y A34 no son independientes (si ocurre uno
no ocurre el otro y viceversa). Formalmente tambin est claro que no son independientes,
36
URJC-DEIO C. Beltrn
27
General (Probabilidad)
denotamos por E.
Suceso complementario: Dado un suceso A, su complementario, que denotamos por A0,
corresponde a E \ A y por tanto
A A0 = E.
Definicin de probabilidad:
Definicin de Kolmogorov.
P : E R
2. Suceso seguro:
P (E) = 1.
P (A B) = P (A) + P (B).
P () = 0.
P (A0) = 1 P (A).
Probabilidad condicional:
La probabilidad condicional se refiere a la probabilidad de que ocurra un suceso A
B.
URJC-DEIO C. Beltrn
28
Dados dos sucesos A y B, con P (B) > 0, la probabilidad de A dado B est definida
como:
P (A B)
P (A | B) =
P (B)
Por ejemplo, el resultado obtenido al lanzar una moneda y el resultado obtenido al lanzar
accidentes).
P (A | B) = P (A)
y
P (B | A) = P (B).
P (A B) = P (A) P (B).
P (A B) = P (A) P (B | A).
URJC-DEIO C. Beltrn
29
2.3.
Objetivo: En esta seccin estudiaremos la variables aleatorias (VA) discretas, es decir las
que slo pueden tomar valores en un conjunto discreto (no contiene intervalos).
Distribucin binomial.
Distribucin de Poisson.
2.3.1.
Concepto y propiedades
Datos:
En las transmisiones digitales, hay cierta probabilidad de que un bit (0/1) sea recibido
errneamente.
S = {0, 1, 2, 3, 4}.
P (X = 0)
0,6561
P (X = 1)
0,2916
P (X = 2)
0,0486
P (X = 3)
0,0036
P (X = 4)
0,0001
Objetivo:
X P (X = x) = 1.
x=0
URJC-DEIO C. Beltrn
30
2.3. Variables aleatorias discretas
S = {x1, . . . , xn}
f (xi) = P (X = xi).
Propiedades:
timos pequenas masas (ver Fig.2.5). Las masas las colocamos en las posiciones xi y la
f (xi) 0.
3.
n
X f(xi) = 1.
i=1
URJC-DEIO C. Beltrn
31
Datos:
Recordamos la definicin de
hasta x:
F (x) = P (X x) =
f (xi).
xix
f (0)
0,6561
f (1)
=
0,2916
f (2)
0,0486
f (3)
0,0036
f (4)
0,0001
x S = {0, 1, 2, 3, 4}.
F (0)
P (X 0) = 0,6561
F (1)
P (X 1) = 0,9477
F (2)
P (X 2) = 0,9963
F (3)
=
P (X 3) = 0,9999
F (4)
P (X 4) = 1,0000.
Por ejemplo 1, 2 6 S :
En general
F (x) = F (xi)
para cualquier
x [xi, xi+1[.
URJC-DEIO C. Beltrn
32
x<0
0,6561
0x<1
0,9477
1x<2
F (x) =
0,9963
2x<3
0,9999
3x<4
1,0000
4 x.
S = {x1, . . . , xn}
F (x) = P (X x) =
f (xi).
xix
Propiedades:
F (x) 0.
Datos:
URJC-DEIO C. Beltrn
33
Recordamos la definicin de
f (0)
0,6561
f (1)
0,2916
f (2)
0,0486
f (3)
0,0036
f (4)
0,0001
= E(X) =
xif (xi).
i=1
X
2 = V (X) = E[(X )2] =
i=1
Operaciones 19:
Calculamos la media:
3 f (3) + 4 f (4)
3 0,0036 + 4 0,0001
0,4 bits.
URJC-DEIO C. Beltrn
34
2.3. Variables aleatorias discretas
Calculamos la varianza:
2 =
(4 0,4)2 f (4)
(4 0,4)2 0,0001
=
0,36 bit2.
Media:
Su definicin es:
= E(X) =
xif (xi).
i=1
URJC-DEIO C. Beltrn
35
Varianza:
Es un parmetro de dispersin.
Su definicin es:
X
2 = V (X) = E[(X )2] =
i=1
2 = V (X)
E(X2) [E(X)]2
x2
i f (xi)
2.
i=1
No hay que olvidar las unidades (metros2, segundos2, etc.)
Desviacin tpica:
Es un parmetro de dispersin.
Su definicin es:
V (X).
2.3.2.
Distribucin binomial
Ejemplo 20 (Combinaciones)
10.
Operaciones 20:
10
10!
10 9 8
= 120.
3
3! 7!
3!
Solucin:
10
C(10, 3) =
= 120.
Por ejemplo, nmero de grupos de 3 alumnos que se pueden formar con 10 alumnos.
Datos:
Cada una de estas muestras tiene una probabilidad del 10 % de contener una determinada
URJC-DEIO C. Beltrn
36
Objetivo:
1. Probabilidad de que la primera y segunda muestra estn contaminadas (C) y las otras
dos
no (N).
Operaciones 21:
P (C y C y N y N ) = P (C C N N ).
En notacin matemtica:
P (A B) = P (A) P (B).
En nuestro caso:
P (C C N N )
P (C) P (C) P (N ) P (N )
0,0081.
P (C C N N ) = P (CCN N ).
4!
C(4, 2) =
= 6.
2
2! 2!
URJC-DEIO C. Beltrn
37
{X = 2} {CCN N, CN CN, CN N C,
N CCN, N CN C, N N CC}
Como la probabilidad asociada a cada uno de los 6 casos es la misma tendremos que
P (X = 2)
6 P (CCN N )
6 0,12 0,92
4,86 %
Veremos que el caso que hemos visto es un caso de distribucin binomial de parme-
tros n = 4 y p = 0,10.
P (X = 2) =
0,12 0,942
Solucin:
1. Probabilidad de que la primera y segunda muestra estn contaminadas y las otras dos
no
= 0.81 %.
= 4.86 %.
2. Cada prueba tiene slo dos posibles resultados (xito o fracaso, 1/0).
X = Nmero de xitos .
Escribiremos
X Bi(n, p).
URJC-DEIO C. Beltrn
38
f (x) = P (X = x) =
px (1 p)nx,
donde
n!
x!(n x)!
Esperanza y varianza: Si X Bi(n, p), aplicando la frmula general para y , se obtiene las
siguientes frmulas particulares para el caso binomial:
= E(X) = np
2 = V (X) = n p (1 p).
X Ber(p),
si y slo si,
X Bi(1, p).
Solucin:
tas. Suponemos que elegimos nuestra respuestas al azar y que contestamos todas las
3. En un proceso de fabricacin de botellas de plstico, una mquina tiene una tasa de fallo
del 1 %. Analizamos 100 botellas. X = Nmero de botellas defectuosas. Distribucin de
X?.
Ejemplo 23 (Grficas)
X Bi(20, 0,5).
20
f (x) =
0,5x 0,520x.
S = {0, 1, 2, . . . , 20}.
URJC-DEIO C. Beltrn
39
2.3.3.
Ejercicios
2.3.4.
Distribucin de Poisson
Datos:
= 2,3 defectos/m.
= 2,3 defectos/m:
X P o(2,3).
f (x) =
e,
x!
Si X P o()
entonces
Y P o(k).
Objetivo:
URJC-DEIO C. Beltrn
40
Operaciones 24:
Objetivo 1:
2, 32
P (X = 2) = fX (2) =
e2,3 = 0,265.
2!
Objetivo 2:
Por la Propiedad 2:
entonces
11,510
P (Y = 10) = fY (10) =
e11,5 = 0,113.
10!
Objetivo 3:
Por la Propiedad 2:
entonces
P (Z 1)
1 P (Z = 0) = 1 fZ(0)
4,60
e4,6 = 0,9899
0!
Solucin:
URJC-DEIO C. Beltrn
41
2.3. Variables aleatorias discretas
Proceso de Poisson:
Ver Fig.2.7.
Escribiremos
X P o()
f (x) =
e,
x!
para x S = {0, 1, 2, . . .} y 0 en otro caso. En la Fig. 2.8 podemos ver representada la funcin
de probabilidad para varias VA de Poisson.
URJC-DEIO C. Beltrn
42
= E(X) =
2 = V (X) = .
X Bi(n, p)
X P o( = np).
20
0.05
100
0.10
Suma de VA Poisson: Si
Y=
Xi,
i=1
donde Xi P o(i), (i = 1, . . . , n)
Y P o( =
i).
i=1
Solucin:
tes. El instrumento falla una media de 0.1 veces/hora. X = Nmero de fallos por cada
Multinomial.
Geomtrica.
Hipergeomtrica.
etc.
URJC-DEIO C. Beltrn
43
2.4.
Distribucin de exponencial.
Distribucin normal.
2.4.1.
Concepto y propiedades
Datos:
Consideramos que cada CD contiene una nica pista con informacin ptica (bits).
como:
f (x) =
ex/2000,
2000
comienzo de la pista.
2. Su funcin de distribucin.
3. Su esperanza.
4. Su varianza.
Operaciones 26:
1. Tenemos que calcular
P (X > 1000),
que equivale a calcular el rea debajo de la curva f (x) en el intervalo ]1000, +]. Ver
Fig. 2.9.
URJC-DEIO C. Beltrn
44
P (X > 1000)
f (x) dx
1000
ex/2000 dx
1000 2000
ex/2000 1000
0 (e1/2)
e1/2
0,607.
F (x) = P (X x)
ez/2000 dz
2000
ix
=
ez/2000 0
ex/2000 + 1,
URJC-DEIO C. Beltrn
45
x f (x) dx
ex/2000 dx
2000
= 2000 micrmetros.
4. La varianza corresponde a
Z
2 =
(x )2 f (x) dx
(x 2000)2
ex/2000 dx
2000
2 = 20002 micrmetros2.
Solucin:
60.7 %
2. Funcin de distribucin
F (x) = 1 ex/2000.
46
Discretas:
Continuas:
Su soporte S es un intervalo en R.
S = [a, b].
Ejemplos:
Topologa:
VA discreta: Los valores del soporte estn espaciados (separados unos de otros).
Aritmtica:
f (x).
x=1
VA continua: Para calcular probabilidades los valores de f (x) se integran:
P (X [1, 2]) =
f (x) dx.
Geometra:
VA discreta: Para calcular probabilidades, se suman las alturas de las barras del diagrama
VA continua: Para calcular probabilidades se halla el rea que queda por debajo de la
grfica de f (x).
Concepto:
S = [a, b].
Si X es continua, entonces
P (X = x) = 0,
f (x) = P (X = x).
URJC-DEIO C. Beltrn
47
2.4. Variables aleatorias continuas
f (x) P (x X x + ) K
Propiedades:
2.11).
f (x) dx = 1.
F (x) = P (X x) =
f (z) dz,
Propiedades:
URJC-DEIO C. Beltrn
48
2.4. Variables aleatorias continuas
F (x) 0,
no decreciente y tiende a 1 a medida que x crece. Por ejemplo, en la Figura 2.10 tenemos
P (c X d)
P (X d) P (X c)
F (d) F (c).
babilidad:
F 0(x) = f (x),
Media:
Su definicin es:
= E(X) =
xf (x) dx.
Varianza:
Es un parmetro de dispersin.
Su definicin es:
URJC-DEIO C. Beltrn
49
2 = V (x)
E(X2) [E(X)]2
x2f (x) dx 2.
Desviacin tpica:
Es un parmetro de dispersin.
Su definicin es:
V (X).
2.4.2.
Distribucin exponencial
Datos:
= 2,3 defectos/m.
f (x) = ex,
X Exp().
URJC-DEIO C. Beltrn
50
P (X > 0,1)
2,3e2,3x dx
0,1
=
e2,3x
0,1
0 + e2,30,1
0,7945.
P (X > 0,1)
1 P (X 0,1)
1 F (0,1)
1 (1 e2,30,1)
0,7945,
X Exp(),
URJC-DEIO C. Beltrn
51
E(X) =
E(Y ) = .
F (x) = 1 ex
para x 0 y F (x) = 0 en otro caso. Notar que se cumple que F 0(x) = f (x).
= E(X) =
2 = V (X) =
= 2.
Es decir, si X Exp() :
URJC-DEIO C. Beltrn
52
Objetivo:
1. Supongamos que no hemos detectado ningn defecto en los primeros 30 cm. Calcular la
Datos:
Operaciones 28:
P (X > 0,10)
0,7945.
Uno podra pensar que si no hemos detectado ningn defecto en los primeros 30 cm.,
2. Objetivo 2:
= 0,43m.
2,3
3. Objetivo 3:
= 0,43m.
2,32
Solucin:
1. 79,45 %.
2. 0,43 m.
3. 0,43 m.
Solucin:
URJC-DEIO C. Beltrn
53
Distribucin de Y y X?
Distribucin normal
Datos:
Definimos la VA
Escribiremos
X N ( = 10, = 2).
X N (, )
"
1 x 2#
f (x) =
exp
para cualquier x R.
Objetivo: Probabilidad de que al medir la intensidad que pasa por el cable, sta sea superior
a 13 mA.
Operaciones 30:
URJC-DEIO C. Beltrn
54
"
1 x 10 2#
P (X > 13) =
exp
dx.
13
2 2
2
una frmula y debe calcularse mediante mtodos numricos o consultando en una tabla.
Distribucin de probabilidad:
Relevancia:
X N (, )
"
1 x 2#
f (x) =
exp
,
X N (, )
URJC-DEIO C. Beltrn
55
Adems, usaremos
(z) = P (Z z) =
f (x) dx,
Para calcular (z) recurriremos a una tabla o a software especializado, pues no puede
(z) = 1 (z),
URJC-DEIO C. Beltrn
56
2.4. Variables aleatorias continuas
URJC-DEIO C. Beltrn
57
Objetivo:
1. P (Z > 1,26)
2. P (Z < 0,86)
3. P (Z > 1,37)
1 P (Z 1,26)
1 0,8962 = 0,1038.
2.
P (Z < 0,86)
=
P (Z > 0,86)
1 P (Z 0,86)
1 0,8051 = 0,1949.
Equivalentemente
P (Z < 0,86)
(0, 86)
1 (0, 86)
1 0,8051 = 0,1949.
3.
P (Z > 1,37)
=
P (Z < 1,37)
0,9147.
4.
P (1,00 < Z < 2,00)
=
URJC-DEIO C. Beltrn
58
Solucin:
2.4.4.
Tipificacin de una VA normal
Datos:
"
1 x 10 2#
P (X > 13) =
exp
dx.
13
2 2
X N ( = 10, = 2).
Z :=
Operaciones 32:
URJC-DEIO C. Beltrn
59
Dado que
X 10
13 10
[X > 13]
>
[Z > 1,5]
donde Z := X10 .
P (X > 13)
P (Z > 1,5)
1 P (Z 1,5)
1 (1,5)
=
1 0,9332 = 0,0668.
Ver Fig.2.19.
Solucin: La probabilidad de que al medir la intensidad que pasa por el cable, sta sea
superior a 13 mA, es de un 6,68 %.
Z :=
P (X x)
P (Z z)
=
(z),
donde
Z=
z :=
URJC-DEIO C. Beltrn
60
2.4.5.
Datos:
Se ha observado que que el dimetro X de las varillas fabricadas en el ltimo lote sigue
una distribucin
N ( = 0,25 cm , = 0,0005 cm ).
Objetivo:
1. Qu proporcin de varillas podrn ser consideradas como aceptables en ese lote?
2. Calcula las nuevas especificaciones para un control de calidad ms severo que slo
acepte
Operaciones 33:
1. Consideramos aceptables las varillas cuyo dimetro est en el intervalo [0,2492, 0,2508].
P (0,2492 X 0,2508) =
0,2492 0,25
X 0,25
0,2508 0,25
0,0005
0,0005
0,0005
P (1,60 Z 1,60)
(1,60) (1,60)
(1,60) [1 (1,60)]
=
2 (1,60) 1
2 0,9452 1 = 0,8904.
URJC-DEIO C. Beltrn
61
0,25 k 0,25
X 0,25
0,25 + k 0,25
0,0005
0,0005
0,0005
k
=
0,0005
0,0005
Equivalentemente
0,90
0,0005
0,90
0,0005
1(0,90)
0,0005
k
1,285
0,0005
0,0006.
Solucin:
0,0006 cm.
2.4.6.
Anlisis de normalidad
Por tanto, antes de usar las mencionadas herramientas estadsticas tenemos que verificar
la
Ejemplo 34
Datos:
D
=
{x1, . . . , x10}
{176, 191, 214, 220, 205, 192, 201, 190, 183, 185}
URJC-DEIO C. Beltrn
62
Operaciones 34:
Para realizar el plot de probabilidad normal tenemos que realizar los siguientes pasos:
j 0,5
Fj =
para j = 1, . . . , 10.
10
0,05
0,15 . . . 0,95.
zj = 1(Fj)
1,64
1,04 . . . 1,64.
En ese caso, como los puntos se encuentran aproximadamente sobre la recta, (Figu-
para estudiar si D proviene de una distribucin normal, podemos usar varios mtodos:
Mtodo del histograma: Cuando la muestra aleatoria tiene un tamano grande, podemos
analizar
URJC-DEIO C. Beltrn
63
2.4. Variables aleatorias continuas
Cuando la MA tiene un tamano pequeno, el mtodo del histograma puede no ser adecua-
do.
En ese caso podemos realzar un plot de probabilidad normal, realizando los siguientes
pasos:
j 0,5
Fj =
j J.
El comando Matlab para realizar el plot de normalidad para el caso normal es: normplot.
URJC-DEIO C. Beltrn
64
Nota: Los tres mtodos descritos se pueden adaptar, evidentemente, para otras
distribuciones de probabilidad.
Lognormal.
Gamma.
Weibull.
etc.
URJC-DEIO C. Beltrn
65
URJC-DEIO C. Beltrn
66
Captulo 3
Inferencia estadstica
3.1.
Apartados
2. Muestras aleatorias.
4. Estimacin puntual
Ejemplo 35
Datos:
Los resistores tienen una resistencia cuya media y varianza nominal son = 100
x = 98,5
y s2 = 97,3 2.
Objetivo:
Operaciones 35:
67
1.
tomado y analizado.
2.
Poblacin:
Muestra:
Es un subconjunto de la poblacin.
Relacin entre poblacin y muestra: En la Figura 3.1 puede verse la relacin entre
poblacin y muestra.
URJC-DEIO C. Beltrn
68
3.3.
Muestras aleatorias
Ejemplo 36
Datos:
Los resistores tienen una resistencia cuya media y varianza (poblacionales) son =
Objetivo:
X de la resistencia de los 25
resistores.
Notar que
Operaciones 36:
X:
X1 + . . . + X25
X=
X1 + . . . +
X25.
25
25
25
Se observa que
E[
X]
X1 + . . . +
X25
25
25
E[X1] + . . . +
E[X25]
25
25
25 100
25
100 .
URJC-DEIO C. Beltrn
69
Adems, sabemos que las Xi son VAs independientes. En ese caso se demuestra que:
V[
X]
X1 + . . . +
X25
25
25
12
12
V [X1] + . . . +
V [X25]
25
25
25 100
252
100
25
100
E[
X] = 100
V[
X] =
2.
25
General (Muestra aleatoria)
zas
Media muestral: Dada una muestra aleatoria, su media muestral es la variable aleatoria
X1 + . . . + Xn
X=
Teniendo en cuenta que la media muestral es una combinacin lineal de VAs i.i.d. con
media
URJC-DEIO C. Beltrn
70
3.4.
Ejemplo 37
Datos:
Consideramos
Xn para n =
1, 2, 3, 5, 10.
Operaciones 37:
Xn se aproxima cada
Media muestral de una poblacin normal: Dada una muestra aleatoria X1, . . . , Xn de una
poblacin normal N (, 2), su media muestral
XN
Teorema central del lmite (TCL): Dada una muestra aleatoria X1, . . . , Xn de una poblacin
(no necesariamente normal) con media y varianza 2, su media muestral
XN
URJC-DEIO C. Beltrn
71
3.4. Teorema central de lmite
URJC-DEIO C. Beltrn
72
Ejemplo 38
Datos:
Suponemos que las resistencias de los resistores son VA i.i.d. segn una distribucin
normal N ( = 100 , 2 = 100 2).
Objetivo:
2. Repite el apartado anterior, pero sin suponer que la muestra aleatoria proviene de una
poblacin normal.
Operaciones 38:
1.
100
X25 N
= 100 , 2 =
25
95
X < 95
X<
95 100
Z<
P (Z < 2,5)
=
0,0062.
2.
Bajo la hiptesis de normalidad sabemos que
XN
Si eliminamos la hiptesis de normalidad el teorema central del lmite nos dice que
XN
URJC-DEIO C. Beltrn
73
Por tanto, dado que en nuestro caso podemos considerar que n = 25 es suficiente-
mente grande, este apartado se resolvera igual que el apartado 1.
Solucin:
de normalidad).
3.5.
Estimacin puntual
Ejemplo 39
Datos:
Operaciones 39:
Estimamos mediante
25 + 30 + 29 + 31
x=
= 28,75 u
Solucin:
= 28,75 u.
General
Muestra aleatoria (MA):
X1, . . . , Xn
x1, . . . , xn
Estimador puntual:
URJC-DEIO C. Beltrn
74
La media muestral
Pn
Xi
X=
i=1
Estimacin puntual:
x que
3.5.1.
Estimadores insesgados
Ejemplo 40
Datos:
X1, . . . , Xn.
Pn
Xi
X=
i=1
aiXi
aiE(Xi).
i=1
i=1
Objetivo: Calcular E(
X).
Pn
Pn
E(Xi)
E(
X) = E
i=1
i=1
= .
Solucin: E(
X) = .
General
La media muestral
E(
X) = .
La varianza muestral S2 es un estimador insesgado de la varianza poblacional 2 pues:
E(S2) = 2,
Pn
(X
donde S2 =
i=1
X)2 .
n1
URJC-DEIO C. Beltrn
75
3.6.
Hiptesis de normalidad.
Intervalo de confianza.
P-valor.
3.6.1.
Hiptesis de normalidad
tamano muestral.
X hereda la normalidad.
normal.
3.6.2.
Ejemplo 41
Datos:
espacial.
Desconocemos la media de V C.
x = 51,3 cm/s.
Operaciones 41:
URJC-DEIO C. Beltrn
76
I1 =
xz,
x+z
donde
ra 3.3).
z0,025 = 1,96,
podemos calcular
I1 =
51,3 1,96
51,3 + 1,96
25
25
Solucin:
encuentra en el intervalo
[50,52,
52,08] cm/s.
52,08]. Acertamos
URJC-DEIO C. Beltrn
77
3.6. Inferencia sobre la media (varianza conocida)
I1 = [lb,
ub] ,
donde lb y ub son una cota inferior y una cota superior respectivamente, de la media
poblacional .
I1 = [
x r,
x + r]
r
=
z,
ra 3.3).
X).
Ejemplo 42
Datos:
= 2 cm/s.
Con una confianza del 95 %, el mximo error E que podramos cometer al estimar
mediante
URJC-DEIO C. Beltrn
78
x cometemos un error.
Objetivo: Calcula el tamano muestral n que necesitamos para conseguir un error mximo
de 1,5
Operaciones 42:
z/2 2
n=
n=
= d6,83e = 7.
1,5
x |.
Sabemos que este error disminuye al aumentar n (pues disminuye el radio del intervalo de
confianza).
Para garantizar que este error no supere cierta cota E, es decir e E, con una confianza 1
, se demuestra que debemos tomar un tamano muestral
z/2 2
n=
donde dxe es el primer nmero entero igual o superior a x (valor entero por exceso).
3.6.3.
General
URJC-DEIO C. Beltrn
79
En algunas ocasiones nos interesar calcular intervalos de confianza para la media donde
uno
I
= ] , ub
I+
= [lb
, +[.
Estos intervalos se pueden expresar de forma equivalente mediante una cota superior
ub
lb .
lb =
x z .
ub =
x + z .
3.6.4.
Contraste de hiptesis bilateral para la media (varianza conocida)
Ejemplo 43
Datos:
espacial.
Las especificaciones del fabricante del transbordador requieren que se utilicen combus-
Desconocemos la media de V C.
x = 51,3 cm/s.
Objetivo:
Dado que
transbordador?
Operaciones 43:
URJC-DEIO C. Beltrn
80
H0 : = 50 cm/s.
H1 : 6= 50 cm/s.
Solucin:
En esta seccin, nos concentraremos en los contrastes bilaterales como por ejemplo:
H0 : = 0
H1 : 6= 0,
H0 : = 0
H1 : > 0,
URJC-DEIO C. Beltrn
81
demostrar.
H0 : = 50 cm/s.
H1 : 6= 50 cm/s.
H0 :
Inocente
H1 :
Culpable,
aceptar H1.
probablemente, los datos observados no nos ofrecern evidencia estadstica para aceptar
H0 : = 0
H1 : 6= 0,
I1 =
xz,
x+z
Ejemplo 44
Objetivo:
Operaciones 44:
Podemos resolver esta cuestin siguiendo los ocho pasos de un procedimiento
URJC-DEIO C. Beltrn
82
1. El parmetro de inters es .
2. H0 : = 50 cm/s.
3. H1 : 6= 50 cm/s.
4. = 0,05.
5. Tipificando
x obtenemos el estadstico
x 0
z0 =
/ n
6. El umbral de aceptacin de H1 nos lo da z/2: Dado que z0,025 = 1,96 tenemos que
aceptamos H1 si
z0 6 [1,96, 1,96].
z0 =
= 3,25.
2/ 25
H1 : 6= 50,
URJC-DEIO C. Beltrn
83
H0 : = 0.
H1 : 6= 0.
X 0
Z0 =
/ n
x 0
z0 =
/ n
3.6.5.
General
H0 : = 0
H1 : 6= 0,
es el marco adecuado para estudiar los riesgos que corremos al aceptar o rechazar H1,
URJC-DEIO C. Beltrn
84
3.6.6.
General
H0 : = 0
H1 : < 0,
H0 : = 0
H1 : > 0.
Figura 3.6):
z0 < z/2
0 < lb/2
ub/2 < 0,
donde:
lb
/2
xz
2
n
ub
/2
x+z
ub =
x + z .
lb =
x z .
URJC-DEIO C. Beltrn
85
3.6. Inferencia sobre la media (varianza conocida)
3.6.7.
Ejemplo 45
Datos:
Aceptar H1 / H1 falsa.
Objetivo: Calcula la probabilidad de cometer un error de tipo I al fijar el valor crtico del
contraste en z0 = 3,25.
Operaciones 45:
P ( Aceptar H1 / H1 falsa ) =
P (Z0 6 [3,25, 3,25] / = 50)
2[1 (3,25)]
0,0012.
URJC-DEIO C. Beltrn
86
Solucin:
General
= P ( Aceptar H
e
1
/ H1 falsa ).
donde a menudo = 1 % 5 %.
Concepto intuitivo: El P-valor es una medida del riesgo de equivocarnos al aceptar H1.
siguientes casos:
P-valor ,
entonces aceptamos H1, pues la probabilidad de cometer un error del tipo I es baja. En
URJC-DEIO C. Beltrn
87
3.6. Inferencia sobre la media (varianza conocida)
P-valor
P ( Aceptar H1 / H1 falsa )
2[1 (z0)].
Nota: en la anterior frmula hemos supuesto que z0 es positivo. La frmula general que
contrastes con = 0,050, podemos aceptar H1, teniendo P-valores igual a 0,049 y 0,001,
respectivamente.
URJC-DEIO C. Beltrn
88
3.7.
3.7.1.
General (Casustica)
Pn
(xi
x)2
S2 =
i=1
n1
X 0
Z=
S/ n
X 0
T=
S/ n
En este caso podemos recurrir a mtodos no paramtricos (Ver Montgomery, pag. 162).
URJC-DEIO C. Beltrn
89
3.7. Inferencia sobre la media (varianza desconocida)
T N (0, 1).
Se usa para hacer inferencia sobre la media en el caso de tener una poblacin:
Normal.
Varianza desconocida.
= E(X) = 0 y
2 = V (X) =
.
k2
f (x) =
<x<
[(x2/k) + 1](k+1)/2
donde
[(k + 1)/2]
C = k
[k/2]
(k) =
ezzk1dz.
Para hacer los clculos asociados a esta distribucin normalmente usaremos una tabla. (Ta-
bla 3.7.1)
Ejemplo 46
Datos:
La compana Nike subcontrata la fabricacin de sus palos de golf a una empresa china.
URJC-DEIO C. Beltrn
90
Las especificaciones de Nike requieren que el CR tenga una media > 0,82.
x = 0,83725 y s = 0,02456.
Objetivo: Con estos datos, puede, la compana subcontratada, afirmar que > 0,82 con un
nivel de significacin = 0,05?
Operaciones 46:
a) El parmetro de inters es .
b) H0 : = 0,82.
c) H1 : > 0,82.
d) = 0,05.
X 0
T0 =
S/ n
Notar que usamos este estadstico, pues desconocemos , tenemos datos gaussianos,
f ) Aceptamos H1 si y slo si
0,83725 0,82
t0 =
= 2,72.
0,02456/ 15
URJC-DEIO C. Beltrn
91
H1 : > 0,82
con un nivel de significacin 0.05.
2. Cota de confianza:
H1 : > 0,82
lb =
x t;n1 n
0,02456
0,83725 1,761
15
0, 8261
> lb = 0, 8261.
H1 : > 0, 82.
3.7.2.
Ejemplo 47
URJC-DEIO C. Beltrn
92
3.7. Inferencia sobre la media (varianza desconocida)
0.75
0.80
0.85
0.90
0.95
0.975
0.99
0.995
1
1.000
1.376
1.963
3.078
6.314
12.706
31.821
63.657
2
0.816
1.061
1.386
1.886
2.920
4.303
6.965
9.925
3
0.765
0.978
1.250
1.638
2.353
3.182
4.541
5.841
4
0.741
0.941
1.190
1.533
2.132
2.776
3.747
4.604
5
0.727
0.920
1.156
1.476
2.015
2.571
3.365
4.032
6
0.718
0.906
1.134
1.440
1.943
2.447
3.143
3.707
7
0.711
0.896
1.119
1.415
1.895
2.365
2.998
3.499
8
0.706
0.889
1.108
1.397
1.860
2.306
2.896
3.355
9
0.703
0.883
1.100
1.383
1.833
2.262
2.821
3.250
10
0.700
0.879
1.093
1.372
1.812
2.228
2.764
3.169
11
0.697
0.876
1.088
1.363
1.796
2.201
2.718
3.106
12
0.695
0.873
1.083
1.356
1.782
2.179
2.681
3.055
13
0.694
0.870
1.079
1.350
1.771
2.160
2.650
3.012
14
0.692
0.868
1.076
1.345
1.761
2.145
2.624
2.977
15
0.691
0.866
1.074
1.341
1.753
2.131
2.602
2.947
16
0.690
0.865
1.071
1.337
1.746
2.120
2.583
2.921
17
0.689
0.863
1.069
1.333
1.740
2.110
2.567
2.898
18
0.688
0.862
1.067
1.330
1.734
2.101
2.552
2.878
19
0.688
0.861
1.066
1.328
1.729
2.093
2.539
2.861
20
0.687
0.860
1.064
1.325
1.725
2.086
2.528
2.845
21
0.686
0.859
1.063
1.323
1.721
2.080
2.518
2.831
22
0.686
0.858
1.061
1.321
1.717
2.074
2.508
2.819
23
0.685
0.858
1.060
1.319
1.714
2.069
2.500
2.807
24
0.685
0.857
1.059
1.318
1.711
2.064
2.492
2.797
25
0.684
0.856
1.058
1.316
1.708
2.060
2.485
2.787
26
0.684
0.856
1.058
1.315
1.706
2.056
2.479
2.779
27
0.684
0.855
1.057
1.314
1.703
2.052
2.473
2.771
28
0.683
0.855
1.056
1.313
1.701
2.048
2.467
2.763
29
0.683
0.854
1.055
1.311
1.699
2.045
2.462
2.756
30
0.683
0.854
1.055
1.310
1.697
2.042
2.457
2.750
40
0.681
0.851
1.050
1.303
1.684
2.021
2.423
2.704
60
0.679
0.848
1.046
1.296
1.671
2.000
2.390
2.660
120
0.677
0.845
1.041
1.289
1.658
1.980
2.358
2.617
0.674
0.842
1.036
1.282
1.645
1.960
2.326
2.576
URJC-DEIO C. Beltrn
93
Datos:
n = 15 observaciones.
Aceptar H1 / H1 falsa.
Objetivo: Calcula la probabilidad de cometer un error de tipo I al fijar el valor crtico del
contraste en t0 = 2,72.
Operaciones 47:
grados de libertad.
0,01
Solucin:
URJC-DEIO C. Beltrn
94
Dicho de otra manera, el P-valor asociado a t0 = 2,72 est por debajo del 1 %.
General (P-valor)
Como ya vimos, El P-valor es una medida del riesgo de equivocarnos al aceptar H1.
El P-valor corresponde a la probabilidad a partir del valor observado del estadstico para
un contraste unilateral o dos veces esa probabilidad para un contraste bilateral.
Ejemplo 48
Datos:
y son desconocidas.
x = 0,83725 y
s = 0,02456.
Operaciones 48:
I1 =
xt
/2, n1
x+t
,
n
/2, n1
donde
/2 = 0,050/2 = 0,025
URJC-DEIO C. Beltrn
95
obtenemos que
0,02456
I0,95 =
0,83725 2,145
15
0,02456
0,83725 + 2,145
15
[0,82365, 0,85085].
x y de radio r :
I1 = [
x r,
x + r]
t , n1 ,
grados de libertad.
URJC-DEIO C. Beltrn
96
Captulo 4
Regresin
4.1.
Apartados
1. Introduccin a los modelos empricos
Ejemplo 49
Datos:
v(t) = v0 + a t
Supongamos que estamos estudiando el desplazamiento de una bola metlica por una
rampa.
v(t)
vt
m/s
m/s
3
2.5
1
5
5.1
2
7
6.7
3
9
9.2
97
Objetivo:
3. Comentarios.
Operaciones 49:
v(t).
Esas perturbaciones no implican que el modelo terico sea errneo, pues pueden ser debi-
das a:
Errores de medida,
Solucin:
Ejemplo 50
Datos:
URJC-DEIO C. Beltrn
98
4.2. Introduccin a los modelos empricos
URJC-DEIO C. Beltrn
99
(superficie asfaltada).
Objetivo:
2. Analizar cul podra ser un buen modelo que explique la concentracin de sal a partir de
la proporcin de superficie asfaltada.
Operaciones 50:
asfaltada:
y(x) =
0 +
1 x.
La anterior recta constituye un modelo emprico del cual desconocemos sus parmetros
0 y
1.
Veremos que una buena recta es:
URJC-DEIO C. Beltrn
100
Errores de medida.
Solucin: Parece que el modelo de regresin lineal simple es un buen modelo para explicar
la
Modelos tericos:
v(t) = v0 + a t
Modelos empricos:
A partir de datos empricos, debemos recomponer las variables y constantes que inter-
Poblacin y muestra:
Y (x) = 0 + 1x + ,
cumple la ecua-
i=1
cin
yi =
0 +
1xi + ei,
URJC-DEIO C. Beltrn
101
4.3. Regresin lineal simple
Y |x = 0 + 1x,
y(x) =
0 +
1x.
4.3.
Recta de regresin.
4.3.1.
Recta de regresin
Ejemplo 51
Datos:
URJC-DEIO C. Beltrn
102
Y = 0 + 1x + ,
Objetivo:
1. Determinar la recta que mejor se ajuste a la nube de 20 puntos observados (ver Tabla
4.1): (0,19, 3,8), . . . , (1,62, 32,7).
1. Se puede demostrar que la recta que mejor se ajusta viene dada por la siguiente
estimacin de (0, 1):
Sxy
64,4082
1 =
= 17,5467,
Sxx
3,67068
donde
20
Sxy =
(xi
x)(yi
y)
i=1
20
Sxx =
(xi
x)2
i=1
P20
xi
i=1
20
P20
yi
i=1
20
0 =
2,6765
Pn
(yi
yi)2
57,7
2 =
i=1
= 3,2056
n2
18
URJC-DEIO C. Beltrn
103
4.3. Regresin lineal simple
y por tanto
Solucin:
0 +
1x
2,6765 + 17,5467x
= 1,7904 mg/l.
General
mn L() =
[i()]2,
i=1
i() = yi
y(xi)
yi 0 1xi.
URJC-DEIO C. Beltrn
104
de L:
L(
) = (0, 0).
0,
1):
Sxy
1 = Sxx
donde
Sxy =
(xi
x)(yi
y)
i=1
Sxx =
(xi
x)2
i=1
Pn
xi
i=1
Pn
yi
i=1
1, podemos calcular
0 :
0 =
SSE
2 =
,
n2
donde
SSE =
e2i =
(yi
yi)2
i=1
i=1
URJC-DEIO C. Beltrn
105
4.3.2.
Ejemplo 52
Datos:
donde N (0, ).
Objetivo:
Operaciones 52:
1 se obtiene mediante:
r 3,2056
se(
1) =
= 0,9346.
Sxx
3,67068
0 se obtiene mediante:
x2
se(
0) =
= 0,8680.
Sxx
1 y
General (Propiedades)
expresin:
Y = 0 + 1x + ,
donde N (0, ).
Propiedades:
1. Los estimadores
0 y
2. Los estimadores
0 y
0) = 0
E(
1) = 1.
URJC-DEIO C. Beltrn
106
3. Las varianzas de
0 y
1 son:
x2
V(
0) = 2
Sxx
V(
1) =
Sxx
de
x2
se(
0) =
Sxx
se(
1) =
Sxx
4.3.3.
Ejemplo 53
Datos:
Ref: Montgomery 3a Ed., pgina 272.
y = 2,6765 + 17,5467x.
y.
SSE
R2 = 1
SST
Dado que
SS
Pn
(yi
yi)2
57,7
=
i=1
SS
Pn
(y
1187,9
i=1
y)2
tenemos que
R2 = 1 0,0486 = 0,9514.
URJC-DEIO C. Beltrn
107
X(yi y)2.
i=1
siguiente suma:
n
X(yi y)2.
i=1
X(yi yi)2.
i=1
(yi
y)2
yi
y)2 +
(yi
yi)2
i=1
i=1
i=1
SST
SSR + SSE,
donde SS, T, R y E son las siglas de Sum of Squares, Total, Regresin y Error, respec-
tivamente.
SST
SSR
SSE
SST
SST
SST
SSE
R2 + SST
SSE
R2 = 1
SST
Coeficiente de determinacin: Se representa por R2 y corresponde a la proporcin de la
variacin de la variable respuesta Y que es explicada por el modelo de regresin.
Nota:
URJC-DEIO C. Beltrn
108
4.4.
Ejemplo 54
275).
Operaciones 54:
H0 : 1 = 0
H1 : 1 6= 0
1 0
t0 =
se(
1)
2/Sxx
17,5467
p3,2/3,67068
18,77.
URJC-DEIO C. Beltrn
109
4.4. Contraste de hiptesis en regresin lineal
URJC-DEIO C. Beltrn
110
H0 : 1 = 1,0
H1 : 1 6= 1,0.
1 1,0
t0 =
se(
1)
1 1,0
2/Sxx
| t0 |> t ,n2.
H0 : 1 = 0
H1 : 1 6= 0.
Rechazar H1 :
Indica que no hay evidencia estadstica de que la pendiente sea diferente de cero
variable explicada Y :
O bien, x tiene poco valor para explicar Y , es decir, son variables independientes
Aceptar H1 :
Puede ocurrir que haya dependencia lineal entre x e Y (ver Figura 4.7-(a)).
Pero tambin puede ocurrir que haya dependencia no lineal entre x e Y (ver
Figura 4.7-(b)).
Para concluir que hay dependencia lineal entre x e Y , deben cumplirse dos requisitos:
lante.
H0 : 0 = 0,0
H1 : 0 6= 0,0.
URJC-DEIO C. Beltrn
111
0 0,0
t0 =
se(
0)
donde
x2
se(
0) =
Sxx
| t0 |> t ,n2.
4.5.
Estudiaremos :
0 y
1.
Los intervalos de previsin para la variable respuesta:
Y0 = Y |x0.
4.5.1.
Ejemplo 55
Datos:
Operaciones 55:
IC0,95(1) = [
1 t0,025;18 se(
1) ]
[ 15,5831, 19,5103 ].
URJC-DEIO C. Beltrn
112
[ 15,58, 19,51 ]
General (Intervalos de confianza)
Hiptesis: Suponemos que los errores i son independientes y siguen una distribucin
Bajo esta hiptesis, un intervalo de confianza para la pendiente 1 puede calcularse como:
IC
1(1) =
1 t ;n2 se(
1)
donde
se(
1) =
Sxx
h
i
IC
1(0) =
0 t ;n2 se(
0)
donde
x2
se(
0) =
Sxx
4.5.2.
Ejemplo 56
Datos:
IP0,95(Y |x=1,25).
Operaciones 56:
IP1(Y0) =
y0 t ; n2 se(Y0
Y0) ,
URJC-DEIO C. Beltrn
113
donde
Y0 = Y |x0
Y0 =
0 +
1x0
1
(x
x)2
se(Y0
Y0) =
2 1 +
Sxx
Dado que x0 = 1,25, tenemos que el centro del intervalo viene dado:
Por otro lado = 0,05 y n = 20, por lo que el correspondiente percentil es:
t0,025;18 = 2,101.
(1, 25 0,824)2
se(Y0
Y0) =
3,2 1 +
+
20
3,67068
1,8757
[ 20,66, 28,55 ]
Solucin: Con una confianza del 95 %, la concentracin de sal en una cuenca hidrogrfica
con un 1.25 % de superficie cubierta por carreteras estar en el intervalo de prediccin:
y0,
y0 =
0 +
1x0,
URJC-DEIO C. Beltrn
114
4.5. Intervalos en regresin lineal
IP1(Y0) =
y0 t ; n2 se(Y0
Y0) ,
donde
Y0 = Y |x0
Y0 =
0 +
1x0
(x
x)2
se(Y0
Y0) =
2 1 +
Sxx
Nota: Hay que tener mucho cuidado en no confundir el anterior intervalo de prediccin
para Y y los intervalos de confianza para 0 y 1, respectivamente, vistos en la seccin
anterior.
URJC-DEIO C. Beltrn
115
4.6.
a) Recta de regresin.
b) Contrastes de hiptesis.
c) Intervalos de confianza.
d) Intervalos de prediccin.
4.6.1.
Ejemplo 57
Datos:
Objetivo: Verificar si el modelo de regresin lineal es adecuado para este caso (validacin
del modelo).
Operaciones 57:
Para validar el modelo, debemos analizar los errores (anlisis de errores o anlisis de
residuos):
ei = yi
yi con i = 1, . . . , 20.
2,210
0,591 . . . 0,598.
En primer lugar, verificamos grficamente si estos errores son independientes, con media
URJC-DEIO C. Beltrn
116
4.6. Protocolo del modelo de regresin lineal
y.
Observando la Figura 4.9 podemos aceptar las hiptesis de errores independientes, con
Solucin: Podemos aceptar que se cumplen las hiptesis del modelo de regresin lineal:
errores independientes, normales, con media cero y varianza constante.
Yi = 0 + 1xi + i
117
Figura 4.11: Algunos patrones de los residuos ei : (a) satisfactorio, (b) embudo,
(c) doble arco, (d) no lineal ((b), (c) y (d) no son satisfactorios).
Independientes.
Media cero.
Varianza constante.
i N (0, 2)
con i = 1, . . . , n.
ei = yi
yi
con i = 1, . . . , n.
Algunos patrones tpicos del comportamiento de los errores puede verse en la Figura 4.11
En segundo lugar, realizamos un anlisis de normalidad.
4.7.
Correlacin y regresin
General
Sxy
r=
pSxx Syy
lineal.
Valores de |r| cercanos a 1 indican que las variables X e Y hay dependencia lineal.
URJC-DEIO C. Beltrn
118
Correlacin y regresin:
URJC-DEIO C. Beltrn
119