Está en la página 1de 276

Estadstica

Csar Beltrn Royo

Actualizado: 01/08/2017

URJC-DEIO C. Beltrn

ndice general

1. Descripcin de datos

1.1. Sntesis numrica de los datos

.............................

1.1.1.

Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.2.
Varianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.1.3.

Mediana, cuartiles y rango . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2. Sntesis grfica de los datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.1.

Histograma . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1.2.2.

Diagrama de caja y bigotes (Box plot) . . . . . . . . . . . . . . . . . . . . .

11

1.2.3.

Series temporales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

13

1.3. Datos bivariantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

14

1.3.1.

Diagrama de dispersin (Scatter plot) . . . . . . . . . . . . . . . . . . . . .

15

1.3.2.

Correlacin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

16
2. Probabilidad y variables aleatorias
21
2.1. Introduccin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

21

2.2. Variables aleatorias y probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

2.2.1.

Variables aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

22

2.2.2.

Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

24

2.3. Variables aleatorias discretas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

2.3.1.

Concepto y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . .

30

2.3.2.

Distribucin binomial

.............................

36

2.3.3.

Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

40
2.3.4.

Distribucin de Poisson

............................

40

2.4. Variables aleatorias continuas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.4.1.

Concepto y propiedades . . . . . . . . . . . . . . . . . . . . . . . . . . . .

44

2.4.2.

Distribucin exponencial . . . . . . . . . . . . . . . . . . . . . . . . . . . .

50

ndice general

2.4.3.

Distribucin normal

..............................

54

2.4.4.

Tipificacin de una VA normal . . . . . . . . . . . . . . . . . . . . . . . . .

59

2.4.5.

Inversa de la funcin de distribucin normal . . . . . . . . . . . . . . . . . .

61

2.4.6.
Anlisis de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

62

3. Inferencia estadstica

67

3.1. Apartados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

67

3.2. Definicin intuitiva de poblacin y muestra . . . . . . . . . . . . . . . . . . . . . .

67

3.3. Muestras aleatorias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

3.4. Teorema central de lmite . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71

3.5. Estimacin puntual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

74

3.5.1.

Estimadores insesgados

............................

75

3.6. Inferencia sobre la media (varianza conocida) . . . . . . . . . . . . . . . . . . . . .

76

3.6.1.

Hiptesis de normalidad . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

3.6.2.

Intervalo de confianza (varianza conocida) . . . . . . . . . . . . . . . . . . .


76

3.6.3.

Cota de confianza (varianza conocida) . . . . . . . . . . . . . . . . . . . . .

79

3.6.4.

Contraste de hiptesis bilateral para la media (varianza conocida) . . . . . .

80

3.6.5.

Relacin entre contraste de hiptesis bilateral e intervalo de confianza . . . .

84

3.6.6.

Contraste de hiptesis unilateral para la media (varianza conocida) . . . . . .

85

3.6.7.

P-valor (varianza conocida)

..........................

86

3.7. Inferencia sobre la media (varianza desconocida) . . . . . . . . . . . . . . . . . . .

89

3.7.1.

Contraste de hiptesis sobre la media (varianza desconocida) . . . . . . . . .

89

3.7.2.

P-valor (varianza desconocida) . . . . . . . . . . . . . . . . . . . . . . . . .

92
3.7.3.

Intervalo de confianza (varianza desconocida) . . . . . . . . . . . . . . . . .

95

4. Regresin

97

4.1. Apartados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

97

4.2. Introduccin a los modelos empricos

.........................

97

4.3. Regresin lineal simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

102

4.3.1.

Recta de regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

102

4.3.2.

Propiedades del modelo de regresin

.....................

106

4.3.3.

Regresin y anlisis de varianza (ANOVA) . . . . . . . . . . . . . . . . . .

107

4.4. Contraste de hiptesis en regresin lineal

.......................

109
4.5. Intervalos en regresin lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

112

URJC-DEIO C. Beltrn

II

ndice general

4.5.1.

Intervalos de confianza para 0 y 1. . . . . . . . . . . . . . . . . . . . . . . 112

4.5.2.

Intervalos de previsin para Y . . . . . . . . . . . . . . . . . . . . . . . . .

113

4.6. Protocolo del modelo de regresin lineal . . . . . . . . . . . . . . . . . . . . . . . .

116

4.6.1.

Validacin del modelo de regresin . . . . . . . . . . . . . . . . . . . . . .

116

4.7. Correlacin y regresin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

118

URJC-DEIO C. Beltrn

III

ndice general

URJC-DEIO C. Beltrn

IV

Captulo 1

Descripcin de datos

1.1.
Sntesis numrica de los datos

El objetivo de esta seccin es aprender a sintetizar la informacin contenida en los datos


mediante parmetros estadsticos:

Media.

Varianza y desviacin tpica.

Mediana, cuartiles y rango.

1.1.1.

Media

Ejemplo 1 (Juntas sintticas)

Datos:

Consideramos un proceso de fabricacin de juntas sintticas para maquinaria de alta

precisin destinada a la fabricacin de microcircuitos.

En el ltimo lote se han fabricado N = 10000 juntas.

Nos interesa estudiar su resistencia a la traccin medida en psi (libras por pulgada

cuadrada).

Hemos medido la resistencia de cada junta y hemos obtenido los siguientes datos

D = {1048, 1059, . . . , 1037} psi.

La suma de las 10000 resistencias es:

10000

X xi = 10406700 psi.

i=1

Objetivo: Calcular la media poblacional de la resistencia a la traccin de este lote de juntas.

1.1. Sntesis numrica de los datos

Operaciones 1:
La media poblacional se calcula mediante la frmula de la media aritmtica:

P10000 xi

10406700

i=1

= 1040, 67 psi.

10000

10000

Solucin: La media poblacional de la resistencia a la traccin de este lote de juntas es de


1040,67

psi.

General (Poblacin y media poblacional)

Poblacin: es el conjunto de elementos sobre el que se realizan las observaciones para


estudiar alguna de sus caracterstica.

Si el conjunto de datos de la poblacin es finito

D = {x1, . . . , xN },

su media poblacional se calcula mediante la frmula de la media aritmtica:

PN

xi

i=1

Ejemplo 2 (Juntas sintticas - continuacin)


Datos:

En realidad sera demasiado caro medir la resistencia a la traccin de todas las juntas del

lote (N = 10.000).

Lo que normalmente se hace es analizar solamente una muestra.

Supongamos que hemos extraido una muestra de juntas sintticas de tamano n = 8 y

hemos medido su resistencia:

D = {1048, 1059, 1047, 1066, 1040, 1070, 1037, 1073} psi

Objetivo: Calcular la media muestral de la resistencia a la traccin de esta muestra de


juntas.

Operaciones 2: La media muestral se calcula mediante la frmula de la media aritmtica:

P8

xi

8440

x=

i=1

= 1055, 0 psi.

Solucin:

La media muestral de la resistencia a la traccin de este lote de juntas es de 1055,0 psi

Notar que es un 1,37 % mayor que la media poblacional (1040,67 psi).

General (Muestra y media muestral)

URJC-DEIO C. Beltrn
2

1.1. Sntesis numrica de los datos

Muestra:

Normalmente no podremos analizar toda una poblacin (estadstica) pues suele tener un

gran nmero elementos (incluso infinito).

Normalmente analizaremos una muestra, es decir, un subconjunto de de la poblacin.

Si la muestra es representativa, podremos sacar conclusiones sobre la poblacin anali-

zando slo la muestra.

Cada parmetro poblacional (, 2, , etc.) ser estimado (aproximado) por un parmetro

muestral (

x, s2, r, etc.).

Los parmetros poblacionales son nicos pero los parmetros muestrales no, pues de-

penden de la muestra que tomemos.

Media muestral:

En la Fig. 1.1 tenemos el Diagrama de puntos o Dot diagram.

Tanto la media poblacional , como la media muestral

x, puede interpretarse como el

centro de gravedad del conjunto de datos de la muestra (ver Fig. 1.1).

La media es por tanto una medida de centralidad.


Dado el conjunto de datos de una muestra

D = {x1, . . . , xn},

su media muestral se calcula mediante la frmula de la media aritmtica:

Pn

xi

x=

i=1

Figura 1.1: La media puede interpretarse como el centro de gravedad.

1.1.2.

Varianza

Ejemplo 3 (Juntas sintticas - continuacin)

Datos:

Recordamos la resistencia a la traccin de la muestra de 8 juntas sintticas.

D = {1048, 1059, 1047, 1066, 1040, 1070, 1037, 1073} psi.

Objetivo:

Calcular la varianza muestral y la desviacin tpica muestral de la resistencia a la

traccin.

URJC-DEIO C. Beltrn

3
1.1. Sntesis numrica de los datos

Interpretar el valor de la desviacin tpica en este contexto.

Operaciones 3:

La varianza muestral se calcula mediante la siguiente frmula (ver la tabla de la Figura

1.2).

P8

(xi

x)2

1348

s2 =

i=1

= 192,57 psi2.

81

7
La desviacin tpica muestral es la raz cuadrada de la varianza

s=

192,57 = 13,9 psi.

La mayora de datos (5 de 8 = 63 %) han cado en el intervalo

x s,

x + s] [1055 14, 1055 + 14] = [1041, 1069] psi.

Todos los datos (8 de 8) han cado en el intervalo

x 2s,

x + 2s] [1055 28, 1055 + 28] = [1027, 1083] psi.

Figura 1.2: Tabla para calcular la varianza.

Solucin:

La varianza muestral de la resistencia a la traccin es 192,57 psi2.

Su desviacin tpica muestral es de 13,9 psi.

La mayora de datos han cado en el intervalo

[1041, 1069] psi.

URJC-DEIO C. Beltrn

4
1.1. Sntesis numrica de los datos

Figura 1.3: Medimos la dispersin respecto a la media muestral

x.

Todos los datos han cado en el intervalo

[1027, 1083] psi.

General (Varianza y desviacin tpica)

Varianza poblacional 2 :

Es una medida de dispersin.

Si el conjunto de datos de la poblacin es finito

D = {x1, . . . , xN },

se calcula mediante la frmula

PN

(xi )2

2 =

i=1

Esta frmula calcula el promedio del cuadrado de las desviaciones respecto a la media
poblacional.

Varianza muestral s2 :

Normalmente no podremos calcular la varianza poblacional por ser la poblacin dema-

siado grande (incluso infinita).

La estimaremos (aproximaremos) tomando una muestra de tamano n y calculando la

varianza muestral:

Pn

(xi

x)2

s2 =

i=1

n1

Desviacin tpica poblacional :

Es una medida de dispersin.

Corresponde a la raz cuadrada de la varianza poblacional:

varianza poblacional.

La estimaremos (aproximaremos) mediante la desviacin tpica muestral s:

s=

varianza muestral.

URJC-DEIO C. Beltrn

5
1.1. Sntesis numrica de los datos

En muchas aplicaciones de ingeniera:

La mayora de datos (alrededor del 68 %) caen en el intervalo

x s,

x + s].

Casi todos los datos (alrededor del 95 %) caen en el intervalo

x 2s,

x + 2s].

Ejemplo 4 (tartas)

Datos: Consideramos dos casos:

Caso 1: Pedro y Juan comen una tarta cada uno.

Caso 2: Despus de un sorteo a cara o cruz, Pedro come dos tartas y Juan no come

ninguna.

Definimos la variable X = Numero de tartas que se come una persona de la poblacin

formada por Pedro y Juan.

Objetivo:

1. Calcula la media y varianza poblacional de X para el caso 1.

2. Calcula la media y varianza poblacional de X para el caso 2.


3. Interpreta los resultados
Operaciones 4:
1. Para el caso 1 tenemos:

P2

xi

1+1

i=1

=1

P2

(xi )2

(1 1)2 + (1 1)2

2 =

i=1

= 0.

2. Para el caso 2 tenemos:

P2

xi
2+0

i=1

=1

P2

(xi )2

(2 1)2 + (0 1)2

2 =

i=1

= 1.

3. Aunque en los dos casos tenemos la misma media, la varianza en el primer caso es nula

(datos sin dispersin) y en el segundo caso es 1 (datos con dispersin).

Solucin:

1. = 1 tarta y 2 = 0 tartas2.

2. = 1 tarta y 2 = 1 tarta2.

3. En los dos casos tenemos la misma media. Las varianzas indican que hay un nivel de

dispersin diferente.

URJC-DEIO C. Beltrn

6
1.1. Sntesis numrica de los datos

1.1.3.

Mediana, cuartiles y rango

Ejemplo 5 (Consumo de electricidad)

Datos: Consideramos el consumo de electricidad en KWh durante el ltimo mes de 5


familias.

D = {150, 90, 170, 120, 1000, 200}.

Objetivo:

Calcular los cuartiles y el rango para la muestra anterior.

Interpretar los resultados.

Operaciones 5:

Primero tenemos que ordenar los datos de menor a mayor

D = {901, 1202, 1503, 1704, 2005, 10006}.

El primer cuartil corresponde al dato interpolado en la posicin 1,75:

q1 = d 1

=d

=d

(n+1)

1 (6+1)

1,75

que podemos calcular como sigue:

da,b = da + 0, b (da+1 da)

d1,75 = d1 + 0, 75 (d2 d1)


= 90 + 0, 75 (120 90)

= 90 + 22, 50 = 112, 50.

El segundo cuartil (mediana):

q2 = d 2

=d

=d

(n+1)

2 (6+1)

3,50 = 160 KWh.

El tercer cuartil:

q3 = d 3

=d

=d

(n+1)

3 (6+1)

5,25

que podemos calcular como sigue:

d5,25 = d5 + 0, 25 (d6 d5)

= 200 + 0, 25 (1000 200)

= 400.

URJC-DEIO C. Beltrn
7

1.2. Sntesis grfica de los datos

El rango:

Rango = dn d1 = d6 d1 = 1000 90 = 910 KWh.

Solucin:

q1 = 112, 50, q2 = 160 y q3 = 400 (datos en KWh).

Tenemos aproximadamente:

Un 25 % de las observaciones menores o iguales a q1.

Un 50 % de las observaciones menores o iguales a q2.

Un 75 % de las observaciones menores o iguales a q3.

Notar que

x = 288, 33 KWh no es un valor central de la muestra D. Por eso decimos

que la media no es un parmetro robusto.

Sin embargo, q2 = 160 KWh s es un valor central de la muestra D. Por eso decimos que

la mediana es un parmetro robusto.

General (Mediana, cuartiles y rango)

Cuartiles qi :

Para calcularlos:

Primero tenemos que ordenar los datos de menor a mayor

D = {d1, d2, . . . , dn}.

qi es el dato interpolado en la posicin i (n + 1) :

qi = d i

=d

(n+1)
a,b

i {1, 2, 3}.

que podemos calcular como sigue:

da,b = da + 0, b (da+1 da).

El segundo cuartil se denomina mediana y es un parmetro robusto de centralidad.

El primer y tercer cuartil son parmetros de dispersin.

Los cuartiles particionan el conjunto de datos en cuartos (aproximadamente).

Rango:

Es una medida de dispersin.

Se calcula como la diferencia entre el dato mximo y el dato mnimo:

Rango = dn d1.

1.2.

Sntesis grfica de los datos

El objetivo de esta seccin es aprender a sintetizar la informacin contenida en los datos


mediante grficos estadsticos:

Histograma.

Diagrama de caja y bigotes.

Serie temporal.

URJC-DEIO C. Beltrn

8
1.2. Sntesis grfica de los datos

1.2.1.

Histograma

Ejemplo 6 (Pelotas de golf)

Figura 1.4: Tabla de las distancias recorridas por las pelotas de golf.

Datos:

Consideramos una proceso de fabricacin de pelotas de golf.

Para comprobar que un lote de pelotas de golf cumple con los estndares, una magnitud a

estudiar es la distancia recorrida despus de golpear la pelota con un palo de golf (bajo

ciertas condiciones homogneas).

Hemos tomado una muestra de 100 pelotas y hemos anotado la distancia recorrida (yar-

das) tras ser golpeadas (ver Fig. 1.4).

1 yarda = 0,91 m.

Objetivo: Construir un histograma del conjunto de datos.

Operaciones 6:

Al tener 100 observaciones, podemos disenar el histograma con

100 = 10 intervalos

de clase.

En la Tabla 1.1 tenemos los intervalos de clase, las marcas de clase y las frecuencias

absolutas.

A cada intervalo de clase le corresponde una columna.

La altura de cada columna es proporcional a la frecuencia absoluta y su base es el

correspondiente intervalo de clase.

Solucin: Ver Figura 1.5.

URJC-DEIO C. Beltrn

1.2. Sntesis grfica de los datos

Tabla 1.1: Frecuencias absolutas.

Nmero de

Intervalo
Marca

Frecuencia

intervalo

de clase

de clase

absoluta

[247, 5

252, 5[

250

[252, 5

257, 5[

255

[257, 5

262, 5[

260

[262, 5

267, 5[

265
10

[267, 5

272, 5[

270

28

[272, 5

277, 5[

275

19

[277, 5

282, 5[

280

20

[282, 5

287, 5[

285

[287, 5

292, 5[

290
4

10

[292, 5

297, 5[

295

Total

100

Figura 1.5: Histograma de las distancias en yardas alcanzadas por las pelotas de golf.

General (Histogramas)

Sintetiza de forma grfica los datos a analizar.

En muchas aplicaciones de ingeniera el correspondiente histograma tiene forma


acampanada.

En ese caso:

La mayora de datos (alrededor del 68 %) caen en el intervalo

x s,

x + s].

Casi todos los datos (alrededor del 95 %) caen en el intervalo

x 2s,

x + 2s].

Representacin de un histograma:

Se divide el rango de valores (datos) en intervalos, denominados intervalos de clase o

celdas.
URJC-DEIO C. Beltrn

10

1.2. Sntesis grfica de los datos

Si es posible, procurar que los intervalos de clase tengan la misma amplitud.

Un nmero de clases que se considera adecuado es

n, donde n es el nmero de datos.

El punto medio de cada intervalo de clase se denomina marca de clase.

Se construye la tabla de frecuencias absolutas, que contiene los intervalos de clase, su

marca de clase y su frecuencia absoluta.

A cada intervalo de clase le corresponde una columna.

La altura de cada columna es proporcional a la frecuencia absoluta y su base abarca el

intervalo de clase.

De forma anloga, tambin es posible representar los histogramas correspondientes a la


fre-

cuencia relativa y a la frecuencia acumulada, respectivamente:

La frecuencia relativa corresponde a la frecuencia absoluta dividida por el nmero total

de datos.

La frecuencia acumulada para un intervalo de clase corresponde a su frecuencia absoluta

ms la suma de las anteriores frecuencias absolutas.

1.2.2.

Diagrama de caja y bigotes (Box plot)

Ejemplo 7 (Aleacin ligera)

Datos:

Consideramos una proceso de fabricacin de piezas de una aleacin ligera de aluminio-


litio destinada a la construccin de aviones.

Nos interesa estudiar su resistencia a la compresin medida en psi (libras por pulgada

cuadrada).

Hemos tomado una muestra de 80 piezas y hemos medido su resistencia a la compresin

(ver Tabla 1.2).

Tabla 1.2: Resistencia a la compresin (en psi).

105

221

183

186

121

181

180

143

97

154

153

174

120

168

167

141

245

228

174
199

181

158

176

110

163

131

154

115

160

208

158

133

207

180

190

193

194

133

156

123

134

178

76

167
184

135

229

146

218

157

101

171

165

172

158

169

199

151

142

163

145

171

148

158

160

175

149

87

160
237

150

135

196

201

200

176

150

170

118

149

Objetivo: Construir un diagrama de caja y bigotes para estos datos.

Operaciones 7:

URJC-DEIO C. Beltrn

11
1.2. Sntesis grfica de los datos

Se calculan los cuartiles: q1 = 143,50, q2 = 161,50 y q3 = 181,00.

Rango intercuartlico: RIC = 37,5.

Valores atpicos: 76, 87 y 245.

Valores atpicos extremos: No hay.

Solucin: Ver Figura 1.6

Figura 1.6: Diagrama de caja y bigotes para el ejemplo de la aleacin ligera.

General (Representacin de un diagrama de caja y bigotes)

Deben calcularse (ver Fig. 1.7):

Los 3 cuartiles del conjunto de datos.

Rango intercuartlico (RIC), distancia entre q3 y q1.

Valores tpicos y atpicos (outliers) : Observaciones que caen dentro y fuera,


respectivamente, del intervalo

[ q1 1,5 RIC, q3 + 1,5 RIC ].

Valores atpicos extremos : Observaciones fuera del intervalo


[ q1 3 RIC, q3 + 3 RIC ].

Se dibuja una caja entre q1 y q3.

Se dibuja una lnea vertical en la mediana.

Cada bigote se dibujan hasta la observacin ms extrema tpica.

Los valores atpicos y atpicos extremos se representan por puntos.

El box-plot facilita la comparacin grfica de varios conjuntos de datos (ver Fig. 1.8).

URJC-DEIO C. Beltrn

12
1.2. Sntesis grfica de los datos

Figura 1.7: Representacin de un diagrama de caja y bigotes.

Figura 1.8: Comparacin de varios conjuntos de datos.

1.2.3.

Series temporales

Ejemplo 8 (Venta de coches)

Datos: En un concesionario, las ventas trimestrales de coches durante tres anos se


muestran en la Tabla 1.3.

Tabla 1.3: Ventas de coches por trimestres.

2014

Ventas

2015

Ventas

2016

Ventas

17

20

28

20

26
2

30

14

20

21

13

17

Objetivo: Representar estos datos ordenados de forma cronolgica.

Solucin: Ver Figura 1.9.

General (Series temporales)

URJC-DEIO C. Beltrn

13
1.3. Datos bivariantes

Figura 1.9: Serie temporal de las ventas de coches trimestrales.

Es un conjunto de datos en el que las observaciones se ordenan de forma cronolgica.

Para representar una serie temporal el eje horizontal corresponde al tiempo y el eje
vertical corresponde a la magnitud o caracterstica analizada.

La representacin de una serie temporal es muy til para desvelar patrones temporales
(ten-

dencia, ciclos, etc.).


Una serie temporal tambin puede ser til para confirmar que no existe ningn patrn
temporal (Ver Figura 1.10).

Figura 1.10: Serie temporal de los datos del ejemplo de la aleacin ligera.

1.3.

Datos bivariantes

En esta seccin estudiaremos:

El diagrama de dispersin.

El coeficiente de correlacin.

URJC-DEIO C. Beltrn

14

1.3. Datos bivariantes

Tabla 1.4: Datos del ejemplo de la placa base.

1.3.1.
Diagrama de dispersin (Scatter plot)

Ejemplo 9 (Placa base)

Datos:

Consideramos un proceso de fabricacin de semiconductores y placas base.

En ese proceso, cada semiconductor es conectado a una placa base mediante un cable.

Las variables que se quiere analizar son:

Y = Resistencia de la conexin (fuerza necesaria para arrancar el semiconductor

de la placa base).

X1 = Longitud del cable que conecta el semiconductor a la placa base.

X2 = Altura del semiconductor.

En la Tabla 1.4 tenemos los datos correspondientes a 25 observaciones de (X1, X2, Y ).

Objetivo:

Representar los diagramas de dispersin para los pares de variables (X1, Y ) y (X2, Y ).

Analizar la relacin entre las variables representadas.

Operaciones 9:

En la Figura 1.11 hemos representado los dos diagramas de dispersin.

Podemos observar que hay una fuerte relacin lineal entre las variables Longitud del

cable y Resistencia de la conexin.

Adems esta relacin es positiva (la pendiente de la recta es positiva).

Sin embargo, hay una dbil relacin lineal entre las variables Altura del semiconductor

y Resistencia de la conexin.

URJC-DEIO C. Beltrn

15
1.3. Datos bivariantes

Figura 1.11: Diagramas de dispersin.

Solucin: Ver Figura 1.11.

General (Diagrama de dispersin - scatter plot)

Un diagrama de dispersin permite representar pares de observaciones correspondientes


a dos

variables X e Y .

Para representar un diagrama de dispersin necesitamos pues un conjunto de pares de


datos

D = {(x1, y1), . . . , (xn, yn)}.

Cada par dar lugar a un punto en el plano xy.

La nube de puntos resultante se denomina diagrama de dispersin.

El diagrama de dispersin permite analizar la existencia o no de relaciones funcionales


entre las variables analizadas (relacin lineal, cuadrtica, etc.).

1.3.2.

Correlacin

Ejemplo 10 (Placa base - continuacin)

Datos:

Y = Resistencia de la conexin (fuerza necesaria para arrancar el semiconductor de la

placa base).
X = Longitud del cable que conecta el semiconductor a la placa base.

El coeficiente de correlacin muestral r se calcula mediante la frmula:

Sxy

r=

pSxxSyy

URJC-DEIO C. Beltrn

16

1.3. Datos bivariantes

donde

Pn

Pn

xi

yi

i=1

i=1

xy

xiyi

n
i=1

Pn

xi

i=1

xx

x2

i=1

Pn

yi

i=1

yy

y2
i

i=1

Objetivo:

Calcular la correlacin muestral entre las variables X Y a partir de los datos de la tabla

1.4.

Interpretar el resultado.

Operaciones 10: Tenemos que

Sxy

r=

= 0,982,

pSxxSyy

donde hemos usado los siguientes resultados:

P25

P25

i=1

i=1

i
xy = P25

= 2027,74

i=1

iyi

25

P25 x

i=1

iyi = 8008,50

P25 x

i=1

i = 206

P25 y

i=1

i = 725,82

P25

i=1

xx = P25

x2

= 698,56

i=1
i

25

P25 x2 = 2396

i=1

P25

i=1

yy = P25

y2

= 6106,41

i=1

25

P25 y2 = 27179.

i=1

Solucin:

La correlacin muestral entre las variables X e Y es 0,982.

Existe pues una fuerte relacin lineal y positiva entre la Longitud del cable y la

Resistencia de la conexin, tal como ya vimos en el diagrama de dispersin (ver Figura

1.11).
General (Coeficiente de correlacin)

Correlacin poblacional :

Mide la relacin lineal entre dos variables X e Y.

URJC-DEIO C. Beltrn

17

1.3. Datos bivariantes

Si el conjunto de datos de la poblacin es finito

D = {(x1, y1), . . . , (xN , yN )},

se calcula mediante la frmula

PN

(xi x)(yi y)

i=1

PN

(x

PN

(y

i=1

i x)2

i=1

i y )2
Correlacin muestral r :

Normalmente no podremos calcular la correlacin poblacional por ser la poblacin de-

masiado grande (incluso infinita).

La estimaremos (aproximaremos) tomando una muestra de tamano n y calculando la

correspondiente correlacin muestral:

Pn

(xi

x)(yi

y)

r=

i=1

p(Pn (x

(y

i=1

x)2) (Pn

i=1

y)2)

Frmula computacional para la correlacin muestral:

Sxy

r=

pSxxSyy
donde

Pn

Pn

, xi

yi

i=1

i=1

xy

xiyi

i=1

Pn

xi

i=1
xx

x2

i=1

Pn

yi

i=1

yy

y2

i=1

Mide la relacin lineal entre dos variables X e Y .

El valor de r est en en intervalo [1, 1] y no tiene unidades.

Valores de r cercanos a 0 indican que entre las variables X e Y no hay relacin

lineal.
Valores de |r| cercanos a 1 indican que entre las variables X e Y hay relacin lineal.

Correlacin fuerte

|r| [0,8, 1]

Correlacin moderada

|r| [0,5, 0,8[

Correlacin dbil

|r| [0, 0,5[

URJC-DEIO C. Beltrn

18

1.3. Datos bivariantes

URJC-DEIO C. Beltrn

19

1.3. Datos bivariantes

URJC-DEIO C. Beltrn

20

Captulo 2

Probabilidad y variables aleatorias

2.1.

Introduccin

Ejemplo 11 (Experimentos aleatorios)


Resultado al lanzar una moneda.

Tiempo que tardar en llegar a la universidad.

Nmero de intentos hasta conseguir un objetivo.

etc.

General No podemos dominar lo aleatorio...

Ejemplo 12 (Juego de los dados)

Objetivo: Disenar una estrategia para el juego de lanzar dos dados.

Datos:

Lanzamos dos dados y sumamos los puntos obtenidos

Total Puntos = D1 + D2.

Nuestro objetivo final es adivinar el total de puntos (apostamos).

Operaciones 12:

Da igual el nmero total de puntos por el que apostemos ?

O por el contrario, hay algn nmero total ventajoso ?

Solucin: Se deja al lector...

General (Filosofa de este curso)

21
2.2. Variables aleatorias y probabilidad

Figura 2.1: La variabilidad puede perturbar la red de telefona.

En general aunque no podremos dominar lo aleatorio, s podremos estudiarlo y disenar


alguna estrategia ventajosa.

En el mbito de la ingeniera (fiabilidad, control de calidad, gestin de embalses, procesos


industriales, etc.) tambin aparecen fenmenos aleatorios.

No podremos controlar totalmente estos fenmenos aleatorios.

Pero s podremos disenar estrategias ventajosas para gestionar estos fenmenos.

2.2.

Variables aleatorias y probabilidad

El objetivo de esta seccin es:

Introducir de forma intuitiva los conceptos de:

Variable aleatoria (VA).

Probabilidad.

Dar una definicin de probabilidad y algunas de sus propiedades bsicas.

2.2.1.

Variables aleatorias
Ejemplo 13 (Red de telefona)

Objetivo: Disenar la red de telefona interna de una compana.

Datos:

Asumimos que cada lnea no puede transportar ms de una conversacin de forma si-

multnea.

La decisin principal es el nmero de lneas que debe tener el sistema de telefona.

La empresa debe satisfacer sus necesidades al mnimo coste.

La compana ha estimado que en media las llamadas:

URJC-DEIO C. Beltrn

22

2.2. Variables aleatorias y probabilidad

Ocurren cada 5 minutos.

Duran 5 minutos.

Operaciones 13:

Con los datos promedio, una nica lnea sera suficiente.

Sin embargo, las llamadas pueden durar ms de 5 minutos (ver Fig. 2.1).

Si definimos la variable aleatoria

X = Duracin de una llamada (minutos).

Antes de cada llamada, slo podemos estimar cuanto va a durar la llamada. Estimamos

X.

Despus de cada llamada, hemos observado su duracin exacta. Observamos X.

Un poco de vocabulario: El soporte de X es S = [0, +].

Solucin: El diseno de la red de telefona interna deber tener en cuenta la variabilidad de


la duracin de las llamada.

General (Variable aleatoria (VA))


Concepto:

Es una variable numrica cuyo valor observado puede variar de forma impredecible

cada vez que repetimos un mismo experimento.

A menudo usaremos la letra X para representar una variable aleatoria.

No debemos confundir una variable aleatoria con una variable algebraica (solucin de

una ecuacin).

Soporte: Denominamos soporte de una variable aleatoria X al conjunto S de todos los


valores que puede tomar X.

Tipos:

Variables aleatorias continuas:

Su soporte es un intervalo en R o unin de intervalos.

Ejemplos: Duracin de una llamada telefnica, Intensidad de la corriente elctrica,

longitud, presin, temperatura, tiempo, peso, etc.

Variables aleatorias discretas:

Su soporte es un conjunto discreto, es decir, no contiene intervalos.

Ejemplos: Nmero de llamadas a una centralita por minuto, nmero de piezas defec-

tuosas en un proceso de fabricacin en cadena, Nmero de intentos hasta alcanzar el

xito en un experimento, etc.

URJC-DEIO C. Beltrn

23

2.2. Variables aleatorias y probabilidad

2.2.2.

Probabilidad

Ejemplo 14 (Red de telefona - Continuacin I)


Objetivo: Cmo podemos cuantificar la variabilidad aleatoria de la duracin de las
llamadas

telefnicas X?

Datos:

La compana ha estimado que en media las llamadas:

Ocurren cada 5 minutos.

Duran 5 minutos.

Operaciones 14:

La compana, aunque no puede predecir con exactitud cunto va a durar cada llamada,

sabe que:

(Prcticamente) todas las llamadas duran entre 0 y 15 minutos. Escribiremos:

P (X [0, 15]) = 100 %

La mayora de llamadas (80 %) duran entre 2 y 8 minutos.

P (X [2, 8]) = 80 %.

Otra forma de escribir lo mismo:

P (2 X 8) = 80 %.

Solucin: Podemos basarnos en el clculo de probabilidades y lo aplicaremos a la variable


aleatoria X (duracin de las llamadas).

General (Idea intuitiva de probabilidad)

La probabilidad cuantifica el grado de verosimilitud o posibilidad de un suceso.

Una variable aleatoria X toma valores en R. Para cuantificar el grado de verosimilitud de


esos valores, nos basaremos en el clculo de probabilidades. Escribiremos:

P (X [a, b]) = P (a X b) = [0, 1].

En las aplicaciones de ingeniera, la probabilidad se usa para representar el riesgo o la


incertidumbre.

Expresamos la probabilidad con un nmero del intervalo [0, 1] (en tanto por uno) o [0 %,
100 %]
(en tanto por ciento).

URJC-DEIO C. Beltrn

24

2.2. Variables aleatorias y probabilidad

Para realizar clculos de probabilidad, siempre usaremos la notacin tanto por uno.

Nmeros altos indican una mayor verosimilitud.

Ejemplo 15 (Juego de los dados - Continuacin I)

Datos:

Lanzamos dos dados y sumamos los puntos obtenidos. Definimos la variable aleatoria

(VA) X =Suma de los puntos:

X = D1 + D2.

Los posibles valores para X son 2, 3, . . ., 12 (soporte de X).

Regla de Laplace:

Se puede aplicar en los experimentos donde todos sus sucesos elementales tienen la

misma probabilidad de ocurrir (sucesos equiprobables).

En esas condiciones, la probabilidad de un suceso A se puede calcular:

nmero de casos favorables

P (A) =

nmero de casos posibles

Objetivo: Calcular P (X = k) para k = 0, 1, 2, 3, . . .

Operaciones 15:

El lanzamiento de dos dados se puede representar por 36 pares de resultados. Por ejemplo

(1, 3). En este caso X = 4.

Tenemos pues 36 sucesos elementales y cada uno de ellos tiene las mismas posibilidades
de ocurrir (con dados equilibrados).

URJC-DEIO C. Beltrn

25

2.2. Variables aleatorias y probabilidad

Aplicando la regla de Laplace tendremos que:

P (X = 0)

P (X = 1) = 0

P (X = 2)

1/36

P (X = 3)

2/36

P (X = 4)

3/36

P (X = 5)

4/36

P (X = 6)

5/36

P (X = 7)

=
6/36

P (X = 8)

5/36

...

P (X = 12)

1/36

P (X 13)

Solucin: Descrita en el apartado anterior.

General (Regla de Laplace)

Pierre Simon, Marqus de Laplace, (Francia, 1749-1827).

Se puede aplicar en los experimentos donde todos los sucesos elementales tienen la misma

probabilidad de ocurrir (sucesos equiprobables) .

En esas condiciones, la probabilidad de un suceso A se puede calcular:

nmero de casos favorables

P (A) =

nmero de casos posibles

Ejemplo 16 (Lanzamiento de un nico dado)

Objetivo: Ilustrar algunas definiciones y propiedades del clculo de probabilidades.

Datos:

Consideramos el experimento aleatorio lanzar un dado y su espacio muestral:


E = {C1, C2, C3, C4, C5, C6},

donde Ci significa obtener la cara i.

URJC-DEIO C. Beltrn

26

2.2. Variables aleatorias y probabilidad

Consideramos los sucesos:

A12 = {C1, C2}

A23 = {C2, C3}

A34 = {C3, C4},

es decir, el suceso A12 ocurre cuando sale C1 o C2 y los sucesos A23 y A34, anlogamente.

Operaciones 16: Se cumple que

P (E) = 6/6 = 1.

P (A12) = 2/6 [0, 1].

Probabilidad de la interseccin:

P (A12 A23) = P ({C2}) = 1/6.

Probabilidad de la unin:

P (A12 A23) = P (A12) + P (A23) P (A12 A23)

3/6

2/6 + 2/6 1/6.

La probabilidad del suceso complementario A012:

P (A012) = P ({C3, C4, C5, C6})

4/6

=
1 P (A12).

La probabilidad del suceso imposible:

P () = 0.

Intuitivamente est claro que los sucesos A12 y A34 no son independientes (si ocurre uno

no ocurre el otro y viceversa). Formalmente tambin est claro que no son independientes,

al no cumplirse la siguiente igualdad

P (A12 A34) = P (A12) P (A34),

pues la parte izquierda es P () = 0 y la parte derecha es

36

URJC-DEIO C. Beltrn

27

2.2. Variables aleatorias y probabilidad

General (Probabilidad)

Espacio muestral: Conjunto de todos los resultados posibles de un experimento aleatorio.


Lo

denotamos por E.
Suceso complementario: Dado un suceso A, su complementario, que denotamos por A0,
corresponde a E \ A y por tanto

A A0 = E.

Definicin de probabilidad:

Definicin de Kolmogorov.

Una funcin de probabilidad es toda funcin

P : E R

que cumple los tres axiomas siguientes:

1. La probabilidad siempre tiene un valor positivo:

P (A) 0 para cualquier suceso A E.

2. Suceso seguro:

P (E) = 1.

3. Probabilidad de la unin disjunta:

Si A, B E tal que A B = , entonces

P (A B) = P (A) + P (B).

Propiedades: Dados dos sucesos cualesquiera A, B E tenemos las siguientes propiedades.

1. P (A) [0, 1].

2. Probabilidad del suceso imposible:

P () = 0.

3. Probabilidad del suceso complementario:

P (A0) = 1 P (A).

4. Probabilidad de la unin de sucesos:

P (A B) = P (A) + P (B) P (A B).

General (Probabilidad condicional)

Probabilidad condicional:
La probabilidad condicional se refiere a la probabilidad de que ocurra un suceso A

asumiendo que otro suceso B ha ocurrido.

Por ejemplo, cul es la probabilidad de que en un determinado tramo de carretera haya

algn accidente de coche (suceso A) en un da de lluvia (suceso B).

La probabilidad condicional se escribe P (A | B) y se lee la probabilidad de A dado

B.

URJC-DEIO C. Beltrn

28

2.2. Variables aleatorias y probabilidad

Dados dos sucesos A y B, con P (B) > 0, la probabilidad de A dado B est definida

como:

P (A B)

P (A | B) =

P (B)

Sucesos independientes: Los sucesos A y B son independientes si:

La ocurrencia de uno no influye en la ocurrencia del otro (definicin intuitiva).

Por ejemplo, el resultado obtenido al lanzar una moneda y el resultado obtenido al lanzar

un dado son dos sucesos independientes.

En caso contrario, decimos que los sucesos son dependientes.

Por ejemplo, la cantidad de accidentes de coche y la cantidad de lluvia en un mismo

tramo de carretera en un da determinado, son sucesos dependientes (a ms lluvia ms

accidentes).

Formalmente, decimos que A y B son sucesos independientes si

P (A | B) = P (A)
y

P (B | A) = P (B).

Propiedades: Dados dos sucesos cualesquiera A, B E tenemos las siguientes propiedades.

1. Los sucesos A y B son independientes si y solo s:

P (A B) = P (A) P (B).

2. Si los sucesos A y B son dependientes entonces:

P (A B) = P (A) P (B | A).

URJC-DEIO C. Beltrn

29

2.3. Variables aleatorias discretas

2.3.

Variables aleatorias discretas

Objetivo: En esta seccin estudiaremos la variables aleatorias (VA) discretas, es decir las
que slo pueden tomar valores en un conjunto discreto (no contiene intervalos).

Apartados: Esta seccin consta de tres bloques:

Concepto y propiedades de las VA discretas.

Distribucin binomial.

Distribucin de Poisson.

2.3.1.

Concepto y propiedades

Ejemplo 17 (Transmisin digital)

Datos:

En las transmisiones digitales, hay cierta probabilidad de que un bit (0/1) sea recibido

errneamente.

Definimos la variable aleatoria


X = Nmero de bits recibidos errneamente en un trasmisin de 4 bits

Los posibles valores para X son

S = {0, 1, 2, 3, 4}.

Supongamos que tenemos el siguiente reparto de probabilidades:

P (X = 0)

0,6561

P (X = 1)

0,2916

P (X = 2)

0,0486

P (X = 3)

0,0036

P (X = 4)

0,0001

Objetivo:

1. Calcular la suma de las anteriores probabilidades


2. Representar el reparto de probabilidades de X
Operaciones 17:
1. Se verifica fcilmente que las suma es

X P (X = x) = 1.

x=0

2. El reparto de probabilidades de X puede verse en la Fig. 2.2.

General (Funcin de masa de probabilidad)

URJC-DEIO C. Beltrn

30
2.3. Variables aleatorias discretas

Figura 2.2: Reparto de probabilidades de X.

Figura 2.3: Interpretacin de la funcin de probabilidad.

Concepto: Dada una VA discreta con soporte

S = {x1, . . . , xn}

la funcin de masa de probabilidad se define como

f (xi) = P (X = xi).

A menudo la llamamos simplemente funcin de probabilidad.

Propiedades:

1. La funcin de masa de probabilidad puede interpretarse mediante una vara, donde


repar-

timos pequenas masas (ver Fig.2.5). Las masas las colocamos en las posiciones xi y la

cantidad de masa viene dada por f (xi).

2. La funcin de probabilidad es positiva:

f (xi) 0.
3.
n
X f(xi) = 1.

i=1

URJC-DEIO C. Beltrn

31

2.3. Variables aleatorias discretas

Ejemplo 18 (Transmisin digital - Continuacin I)

Objetivo: Calcular y representar la funcin de distribucin.

Datos:

Recordamos la definicin de

X = Nmero de bits recibidos errneamente en una trasmisin de 4 bits.

F (x), la funcin de distribucin de X, corresponde a la la probabilidad acumulada

hasta x:

F (x) = P (X x) =

f (xi).

xix

En el caso de la transmisin digital tenemos:

f (0)

0,6561

f (1)

=
0,2916

f (2)

0,0486

f (3)

0,0036

f (4)

0,0001

Operaciones 18: Para calcular F (x) distinguimos dos casos:

Caso 1: x pertenece al soporte, es decir,

x S = {0, 1, 2, 3, 4}.

En este caso, tenemos:

F (0)

P (X 0) = 0,6561

F (1)

P (X 1) = 0,9477

F (2)

P (X 2) = 0,9963

F (3)

=
P (X 3) = 0,9999

F (4)

P (X 4) = 1,0000.

Caso 2: x no pertenece al soporte, es decir, x 6 S.

Por ejemplo 1, 2 6 S :

F (1,2) = F (1) = 0,9477.

En general

F (x) = F (xi)

para cualquier

x [xi, xi+1[.

URJC-DEIO C. Beltrn

32

2.3. Variables aleatorias discretas

Figura 2.4: Funcin de distribucin F (x).

En la Fig 2.4 tenemos la representacin de F (x) para cualquier valor x R.

Solucin: La funcin de distribucin de X viene dada por


0,0000

x<0

0,6561

0x<1

0,9477

1x<2

F (x) =

0,9963

2x<3

0,9999

3x<4
1,0000

4 x.

General (Funcin de distribucin)

Concepto: Dada una VA discreta con soporte

S = {x1, . . . , xn}

la funcin de distribucin se define como

F (x) = P (X x) =

f (xi).

xix

Propiedades:

1. La funcin de distribucin de X, corresponde a la probabilidad acumulada hasta x.

2. La funcin de distribucin es positiva:

F (x) 0.

3. La funcin de distribucin es lineal a trozos y discontinua en los puntos del soporte. El

salto en xi coincide con f (xi).

Ejemplo 19 (Transmisin digital - Continuacin II)

Objetivo: Calcular la media, la varianza y la desviacin tpica de X.

Datos:

URJC-DEIO C. Beltrn

33

2.3. Variables aleatorias discretas

Recordamos la definicin de

X = Nmero de bits transmitidos errneamente en un trasmisin de 4 bits.


La funcin de probabilidad de X es:

f (0)

0,6561

f (1)

0,2916

f (2)

0,0486

f (3)

0,0036

f (4)

0,0001

La media o esperanza de una VA discreta se define como:

= E(X) =

xif (xi).

i=1

La varianza 2 o V (X) de una VA discreta se define como:

X
2 = V (X) = E[(X )2] =

(xi )2f (xi).

i=1

La desviacin estandar = pV (X).

Operaciones 19:

Calculamos la media:

0 f (0) + 1 f (1) + 2 f (2)

3 f (3) + 4 f (4)

0 0,6561 + 1 0,2916 + 2 0,0486

3 0,0036 + 4 0,0001

0,4 bits.

URJC-DEIO C. Beltrn

34
2.3. Variables aleatorias discretas

Figura 2.5: Interpretacin de la funcin de probabilidad.

Calculamos la varianza:

2 =

(0 0,4)2 f (0) + (1 0,4)2 f (1)

(2 0,4)2 f (2) + (3 0,4)2 f (3)

(4 0,4)2 f (4)

(0 0,4)2 0,6561 + (1 0,4)2 0,2916

(2 0,4)2 0,0486 + (3 0,4)2 0,0036

(4 0,4)2 0,0001

=
0,36 bit2.

Calculamos la desviacin tpica

0,36 = 0,6 bit.

Solucin: = 0,4 bits, 2 = 0,36 bits2 y = 0,6 bits.

General (Media, varianza y desviacin tpica)

Media:

Es un parmetro de posicin (centralidad).

Puede ser interpretada como el centro de gravedad de la vara de la Fig. 2.5.

Su definicin es:

= E(X) =

xif (xi).

i=1

No hay que olvidar las unidades (metros, segundos, etc.)

URJC-DEIO C. Beltrn

35

2.3. Variables aleatorias discretas

Varianza:

Es un parmetro de dispersin.

Su definicin es:

X
2 = V (X) = E[(X )2] =

(xi )2f (xi).

i=1

En general resulta ms conveniente calcular mediante la frmula equivalente:

2 = V (X)

E(X2) [E(X)]2

x2

i f (xi)
2.
i=1
No hay que olvidar las unidades (metros2, segundos2, etc.)

Desviacin tpica:

Es un parmetro de dispersin.

Su definicin es:

V (X).

No hay que olvidar las unidades (metros, segundos, etc.)

2.3.2.

Distribucin binomial

Ejemplo 20 (Combinaciones)

Objetivo: Calcular e interpretar

10.

Operaciones 20:

10

10!

10 9 8

= 120.

3
3! 7!

3!

Solucin:

10 = 120 y representa el nmero de combinaciones de 10 elementos tomados de 3 en

10

C(10, 3) =

= 120.

Por ejemplo, nmero de grupos de 3 alumnos que se pueden formar con 10 alumnos.

Ejemplo 21 (Molcula txica)

Datos:

En un laboratorio han recogido 4 muestras de aire.

Cada una de estas muestras tiene una probabilidad del 10 % de contener una determinada

molcula txica (muestra contaminada).

Se asume que las muestras son independientes (composiciones independientes).

URJC-DEIO C. Beltrn

36

2.3. Variables aleatorias discretas

Objetivo:

1. Probabilidad de que la primera y segunda muestra estn contaminadas (C) y las otras
dos

no (N).

2. Cuntas combinaciones puede haber con dos muestras contaminadas?


3. Probabilidad de que exactamente 2 muestras de las 4 examinadas, estn contaminadas.

Operaciones 21:

1. Lo que nos piden es:

P (C y C y N y N ) = P (C C N N ).

Propiedad: Si A y B son dos sucesos independientes entonces

P (Ocurra A y Ocurra B) = P (Ocurra A) P (Ocurra B).

En notacin matemtica:

P (A B) = P (A) P (B).

En nuestro caso:

P (C C N N )

P (C) P (C) P (N ) P (N )

0,1 0,1 0,9 0,9

0,0081.

Para abreviar escribiremos

P (C C N N ) = P (CCN N ).

2. Puede haber 6 combinaciones con 2 muestras contaminadas:

4!

C(4, 2) =

= 6.

2
2! 2!

3. Definimos la variable aleatoria X :

X = Nmero de muestras contaminadas.

Soporte S = {0, 1, 2, 3, 4}.

Lo que nos piden es P (X = 2).

URJC-DEIO C. Beltrn

37

2.3. Variables aleatorias discretas

Puede haber dos muestras contaminadas de 6 formas diferentes (6 combinaciones):

{X = 2} {CCN N, CN CN, CN N C,

N CCN, N CN C, N N CC}

Como la probabilidad asociada a cada uno de los 6 casos es la misma tendremos que

(probabilidad de la unin de sucesos):

P (X = 2)

6 P (CCN N )

6 0,12 0,92

4,86 %

Veremos que el caso que hemos visto es un caso de distribucin binomial de parme-

tros n = 4 y p = 0,10.

En este y otros casos similares, podremos aplicar directamente la frmula

P (X = 2) =
0,12 0,942

Solucin:

1. Probabilidad de que la primera y segunda muestra estn contaminadas y las otras dos
no

= 0.81 %.

2. Pueden haber 6 combinaciones con 2 muestras contaminadas.

3. Probabilidad de que exactamente 2 muestras de las 4 examinadas, estn contaminadas

= 4.86 %.

General (Distribucin binomial)

Experimento binomial: Experimento aleatorio que consiste en la realizacin de n pruebas


idnticas y que cumple:

1. Las pruebas son independientes.

2. Cada prueba tiene slo dos posibles resultados (xito o fracaso, 1/0).

3. La probabilidad de xito, p, en cada prueba permanece constante.

Variable aleatoria binomial: VA X asociada a un experimento binomial y definida como:

X = Nmero de xitos .

Escribiremos

X Bi(n, p).

URJC-DEIO C. Beltrn

38

2.3. Variables aleatorias discretas

Funcin de probabilidad binomial:

f (x) = P (X = x) =
px (1 p)nx,

donde

n!

x!(n x)!

Esperanza y varianza: Si X Bi(n, p), aplicando la frmula general para y , se obtiene las
siguientes frmulas particulares para el caso binomial:

= E(X) = np

2 = V (X) = n p (1 p).

Variable aleatoria Bernoulli: Es el caso particular de VA binomial donde n=1.

X Ber(p),

si y slo si,

X Bi(1, p).

Ejemplo 22 (Experimentos binomiales)

Objetivo: Citar algunos ejemplos de experimentos binomiales.

Solucin:

1. Lanzar una moneda 10 veces. X = Nmero de caras. Distribucin de X?

2. En un examen tipo test de 20 preguntas, cada pregunta consta de 4 posibles respues-

tas. Suponemos que elegimos nuestra respuestas al azar y que contestamos todas las

preguntas. X = Nmero de respuestas acertadas. Distribucin de X?

3. En un proceso de fabricacin de botellas de plstico, una mquina tiene una tasa de fallo
del 1 %. Analizamos 100 botellas. X = Nmero de botellas defectuosas. Distribucin de

X?.

Ejemplo 23 (Grficas)

Objetivo: Representar la grfica de la funcin de probabilidad de

X Bi(20, 0,5).

Datos: Tenemos que representar

20

f (x) =

0,5x 0,520x.

Operaciones 23: Primero necesitamos el soporte de X

S = {0, 1, 2, . . . , 20}.

Solucin: Ver Fig. 2.6

URJC-DEIO C. Beltrn

39

2.3. Variables aleatorias discretas

Figura 2.6: Distribucin binomial para diferentes valores de n y p.

2.3.3.
Ejercicios

2.3.4.

Distribucin de Poisson

Ejemplo 24 (Cable de cobre)

Datos:

En la fabricacin de cable de cobre se ha observado que ste presenta defectos de fabri-

cacin de forma aleatoria a lo largo de la longitud del cable.

La tasa de defectos es:

= 2,3 defectos/m.

X = Nmero de defectos observados en 1 m de cable.

Se ha observado que si dividimos 1m en subintervalos de 1 mm:

1. La probabilidad de tener ms de un defecto por subintervalo es cero.

2. La probabilidad de tener un defecto es la misma para todos los subintervalos y

proporcional a la longitud de los subintervalos.

3. Los defectos se producen en cada subintervalo de forma independiente.

En estas condiciones se puede modelizar X como una VA de Poisson con parmetro

= 2,3 defectos/m:

X P o(2,3).

Propiedad 1: Si X P o(), entonces su funcin de probabilidad es:

f (x) =

e,

x!

para x S = {0, 1, 2, . . .} y 0 en otro caso.

Propiedad 2: Sean X e Y variables aleatorias que cuentan el nmero de defectos en un


cable de cobre de longitud L y kL, respectivamente.

Si X P o()

entonces

Y P o(k).

Objetivo:

1. Probabilidad de tener exactamente 2 defectos en 1 m de cable.

URJC-DEIO C. Beltrn

40

2.3. Variables aleatorias discretas

2. Probabilidad de tener exactamente 10 defectos en 5 m de cable.

3. Probabilidad de tener al menos 1 defecto en 2 m de cable.

Operaciones 24:

Objetivo 1:

X := Nmero de defectos observados en 1 m de cable.

Dado que X P o(2, 3), entonces:

2, 32

P (X = 2) = fX (2) =

e2,3 = 0,265.

2!

Objetivo 2:

Y := Nmero de defectos observados en 5 m de cable.

Por la Propiedad 2:

Y P o(5 2,3) = P o(11,5),

entonces

11,510
P (Y = 10) = fY (10) =

e11,5 = 0,113.

10!

Objetivo 3:

Z := Nmero de defectos observados en 2 m de cable.

Por la Propiedad 2:

Z P o(2 2,3) = P o(4,6),

entonces

P (Z 1)

1 P (Z = 0) = 1 fZ(0)

4,60

e4,6 = 0,9899

0!

Solucin:

1. La probabilidad de tener exactamente 2 defectos en 1 m de cable es 26,5 %.

2. La probabilidad de tener exactamente 10 defectos en 5 m de cable es 11,3 %.

3. La probabilidad de tener al menos 1 defecto en 2 m de cable es 98,99 %.

General (Distribucin de Poisson)

URJC-DEIO C. Beltrn

41
2.3. Variables aleatorias discretas

Figura 2.7: En un proceso de Poisson los sucesos ocurren de forma aleatoria.

Figura 2.8: Funcin de probabilidad de una VA de Poisson.

Proceso de Poisson:

Ver Fig.2.7.

Consideramos un intervalo (espacial, temporal, etc.) de longitud L en el que contabiliza-

mos ocurrencias (defectos de fabricacin, llegadas de clientes, etc.)

Un proceso de Poisson es un experimento aleatorio en el que podemos particionar el

anterior intervalo en subintervalos iguales y suficientemente pequenos de forma que:

1. La probabilidad de tener ms de una ocurrencia por subintervalo es cero.

2. La probabilidad de tener una ocurrencia es la misma para todos los subintervalos y

proporcional a la longitud de los subintervalos.

3. Las ocurrencias se producen en cada subintervalo de forma independiente.

Variable aleatoria de Poisson: VA X asociada a un proceso de Poisson y definida como:


X = Nmero de ocurrencias por unidad de observacin

Escribiremos

X P o()

donde es la tasa de ocurrencias (nmero esperado de ocurrencias por unidad de


observacin).

Funcin de probabilidad de Poisson:

f (x) =

e,

x!

para x S = {0, 1, 2, . . .} y 0 en otro caso. En la Fig. 2.8 podemos ver representada la funcin
de probabilidad para varias VA de Poisson.

URJC-DEIO C. Beltrn

42

2.3. Variables aleatorias discretas

Esperanza y varianza: Si X P o(), aplicando la frmula general para y , se obtiene las

siguientes frmulas particulares para el caso de una VA de Poisson:

= E(X) =

2 = V (X) = .

Aproximacin de la binomial por la Poisson: Si

X Bi(n, p)

con n grande y p pequeno, entonces

X P o( = np).

Una posible regla para definir grande y pequeno es:


n

20

0.05

100

0.10

Suma de VA Poisson: Si

Y=

Xi,

i=1

donde Xi P o(i), (i = 1, . . . , n)

son VA independientes, entonces

Y P o( =

i).

i=1

Ejemplo 25 (Ms procesos de Poisson)

Objetivo: Citar algunos ejemplos de procesos de Poisson.

Solucin:

1. A un trabajador le llegan en media 5 correos/minuto (durante su jornada laboral). X =

Nmero de correos recibidos por el trabajador en un minuto. Distribucin de X?


2. Un instrumento de precisin puede fallar debido a la presencia de partculas
contaminan-

tes. El instrumento falla una media de 0.1 veces/hora. X = Nmero de fallos por cada

jornada de trabajo (10 h). Distribucin de X?

General (Otras distribuciones discretas)

Adems de la distribucin binomial y de la distribucin de Poisson existen otras


distribuciones discretas relevantes en ingeniera:

Multinomial.

Geomtrica.

Hipergeomtrica.

etc.

URJC-DEIO C. Beltrn

43

2.4. Variables aleatorias continuas

2.4.

Variables aleatorias continuas

Objetivo: Estudiaremos la variables aleatorias (VA) continuas.

Apartados: Esta seccin consta de tres bloques:

Concepto y propiedades de las VA continuas.

Distribucin de exponencial.

Distribucin normal.

2.4.1.

Concepto y propiedades

Ejemplo 26 (Fabricacin de CDs)

Datos:
Consideramos que cada CD contiene una nica pista con informacin ptica (bits).

En cada CD, esta pista puede presentar defectos de fabricacin.

Definimos la variable aleatoria

X := Distancia desde el comienzo de la pista hasta el primer defecto (en micrmetros).

Los datos histricos permiten modelizar la funcin de densidad de probabilidad de X

como:

f (x) =

ex/2000,

2000

para x 0 y f (x) = 0 en otro caso.

Objetivo: Dada la variable aleatoria X calcular:

1. La probabilidad de que en un CD el primer defecto est a ms de 1000 micrmetros del

comienzo de la pista.

2. Su funcin de distribucin.

3. Su esperanza.

4. Su varianza.

Operaciones 26:
1. Tenemos que calcular
P (X > 1000),
que equivale a calcular el rea debajo de la curva f (x) en el intervalo ]1000, +]. Ver

Fig. 2.9.

URJC-DEIO C. Beltrn

44

2.4. Variables aleatorias continuas

Figura 2.9: P (X > 1000) = rea bajo la curva.

P (X > 1000)

f (x) dx

1000

ex/2000 dx

1000 2000

ex/2000 1000

0 (e1/2)

e1/2

0,607.

2. La funcin de distribucin corresponde a (Fig. 2.10):

F (x) = P (X x)

ez/2000 dz

2000

ix
=

ez/2000 0

ex/2000 + 1,

para x 0 y F (x) = 0 en otro caso.

URJC-DEIO C. Beltrn

45

2.4. Variables aleatorias continuas

Figura 2.10: Funcin de distribucin de una V.A. exponencial.


3. La media corresponde a
Z

x f (x) dx

ex/2000 dx

2000

de donde, integrando por partes, se obtiene

= 2000 micrmetros.
4. La varianza corresponde a
Z

2 =

(x )2 f (x) dx

(x 2000)2

ex/2000 dx

2000

de donde, integrando por partes dos veces, se obtiene

2 = 20002 micrmetros2.

Solucin:

1. La probabilidad de que en un CD el primer defecto est a ms de 1000 micrmetros es

60.7 %

2. Funcin de distribucin

F (x) = 1 ex/2000.

3. La esperanza es de 2000 micrmetros.

4. La varianza es de 20002 micrmetros2.

General (Tipos de variable aleatoria)


URJC-DEIO C. Beltrn

46

2.4. Variables aleatorias continuas

Discretas:

Su soporte es un subconjunto discreto de R, es decir, no contiene intervalos.

Ejemplos: Nmero de llamadas telefnicas a una centralita por minuto, nmero de

piezas defectuosas en un proceso de fabricacin en cadena, nmero de intentos hasta

alcanzar el xito en un experimento, etc.

Continuas:

Su soporte S es un intervalo en R.

S = [a, b].

Ejemplos:

Duracin de una llamada telefnica, intensidad de la corriente elctrica,

longitud, presin, temperatura, tiempo, peso, etc.

General (Comparacin intuitiva)

Topologa:

VA discreta: Los valores del soporte estn espaciados (separados unos de otros).

VA continua: Los valores del soporte estn contiguos.

Aritmtica:

VA discreta: Para calcular probabilidades los valores de f (x) se suman:

P (X {1, 2}) = f (1) + f (2) =

f (x).

x=1
VA continua: Para calcular probabilidades los valores de f (x) se integran:

P (X [1, 2]) =

f (x) dx.

Geometra:

VA discreta: Para calcular probabilidades, se suman las alturas de las barras del diagrama

de barras asociado a f (x).

VA continua: Para calcular probabilidades se halla el rea que queda por debajo de la

grfica de f (x).

General (Funcin de densidad de probabilidad)

Concepto:

Consideramos una VA continua con soporte

S = [a, b].

Si X es continua, entonces

P (X = x) = 0,

y por tanto, en el caso continuo, no podemos interpretar la funcin de densidad como

f (x) = P (X = x).

URJC-DEIO C. Beltrn

47
2.4. Variables aleatorias continuas

Figura 2.11: f (x) representa la densidad de la vara en el punto x.

En cambio, s podemos interpretar la funcin de densidad de probabilidad como

f (x) P (x X x + ) K

donde > 0 y suficientemente pequeno.

En el caso continuo tenemos:

P (x1 X x2) = P (x1 < X x2)

P (x1 X < x2)

P (x1 < X < x2).

Propiedades:

1. La funcin de densidad de probabilidad puede interpretarse mediante una vara. Si x

recorre la vara, entonces f (x) representa la densidad de la vara en el punto x. (Fig.

2.11).

2. La funcin de densidad probabilidad es positiva:


f (x) 0.

Por ejemplo, en la Figura 2.9 tenemos la funcin de densidad de probabilidad de una

variable aleatoria exponencial.


3.
Z
b

f (x) dx = 1.

General (Funcin de distribucin)

Concepto: Dada una VA continua X su funcin de distribucin se define como

F (x) = P (X x) =

f (z) dz,

para cualquier < x < .

Propiedades:

URJC-DEIO C. Beltrn

48
2.4. Variables aleatorias continuas

Figura 2.12: representa el centro de gravedad de la vara.

1. La funcin de distribucin de X, corresponde a la probabilidad acumulada hasta x.

2. La funcin de distribucin es no negativa:

F (x) 0,

no decreciente y tiende a 1 a medida que x crece. Por ejemplo, en la Figura 2.10 tenemos

la funcin de distribucin de una variable aleatoria exponencial.

3. La probabilidad del intervalo [c, d] :

P (c X d)

P (X d) P (X c)

F (d) F (c).

4. La derivada de la funcin de distribucin corresponde a la funcin de densidad de pro-

babilidad:

F 0(x) = f (x),

por el teorema fundamental del clculo.

General (Media, varianza y desviacin tpica)

Media:

Es un parmetro de posicin (centralidad).

Puede ser interpretada como el centro de gravedad de la vara de la Fig. 2.11.

Su definicin es:

= E(X) =
xf (x) dx.

No hay que olvidar las unidades (metros, segundos, etc.)

Varianza:

Es un parmetro de dispersin.

Su definicin es:

2 = V (X) = E[(X )2] =

(x )2f (x) dx.

URJC-DEIO C. Beltrn

49

2.4. Variables aleatorias continuas

En general resulta ms conveniente calcular mediante la frmula equivalente:

2 = V (x)

E(X2) [E(X)]2

x2f (x) dx 2.

No hay que olvidar las unidades (metros2, segundos2, etc.)

Desviacin tpica:
Es un parmetro de dispersin.

Su definicin es:

V (X).

No hay que olvidar las unidades (metros, segundos, etc.)

2.4.2.

Distribucin exponencial

Ejemplo 27 (Cable de cobre - continuacin I)

Datos:

En la fabricacin de cable de cobre se ha observado que ste presenta defectos de fabri-

cacin de forma aleatoria a lo largo de la longitud del cable.

La tasa de defectos es:

= 2,3 defectos/m.

Y = Nmero de defectos observados por metro de cable.

Ya vimos que Y P o(2,3).

X = Distancia (m) hasta que aparezca un nuevo defecto.

Se puede modelizar X como una VA exponencial, con parmetro = 2,3.

Definicin: Decimos que una VA tiene una distribucin exponencial de parmetro si su

funcin de densidad de probabilidad es:

f (x) = ex,

para x 0 y 0 en otro caso.

Si X tiene una distribucin exponencial, escribimos

X Exp().

Objetivo: Probabilidad de no tener ningn defecto en los primeros 10 cm de cable.


Operaciones 27:

X = Distancia entre dos defectos consecutivos (m).

URJC-DEIO C. Beltrn

50

2.4. Variables aleatorias continuas

Figura 2.13: P (X > 0,1).

Dado que X Exp(2,3), entonces (ver Fig.2.13):

P (X > 0,1)

2,3e2,3x dx

0,1

=
e2,3x

0,1

0 + e2,30,1

0,7945.

Otra forma de resolver esta cuestin:

P (X > 0,1)

1 P (X 0,1)

1 F (0,1)

1 (1 e2,30,1)

0,7945,

donde hemos usado que F (x) = 1 ex.

Solucin: La probabilidad de no tener ningn defecto en los primeros 10 cm de cable es


79.45 %.

General (Distribucin exponencial)

Variable aleatoria exponencial:

VA X asociada a un proceso de Poisson y definida como:

X = Distancia hasta una nueva ocurrencia. Escribiremos

X Exp(),

URJC-DEIO C. Beltrn
51

2.4. Variables aleatorias continuas

Figura 2.14: Funcin de densidad de probabilidad de varias VA exponenciales.

donde corresponde a la tasa promedio de ocurrencias por unidad de observacin (ejem.

defectos por metro).

Por tanto en un proceso de Poisson tenemos dos VA interrelacionadas: una VA expo-

nencial X y una VA de Poisson Y , de forma que:

E(X) =

E(Y ) = .

Funcin de densidad de probabilidad exponencial:


f (x) = ex,

para x 0 y f (x) = 0 en otro caso (ver Fig. 2.14).

Funcin de distribucin de probabilidad exponencial:

F (x) = 1 ex

para x 0 y F (x) = 0 en otro caso. Notar que se cumple que F 0(x) = f (x).

Esperanza y varianza: Si X Exp(), aplicando la frmula general para y , se obtienen las


siguientes frmulas particulares para el caso de una VA exponencial:

= E(X) =

2 = V (X) =

= 2.

Falta de memoria de la distribucin exponencial:

El saber que no ha habido ninguna ocurrencia hasta el punto k, no modifica la distribucin

de probabilidad de la distancia hasta la prxima ocurrencia.

Es decir, si X Exp() :

P (X > x + k | X > k) = P (X > x).

URJC-DEIO C. Beltrn

52

2.4. Variables aleatorias continuas

Ejemplo 28 (Cable de cobre - continuacin II)

Objetivo:

1. Supongamos que no hemos detectado ningn defecto en los primeros 30 cm. Calcular la

probabilidad de no tener ningn defecto en los primeros 40 cm de cable analizado.


2. Calcula la distancia esperada entre dos defectos consecutivos.

3. Calcula la desviacin tpica de la distancia entre dos defectos consecutivos.

Datos:

P (X > 0,10 m) = 0,7945.

Operaciones 28:

1. Objetivo 1: Nos piden calcular

P (X > 0,40 | X > 0,30)

Donde los datos son el m. Por la falta de memoria de una VA exponencial

P (X > 0,40 | X > 0,30)

P (X > 0,10)

0,7945.

Uno podra pensar que si no hemos detectado ningn defecto en los primeros 30 cm.,

pronto detectaremos uno. Esta intuicin es falsa en la distribucin exponencial.

2. Objetivo 2:

= 0,43m.

2,3

3. Objetivo 3:

= 0,43m.
2,32

Solucin:

1. 79,45 %.

2. 0,43 m.

3. 0,43 m.

Ejemplo 29 (Ms ejemplos de VA exponencial)

Objetivo: Citar algunos ejemplos de VA exponencial.

Solucin:

URJC-DEIO C. Beltrn

53

2.4. Variables aleatorias continuas

Figura 2.15: Probabilidad que X > 13 para una N ( = 10, = 2).

1. A un trabajador le llegan en media 5 correos/minuto. Y = Nmero de correos recibidos

por el trabajador en un minuto.

X = Tiempo transcurrido hasta la llegada de un nuevo correo.

Distribucin de Y y X?

2. Tiempo transcurrido entre dos averas consecutivas.

3. Distancia entre dos mutaciones consecutivas en el ADN (estructura de doble hlice).


2.4.3.

Distribucin normal

Ejemplo 30 (Intensidad de corriente)

Datos:

La intensidad de corriente nominal que pasa por un cable elctrico es de 10 miliamperios.

Definimos la VA

X = Intensidad de corriente medida en el anterior cable (miliamperios)

Suponemos que X es una VA normal con media 10 mA y desviacin tpica 2 mA.

Escribiremos

X N ( = 10, = 2).

Definicin: Decimos que una VA X tiene una distribucin normal

X N (, )

si su funcin de densidad de probabilidad es:

"

1 x 2#

f (x) =

exp

para cualquier x R.
Objetivo: Probabilidad de que al medir la intensidad que pasa por el cable, sta sea superior
a 13 mA.

Operaciones 30:

URJC-DEIO C. Beltrn

54

2.4. Variables aleatorias continuas

Figura 2.16: La distribucin normal se caracteriza por dos parmetros: y .

Lo que nos piden es P (X > 13) (ver Fig.2.15):

"

1 x 10 2#

P (X > 13) =

exp

dx.

13

2 2
2

Desafortunadamente, la primitiva de la anterior integral no puede expresarse mediante

una frmula y debe calcularse mediante mtodos numricos o consultando en una tabla.

General (Distribucin normal)

Distribucin de probabilidad:

Dada una VA X y su f (x), denominamos distribucin de probabilidad al par (X, f (x)).

As por ejemplo, podemos hablar de la distribucin binomial, de la distribucin de Pois-

son, de la distribucin normal, etc.

Relevancia:

La distribucin normal es sin duda la distribucin de probabilidad ms relevante por sus

innumerables aplicaciones en ingeniera, ciencias naturales, ciencias sociales, etc.

Inicialmente, fue estudiada por De Moivre (1733) y por Gauss.

Se la llama tambin distribucin Gaussiana.

La distribucin normal se caracteriza por dos parmetros: la media y la desviacin tpica


(Ver Fig.2.16):

Definicin: Decimos que una VA X tiene una distribucin normal

X N (, )

si su funcin de densidad de probabilidad es:

"

1 x 2#

f (x) =

exp
,

donde x R, es finito y > 0.

Esperanza y varianza: Se puede demostrar que si

X N (, )

entonces E(X) = y V (X) = 2.

URJC-DEIO C. Beltrn

55

2.4. Variables aleatorias continuas

Figura 2.17: Intervalos notables de la distribucin normal.


Figura 2.18: Interpretacin de la tabla de la VA normal estandar.

Porcentajes notables: (Ver Fig.2.17) Si X N (, ) entonces las observaciones de X estarn


en:

[ , + ], en la mayora de los casos (68 %).

[ 2, + 2], en casi todos los casos (95 %).

[ 3, + 3], en prcticamente todos los casos (99.7 %).

Distribucin normal estndar:

Una VA normal con = 0 y = 1 se denomina normal estndar, o normal tipificada.

Usaremos Z para denotar una VA normal estndar.

Adems, usaremos

(z) = P (Z z) =

f (x) dx,

para denotar la funcin de distribucin normal estndar.

Para calcular (z) recurriremos a una tabla o a software especializado, pues no puede

calcularse por mtodos elementales de clculo (ver Fig.2.18).

A menudo la tabla de la distribucin normal es slo para valores de z positivos. En ese

caso, para valores negativos podemos usar la siguiente frmula:

(z) = 1 (z),

donde z < 0 (ver el apartado 2 del siguiente ejemplo).

Ejemplo 31 (Clculos con la normal estandar)

URJC-DEIO C. Beltrn

56
2.4. Variables aleatorias continuas

URJC-DEIO C. Beltrn

57

2.4. Variables aleatorias continuas

Datos: Consideramos Z N (0, 1).

Objetivo:

1. P (Z > 1,26)

2. P (Z < 0,86)

3. P (Z > 1,37)

4. P (1,00 < Z < 2,00)

Operaciones 31: Consultando la tabla de la VA normal estandar:


1.
P (Z > 1,26)
=

1 P (Z 1,26)

1 0,8962 = 0,1038.
2.
P (Z < 0,86)
=

P (Z > 0,86)

1 P (Z 0,86)

1 0,8051 = 0,1949.

Equivalentemente

P (Z < 0,86)

(0, 86)

1 (0, 86)

1 0,8051 = 0,1949.
3.
P (Z > 1,37)
=

P (Z < 1,37)

0,9147.
4.
P (1,00 < Z < 2,00)
=

P (Z < 2,00) P (Z < 1,00)

0,9772 0,8413 = 0,1359.

URJC-DEIO C. Beltrn

58

2.4. Variables aleatorias continuas

Figura 2.19: Geometra de la tipificacin.

Solucin:

1. P (Z > 1,26) = 10,38 %.

2. P (Z < 0,86) = 19,49 %.

3. P (Z > 1,37) = 91,47 %.

4. P (1,00 < Z < 2,00) = 13,59 %.

2.4.4.
Tipificacin de una VA normal

Ejemplo 32 (Intensidad de corriente - Continuacin)

Datos:

En el ejemplo del cable elctrico, nos habamos quedado en el siguiente clculo:

"

1 x 10 2#

P (X > 13) =

exp

dx.

13

2 2

X N ( = 10, = 2).

Propiedad: Consideramos X N (, ) y la siguiente transformacin lineal de X:

Z :=

Entonces Z N (0, 1).


Objetivo: Probabilidad de que al medir la intensidad que pasa por el cable, sta sea superior
a 13 mA.

Operaciones 32:

URJC-DEIO C. Beltrn

59

2.4. Variables aleatorias continuas

Dado que

X 10

13 10

[X > 13]

>

[Z > 1,5]

donde Z := X10 .

Entonces, usando la tabla de la normal estandar:

P (X > 13)

P (Z > 1,5)

1 P (Z 1,5)

1 (1,5)
=

1 0,9332 = 0,0668.

Ver Fig.2.19.

Solucin: La probabilidad de que al medir la intensidad que pasa por el cable, sta sea
superior a 13 mA, es de un 6,68 %.

General (Tipificacin de una VA normal)

Propiedad: Consideramos X N (, ) y la siguiente transformacin lineal de X:

Z :=

Entonces Z N (0, 1).

Tipificacin: Para hacer los clculos asociados a una VA X N (, ) primero la


tipificaremos y despus usaremos la tabla de la normal estandar, es decir:

P (X x)

P (Z z)

=
(z),

donde

Z=

z :=

(x, y son valores conocidos.)

URJC-DEIO C. Beltrn

60

2.4. Variables aleatorias continuas

2.4.5.

Inversa de la funcin de distribucin normal

Ejemplo 33 (Fabricacin de varillas)

Datos:

Consideramos un proceso de fabricacin de varillas de aluminio.

Se ha observado que que el dimetro X de las varillas fabricadas en el ltimo lote sigue

una distribucin

N ( = 0,25 cm , = 0,0005 cm ).

En un control de calidad se establece que se consideran aceptables las varillas de dime-

tro 0,25 0,0008 cm.

Objetivo:
1. Qu proporcin de varillas podrn ser consideradas como aceptables en ese lote?

2. Calcula las nuevas especificaciones para un control de calidad ms severo que slo
acepte

aproximadamente un 80 % de las varillas.

Operaciones 33:

1. Consideramos aceptables las varillas cuyo dimetro est en el intervalo [0,2492, 0,2508].

Calcular la proporcin que nos piden equivale a calcular:

P (0,2492 X 0,2508) =

0,2492 0,25

X 0,25

0,2508 0,25

0,0005

0,0005

0,0005

P (1,60 Z 1,60)

(1,60) (1,60)

(1,60) [1 (1,60)]

=
2 (1,60) 1

2 0,9452 1 = 0,8904.

2. Consideraremos aceptables las varillas en el nuevo intervalo

[0,25 k, 0,25 + k],

donde, obviamente, la constante k es desconocida. Adems, slo queremos aceptar el

80 % de las varillas, por tanto

0,80 = P (0,25 k X 0,25 + k) =

URJC-DEIO C. Beltrn

61

2.4. Variables aleatorias continuas

0,25 k 0,25

X 0,25

0,25 + k 0,25

0,0005

0,0005

0,0005

k
=

0,0005

0,0005

Equivalentemente

0,90

0,0005

0,90

0,0005

1(0,90)

0,0005
k

1,285

0,0005

0,0006.

Solucin:

1. Se aceptarn el 89 % de las varillas.

2. En la nueva especificacin deben considerarse aceptables las varillas de dimetro 0,25

0,0006 cm.

2.4.6.

Anlisis de normalidad

En muchas herramientas estadsticas (contrastes de hiptesis, recta de regresin, etc.) se


supone que los datos provienen de una distribucin normal (hiptesis de normalidad).

Por tanto, antes de usar las mencionadas herramientas estadsticas tenemos que verificar
la

hiptesis de normalidad mediante un anlisis de normalidad.

En esta seccin veremos cmo se realiza un anlisis de normalidad.

Ejemplo 34

Datos:

Ref: Montgomery 3a Ed., pgina 76.

Se estudia la variable aleatoria X = Duracin de un tipo de batera para ordenador

porttil (en minutos).

Se ha observado la siguiente muestra aleatoria de tamano 10:

D
=

{x1, . . . , x10}

{176, 191, 214, 220, 205, 192, 201, 190, 183, 185}

Objetivo: Analizar mediante un plot de probabilidad normal si X tiene una distribucin


normal.

URJC-DEIO C. Beltrn

62

2.4. Variables aleatorias continuas

Operaciones 34:

Para realizar el plot de probabilidad normal tenemos que realizar los siguientes pasos:

1. Ordenar de menor a mayor los datos:

Dordenado = {x(1), . . . , x(10)} = {176, 183, . . . , 220}.

2. Calcular las frecuencias acumuladas estimadas mediante la frmula:

j 0,5

Fj =

para j = 1, . . . , 10.

10

En nuestro caso tenemos:

0,05

0,15 . . . 0,95.

3. Calcular los percentiles asociados de la distribucin normal:

zj = 1(Fj)

En nuestro caso tenemos:

1,64
1,04 . . . 1,64.

4. Representar los puntos ordenados {(x(j), zj)}. (Figura 2.20).

5. Representar la recta que une los percentiles 25 y 75 (primer y tercer cuartil).

En ese caso, como los puntos se encuentran aproximadamente sobre la recta, (Figu-

ra 2.20) concluimos que la distribucin normal describe adecuadamente X.

Solucin: Segn el plot de probabilidad normal realizado, la distribucin normal describe


adecuadamente X.

General (Anlisis de normalidad) Dada una muestra aleatoria (MA)

D = {xj | j J} donde J = {1, . . . , n},

para estudiar si D proviene de una distribucin normal, podemos usar varios mtodos:

Mtodo del histograma: Cuando la muestra aleatoria tiene un tamano grande, podemos
analizar

grficamente si D proviene de una distribucin normal, mediante un histograma.

Plot de probabilidad normal:

URJC-DEIO C. Beltrn

63
2.4. Variables aleatorias continuas

Figura 2.20: Plot de probabilidad normal.

Cuando la MA tiene un tamano pequeno, el mtodo del histograma puede no ser adecua-

do.

En ese caso podemos realzar un plot de probabilidad normal, realizando los siguientes

pasos:

1. Ordenar de menor a mayor los datos de la MA:

x(1) x(2) . . . x(n).

2. Calcular las frecuencias acumuladas estimadas mediante la frmula:

j 0,5

Fj =

j J.

3. Calcular los percentiles asociados de la distribucin normal:


zj = 1(Fj) j J

4. Representar los puntos ordenados {(x(j), zj) | j J}.

5. Representar la recta que une los percentiles 25 y 75 (primer y tercer cuartil).

Si los puntos se encuentran aproximadamente sobre la recta concluimos que la distri-

bucin normal describe adecuadamente X.

El comando Matlab para realizar el plot de normalidad para el caso normal es: normplot.

Test de bondad de ajuste:

Para analizar de forma ms rigurosa la normalidad de una muestra, se pude realizar un

test de bondad de ajuste.

Para ms detalles, se pude consultar Montgomery, 3a Edicin, pag. 189.

URJC-DEIO C. Beltrn

64

2.4. Variables aleatorias continuas

Nota: Los tres mtodos descritos se pueden adaptar, evidentemente, para otras
distribuciones de probabilidad.

General (Otras distribuciones continuas) Adems de la distribucin exponencial y de la


distribucin normal existen otras distribuciones continuas relevantes en ingeniera:

Lognormal.

Gamma.

Weibull.

etc.

URJC-DEIO C. Beltrn

65

2.4. Variables aleatorias continuas

URJC-DEIO C. Beltrn
66

Captulo 3

Inferencia estadstica

3.1.

Apartados

1. Definicin intuitiva de poblacin y muestra.

2. Muestras aleatorias.

3. Teorema central de lmite

4. Estimacin puntual

5. Inferencia sobre la media poblacional (varianza conocida)

6. Inferencia sobre la media poblacional (varianza desconocida)


7. Inferencia sobre proporciones
3.2.
Definicin intuitiva de poblacin y muestra

Ejemplo 35

Datos:

Una fbrica de componentes electrnicos produce resistores (para simplificar, suponemos

que de un slo tipo).

Los resistores tienen una resistencia cuya media y varianza nominal son = 100

(ohmios) y 2 = 100 2, respectivamente.

Tenemos una muestra aleatoria de 25 resistores, con la que se han obtenido

x = 98,5

y s2 = 97,3 2.

Objetivo:

1. Distingue entre poblacin de resistores y muestra de resistores.

2. Distingue entre media y varianza poblacional y media y varianza muestral.

Operaciones 35:

67

3.2. Definicin intuitiva de poblacin y muestra

Figura 3.1: Relacin entre poblacin y muestra.

1.

La poblacin de resistores corresponde al conjunto de todos los resistores que


produce la fbrica.

La muestra de resistores corresponde al subconjunto de los 25 resistores que hemos

tomado y analizado.

2.

La media y varianza poblacional son = 100 y 2 = 100 2, respectivamente.

La media y varianza muestral son

x = 98,5 y s2 = 97,3 2, respectivamente.

Solucin: (Ver el apartado de operaciones).

General (Poblacin y muestra)

Poblacin:

Es el conjunto de elementos sobre el que se realizan las observaciones para estudiar

alguna de sus caracterstica.

En muchos casos estudiaremos la variabilidad de alguna magnitud de la poblacin (re-

sistencia de los resistores, altura de las personas, peso, etc.)

Para estudiar esa variabilidad usaremos principalmente dos parmetros poblacionales: la

media (punto de referencia) y la varianza 2 (variabilidad propiamente dicha).

Normalmente el valor de los parmetros poblacionales es nico y desconocido.

Muestra:

Es un subconjunto de la poblacin.

Si la muestra es representativa, podremos inferir caractersticas de la poblacin anali-

zando slo la muestra.

Inferir = Extraer conclusiones.

Podemos estimar (aproximar) cada parmetro poblacional, mediante el correspondiente

parmetro muestral: la media muestral

X, la varianza muestral S2 permiten estimar


y 2, respectivamente.

El valor de un parmetro muestral no es nico (depende de la muestra) y podemos

calcularlo una vez observada la muestra.

Relacin entre poblacin y muestra: En la Figura 3.1 puede verse la relacin entre
poblacin y muestra.

URJC-DEIO C. Beltrn

68

3.3. Muestras aleatorias

3.3.

Muestras aleatorias

Ejemplo 36

Datos:

Una fbrica de componentes electrnicos produce resistores.

Los resistores tienen una resistencia cuya media y varianza (poblacionales) son =

100 y 2 = 100 2, respectivamente.

Seleccionamos al azar 25 resistores.

Suponemos que las resistencias de los resistores son independientes.

Objetivo:

Calcula la esperanza y la varianza de la media muestral

X de la resistencia de los 25

resistores.

Notar que

X es una variable aleatoria.

Operaciones 36:

Definimos las siguientes Variables Aleatorias (VA):


Xi = Resistencia del resistor i donde i I = {1, . . . , 25}.

Sabemos que E[Xi] = 100 , y V [Xi] = 100 2.

Nos piden la esperanza y la varianza de la media de la resistencia de los 25 resistores

X:

X1 + . . . + X25

X=

X1 + . . . +
X25.
25
25

25

Se observa que

X es una combinacin lineal de VAs, por tanto:

E[

X]

X1 + . . . +

X25

25

25

E[X1] + . . . +

E[X25]

25

25
25 100

25

100 .

URJC-DEIO C. Beltrn

69

3.3. Muestras aleatorias

Adems, sabemos que las Xi son VAs independientes. En ese caso se demuestra que:

V[

X]

X1 + . . . +

X25

25

25

12

12

V [X1] + . . . +

V [X25]
25

25

25 100

252

100

25

Solucin: La esperanza y la varianza de la media muestral de la resistencia de los 25


resistores son:

100

E[

X] = 100

V[

X] =
2.
25
General (Muestra aleatoria)

Combinacin lineal de Variables Aleatorias (VA): Una VA Y es una combinacin lineal de


VAs si Y = c1X1 + . . . + cnXn,

donde X1, . . . , Xn son VA y c1, . . . , cn son constantes.

Propiedades de las combinaciones lineales de VAs:

1. La esperanza de una combinacin lineal de VAs es la combinacin lineal de las esperan-

zas

E[c1X1 + . . . + cnXn] = c1E[X1] + . . . + cnE[Xn].

Esta propiedad vale tanto para VAs independientes como dependientes.

2. La varianza de una combinacin lineal de VAs independientes es la combinacin lineal

de las varianzas con coeficientes al cuadrado:

V [c1X1 + . . . + cnXn] = c21V [X1] + . . . + c2nV [Xn].

Muestra aleatoria: Matemticamente, una muestra aleatoria, es un conjunto de variables


aleatorias X1, . . . , Xn

independientes, e idnticamente distribuidas (i.i.d.).

Media muestral: Dada una muestra aleatoria, su media muestral es la variable aleatoria

X1 + . . . + Xn

X=

Teniendo en cuenta que la media muestral es una combinacin lineal de VAs i.i.d. con
media

y varianza 2 se demuestra que:


2

URJC-DEIO C. Beltrn

70

3.4. Teorema central de lmite

3.4.

Teorema central de lmite

Ejemplo 37

Datos:

Consideramos

Xi = Puntuacin obtenida al lanzar un dado,

donde i I = {1, . . . , n}.

{Xi | i I} es una muestra aleatoria (VA i.i.d.).

Consideramos su media muestral

Xn = Puntuacin media al lanzar n veces un dado,

Objetivo: Calcular y representar la funcin de probabilidad de la media muestral

Xn para n =
1, 2, 3, 5, 10.

Operaciones 37:

En la Figura 3.2 observamos cmo la distribucin de la media muestral

Xn se aproxima cada

vez ms a una distribucin normal a medida que n aumenta.

Solucin: Ver Figura 3.2.

General (Teorema central del lmite)

Combinacin lineal de VA normales: Una combinacin lineal de VAs normales


(independientes o

no) es otra variable aleatoria normal.

Media muestral de una poblacin normal: Dada una muestra aleatoria X1, . . . , Xn de una
poblacin normal N (, 2), su media muestral

X tiene una distribucin normal:

XN

Teorema central del lmite (TCL): Dada una muestra aleatoria X1, . . . , Xn de una poblacin
(no necesariamente normal) con media y varianza 2, su media muestral

X tiene una distribucin

aproximadamente normal para n grande:


XN

Calidad de la aproximacin por el TCL: En general, la calidad de la aproximacin mejora al


aumentar n. Distinguimos 3 casos, segn el valor de n:

n 4 El TCL produce buenas aproximaciones, slo si la distribucin poblacional no se aleja

mucho de la distribucin normal.

5 n 29 El TCL produce buenas aproximaciones si la distribucin poblacional es


continua, uni-modal y simtrica.

URJC-DEIO C. Beltrn

71
3.4. Teorema central de lmite

Figura 3.2: La calidad de la aproximacin TCL aumenta al aumentar n.

URJC-DEIO C. Beltrn

72

3.4. Teorema central de lmite

n 30 El TCL produce buenas aproximaciones en la mayora de casos de inters prctico,


inde-pendientemente de la distribucin poblacional.

Ejemplo 38

Datos:

Continuamos con el ejemplo de los resistores.

Suponemos que las resistencias de los resistores son VA i.i.d. segn una distribucin
normal N ( = 100 , 2 = 100 2).

Objetivo:

1. Calcula la probabilidad de que la media muestral sea menor que 95 .

2. Repite el apartado anterior, pero sin suponer que la muestra aleatoria proviene de una

poblacin normal.

Operaciones 38:

1.

Se puede demostrar que una combinacin lineal de VAs normales (independientes

o no) es otra variable aleatoria normal. Por tanto:

100

X25 N

= 100 , 2 =

25

Entonces, dado que = p100/25 = 2

95

X < 95

X<

95 100

Z<

P (Z < 2,5)

=
0,0062.
2.
Bajo la hiptesis de normalidad sabemos que

XN

Si eliminamos la hiptesis de normalidad el teorema central del lmite nos dice que

XN

para n suficientemente grande.

URJC-DEIO C. Beltrn

73

3.5. Estimacin puntual

Por tanto, dado que en nuestro caso podemos considerar que n = 25 es suficiente-
mente grande, este apartado se resolvera igual que el apartado 1.

Solucin:

1. La probabilidad de que la media muestral sea menor que 95 es 0,62 % (bajo la


hiptesis

de normalidad).

2. La probabilidad de que la media muestral sea menor que 95 es aproximadamente

0,62 % (no suponemos la hiptesis de normalidad).

3.5.

Estimacin puntual

Ejemplo 39

Datos:

Consideramos una Variable Aleatoria (VA) X con media desconocida.

Hemos tomado una muestra aleatoria de X:

M.A. = {25, 30, 29, 31} u.

Objetivo: Estimar la media de X.

Operaciones 39:

Estimamos mediante

25 + 30 + 29 + 31

x=

= 28,75 u

Solucin:

= 28,75 u.

General
Muestra aleatoria (MA):

Una MA de tamano n es un conjunto de VA

X1, . . . , Xn

independientes e idnticamente distribuidas.

Una vez tengamos los datos

x1, . . . , xn

diremos que tenemos una observacin de la MA.

Estimador puntual:

URJC-DEIO C. Beltrn

74

3.5. Estimacin puntual

La media muestral

Pn

Xi

X=

i=1

es un estimador puntual de la media poblacional .

Estimacin puntual:

Una vez hemos observado la MA, la media muestral

X toma un valor concreto

x que

llamamos estimacin puntual de .

3.5.1.
Estimadores insesgados

Ejemplo 40

Datos:

Consideramos la VA X con media desconocida .

Consideramos una muestra aleatoria de X de tamano n:

X1, . . . , Xn.

Consideramos la media muestral

Pn

Xi

X=

i=1

Propiedad: La esperanza es un operador lineal

aiXi

aiE(Xi).
i=1

i=1

Objetivo: Calcular E(

X).

Operaciones 40: Dado que el operador esperanza es un operador lineal

Pn

Pn

E(Xi)

E(

X) = E

i=1

i=1

= .

Solucin: E(

X) = .

General

La media muestral

X es un estimador insesgado de la media poblacional pues:

E(

X) = .
La varianza muestral S2 es un estimador insesgado de la varianza poblacional 2 pues:

E(S2) = 2,

Pn

(X

donde S2 =

i=1

X)2 .

n1

URJC-DEIO C. Beltrn

75

3.6. Inferencia sobre la media (varianza conocida)

3.6.

Inferencia sobre la media (varianza conocida)

Veremos los siguientes apartados:

Hiptesis de normalidad.

Intervalo de confianza.

Contraste de hiptesis para la media (varianza conocida).

P-valor.

3.6.1.

Hiptesis de normalidad

En este curso y en muchas aplicaciones estadsticas supondremos que la media muestral

tiene una distribucin normal


2

donde y 2 son la media poblacional y varianza poblacional, respectivamente, y n es el

tamano muestral.

Hay que tener en cuenta que:

Si estamos estudiando una poblacin normal, entonces,

X hereda la normalidad.

Aunque X no sea normal, si el tamano muestral es grande (n 30), por el teore-

ma central del lmite podemos suponer que

X tiene una distribucin aproximadamente

normal.

Si X no es normal y el tamano muestral es pequeno, ya no podemos asumir la hiptesis

de normalidad. En ese caso podemos recurrir a mtodos no paramtricos (Ver Montgo-

mery, pag. 162).

3.6.2.

Intervalo de confianza (varianza conocida)

Ejemplo 41

Datos:

La NASA esta analizando un combustible slido que quiere utilizar en su transbordador

espacial.

En concreto queremos estudiar la variable aleatoia


V C = Velocidad de combustin (cm/s).

Desconocemos la media de V C.

A partir de una muestra aleatoria de tamano n = 25 hemos obtenido

x = 51,3 cm/s.

Por otro lado, sabemos que = 2 cm/s.

Objetivo: Calcula un intervalo de confianza 95 % para la media de la velocidad de


combustin .

Operaciones 41:

URJC-DEIO C. Beltrn

76

3.6. Inferencia sobre la media (varianza conocida)

Figura 3.3: Percentiles izquierdo y derecho z/2 de la distribucin normal.

En este contexto, el intervalo pedido lo podemos calcular como:

I1 =

xz,

x+z

donde

1 = nivel confianza = 0,95.

y z es el percentil derecho de nivel /2 de la distribucin normal estandar (ver Figu-

ra 3.3).

Teniendo en cuenta que

1 nivel confianza = 0,050

z0,025 = 1,96,

podemos calcular

I1 =
51,3 1,96

51,3 + 1,96

25

25

[50,52, 52,08] cm/s.

Solucin:

Con una confianza del 95 % la media poblacional de la velocidad de combustin V C se

encuentra en el intervalo

[50,52,

52,08] cm/s.

Significado de confianza: En realidad est o no est en [50,52,

52,08]. Acertamos

en un 95 % de las veces al afirmar que est en [50,52,

52,08] (ver Figura 3.4).

General (Intervalo de confianza)

La media muestral observada

x es una estimacin puntual de la media poblacional .

URJC-DEIO C. Beltrn

77
3.6. Inferencia sobre la media (varianza conocida)

Figura 3.4: El intervalo de confianza acierta con probabilidad 1 .

Tambin podemos estimar mediante un intervalo de confianza (1 ) :

I1 = [lb,

ub] ,

donde lb y ub son una cota inferior y una cota superior respectivamente, de la media
poblacional .

El intervalo de confianza (1 ) centrado en

x y de radio r viene dado por:

I1 = [

x r,

x + r]

r
=

z,

donde z es el percentil derecho de nivel /2 de la distribucin normal estandar (ver Figu-

ra 3.3).

El radio del intervalo aumenta con el nivel de confianza (1 ) deseado.

El radio tambin aumenta con el nivel de incertidumbre / n (desviacin tpica de

X).

Significado de confianza: En realidad est o no est en I1. Tenemos una probabilidad

de 1 de acertar al afirmar que est en el intervalo I1 (ver Figura 3.4).

Ejemplo 42

Datos:

Continuamos con el ejemplo anterior

V C = velocidad de combustin (cm/s).

= 2 cm/s.

Acabamos de ver que el intervalo de confianza 95 % para es

[50,52, 52,08] = [51,3 0,78, 51,3 + 0,78] cm/s.

Con una confianza del 95 %, el mximo error E que podramos cometer al estimar

mediante

x = 51,3 cm/s es:

E = mx | 51,3 |= 0,78 cm/s,

que corresponde al radio del intervalo de confianza.

URJC-DEIO C. Beltrn

78

3.6. Inferencia sobre la media (varianza conocida)

Figura 3.5: Al estimar mediante

x cometemos un error.

Sabemos que el error E disminuye al aumentar el tamano de la muestra n (pues disminuye

el radio del intervalo de confianza).

Objetivo: Calcula el tamano muestral n que necesitamos para conseguir un error mximo
de 1,5

cm/s al estimar (nivel de confianza 0,95).

Operaciones 42:

Se demuestra que en este contexto

z/2 2

n=

Dado que z0,050/2 = z0,025 = 1,96, tenemos que:

& 1,96 22'

n=

= d6,83e = 7.
1,5

Solucin: El tamano muestral requerido es n = 7.

General (Tama no muestral n en funcin del error mximo)

Cuando usamos la media muestral

x para estimar cometemos un error e =|

x |.

Sabemos que este error disminuye al aumentar n (pues disminuye el radio del intervalo de

confianza).

Para garantizar que este error no supere cierta cota E, es decir e E, con una confianza 1
, se demuestra que debemos tomar un tamano muestral

z/2 2

n=

donde dxe es el primer nmero entero igual o superior a x (valor entero por exceso).

3.6.3.

Cota de confianza (varianza conocida)

General

URJC-DEIO C. Beltrn

79

3.6. Inferencia sobre la media (varianza conocida)

En algunas ocasiones nos interesar calcular intervalos de confianza para la media donde
uno

de los extremos sea infinito por la izquierda

I
= ] , ub

infinito por la derecha

I+

= [lb

, +[.

Estos intervalos se pueden expresar de forma equivalente mediante una cota superior

ub

o mediante una cota inferior

lb .

Una cota inferior de confianza 1 se calcula mediante la frmula

lb =

x z .

Una cota superior de confianza 1 se calcula mediante la frmula

ub =

x + z .

Notar que ahora tomamos el percentil z en vez de z .

3.6.4.
Contraste de hiptesis bilateral para la media (varianza conocida)

Ejemplo 43

Datos:

La NASA est analizando un combustible slido que quiere utilizar en su transbordador

espacial.

En concreto queremos estudiar la VA

V C = Velocidad de combustin (cm/s).

Las especificaciones del fabricante del transbordador requieren que se utilicen combus-

tibles con = 50 cm/s.

Desconocemos la media de V C.

Tomamos una MA de tamano n = 25.

Media muestral observada

x = 51,3 cm/s.

La desviacin tpica de V C es conocida: = 2 cm/s.

Objetivo:

Dado que

x = 51,3 cm/s, podemos afirmar que este combustible no es apto para el

transbordador?

Dicho de otra manera: Podemos afirmar que 6= 50 cm/s?

Operaciones 43:

URJC-DEIO C. Beltrn

80

3.6. Inferencia sobre la media (varianza conocida)

Para resolver esta cuestin podemos plantear el contraste de hiptesis

H0 : = 50 cm/s.
H1 : 6= 50 cm/s.

y tomar un nivel de significacin arbitrario, por ejemplo, = 0,05.

Una forma sencilla de resolver este contraste es construyendo el intervalo de confianza

95 % asociado (calculado anteriormente):

I0,95 = [50,52, 52,08] cm/s.

Dado que 50 cm/s no est en el intervalo de confianza, aceptamos H1.

Solucin:

Tenemos evidencia estadstica para decir que la velocidad media de combustin es

diferente de 50 m/s (para un nivel de significacin 0.05).

Por lo tanto, este combustible no es adecuado para el transbordador.

General (Contraste de hiptesis)

Contraste o test de hiptesis:

Es un problema de decisin estadstico donde se analizan dos hiptesis: H0 (hiptesis

nula) y H1 (hiptesis alternativa).

Se analiza si tenemos suficiente evidencia estadstica a favor de la hiptesis H1 o no, en

cuyo caso, la aceptaremos o la rechazaremos, respectivamente.

En esta seccin, nos concentraremos en los contrastes bilaterales como por ejemplo:

H0 : = 0

H1 : 6= 0,

donde debemos interpretar H1 como:

H1 : es un valor significativamente alejado de 0.

Tambin podemos plantear contrastes unilaterales como por ejemplo:

H0 : = 0

H1 : > 0,

donde debemos interpretar H1 como:


H1 : es un valor significativamente mayor que 0.

Hiptesis fuerte H1:

URJC-DEIO C. Beltrn

81

3.6. Inferencia sobre la media (varianza conocida)

Normalmente colocamos en H1 la hiptesis fuerte, es decir, la hiptesis que queremos

demostrar.

En el ejemplo del fuel para el transbordador:

H0 : = 50 cm/s.

H1 : 6= 50 cm/s.

Haciendo un smil, si usramos un contraste de hiptesis en un juicio:

H0 :

Inocente

H1 :

Culpable,

es decir, se quiere demostrar la culpabilidad del imputado. Notar que si no se demuestra

la culpabilidad, no significa que se haya demostrado la inocencia (aunque en ese caso se

declara inocente al imputado).

Rechazar H1 no equivale a aceptar H0:

Rechazar H1 significa solamente que no tenemos suficiente evidencia estadstica para

aceptar H1.

Sin embargo, rechazar H1, no significa que aceptamos H0.

Por ejemplo, si el verdadero valor de es 99 y hacemos el contraste H0 : 0 = 100,

probablemente, los datos observados no nos ofrecern evidencia estadstica para aceptar

H1 : 6= 100. Si embargo eso no prueba H0 : = 100.


En general slo hablaremos de aceptar o rechazar H1, y no de aceptar o rechazar H0.

Resolucin mediante intervalo de confianza: Para resolver el contraste de hiptesis:

H0 : = 0

H1 : 6= 0,

con un nivel de significacin , podemos seguir el siguiente procedimiento:

1. Calcular el intervalo de confianza (1 ) asociado:

I1 =

xz,

x+z

2. Aceptamos H1, si y slo si, 0 est fuera del intervalo de confianza.

Ejemplo 44

Objetivo:

Resolver el ejemplo anterior, por el procedimiento general de contraste de hiptesis (y

no por intervalo de confianza).

Podemos afirmar que 6= 50 cm/s con un nivel de significacin = 0,05?

Operaciones 44:
Podemos resolver esta cuestin siguiendo los ocho pasos de un procedimiento

general de contraste de hiptesis.

URJC-DEIO C. Beltrn

82

3.6. Inferencia sobre la media (varianza conocida)

Figura 3.6: Regin crtica para contraste bilateral o unilateral.

1. El parmetro de inters es .

2. H0 : = 50 cm/s.

3. H1 : 6= 50 cm/s.

4. = 0,05.

5. Tipificando

x obtenemos el estadstico

x 0

z0 =

/ n

6. El umbral de aceptacin de H1 nos lo da z/2: Dado que z0,025 = 1,96 tenemos que

aceptamos H1 si

z0 6 [1,96, 1,96].

7. Usando los datos que tenemos:


51,3 50

z0 =

= 3,25.

2/ 25

8. Dado que z0 = 3,25 6 [1,96, 1,96], aceptamos

H1 : 6= 50,

con un nivel de significacin 0.05.

Solucin: Podemos afirmar que 6= 50 cm/s con un nivel de significacin = 0,05.

General (Procedimiento general de contraste de hiptesis)

Para resolver un contraste de hiptesis bilateral con un nivel de significacin , podemos

seguir el siguiente procedimiento general:

1. Determinar el parmetro de inters: .

URJC-DEIO C. Beltrn

83

3.6. Inferencia sobre la media (varianza conocida)

2. Determinar la hiptesis nula:

H0 : = 0.

3. Determinar la hiptesis alternativa:

H1 : 6= 0.

4. Fijar el valor del nivel de significacin (a menudo 0.01, 0.05 0.10).

5. Determinar el estadstico apropiado:

X 0

Z0 =

/ n

6. Especificar la regin crtica para el estadstico (regin donde aceptamos H1):

Aceptamos H1 si y slo si Z0 6 [z , z ] (ver Figura 3.6).

Por lo tanto la regin crtica es [z , z ]c

En este contexto, z/2 se denomina valor crtico.

7. A partir de los datos observados (muestra), calcular el valor del estadstico:

x 0

z0 =

/ n

8. Resolver el contraste de hiptesis (aceptar o rechazar H1) y responder segn el contexto.

3.6.5.

Relacin entre contraste de hiptesis bilateral e intervalo de confianza

General

Propiedad: Dado el contraste de hiptesis bilateral con nivel de significacin

H0 : = 0

H1 : 6= 0,

y el intervalo de confianza (1 ) asociado I1, el procedimiento general de contraste de


hiptesis aceptar H1, si y slo si, 0 est fuera del intervalo de confianza.

Equivalencia: Por tanto, la resolucin de un contraste de hiptesis por el procedimiento


general es equivalente a su resolucin mediante intervalo de confianza (los dos toman la
misma decisin).

Matiz: Sin embargo, cada mtodo aporta diferente informacin:

El intervalo de confianza, nos da un rango de valores probables para .

El procedimiento general de contraste de hiptesis, como veremos en la prxima seccin,

es el marco adecuado para estudiar los riesgos que corremos al aceptar o rechazar H1,

calcular el denominado P-valor, etc.

En los ejercicios y pruebas escritas, por defecto, usarse el procedimiento general de

contraste, a no ser que se indique lo contrario.

URJC-DEIO C. Beltrn

84

3.6. Inferencia sobre la media (varianza conocida)

3.6.6.

Contraste de hiptesis unilateral para la media (varianza conocida)

General

En algunas ocasiones nos interesar plantear el contraste de hiptesis unilateral por la


izquierda

H0 : = 0

H1 : < 0,

unilateral por la derecha

H0 : = 0

H1 : > 0.

El procedimiento para resolver este tipo de contrastes es idntico al caso bilateral,


exceptuando la regin crtica.
Dependiendo de la hiptesis alternativa H1, tendremos las siguientes regiones crticas
(Ver

Figura 3.6):

Aceptamos H1 : 6= 0, si y slo si,

z0 < z/2

z/2 < z0,

Aceptamos H1 : < 0, si y slo si, z0 < z.

Aceptamos H1 : > 0, si y slo si, z0 > z.

Como alternativa al procedimiento general de contraste, podemos usar intervalos o cotas


de

confianza para resolver un contraste de hiptesis:

Aceptamos H1 : 6= 0, si y slo si,

0 < lb/2

ub/2 < 0,

donde:

lb

/2

xz

2
n

ub

/2

x+z

Aceptamos H1 : < 0, si y slo si, ub < 0 donde

ub =

x + z .

Aceptamos H1 : > 0, si y slo si, lb > 0 donde

lb =

x z .

URJC-DEIO C. Beltrn

85
3.6. Inferencia sobre la media (varianza conocida)

Figura 3.7: P-valor.

3.6.7.

P-valor (varianza conocida)

Ejemplo 45

Datos:

Continuamos con el ejemplo anterior

V C = velocidad de combustin (cm/s).

Tenamos el estadstico observado z0 = 3,25

Error de tipo I: Equivocarnos al aceptar H1, es decir,

Aceptar H1 / H1 falsa.

Objetivo: Calcula la probabilidad de cometer un error de tipo I al fijar el valor crtico del
contraste en z0 = 3,25.

Operaciones 45:

La probabilidad que nos piden corresponde a:

P ( Aceptar H1 / H1 falsa ) =
P (Z0 6 [3,25, 3,25] / = 50)

Si = 50, es decir = 0, entonces Z0 tiene una distribucin normal estandar, y por

lo tanto (ver Figura 3.7):

P (Z0 6 [3,25, 3,25] / = 50) = 2 P (Z0 > 3,25)

2[1 (3,25)]

0,0012.

URJC-DEIO C. Beltrn

86

3.6. Inferencia sobre la media (varianza conocida)

Solucin:

La probabilidad de cometer un error de tipo I al fijar el valor crtico del contraste en

z0 = 3,25 es del 0,12 %.

En este caso diremos que el P-valor es 0,12 %.

General

Riesgos o errores en un contraste de hiptesis:

Error de tipo I: Equivocarnos al aceptar H1,

Error tipo I Aceptar H1 / H1 falsa .

Error de tipo II: Equivocarnos al rechazar H1,

Error tipo II Rechazar H1 / H1 verdadera. .

Cuantificacin del error de tipo I:

P ( Error tipo I ) : Probabilidad de equivocarnos al aceptar H1,

= P ( Aceptar H

e
1

/ H1 falsa ).

Nivel de significacin o tamano del contraste :

Al resolver un contraste de hiptesis, el nivel de significacin es la cota superior que

imponemos a la probabilidad del error de tipo I , es decir, queremos que

donde a menudo = 1 % 5 %.

P-valor (concepto, clculo y uso):

Concepto intuitivo: El P-valor es una medida del riesgo de equivocarnos al aceptar H1.

Clculo: En un contraste basado en el estadstico Z0, el P-valor se calcula segn los

siguientes casos:

1. Contraste bilateral H1 : 6= 0. En este caso P-valor = 2[1 (| z0 |)].

2. Contraste unilateral H1 : > 0. En este caso P-valor = 1 (z0).

3. Contraste unilateral H1 : < 0. En este caso P-valor = (z0).

Uso en contrastes: Si el P-valor es menor que el nivel de significacin, es decir,

P-valor ,

entonces aceptamos H1, pues la probabilidad de cometer un error del tipo I es baja. En

caso contrario, rechazamos H1.

P-valor (definicin y propiedades):

El P-valor asociado a unos datos es la probabilidad de cometer un error de tipo I al fijar

el valor crtico en z0.

URJC-DEIO C. Beltrn

87
3.6. Inferencia sobre la media (varianza conocida)

As, en un contraste bilateral basado en el estadstico Z0 :

P-valor

P ( Aceptar H1 / H1 falsa )

P (Z0 6 [z0, z0] / = 0)

2 P (Z0 > z0)

2[1 (z0)].

Nota: en la anterior frmula hemos supuesto que z0 es positivo. La frmula general que

sirve para cualquier z0 (positivo o negativo), es P-valor= 2[1 (| z0 |)].

En un contraste unilateral la frmula para calcular el P-valor se deduce de forma anloga.

El P-valor es ms informativo que el nivel de significacin . As, por ejemplo, en dos

contrastes con = 0,050, podemos aceptar H1, teniendo P-valores igual a 0,049 y 0,001,

respectivamente.

URJC-DEIO C. Beltrn

88

3.7. Inferencia sobre la media (varianza desconocida)

3.7.

Inferencia sobre la media (varianza desconocida)

A diferencia de la seccin anterior, en esta seccin supondremos que desconocemos la


varianza 2 a la hora de hacer inferencia sobre la media, por supuesto, desconocida.
En algunos casos, tendremos que recurrir a una nueva distribucin de probabilidad: la
distribu-cin t de Student.

Veremos los siguientes apartados, donde supondremos que desconocemos la varianza:

Contraste de hiptesis sobre la media.

P-valor para un contraste t.

Intervalo de confianza para la media.

3.7.1.

Contraste de hiptesis sobre la media (varianza desconocida)

General (Casustica)

A la hora de realizar un contraste de hiptesis, en la mayora de los casos desconocemos la

varianza poblacional 2. En ese caso podemos estimarla mediante la varianza muestral

Pn

(xi

x)2

S2 =

i=1

n1

Por lo tanto, en muchos casos, para resolver un contraste usaremos el estadstico

X 0

Z=

S/ n

el cual tiene una distribucin aproximadamente normal estndar.


Usaremos el estadstico Z excepto en dos casos:

Caso 1: Tamano muestral n pequeno (n < 30), 2 desconocida y datos gaussianos. En

este caso usaremos el estadstico

X 0

T=

S/ n

el cual tiene una distribucin t de Student con n 1 grados de libertad.

Caso 2: Tamano muestral n pequeno (n < 30), 2 desconocida y datos no gaussianos.

En este caso podemos recurrir a mtodos no paramtricos (Ver Montgomery, pag. 162).

General (Distribucin t de Student)

X Tk, se lee, X tiene una distribucin t de Student con k grados de libertad.

En la Fig. 3.8 tenemos representada la funcin de densidad de probabilidad de una VA t de

Student para varios valores de k.

La grfica de la funcin de densidad de probabilidad (fdp) de la distribucin t es parecida a


la grfica de la fdp de la distribucin normal, pero con colas ms pesadas.

URJC-DEIO C. Beltrn

89
3.7. Inferencia sobre la media (varianza desconocida)

Figura 3.8: Funcin de densidad de una VA t de Student.

T N (0, 1).

La distribucin de Student fue descrita por William Sealy Gosset (1876-1937), ms


conocido

por el seudnimo Student.

Se usa para hacer inferencia sobre la media en el caso de tener una poblacin:

Normal.

Varianza desconocida.

Tamano muestral pequeno (n < 30).

Media y varianza: Si X Tk entonces:

= E(X) = 0 y

2 = V (X) =

.
k2

Funcin de densidad de probabilidad. Si X Tk entonces:

f (x) =

<x<

[(x2/k) + 1](k+1)/2

donde

[(k + 1)/2]

C = k

[k/2]

(k) =

ezzk1dz.

Para hacer los clculos asociados a esta distribucin normalmente usaremos una tabla. (Ta-

bla 3.7.1)

Ejemplo 46

Datos:

La compana Nike subcontrata la fabricacin de sus palos de golf a una empresa china.

Ambas companas llegan al acuerdo de que el coeficiente de restitucin de los palos ha

de tener una media superior a 0.82.

URJC-DEIO C. Beltrn
90

3.7. Inferencia sobre la media (varianza desconocida)

El coeficiente de restitucin se define como

Velocidad de salida de la bola (m/s)

CR = Velocidad del palo al golpear la bola (m/s)

En concreto queremos estudiar la media de la VA

CR = Coeficiente de restitucin (no tiene unidades).

Desconocemos su y su y suponemos que CR N (, )

Las especificaciones de Nike requieren que el CR tenga una media > 0,82.

Se toma una muestra aleatoria de tamano n = 15 de la variable aleatoria CR:

0,8411, 0,8191, . . . , 0,8660.

A partir de estos datos, se ha calculado

x = 0,83725 y s = 0,02456.

Objetivo: Con estos datos, puede, la compana subcontratada, afirmar que > 0,82 con un
nivel de significacin = 0,05?

1. Resolver por el procedimiento general de contraste.

2. Resolver calculando una cota de confianza.

Operaciones 46:

1. Procedimiento general de contraste de hiptesis:

a) El parmetro de inters es .

b) H0 : = 0,82.

c) H1 : > 0,82.

d) = 0,05.

e) Vamos a usar el siguiente estadstico:

X 0

T0 =

S/ n

Notar que usamos este estadstico, pues desconocemos , tenemos datos gaussianos,

y el tamano muestral el pequeno (n = 15 < 30.)

f ) Aceptamos H1 si y slo si

T0 > t0,05, 14 = 1,761.

g) El valor observado del estadstico es:

0,83725 0,82

t0 =

= 2,72.

0,02456/ 15

URJC-DEIO C. Beltrn

91

3.7. Inferencia sobre la media (varianza desconocida)

Figura 3.9: Regin crtica para contraste bilateral o unilateral.

h) Dado que t0 = 2,72 > 1,761, aceptamos

H1 : > 0,82
con un nivel de significacin 0.05.

2. Cota de confianza:

Para ver si tenemos evidencia que respalde

H1 : > 0,82

necesitamos calcular lb, la cota inferior de de confianza 1 :

lb =

x t;n1 n

0,02456

0,83725 1,761

15

0, 8261

Con una confianza del 95 %, se cumple que

> lb = 0, 8261.

Por tanto, para un un nivel de confianza del 95 %, podemos aceptar que

H1 : > 0, 82.

Solucin: La compana subcontratada puede afirmar que, el coeficiente de restitucin


medio es superior a 0,82 con un nivel de significacin 0.05.

3.7.2.

P-valor (varianza desconocida)

Ejemplo 47

URJC-DEIO C. Beltrn

92
3.7. Inferencia sobre la media (varianza desconocida)

TABLA DE LA DISTRIBUCION t-Student con n grados de libertad..

0.75

0.80

0.85

0.90

0.95

0.975

0.99
0.995
1
1.000

1.376

1.963

3.078

6.314

12.706

31.821
63.657
2
0.816

1.061

1.386

1.886

2.920

4.303

6.965
9.925
3
0.765

0.978

1.250

1.638

2.353

3.182

4.541
5.841
4
0.741

0.941

1.190

1.533

2.132

2.776

3.747
4.604
5
0.727

0.920

1.156

1.476

2.015

2.571

3.365
4.032
6
0.718

0.906

1.134

1.440

1.943

2.447

3.143
3.707
7
0.711

0.896

1.119

1.415

1.895

2.365

2.998
3.499
8
0.706

0.889

1.108

1.397

1.860

2.306

2.896
3.355
9
0.703

0.883

1.100

1.383

1.833

2.262

2.821
3.250
10
0.700

0.879

1.093

1.372

1.812

2.228

2.764
3.169
11
0.697

0.876

1.088

1.363

1.796

2.201

2.718
3.106
12
0.695

0.873

1.083

1.356

1.782

2.179

2.681
3.055
13
0.694

0.870

1.079

1.350

1.771

2.160

2.650
3.012
14
0.692

0.868

1.076

1.345

1.761

2.145

2.624
2.977
15
0.691

0.866

1.074

1.341

1.753

2.131

2.602
2.947
16
0.690

0.865

1.071

1.337

1.746

2.120

2.583
2.921
17
0.689

0.863

1.069

1.333

1.740

2.110

2.567
2.898
18
0.688

0.862

1.067

1.330

1.734

2.101

2.552
2.878
19
0.688

0.861

1.066

1.328

1.729

2.093

2.539
2.861
20
0.687

0.860

1.064

1.325

1.725

2.086

2.528
2.845
21
0.686

0.859

1.063

1.323

1.721

2.080

2.518
2.831
22
0.686

0.858

1.061

1.321

1.717

2.074

2.508
2.819
23
0.685

0.858

1.060

1.319

1.714

2.069

2.500
2.807
24
0.685

0.857

1.059

1.318

1.711

2.064

2.492
2.797
25
0.684

0.856

1.058

1.316

1.708

2.060

2.485
2.787
26
0.684

0.856

1.058

1.315

1.706

2.056

2.479
2.779
27
0.684

0.855

1.057

1.314

1.703

2.052

2.473
2.771
28
0.683

0.855

1.056

1.313

1.701

2.048

2.467
2.763
29
0.683

0.854

1.055

1.311

1.699

2.045

2.462
2.756
30
0.683

0.854

1.055

1.310

1.697

2.042

2.457
2.750
40
0.681

0.851

1.050

1.303

1.684

2.021

2.423
2.704
60
0.679

0.848

1.046

1.296

1.671

2.000

2.390
2.660
120
0.677

0.845

1.041

1.289

1.658

1.980

2.358
2.617

0.674

0.842

1.036

1.282

1.645

1.960

2.326
2.576
URJC-DEIO C. Beltrn
93

3.7. Inferencia sobre la media (varianza desconocida)

Figura 3.10: Clculo aproximado del P-valor.

Datos:

Continuamos con el ejemplo anterior

CR = Coeficiente de restitucin (no tiene unidades).

Tenemos H0 : = 0,82 y H1 : > 0,82.

n = 15 observaciones.

Tenamos el estadstico observado t0 = 2,72

Error de tipo I: Equivocarnos al aceptar H1, es decir,

Aceptar H1 / H1 falsa.

Objetivo: Calcula la probabilidad de cometer un error de tipo I al fijar el valor crtico del
contraste en t0 = 2,72.

Operaciones 47:

La probabilidad que nos piden corresponde a:


P (Aceptar H1/ H1 falsa) =

P (T0 > 2,72/ = 0,82)

Si = 0,82, es decir = 0, entonces T0 tiene una distribucin t de Student con 14

grados de libertad.

Consultando la tabla de la distribucin t (ver Figura 3.10):

P ( T0 > 2,72 / = 0,82 ) <

P ( T0 > 2,624 / = 0,82 )

0,01

Solucin:

URJC-DEIO C. Beltrn

94

3.7. Inferencia sobre la media (varianza desconocida)

La probabilidad de cometer un error de tipo I al fijar el valor crtico del contraste en

t0 = 2,72 est por debajo del 1 %.

Dicho de otra manera, el P-valor asociado a t0 = 2,72 est por debajo del 1 %.

General (P-valor)

Como ya vimos, El P-valor es una medida del riesgo de equivocarnos al aceptar H1.

El P-valor corresponde a la probabilidad a partir del valor observado del estadstico para
un contraste unilateral o dos veces esa probabilidad para un contraste bilateral.

Para calcular el P-valor (suponiendo que la poblacin analizada es Gaussiana):

Si tenemos un tamano muestral grande (n 30), usaremos el estadstico Z0 y la tabla

de la distribucin normal estndar.

Si tenemos un tamano muestral pequeno (n < 30), usaremos el estadstico T0 y la tabla


de la distribucin t de Student.
3.7.3.

Intervalo de confianza (varianza desconocida)

Ejemplo 48

Datos:

Continuamos con el ejemplo anterior

CR = Coeficiente de restitucin (no tiene unidades).

y son desconocidas.

A partir de una muestra aleatoria de tamano n = 15 hemos obtenido

x = 0,83725 y

s = 0,02456.

Objetivo: Calcula un intervalo de confianza 0.95 para la media del coeficiente de


restitucin.

Operaciones 48:

Como veremos, en este contexto, el intervalo pedido es:

I1 =

xt

/2, n1

x+t

,
n

/2, n1

donde

1 = nivel confianza = 0,95.

Substituyendo los datos y teniendo en cuenta que

/2 = 0,050/2 = 0,025

URJC-DEIO C. Beltrn

95

3.7. Inferencia sobre la media (varianza desconocida)

obtenemos que

0,02456

I0,95 =

0,83725 2,145

15

0,02456

0,83725 + 2,145

15

[0,82365, 0,85085].

Solucin: El intervalo de confianza 0.95 para la media del coeficiente de restitucin es

I0,95 = [0,82365, 0,85085].


General (Intervalo de confianza (varianza desconocida))

Podemos estimar mediante un intervalo de confianza I1 centrado en

x y de radio r :

I1 = [

x r,

x + r]

t , n1 ,

donde t , n1 es el percentil derecho de nivel /2 de la distribucin t de Student con n 1

grados de libertad.

En la anterior frmula, si tenemos un tamano muestral grande (n 30), podemos


aproximar

t/2, n1 mediante z/2.

URJC-DEIO C. Beltrn

96

Captulo 4

Regresin

4.1.

Apartados
1. Introduccin a los modelos empricos

2. Regresin lineal simple

3. Contraste de hiptesis en regresin lineal

4. Intervalos de confianza en regresin lineal


5. Bondad de ajuste
4.2.
Introduccin a los modelos empricos

Ejemplo 49

Datos:

Ref: Montgomery 3a Ed., pgina 261.

Consideramos un ejemplo de Fsica: el movimiento uniformemente acelerado.

En este caso, la velocidad terica v(t) viene dada por:

v(t) = v0 + a t

Supongamos que estamos estudiando el desplazamiento de una bola metlica por una

rampa.

Los parmetros tericos del experimento son v0 = 3 m/s y a = 2 m/s2.

Despus de realizar el experimento obtenemos la siguiente velocidad observada vt:

v(t)

vt

m/s

m/s

3
2.5
1
5
5.1
2
7
6.7
3
9
9.2
97

4.2. Introduccin a los modelos empricos

Figura 4.1: Velocidad terica (recta) y velocidad observada (puntos).

Objetivo:

1. Representar la grfica de la funcin v(t).

2. Representar en la misma grfica los puntos (t, vt) (diagrama de dispersin).

3. Comentarios.
Operaciones 49:

En la Figura 4.1 hemos representado la velocidad terica v(t) y la velocidad observada vt

Conocemos a priori un modelo terico que describe la velocidad terica v(t).

La velocidad observada vt tienen ligeras perturbaciones respecto a la velocidad terica

v(t).

Esas perturbaciones no implican que el modelo terico sea errneo, pues pueden ser debi-

das a:

Errores de medida,

Imperfecciones de la rampa, rugosidad, etc.

Solucin:

Ejemplo 50

Datos:

Ref: Montgomery 3a Ed., pgina 261.

Se quiere analizar el impacto de las autopistas en la contaminacin de los ros adyacentes.

URJC-DEIO C. Beltrn

98
4.2. Introduccin a los modelos empricos

Tabla 4.1: Concentracin de sal (mg/l) y superficie asfaltada ( %).

Figura 4.2: Diagrama de dispersin.

URJC-DEIO C. Beltrn

99

4.2. Introduccin a los modelos empricos

Figura 4.3: Distribucin de Y (concentracin de sal) para un valor dado de x

(superficie asfaltada).

Para un conjunto de 20 cuencas hidrogrficas estudiamos las variables:

y = Concentracin de sal en las aguas superficiales de un ro o sus afluentes

(cuenca hidrogrfica) (mg/ l).

x = Superficie de la cuenca hidrogrfica cubierta por autopistas o carreteras (en %).

Los datos recogidos pueden verse en la Tabla 4.1.

Objetivo:

1. Representar el diagrama de dispersin o nube de puntos (xi, yi).

2. Analizar cul podra ser un buen modelo que explique la concentracin de sal a partir de
la proporcin de superficie asfaltada.

Operaciones 50:

Objetivo 1: En la Figura 4.2 tenemos el diagrama de dispersin.

Objetivo 2: No conocemos, a priori, un modelo terico y(x) que explique la concentra-

cin de sal en funcin de la superficie asfaltada.

Un posible modelo emprico podemos encontrarlo en la Figura 4.3.

La concentracin de sal parece que depende linealmente de la cantidad de superficie

asfaltada:

y(x) =

0 +

1 x.

La anterior recta constituye un modelo emprico del cual desconocemos sus parmetros

0 y
1.
Veremos que una buena recta es:

y(x) = 2,7 + 17,5 x.

URJC-DEIO C. Beltrn

100

4.2. Introduccin a los modelos empricos

Las perturbaciones respecto al modelo emprico no implican necesariamente que tal

modelo sea errneo, pues pueden depender de:

Errores de medida.

La eleccin del punto del ro donde medimos la concentracin de sal.

Que haya otros factores que influyan en la concentracin de sal.

Solucin: Parece que el modelo de regresin lineal simple es un buen modelo para explicar
la

concentracin de sal a partir de la proporcin de superficie asfaltada.

General (Modelos en ingeniera)

Modelos tericos:

La frmula de la velocidad final

v(t) = v0 + a t

es un ejemplo de modelo terico (lineal).

Estn basados en leyes fsicas, qumicas, etc. que conocemos.

A partir de deducciones tericas, conocemos a priori las variables y constantes que

intervienen y sus interrelaciones.

Modelos empricos:

La frmula de la concentracin de sal


y(x) = 2,7 + 17,5 x.

es un ejemplo de modelo emprico (lineal).

Estn basados en leyes fsicas, qumicas, etc. que desconocemos.

A partir de datos empricos, debemos recomponer las variables y constantes que inter-

vienen, as como sus interrelaciones.

Uno de los modelos empricos ms usados es el modelo de regresin lineal simple.

Poblacin y muestra:

Hay que distinguir los conceptos poblacionales de los conceptos muestrales.

La nube de puntos poblacional {(x, Y (x)) | x [a, b]} cumple la ecuacin

Y (x) = 0 + 1x + ,

donde el error N (0, ).

La nube de puntos muestral o diagrama de dispersin {(xi, yi)}n

cumple la ecua-

i=1

cin

yi =

0 +

1xi + ei,

donde ei es el error de la observacin i.

URJC-DEIO C. Beltrn

101
4.3. Regresin lineal simple

Figura 4.4: Diagrama de dispersin y recta de regresin.

La recta de regresin poblacional {(x, Y |x) | x [a, b]} cumple la ecuacin

Y |x = 0 + 1x,

donde Y |x = E(Y | x).

La recta de regresin muestral {(x,

y(x)) | x [a, b]} cumple la ecuacin

y(x) =

0 +

1x.

Notar que nos aparecen tres ys que no hay que confundir:

Y (x), nube de puntos poblacional.

yi, nube de puntos muestral.


Y |x, recta de regresin poblacional.

y(x), recta de regresin muestral.

4.3.

Regresin lineal simple

Recta de regresin.

Hiptesis y propiedades del modelo.

Regresin y anlisis de varianza (ANOVA).

4.3.1.

Recta de regresin

Ejemplo 51

Datos:

Ref: Montgomery 3a Ed., pgina 268.

Continuamos con el ejemplo anterior.

URJC-DEIO C. Beltrn

102

4.3. Regresin lineal simple

Asumimos que la concentracin de sal Y (mg/ l) depende linealmente de la cantidad de

superficie asfaltada x (en %):

Y = 0 + 1x + ,

donde el error N (0, ).

Objetivo:

1. Determinar la recta que mejor se ajuste a la nube de 20 puntos observados (ver Tabla
4.1): (0,19, 3,8), . . . , (1,62, 32,7).

2. Estimar la desviacin tpica .


Operaciones 51:

1. Se puede demostrar que la recta que mejor se ajusta viene dada por la siguiente
estimacin de (0, 1):

Sxy

64,4082

1 =

= 17,5467,

Sxx

3,67068

donde

20

Sxy =

(xi

x)(yi

y)

i=1

20

Sxx =

(xi

x)2

i=1
P20

xi

i=1

20

P20

yi

i=1

20

La mejor estimacin de 0 corresponde a:

0 =

17,135 17,5467 0,824

2,6765

La representacin de esta recta puede verse en la Figura 4.4.


2. Una estimacin de 2 se obtiene mediante:

Pn

(yi

yi)2

57,7

2 =

i=1

= 3,2056

n2

18

URJC-DEIO C. Beltrn

103
4.3. Regresin lineal simple

Figura 4.5: Desviaciones de los datos respecto del modelo de regresin.

y por tanto

3,2056 = 1,7904 mg/l.

Solucin:

1. La recta que mejor se ajusta es (ver representacin en Figura 4.4):

0 +

1x

2,6765 + 17,5467x

2. Una estimacin de la desviacin tpica viene dada por

= 1,7904 mg/l.

General

Mnimos cuadrados - problema:

La recta de regresin corresponde a la recta que mejor se ajusta a la nube de puntos


segn el criterio de los mnimos cuadrados.

La estimacin de = (0, 1) por el criterio de los mnimos cuadrados, resuelve el

siguiente problema de optimizacin:

mn L() =

[i()]2,

i=1

donde tenemos los errores

i() = yi

y(xi)

yi 0 1xi.

URJC-DEIO C. Beltrn

104

4.3. Regresin lineal simple

La representacin de estos errores puede verse en la Figura 4.5.

Mnimos cuadrados - optimizacin:

Se puede demostrar que L() es una funcin convexa.

En ese caso, para encontrar un mnimo es suficiente encontrar un

que anule el gradiente

de L:

L(
) = (0, 0).

Mnimos cuadrados - solucin:

Se puede demostrar que el anterior problema de optimizacin tiene la siguiente solucin

0,

1):

Sxy

1 = Sxx

donde

Sxy =

(xi

x)(yi

y)

i=1

Sxx =

(xi

x)2

i=1

Pn

xi

i=1

Pn

yi

i=1

Una vez calculado

1, podemos calcular

0 :

0 =

Varianza de la recta de regresin: La varianza asociada a la recta de regresin 2, se puede


estimar como:

SSE

2 =
,

n2

donde

SSE =

e2i =

(yi

yi)2

i=1

i=1

es la suma de los errores al cuadrado.

URJC-DEIO C. Beltrn

105

4.3. Regresin lineal simple

4.3.2.

Propiedades del modelo de regresin

Ejemplo 52

Datos:

Ref: Montgomery 3a Ed., pgina 271.

Continuamos con el ejemplo de la concentracin de sal.

Asumimos, de momento, que la concentracin de sal Y (mg/l) depende linealmente de

la proporcin de superficie asfaltada x (en %):


Y = 0 + 1x + ,

donde N (0, ).

Objetivo:

1. Estimar la desviacin tpica del estadstico

1, en tanto que estimador de 1.

2. Estimar la desviacin tpica del estadstico

0, en tanto que estimador de 0.

Operaciones 52:

1. Una estimacin de la desviacin tpica de

1 se obtiene mediante:

r 3,2056

se(

1) =

= 0,9346.

Sxx

3,67068

2. Anlogamente, una estimacin de la desviacin tpica de

0 se obtiene mediante:

x2

se(

0) =

= 0,8680.

Sxx

Solucin: Estimamos las desviaciones tpicas de

1 y

0, por 0.9346 y 0.8680, respectivamente.

General (Propiedades)

Modelo de regresin: Recordamos que el modelo de regresin lineal simple tiene la


siguiente

expresin:

Y = 0 + 1x + ,

donde N (0, ).

Propiedades:

1. Los estimadores

0 y

1 son VA y tienen una distribucin normal.

2. Los estimadores

0 y

1 son insesgados, es decir:


E(

0) = 0

E(

1) = 1.

URJC-DEIO C. Beltrn

106

4.3. Regresin lineal simple

3. Las varianzas de

0 y

1 son:

x2

V(

0) = 2

Sxx

V(

1) =

Sxx

Error estandar: El error estandar (se) corresponde a la estimacin de la desviacin tpica


de
0 y

de

0. Se puede calcular mediante las frmulas:

x2

se(

0) =

Sxx

se(

1) =

Sxx

4.3.3.

Regresin y anlisis de varianza (ANOVA)

Ejemplo 53

Datos:
Ref: Montgomery 3a Ed., pgina 272.

Continuamos con el ejemplo de la concentracin de sal.

En la nube de puntos observamos que a medida que aumenta x aumenta y.

Esta relacin queda reflejada en la recta de regresin (estimada):

y = 2,6765 + 17,5467x.

Sin embargo, no todos los puntos estn sobre la recta de regresin.

Es decir, la recta no explica toda la variabilidad de y.

La variabilidad de y se refiere a la variacin respecto a su media: y

y.

Objetivo: Cuantificar la parte de la variacin de la concentracin de sal que es explicada por


el modelo de regresin.

Operaciones 53: Para ello podemos recurrir al coeficiente de determinacin:

SSE

R2 = 1

SST

Dado que

SS

Pn

(yi

yi)2

57,7

=
i=1

SS

Pn

(y

1187,9

i=1

y)2

tenemos que

R2 = 1 0,0486 = 0,9514.

URJC-DEIO C. Beltrn

107

4.3. Regresin lineal simple

Solucin: El modelo de regresin explica el 95.14 % de la variacin de la concentracin de


sal como funcin de la superficie asfaltada.

General (Regresin y anlisis de varianza - ANOVA)

Anlisis de la varianza: En todo modelo de regresin tenemos:

La variacin total respecto a la media se puede cuantificar mediante la siguiente suma:

X(yi y)2.

i=1

La variacin explicada por el modelo de regresin se puede cuantificar mediante la

siguiente suma:
n

X(yi y)2.

i=1

La variacin no explicada por el modelo de regresin (error) se puede cuantificar

mediante la siguiente suma:

X(yi yi)2.

i=1

Se puede demostrar que:

Variacin Total = Variacin explicada + Variacin no explicada

(yi

y)2

yi

y)2 +

(yi

yi)2

i=1
i=1

i=1

SST

SSR + SSE,

donde SS, T, R y E son las siglas de Sum of Squares, Total, Regresin y Error, respec-

tivamente.

De forma equivalente podemos escribir:

SST

SSR

SSE

SST

SST

SST

SSE

R2 + SST

donde hemos denotado por R2 el primer sumando y por tanto

SSE

R2 = 1

SST
Coeficiente de determinacin: Se representa por R2 y corresponde a la proporcin de la
variacin de la variable respuesta Y que es explicada por el modelo de regresin.

Nota:

Los modelos de regresin se usan principalmente para interpolacin.

Es decir, a la hora de predecir nuevas observaciones de la variable respuesta Y para un


determinado valor de la variable explicativa x, deberamos usar slo valores en el rango de
las xs usadas para construir el modelo.

URJC-DEIO C. Beltrn

108

4.4. Contraste de hiptesis en regresin lineal

4.4.

Contraste de hiptesis en regresin lineal

Ejemplo 54

Datos: Continuamos con el ejemplo de la concentracin de sal (Ref: Montgomery 3a Ed.,


pgina

275).

Objetivo: Realiza un contraste de hiptesis para determinar si la pendiente de la recta de


regresin, es decir 1, es diferente de cero.

Operaciones 54:

Podemos plantear el siguiente contraste de hiptesis:

H0 : 1 = 0

H1 : 1 6= 0

con un nivel de significacin (arbitrario) de = 0,01.

Para resolver este contraste usamos el estadstico T :

1 0

t0 =
se(

1)

2/Sxx

17,5467

p3,2/3,67068

18,77.

Dado que n = 20 (observaciones), el valor crtico es:

t ;n2 = t0,005;18 = 2,88.

Y por tanto, considerando que t0 > t ,n2, aceptamos H1.

Solucin: Aceptamos H1 y por tanto concluimos que la proporcin de superficie asfaltada


expli-ca, por lo menos parcialmente, la concentracin de sal en la superficie de los ros
(nivel de significacin de = 0,01.).

General (Contrastes en regresin)

Contraste para la pendiente - Test T :

URJC-DEIO C. Beltrn

109
4.4. Contraste de hiptesis en regresin lineal

Figura 4.6: La hiptesis H1 : 1 6= 0 es rechazada.

Figura 4.7: La hiptesis H1 : 1 6= 0 aceptada.

URJC-DEIO C. Beltrn

110

4.4. Contraste de hiptesis en regresin lineal

Supongamos que queremos contrastar:

H0 : 1 = 1,0

H1 : 1 6= 1,0.

Para resolver este contraste usamos el estadstico T :

1 1,0

t0 =

se(

1)

1 1,0

2/Sxx

que tiene una distribucin t de Student con n 2 grados de libertad.

Para un nivel de significacin , aceptamos H1 si

| t0 |> t ,n2.

Contraste para la pendiente - pendiente nula:

Un caso importante corresponde a contrastar si la pendiente es nula:

H0 : 1 = 0

H1 : 1 6= 0.

Rechazar H1 :

Indica que no hay evidencia estadstica de que la pendiente sea diferente de cero

(Declaramos pendiente nula).

Indica, adems, que no hay dependencia lineal entre la variable explicativa x y la

variable explicada Y :

O bien, x tiene poco valor para explicar Y , es decir, son variables independientes

(ver Figura 4.6-(a)).


O bien, la dependencia entre x e Y es no lineal (ver Figura 4.6-(b))

Aceptar H1 :

Indica que hay evidencia estadstica de que la pendiente es diferente de cero.

Sin embargo, no indica necesariamente que haya dependencia lineal entre x e Y :

Puede ocurrir que haya dependencia lineal entre x e Y (ver Figura 4.7-(a)).

Pero tambin puede ocurrir que haya dependencia no lineal entre x e Y (ver

Figura 4.7-(b)).

Para concluir que hay dependencia lineal entre x e Y , deben cumplirse dos requisitos:

Debemos aceptar H1 : 1 6= 0, en el anterior contraste.

Debemos validar el modelo de regresin lineal, de la forma que veremos ms ade-

lante.

Contraste para la ordenada en el origen - Test T :

Supongamos que queremos contrastar:

H0 : 0 = 0,0

H1 : 0 6= 0,0.

URJC-DEIO C. Beltrn

111

4.5. Intervalos en regresin lineal

Para resolver este contraste usamos el estadstico T :

0 0,0

t0 =

se(

0)
donde

x2

se(

0) =

Sxx

Este estadstico tiene una distribucin t de Student con n 2 grados de libertad.

Para un nivel de significacin , aceptamos H1 si

| t0 |> t ,n2.

4.5.

Intervalos en regresin lineal

Estudiaremos :

Los intervalos de confianza para los parmetros de la recta de regresin:

0 y
1.
Los intervalos de previsin para la variable respuesta:
Y0 = Y |x0.

4.5.1.

Intervalos de confianza para 0 y 1.

Ejemplo 55

Datos:

Ref: Montgomery 3a Ed., pgina 277.

Continuamos con el ejemplo de la concentracin de sal.

Hemos aceptado que la pendiente es distinta de cero (1 6= 0).

Objetivo: Calcular un intervalo de confianza 95 % para la pendiente de la recta de regresin


1.

Operaciones 55:

IC0,95(1) = [

1 t0,025;18 se(

1) ]

[ 17,5467 2,101 0, 9346 ]

[ 15,5831, 19,5103 ].

URJC-DEIO C. Beltrn

112

4.5. Intervalos en regresin lineal

Solucin: Un intervalo de confianza 95 % para la pendiente de la recta de regresin es:

[ 15,58, 19,51 ]
General (Intervalos de confianza)

Intervalo para la pendiente:

Hiptesis: Suponemos que los errores i son independientes y siguen una distribucin

normal tal que i N (0, ).

Bajo esta hiptesis, un intervalo de confianza para la pendiente 1 puede calcularse como:

IC

1(1) =

1 t ;n2 se(

1)

donde

se(

1) =

Sxx

Intervalo para la ordenada en el origen:

Similarmente al caso anterior, un intervalo de confianza para la ordenada en el origen 0

puede calcularse como:

h
i

IC

1(0) =

0 t ;n2 se(

0)

donde

x2

se(

0) =

Sxx

4.5.2.

Intervalos de previsin para Y

Ejemplo 56

Datos:

Ref: Montgomery 3a Ed., pgina 281.

Continuamos con el ejemplo de la concentracin de sal.


Objetivo: Calcular un intervalo de prediccin al 95 % para la concentracin de sal Y en una
cuenca hidrogrfica con un 1.25 % de superficie cubierta por carreteras:

IP0,95(Y |x=1,25).

Operaciones 56:

Podemos usar el siguiente intervalo de prediccin:

IP1(Y0) =

y0 t ; n2 se(Y0

Y0) ,

URJC-DEIO C. Beltrn

113

4.5. Intervalos en regresin lineal

donde

Y0 = Y |x0

Y0 =

0 +

1x0

1
(x

x)2

se(Y0

Y0) =

2 1 +

Sxx

Dado que x0 = 1,25, tenemos que el centro del intervalo viene dado:

y0 = 2,6765 + 17,5467 1,25 = 24,61.

Por otro lado = 0,05 y n = 20, por lo que el correspondiente percentil es:

t0,025;18 = 2,101.

El radio del intervalo es proporcional a:

(1, 25 0,824)2

se(Y0

Y0) =

3,2 1 +

+
20

3,67068

1,8757

Con lo que podemos concluir:

IP0,95(Y |x=1,25) = [ 24,61 2,101 1,8757 ]

[ 20,66, 28,55 ]

Solucin: Con una confianza del 95 %, la concentracin de sal en una cuenca hidrogrfica
con un 1.25 % de superficie cubierta por carreteras estar en el intervalo de prediccin:

IP0,95(Y |x=1,25) = [ 20,66, 28,55 ] mg/l.

General (Prediccin de nuevas observaciones)

Prediccin: Una aplicacin importante de los modelos de regresin es la prediccin de


nuevas o futuras observaciones Y correspondientes a un valor concreto x0 de la variable
explicativa.

Prediccin puntual: Una prediccin (estimacin) puntual de Y en x0 se puede obtener


mediante

y0,

que se calcula mediante la recta de regresin:

y0 =

0 +

1x0,

URJC-DEIO C. Beltrn

114
4.5. Intervalos en regresin lineal

Figura 4.8: Franja de prediccin (confianza 95 %), marcada con

Prediccin por intervalo: Una prediccin (estimacin) de Y en x0 por intervalo de


prediccin

(1 ) se puede obtener mediante:

IP1(Y0) =

y0 t ; n2 se(Y0

Y0) ,

donde
Y0 = Y |x0

Y0 =

0 +

1x0

(x

x)2

se(Y0

Y0) =

2 1 +

Sxx

Franja de prediccin: Si calculamos el anterior intervalo de prediccin para cada valor de


x0, obtenemos una franja de prediccin (Figura 4.8).

Nota: Hay que tener mucho cuidado en no confundir el anterior intervalo de prediccin
para Y y los intervalos de confianza para 0 y 1, respectivamente, vistos en la seccin
anterior.

URJC-DEIO C. Beltrn
115

4.6. Protocolo del modelo de regresin lineal

4.6.

Protocolo del modelo de regresin lineal

General (Protocolo del modelo de regresin lineal simple)

De cara a usar el modelo de regresin lineal simple en inferencia estadstica, seguiremos


los siguientes pasos:

1. Recopilar una muestra de pares de datos de las variables de inters:

D = {(x1, y1), . . . , (xn, yn)}.

2. Representar el diagrama de dispersin de D.

3. Validar el modelo de regresin lineal simple (desarrollado en las secciones siguientes).

4. Usar las herramientas de inferencia ms adecuadas para cada situacin:

a) Recta de regresin.

b) Contrastes de hiptesis.

c) Intervalos de confianza.

d) Intervalos de prediccin.

4.6.1.

Validacin del modelo de regresin

Ejemplo 57

Datos:

Ref: Montgomery 3a Ed., pgina 282.

Continuamos con el ejemplo de la concentracin de sal.

Objetivo: Verificar si el modelo de regresin lineal es adecuado para este caso (validacin
del modelo).

Operaciones 57:
Para validar el modelo, debemos analizar los errores (anlisis de errores o anlisis de

residuos):

ei = yi

yi con i = 1, . . . , 20.

En nuestro caso tenemos:

2,210

0,591 . . . 0,598.

En primer lugar, verificamos grficamente si estos errores son independientes, con media

cero y varianza constante.

URJC-DEIO C. Beltrn

116
4.6. Protocolo del modelo de regresin lineal

Figura 4.9: Plot de los residuos versus los valores estimados de

y.

Figura 4.10: Plot de probabilidad normal de los residuos ei.

Observando la Figura 4.9 podemos aceptar las hiptesis de errores independientes, con

media cero y varianza constante.

En segundo lugar, verificamos si los residuos tienen una distribucin normal.

Para ello representamos el plot de probabilidad normal correspondiente.

Observando la Figura 4.10 podemos aceptar las hiptesis de normalidad.

Solucin: Podemos aceptar que se cumplen las hiptesis del modelo de regresin lineal:
errores independientes, normales, con media cero y varianza constante.

General (Validacin del modelo de regresin)

Hiptesis: El modelo de regresin lineal

Yi = 0 + 1xi + i

presupone que los errores i, con i = 1, . . . , n, son variables aleatorias:


URJC-DEIO C. Beltrn

117

4.7. Correlacin y regresin

Figura 4.11: Algunos patrones de los residuos ei : (a) satisfactorio, (b) embudo,

(c) doble arco, (d) no lineal ((b), (c) y (d) no son satisfactorios).

Independientes.

Con distribucin normal.

Media cero.

Varianza constante.

Es decir, las siguientes variables aleatorias son independienes

i N (0, 2)

con i = 1, . . . , n.

Validacin del modelo:

Para validar el modelo, debemos analizar los errores observados:

ei = yi

yi

con i = 1, . . . , n.

En primer lugar, realizamos un anlisis de los residuos: verificamos grficamente si estos

errores son independientes, con media cero y varianza constante.

Algunos patrones tpicos del comportamiento de los errores puede verse en la Figura 4.11
En segundo lugar, realizamos un anlisis de normalidad.

4.7.

Correlacin y regresin

General

Coeficiente de correlacin muestral r:

Se calcula mediante la frmula:

Sxy

r=

pSxx Syy

Mide la dependencia lineal entre dos variables X e Y.

El valor de r est en en intervalo [1, 1] y no tiene unidades.

Valores de r cercanos a 0 indican que entre las variables X e Y no hay dependencia

lineal.

Valores de |r| cercanos a 1 indican que las variables X e Y hay dependencia lineal.

URJC-DEIO C. Beltrn

118

4.7. Correlacin y regresin

Para ms detalles ver la Seccin 1.3.2.

Correlacin y regresin:

r corresponde a la la raz cuadrada del coeficiente de determinacin R2, tomando

como signo de r el signo de la pendiente de la recta de regresin.

URJC-DEIO C. Beltrn

119

También podría gustarte