Está en la página 1de 349

UNIVERSIDAD POLITÉCNICA DE VALENCIA

ESTADÍSTICA BÁSICA

PARA

INGENIERÍA

María Teresa Carot Sánchez


Gonzalo Clemente Marín
José María Sanz Juan

DEPARTAMENTO DE ESTADÍSTICA E INVESTIGACIÓN


OPERATIVA APLICADAS Y CALIDAD

Septiembre 2013
Contenido

-2-
Contenido

CONTENIDO

1. INTRODUCCIÓN

1.1. LA METODOLOGÍA ESTADÍSTICA.............................................................. 9


1.2. EL MÉTODO CIENTÍFICO .......................................................................... 12
1.3. SOFTWARE ESTADÍSTICO ....................................................................... 14
1.4. REDONDEO DE LOS DATOS .................................................................... 15
1.5. ALFABETO GRIEGO .................................................................................. 17

2. ESTADÍSTICA DESCRIPTIVA

2.1. INTRODUCCIÓN ............................................................................................. 19


2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL.......................................... 22
2.2.1. Tablas de frecuencias ............................................................................. 23
2.2.2. Histogramas ............................................................................................ 23
2.2.3. Polígono de frecuencias .......................................................................... 25
2.2.4. Diagrama de puntos ................................................................................ 25
2.2.5. Gráfico de tartas ...................................................................................... 26
2.2.6. Gráfico de Pareto .................................................................................... 26
2.2.7. Medidas de posición ................................................................................ 27
2.2.8. Medidas de dispersión............................................................................. 29
2.2.9. Diagrama e tallos y hojas ........................................................................ 31
2.2.10. Diagrama de caja-y-bigotes ................................................................... 32
2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL ........................................... 33
2.3.1. Tablas de frecuencia de doble entrada ................................................... 33
2.3.2. Frecuencias marginales .......................................................................... 36
2.3.3. Frecuencias condicionales ...................................................................... 37
2.3.4. Representaciones gráficas de las distribuciones bidimensionales .......... 38
2.3.5. Covarianza muestral ................................................................................ 40
2.3.6. Regresión lineal ....................................................................................... 40
2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES ............................................ 41

3. PROBABILIDADES

3.1. INTRODUCCIÓN ............................................................................................. 49


3.2. PROBABILIDAD .............................................................................................. 50
3.2. ESPACIOS DE PROBABILIDADES ................................................................ 50
3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES ...................................... 54
Probabilización de Espacios Muestrales Discretos ........................................... 54
Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria ...... 55
-3-
Contenido

3.5. PROBABILIDAD CONDICIONADA ................................................................. 56


3.6. TEOREMA DE LA INTERSECCIÓN................................................................ 58
3.7. TEOREMA DE LA PARTICIÓN TOTAL........................................................... 58
3.8. SUCESOS INDEPENDIENTES ....................................................................... 59
3.9. TEOREMA DE BAYES .................................................................................... 60
3.10. PROBLEMAS PROPUESTOS ...................................................................... 62
Probabilidad condicional ................................................................................... 63
3.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 69

4. CONCEPTO DE VARIABLE ALEATORIA

4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL ...................... 79


4.2. FUNCIÓN DE DISTRIBUCIÓN ........................................................................ 80
4.3. VARIABLES DISCRETAS ............................................................................... 81
4.4. VARIABLES CONTINUAS ............................................................................... 83
Función de densidad ......................................................................................... 83
Transformación de variables aleatorias............................................................. 86
4.5. ESPERANZA MATEMÁTICA .......................................................................... 87
Esperanza matemática ...................................................................................... 88
Momentos .......................................................................................................... 88
4.6 PARÁMETROS DE TENDENCIA ..................................................................... 90
Valor medio ....................................................................................................... 90
Mediana ............................................................................................................. 91
Cuartiles ............................................................................................................ 91
Moda ................................................................................................................. 92
4.7. VARIANZA. CONCEPTO Y PROPIEDADES .................................................. 92
Desviación típica ............................................................................................... 93
4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN......................................... 93
Rango o Recorrido ............................................................................................ 93
Coeficiente de variación .................................................................................... 94
Coeficiente de asimetría ................................................................................... 94
Coeficiente de apuntamiento o de curtosis ....................................................... 94
4.9. DISTRIBUCIONES BIDIMENSIONALES ........................................................ 95
Concepto ........................................................................................................... 95
Función de distribución ..................................................................................... 96
Función de densidad ......................................................................................... 97
Función de densidad marginal .......................................................................... 98
Función de densidad condicional .................................................................... 100
Independencia de variables aleatorias ............................................................ 101
Esperanza de vectores aleatorios ................................................................... 102
Momentos ........................................................................................................ 103

-4-
Contenido

Matriz de varianzas-covarianzas ..................................................................... 104


Combinación lineal de variables aleatorias ..................................................... 108
Curva de regresión condicional ....................................................................... 108
Recta de regresión mínimo cuadrática ............................................................ 109
4.10. PROBLEMAS PROPUESTOS ..................................................................... 111
4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 115

5. PRINCIPALES DISTRIBUCIONES DISCRETAS

5.1. DISTRIBUCIÓN DICOTÓMICA ................................................................ 127


5.2. DISTRIBUCIÓN BINOMIAL ...................................................................... 128
5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA .................................................... 129
5.4. DISTRIBUCIÓN DE POISSON ................................................................. 131
5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA ................................................... 132
5.6. DISTRIBUCIÓN MULTINOMIAL ............................................................... 133
5.7. PROBLEMAS PROPUESTOS .................................................................. 135
5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES ..................................... 149

6. PRINCIPALES DISTRIBUCIONES CONTINUAS

6.1. DISTRIBUCIÓN UNIFORME .................................................................... 155


6.2. DISTRIBUCIÓN EXPONENCIAL .............................................................. 156
Tasa de fallos .................................................................................................. 158
6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL ........................................ 160
6.3.1. Variable normal tipificada ...................................................................... 161
6.3.2. Variable normal general ........................................................................ 164
6.3.3. Teorema central del límite ..................................................................... 166
Aproximación de la binomial a la normal ........................................................ 167
Aproximación de la Poisson a la normal ......................................................... 168
Corrección por continuidad .............................................................................. 169
6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL...................................... 171
Distribuciones marginales ..................................................................................... 172
Distribuciones condicionales ................................................................................. 172
6.5. PROBLEMAS PROPUESTOS ...................................................................... 175
Distribución uniforme ....................................................................................... 175
Distribución exponencial .................................................................................. 176
Distribución Normal ......................................................................................... 178
Distribuciones bidimensionales ....................................................................... 188
6.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 191

-5-
Contenido

7. DISTRIBUCIONES DERIVADAS DE LA NORMAL

7.1. DISTRIBUCIÓN CHI-CUADRADO ........................................................... 199


7.2. DISTRIBUCIÓN t .................................................................................... 200
7.3. DISTRIBUCIÓN F ..................................................................................... 202
7.4. PROBLEMAS PROPUESTOS .................................................................. 203

8. DISTRIBUCIONES EN EL MUESTRO

8.1. POBLACIÓN, MUESTREO Y MUESTRA ................................................. 205


8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ..................................... 209
8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL ............................................ 211
8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS ................................. 212
8.5. DISTRIBUCIÓN DE LA PROPORCIÓN ................................................... 214
8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES ........ 215
8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES .................. 216
8.8. VARIANZA EN POBLACIONES FINITAS................................................. 218
8.9. PROBLEMAS PROPUESTOS .................................................................. 219
8.10. PROBLEMAS Y CUESTIONES DE EXÁMENES ..................................... 220

9. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

9.1 ESTIMACIÓN PUNTUAL .......................................................................... 223


9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA ............................... 226
9.2.1. Intervalo de confianza para la media poblacional ................................. 227
9.2.2. Intervalo de confianza para la varianza poblacional ............................. 230
9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales.... 230
9.2.4. Intervalo de confianza para la proporción ............................................. 231
9.2.5. Intervalo de confianza para la diferencia de proporciones .................... 233
9.2.6. Intervalo de confianza para la diferencia de medias poblacionales ...... 234
9.3. TEST DE HIPÓTESIS ............................................................................... 237
Conceptos ....................................................................................................... 237
Obtención de los tests .................................................................................... 240
9.4. TEST DE HIPÓTESIS PARÁMETRICOS ...................................................... 241
9.4.1. Contrastes de la media de una poblacional normal ............................. 241
9.4.2. Test de hipótesis para la varianza poblacional...................................... 246
9.4.3. Test de hipótesis para el cociente de varianzas poblacionales............. 247

-6-
Contenido

9.4.4.Contrastes de proporciones ................................................................... 249


9.4.5. Test de hipótesis para la diferencia de medias poblacionales con
muestras independientes ................................................................................ 252
9.4.6. Test para la diferencia de medias poblacionales con datos apareados
......................................................................................................................... 253
9.4.7.Test para la diferencia de proporciones ................................................. 254
9.5. TEST NO PARAMÉTRICOS .......................................................................... 256
9.5.1. Test de ajuste a una distribución ........................................................... 256
9.5.2. Test de independencia .......................................................................... 259
9.6. PROBLEMAS PROPUESTOS ....................................................................... 261
Test de hipótesis ............................................................................................. 262
Tabla de contingencia ..................................................................................... 266
Test de ajuste a una distribución ..................................................................... 267
9.7. PROBLEMAS Y CUESTIONES DE EXÁMENES .......................................... 268

10. ANÁLISIS DE LA VARIANZA

10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO ................. 279


10.1.1. Generalidades .................................................................................... 279
10.1.2. Modelo teórico. Hipótesis del modelo ................................................. 281
10.1.3. Hipótesis nula ..................................................................................... 284
10.1.4. Ecuación fundamental ........................................................................ 285
10.1.5. Test F ................................................................................................. 285
10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima significativa)
......................................................................................................................... 286
10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS ...... 288
10.2.1. Introducción. Planes factoriales .......................................................... 288
10.2.2. Anova para dos factores con repeticiones ......................................... 289
10.2.3. Concepto de Interacción..................................................................... 289
10.2.4. Modelo y supuestos teóricos .............................................................. 291
10.2.5. Hipótesis Nulas ................................................................................... 292
10.2.6. Descomposición de las Sumas de Cuadrados. Test F ....................... 292
10.2.7. Comparación de Medias. Test L.S.D. ................................................. 292
10.2.8. Validación del modelo ......................................................................... 295
10.2.9. Igualdad de las varianzas .................................................................... 295
10.2.10. Estimación de los efectos .................................................................. 296
10.2.11. Predicciones ...................................................................................... 297
10.3. PROBLEMAS Y CUESTIONES DE EXAMEN ............................................. 298

-7-
Contenido

11. REGRESIÓN LINEAL

11.1. HIPÓTESIS DEL MODELO ...................................................................... 309


11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN ..................... 311
11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES .............. 313
11.4. VALIDACIÓN DEL MODELO .................................................................... 318
11.5. INTERVALOS DE PREDICCIÓN .............................................................. 321
11.6. BONDAD DE AJUSTE .............................................................................. 323
11.7. PROBLEMAS Y CUESTIONES DE EXÁMENES ..................................... 325

ANEXO A. Tablas de las principales distribuciones de


probabilidad

DISTRIBUCIÓN DE POISSON ............................................................................. 336


DISTRIBUCIÓN NORMAL TIPIFICADA ............................................................... 339
DISTRIBUCIÓN DE PEARSON ......................................................................... 340
DISTRIBUCIÓN t de Student ............................................................................... 343
DISTRIBUCIÓN F de snedecor ............................................................................ 346

BIBLIOGRAFÍA ...........................................................................349

-8-
1. Introducción

1. INTRODUCCIÓN

Contenido
1.1. LA METODOLOGÍA ESTADÍSTICA ............................................................. 9
1.2. EL MÉTODO CIENTÍFICO .......................................................................... 12
1.3. SOFTWARE ESTADÍSTICO ....................................................................... 14
1.4. REDONDEO DE LOS DATOS .................................................................... 15
1.5. ALFABETO GRIEGO .................................................................................. 17

1.1. LA METODOLOGÍA ESTADÍSTICA

La Estadística es la ciencia que se ocupa de recoger los datos, analizarlos,


resumirlos e interpretarlos, y todo eso para convertir los datos en información, de
manera que nos sirva para tomar buenas decisiones o bien para resolver problemas.

Cuando alguien habla de hacer una estadística quiere decir que le gustaría
saber aspectos como cuáles son los valores más frecuentes, cuáles son el máximo y
el mínimo, cuál es la distribución de sus frecuencias, porcentajes de algunos valores,
la tendencia a lo largo del tiempo o bien hacer predicciones de valores futuros.

La materia prima de la Estadística son los datos, y estos se pueden obtener


de tres maneras:

1) De datos históricos: a partir de los registros, formularios, facturas, etc. Por


ejemplo, ventas de un determinado producto.
2) Datos experimentales: se hacen pruebas para ver cómo funciona un
proceso. Por ejemplo, qué relación hay entre el rendimiento y la temperatura
de un proceso.
3) A partir de encuestas: es muy común intentar conocer a una población a
partir de una pequeña parte de la misma elegida al azar. Por ejemplo, para
conocer las opiniones de los alumnos de la UPV, en lugar de preguntar a los
aproximadamente 37000 alumnos, es más económico preguntar a una parte
representativa de la población a estudiar.

Esta tercera forma es la que vamos a seguir en primer lugar en el inicio de


esta materia en la ETSII.

Un ejemplo de encuesta es la que se muestra a continuación:

-9-
1. Introducción

EL OBJETO DE ESTA ENCUESTA ES OBTENER DATOS PARA LA REALIZAC IÓN DE EJERCICIOS EN LAS CLASE DE
ESTADÍSTIC A.

Pregunta 1. Indique su peso en kgs.

[________]

Pregunta 2. Indique su altura en cms.

[________]

Pregunta 3. ¿Qué me dios de transporte emplea par a venir a la UPV?

 1. Coche propio
 2. Coche compartido
 3. Bus
 4. Metro o tranvía
 5. Bicicleta
 6. Andando
 7. Tren
 8. Moto
 9. Otro

Pregunta 4. Tiempo diar io dedicado a l estudio, en hor as, de lunes a vie rnes

[________]

Pregunta 5. Tiempo dedicado al estudio durante el fin de semana (sába do y domingo), en horas.

[________]

Pregunta 6. Tiempo que tarda en llegar al Politécnico por las ma ñanas, en minutos.

[________]

Pregunta 7. ¿Qué deportes practica en la UPV?

 1. Fútbol
 2. Fútbol sala
 3. Baloncesto
 4. Tenis
 5. Natación
 6. Bici
 7. Gimnasia
 8. Ar tes marciales
 9. Vela
 10. Marcha
 11. Montañismo
 12. Otros

Pregunta 8. Nota de entrada en la Universidad

[________]

Pregunta 9. ¿Dispone de conexión a internet desde casa?

 1. Si
 2. No

Pregunta 10. En general, las instalaciones y servicios ofer tados por la UPV son,

 1. Muy malos
 2. Malos
 3. Regular
 4. Buenos
 5. Muy buenos

Pregunta 11. Edad.

[________]

Pregunta 12. Sexo.

 1. Hombre
 2. Mujer MUCHAS GRACIAS POR SU COLABORAC IÓN

Los pasos que seguimos son:

-10-
1. Introducción

1) Repartir el cuestionario a los alumnos y cumplimentarlo.

2) Introducir los datos al ordenador. Para esto podemos desarrollar un programa


de captura de los datos aprovechando el Access de Microsoft, o mejor un
programa que está preparado por la captura de los datos de los encuestas,
como puede ser el DYANE 4.

3) Una vez introducido los datos, hay que revisarlos por si hay alguien error o
valor raro que no fuera correcto.

4) Hacer análisis descriptivos de los datos:

a) Resumen de todos los valores,

b) Resumen en forma gráfica.

5) Contestar a varias preguntas, aplicando la metodología estadística pertinente.

Ejemplos de preguntas puede ser:

a) ¿Cuál es la nota media de acceso a la Universidad?

b) ¿Cuál es la proporción de alumnos que cogen la bici para venir al Poli?

c) ¿Cuál distribución de edades que hay en la clase?

d) ¿Cuál es la relación que hay entre el peso y la altura de los alumnos?

e) ¿La altura de los alumnos es diferente si es chico o chica?

f) etc.

La metodología estadística que aplican se resume en la figura siguiente

-11-
1. Introducción

Figura 1. 1. La metodología estadística

La inferencia estadística es el proceso de conocer las propiedades de una población


a partir de una muestra representativa de la misma.

La Estadística tiene su fundamento en el cálculo de probabilidades.

1.2. EL MÉTODO CIENTÍFICO

La Estadística utiliza el método científico para desarrollar sus teorías. El método


científico se basa en observar la naturaleza y formular una hipótesis de su
funcionamiento, y según esta teoría se producirán una serie de consecuencias. Si lo
que observamos no está en contradicción con estas consecuencias, aceptamos la
hipótesis inicial. Ésta es aceptada hasta que encontramos una prueba que lo
invalida, y entonces debemos formular otra hipótesis y empezar de nuevo el proceso.

En la Estadística las etapas que seguimos se muestran en la Figura 1.2.:

-12-
1. Introducción

Figura 1. 2. El método científico

Por ejemplo, queremos ver la predicción del peso de una persona sabiendo su
altura. Se trata de un problema de regresión y el proceso que seguimos es parecido
al de la figura anterior.

-13-
1. Introducción

1.3. SOFTWARE ESTADÍSTICO

Para el tratamiento de los datos es muy interesante disponer de unos programas en


ordenador que nos facilita todo el desarrollo.

Es muy frecuente almacenar los datos con una hoja de EXCEL y a partir de
ésta, cualquier software estadístico es capaz de leer la hoja de EXCEL y disponer los
datos para su tratamiento y análisis.

La misma hoja de EXCEL tiene un complemento de análisis de los datos. La


ventaja es que en cualquier empresa podemos disponer de la EXCEL y hacer un
análisis básico de los datos. Además, uno mismo puede desarrollar programas
específicos por el tratamiento de los datos haciendo uso de los macros y del
VisualBasic que lleva incorporado el EXCEL.

El software que vamos a utilizar en esta materia es:

1. Statgraphics para Windows. En la UPVNET, dentro de los programas


científicos, hay disponible la última versión del Statgraphics que se denomina
Centurion, y ésta la podemos poner en inglés o en castellano.
2. EXCEL. Empleamos las funciones estadísticas o bien los complementos que
lleva la propia EXCEL. Es interesante cargar el complemento de “Análisis de
Datos”, y también se pueden emplear las tablas dinámicas para extraer
información de un conjunto de datos.
3. DYANE 4. Es un programa muy útil para el análisis de las encuestas. Se
puede utilizar por la grabación de los datos y después hacer la exportación a
un fichero en formato txt y pasarlo a formato de EXCEL.
4. MATHCAD 2000. Este software utilizamos para hacer los cálculos
matemáticos, pero también lleva todas las funciones estadísticas.
5. Lenguaje R. Es un programa de libre distribución que se puede descargar de
http://cran.r-project.org. Es muy interesante, sobre todo para principiantes, el
cargar la librería “Rcmdr”. De esta forma no hace falta saberse los comandos
del R, ya que se presenta con menús como si fuera el Statgraphics.

Otro software estadístico muy bueno y que está disponible para toda la
comunidad de la UPV es el SPSS. Se lanza accediendo a UPVNET y a la carpeta de
programas científicos. La única limitación es el número de usuarios que están
utilizándolo al mismo tiempo. Eso depende de las licencias que haya contratado la
UPV.

Programas estadísticos adicionales son:

1. SAS. Dicen que es el mejor, pero también el más caro.


2. BMDP. Fue el primero que había y estaba programado en Fortran.
Actualmente hay una versión por Windows y aún hay gente que le utiliza.

-14-
1. Introducción

3. MINITAB. Este programa lo utilizan muchas empresas para sus cálculos


estadísticos.

Actualmente todas las calculadoras científicas disponen de las funciones


estadísticas más básicas. Es importante leer las instrucciones de las calculadoras
para utilizar esas funciones. Muchas veces hemos perdido el manual de la
calculadora, pero se puede obtener una copia accediendo a la WEB.

1.4. REDONDEO DE LOS DATOS

La Estadística hace mucho uso de cálculos a partir de los datos. Por eso es
importante tener en cuenta las siguientes reglas por el redondeo de los datos:

• Cifras significativas:
1. La primera cifra significativa es el 1er dígito a partir de la izquierda que
es diferente de 0.
2. Cifras significativas es el número de dígitos contados a partir de la
primera incluida.
Ejemplos: 34,5 tiene 3 cifras significativas; 3,450 tiene 4 cifras
significativas; 0,0023 tiene 2 cifras significativas; 0,00230 tiene 3
cifras significativas.

• Redondeo de un número que está justo a la mitad del intervalo: la regla que
se solo seguir es redondear el número par más próximo que antecede al 5.
Las máquinas redondean hacia arriba a partir del 5. Ejemplos: 33,45 se
redondea a 33,4; 33,35 podría redondearse a 33,4 ó 33,3; pero está más
próximo el valor de 33,4. Si fuera 33,445 se redondea a 33,4, ya que tiene
menos distancia al valor de 33,4.

• Cifras significativas en la presentación de datos: se sigue la regla de los 2


dígitos de variación. Ejemplo, si los datos son: 4,562 ; 4,673 ; 4,726; 4,364 ;
4,891; se pueden representar como: 4,56; 4,67; 4,73; 4,36; 4,89

• Cifras significativas de una probabilidad: 3 cifras (o bien 4). Ejemplo:


Probabilidad de que llueva el fin de semana se del 10,5% ó 0,105; o bien
10,54 ó 0,1054.
• Decimales para el cálculo de parámetros: Ejemplo de datos originales 3,4; 3,5;
3,1; 3,3; 3,9; 3,5; 3,5

3. Media aritmética: 1 cifra más. Ejemplo: 3,46

-15-
1. Introducción

4. Desviación típica: 1 cifra más. Ejemplo: 0,24


5. Variancia: 2 cifras más. Ejemplo: 0,0595 ó bien 0,060
6. Recorrido: mismas cifras. Ejemplo: 0,8
7. Modo: mismas cifras. Ejemplo 3,5
8. Coeficiente de variación: 3 cifras. Ejemplo: 7,06% ó bien 0,0706
9. Coeficiente de correlación: 2 cifras. Ejemplo: r=0,23 y la R cuadrado
es 0,23^2=5,29%
10. Coeficientes de regresión: y=a+bx. Por ejemplo, si y tiene dos
decimales, cada uno de los sumandos debe tener como mínimo 3
decimales. Así a se expresará con 3 decimales, y b, en caso de
que x tenga valores hasta 100, debe estar expresado en 5 cifras
decimales porque al multiplicar por la cantidad x nos da un número
con 3 cifras decimales. Ejemplo: a=1,246; b=0,37152; x=75;
Y=1,246+0,37152*75=1,246+27,864=29,11

• Cifras a guardar en los cálculos:


1. En los cálculos de sumas y restas de números, el resultado final no
tiene más cifras significativas después del lugar decimal que el de
con menor número de ellas después de la coma decimal. Ejemplo:
3,32+1,7= 5,0 ; 73,52-63=11,63 si no es exacto; 37,512-24 =
37,512 si 24 es exacto.
2. En los cálculos con multiplicación, división y extracción de raíces de
números, el resultado final no puede tener más cifras significativas
que los datos con menor número de ellas. Ejemplo 72,34x 5,45 =
394; 1,547/0,032 = 46; (4,89)^0,5 = 2,21; 7,381x40= 295,2 si 40 es
exacto.

-16-
1. Introducción

1.5. ALFABETO GRIEGO

Debido a la notación que se emplea en estadística, es útil conocer el alfabeto griego


que exponemos en la siguiente tabla.

Mayús. Minús. Nombre Equivalente latino Comentario


A α Alfa a Probabilidad
B β Beta b Probabilidad
Γ γ Gamma c
Δ δ Delta d
Ε ε Épsilon e error
Ζ ζ Zeta f
Η η Eta
Θ θ Theta Parámetro poblacional en general
Ι ι Iota i
Κ κ Kappa k
Λ λ Lambda l Parámetro de una exponencial o de
Poisson
Μ μ Mu m media
Ν ν Nu n
Ξ ξ Xi
Ο ο Omicron o
Π π Pi p
Ρ ρ Rho r
Σ σ Sigma s Desviación típica
Τ τ Tau t
Υ υ Upsilon u
Φ φ Fi v
Χ χ Chi x
Ψ ψ Psi y
Ω ω Omega z

-17-
1. Introducción

-18-
2. Estadística Descriptiva

2. ESTADÍSTICA DESCRIPTIVA

Contenido
2.1. INTRODUCCIÓN ............................................................................................. 19
2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL ......................................... 22
2.2.1. Tablas de frecuencias ............................................................................... 23
2.2.2. Histogramas .............................................................................................. 23
2.2.3. Polígono de frecuencias ........................................................................... 25
2.2.4. Diagrama de puntos .................................................................................. 25
2.2.5. Gráfico de tartas ....................................................................................... 26
2.2.6. Gráfico de Pareto ...................................................................................... 26
2.2.7. Medidas de posición ................................................................................. 27
2.2.8. Medidas de dispersión .............................................................................. 29
2.2.9. Diagrama de tallos y hojas ........................................................................ 31
2.2.10. Diagrama de caja-y-bigotes .................................................................... 32
2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL ........................................... 33
2.3.1. Tablas de frecuencia de doble entrada ..................................................... 33
2.3.2. Frecuencias marginales ............................................................................ 36
2.3.3. Frecuencias condicionales ........................................................................ 37
2.3.4. Representaciones gráficas de las distribuciones bidimensionales ........... 38
2.3.5. Covarianza muestral ................................................................................. 40
2.3.6. Regresión lineal ........................................................................................ 40
2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES ............................................ 41

2.1. INTRODUCCIÓN

Gran parte de la Estadística trata sobre la recopilación de datos, análisis de los


mismos, y la extracción de conclusiones con objeto de resolver problemas.

Los datos que se presentan en la práctica pueden ser de tres tipos básicos:

1) Datos cualitativos, que expresan una cualidad del objeto, como puede ser
bueno, malo, o también un color, blanco, negro, azul, etc..

2) Datos cuantitativos discretos, que expresan algo que podemos contar,


por ejemplo, número de defectos que tiene una pieza mecánica, número de
terminales en funcionamiento, número de accidentes de coche en una semana, etc..

3) Datos cuantitativos continuos, es decir, pueden medirse sobre una


escala continua y llevan comas decimales, por ejemplo, el diámetro de un eje, tiempo
que tarda una transacción en ejecutarse, etc...

Decimos que los datos observados corresponden a valores de una variable


que representamos por X. Si disponemos de n datos, se representan por

x1 , x2 , x3 ,...,xn
-19-
2. Estadística Descriptiva

y si son todos los datos de la variable X, se denomina población y se representan por

x1 , x2 , x3 ,...,x N

La simple enumeración de estos datos no nos da mucha información acerca


del fenómeno que estamos observando, por lo cual siempre se prefiere condensar la
información de modo que su interpretación sea más sencilla.

La forma de condensación puede ser gráfica o numérica. Para una sola


variable vamos a estudiar los procedimientos más usuales.

Escala de los datos

Otra clasificación de los datos se refiere a la escala con que están medidos. Ésta
puede ser de cuatro tipos:

a) Escalas No Métricas (cualitativas)


i. Escala nominal. Cuando la asignación de los valores es totalmente
arbitraria. Por ejemplo, el código de sexo, 1=hombre; 2=mujer.
ii. Escala ordinal. Cuando la asignación de los valores guarda una cierta
relación de importancia, pero las diferencias no tienen sentido. Por
ejemplo, nivel de estudios: 1=Primaria, 2=Secundaria, 3=Bachiller,
4=Graduado.

b) Escalas Métricas (cuantitativas)


i. Escala de intervalo. Cuando la asignación guarda un orden de
importancia y la diferencia entre intervalos tiene sentido. Se
caracteriza porque el origen de los datos es arbitrario. Por ejemplo,
grado de acuerdo con una afirmación, la codificación puede ser:

1. Totalmente en desacuerdo
2. Más bien en desacuerdo.
3. Indiferente.
4. Más bien de acuerdo.
5. Totalmente de acuerdo

Pero la codificación también podría haber sido con los códigos -2, -1,
0, 1, 2.

ii. Escala de ratio o de razón. Cuando el origen de los datos no es


arbitrario y tiene sentido las operaciones de multiplicación y de
división. Por ejemplo, el peso, la altura, la longitud, etc.

Actividad 2.1.

• En la encuesta que hay en el tema 1, para cada pregunta decir qué


tipo de escala utiliza la codificación de los datos.

-20-
2. Estadística Descriptiva

Métodos estadísticos empleados para analizar la dependencia o la interdependencia


entre los datos observados

TÉCNICA DE ANÁLISIS MULTIVARIANTE

A) Relaciones de dependencia

Una variable dependiente/Múltiples Múltiples dependientes/múltiples


variables dependiente independientes

1. Análisis de regresión múltiple 1. Análisis discriminante multiple


2. Análisis de regresión logística 2. Análisis de correlaciones
binaria canónicas
3. Análisis de clasificación múltiple 3. Redes neuronales artificiales
4. AID (Automatic interaction
detection)
5. CHAID (Chi Square Automatic
Interaction Detection)
6. Análisis conjunto categórico
7. Análisis conjunto ordinal
B) Relaciones de interdependencias

Entre variables Entre casos ú objetos

1. Análisis de componentes 1. Análisis de grupos (análisis


principales cluster)
2. Análisis factorial de
correspondencias
3. Análisis multidimensional

MÉTODOS DE DEPENDENCIA ENTRE VARIABLES

Método Relación funcional

Análisis de Y1 = X 1
regresión
simple (métrica) (métrica, no métrica)

Análisis de Y1 = X 1 + X 2 +···+ X n
regresión
múltiple (métrica) (métrica, no métrica)

Análisis de la Y1 = X 1 + X 2 +···+ X n
varianza
(métrica) (no métrica)

Análisis Y1 + Y2 +···+Ym = X 1 + X 2 +···+ X n


multivariante de
la varianza (métrica) (no métrica)

-21-
2. Estadística Descriptiva

MÉTODOS DE DEPENDENCIA ENTRE VARIABLES

Método Relación funcional

Análisis Y1 = X 1 + X 2 +···+ X n
discriminante
múltiple (no métrica) (métrica)

Análisis conjunto Y1 = X 1 + X 2 +···+ X n

(no métrica, métrica) (métrica)

Correlación Y1 + Y2 +···+Ym = X 1 + X 2 +···+ X n


canónica
(métrica, no métrica) (métrica, no métrica)

Modelo de Y1 = X 11 + X 12 +···+ X 1n
ecuaciones
estructurales Y2 = X 21 + X 22 +···+ X 2 n

Y3 = X 31 + X 32 +···+ X 3 n

(métrica, no métrica) (métrica, no métrica)

2.2 ESTADÍSTICA DESCRIPTIVA UNIDIMENSIONAL

Si observamos una variable X y disponemos de n datos, en la forma x1 , x2 ,..., xn , una


manera sencilla de representarlos es mediante una tabla o un histograma de
frecuencias.

Llamamos "frecuencia absoluta" de un valor, al número de veces que aparece


dicho valor. La "frecuencia relativa" es el número de veces que aparece el valor
dividido por el número total de datos observados. Esto es:

número de veces que aparece


Frecuencia relativa =
número total de observaciones

El campo de existencia de una variable es el conjunto de posibles valores que


pueden tomar los datos.

-22-
2. Estadística Descriptiva

2.2.1. Tablas de frecuencias

Una vez ordenados los datos de menor a mayor y agrupados en intervalos, se puede
formar la siguiente tabla de frecuencias,

Límites Valor Frecuencia


Frecuencia Frecuencia
Nº del de Frecuencia acumulada
relativa acumulada
intervalo clase relativa

n1 n1
1 · n1 n1
n n

n1 + n 2
· · · · · n1 + n2
n

· · · · · · ·

ni n1 + n2 +···+ni
i ai < x ≤ bi xi ni = fi n1 + n2 +···+ ni
n n

· · · · · · ·

· · · · · · ·

nk
k nk n 1
n

Sumas…………… n 1

2.2.2. Histogramas

El histograma de frecuencias divide el campo de existencia de la variable en una


serie de intervalos, que por lo general, son de igual longitud, determinando
exactamente los límites de cada intervalo. Es una forma sencilla de representar
gráficamente los intervalos de la tabla de frecuencias descritos en el punto anterior.

Para cada intervalo contamos el número de datos que pertenecen al mismo, y


en un diagrama X-Y, tomando como eje X la variable, y como ordenadas el número
de datos que hay en cada intervalo, representamos unos rectángulos con base igual

-23-
2. Estadística Descriptiva

a la longitud del intervalo de clase y con altura igual al número de datos de dicha
clase.

Con el histograma podemos ver qué intervalos son más frecuentes que otros.
Para ello es importante el número de subdivisiones que hagamos, ya que si son
pocas, no veremos nada, y si son muchas, tampoco. Por lo general, el número de
intervalos se sitúa entre 5 y 20. También está la opción de tomar como número de
intervalos la raíz cuadrada del número de datos. Es conveniente reunir un mínimo de
unos 50 datos para su construcción.

Si en lugar de poner como altura de los rectángulos la frecuencia absoluta,


ponemos la frecuencia relativa, se tiene el "histograma de frecuencias relativas", cuya
forma es exactamente la misma que el histograma de frecuencias absolutas, sólo que
hay un cambio de escalas en la ordenada.

Al punto medio de cada intervalo se le llama “valor de clase” y representa a


dicho intervalo.

Si empezando por la izquierda del histograma, vamos acumulando las


frecuencias de los siguientes rectángulos, y los representamos, tendremos una figura
con una serie de rectángulos escalonados. Esta figura recibe el nombre de
"histograma de frecuencias acumuladas", el cual puede ser de frecuencias absolutas
o relativas, según lo que vayamos acumulando.

Si la variable es discreta, el valor de la clase coincide con el valor discreto,


entonces recurrimos a un "diagrama de barras", colocando encima de cada valor una
barra de longitud igual a la frecuencia del valor. Lo mismo hacemos si las clases
corresponden a valores de una variable cualitativa (tipo de defecto,…)

Figura 2. 1 Ejemplo de histograma.

-24-
2. Estadística Descriptiva

2.2.3. Polígono de frecuencias

Un polígono de frecuencias se obtiene uniendo los puntos medios de la base superior


de cada rectángulo. Al igual que con los histogramas, tendremos cuatro tipos de
polígonos de frecuencias.

Histogram

18

15

12
frequency

0
43 53 63 73 83 93 103
Peso

Figura 2. 2 Polígono de frecuencias

2.2.4. Diagrama de puntos

Cuando hay pocos datos se pueden representar con un diagrama de puntos, el cual
se forma haciendo coincidir un punto grueso con cada valor de X que aparece. En
caso de que haya dos iguales, se coloca un punto encima de otro.

Figura 2. 3 Diagrama de puntos

-25-
2. Estadística Descriptiva

2.2.5. Gráfico de tartas

Otra representación típica para variables cualitativas es el gráfico de tartas o en


círculo, en el cual cada clase se representa por un sector de área proporcional a su
frecuencia. La frecuencia puede ser absoluta o relativa. En este último caso se
interpreta que el 100% de la tarta se reparte entre las clases existentes.

Figura 2. 4 Gráfico de tartas

2.2.6. Gráfico de Pareto

El gráfico de Pareto es un histograma de frecuencias pero ordenado de mayor


frecuencia a menor frecuencia. De esta forma se intenta destacar el hecho de que
unas pocas clases representan casi el total de los datos aparecidos. Esto recibe el
nombre de la ley del 20-80%, que se aplican en distintos aspectos de la economía.

Figura 2. 5 Gráfico de Pareto

-26-
2. Estadística Descriptiva

2.2.7. Medidas de posición

Además de dar gráficamente la situación de los valores de una variable X, nos


interesa básicamente contestar a dos preguntas:

1) ¿Dónde está situada la variable?

2) ¿Cuál es su campo de variabilidad?

Para poder realizar comparaciones necesitamos unos valores numéricos.


Aquellos que contestan a la primera pregunta se llaman "parámetros de posición", y
los de la segunda pregunta, "parámetros de dispersión".

Los parámetros de posición que vamos a ver son: la media, la mediana, y la


moda.

Si de una variable X, tenemos un conjunto de valores x1 , x2 ,..., xn , se define la


media como:

∑x
i=1
i

x=
n
Este valor coincide con la media aritmética, pero como aquí sólo son un parte
de los posibles valores de X, se denomina "media muestral".

Cuando el conjunto de valores de que disponemos son todos los de la


variable X, al conjunto de ellos se denomina "Población", y su media recibe el nombre
de "media poblacional", representándola con el símbolo μ :

∑x i

μ= m= i=1

N
La media muestral representa el centro de masas de un histograma, y
corresponde al valor medio que toman los datos.

Es una medida poco robusta, ya que ante la aparición de un valor anómalo, la


media se ve bastante modificada.

La "mediana" expresa aquel valor que por debajo de él hay 50% de los datos,
~
y por encima el 50% de los datos. Se representa por X , para una muestra, y el valor
depende de si el número de datos es impar o par. Si es impar la mediana coincide
con el valor central, previamente ordenados los valores de menor a mayor, y si es
par, se toma el punto medio de los valores centrales. De aquí que empleemos la
expresión:
-27-
2. Estadística Descriptiva

⎧ X ( n+1 ) si n es impar ⎫
~ ⎪ 2

X = ⎨x +x ⎬
(n/2) ([n/2] +1)
⎪ si n es par ⎪
⎩ 2 ⎭
~.
La "mediana poblacional" se representa por μ

La mediana es una medida robusta, esto es, se modifica poco ante la


aparición de un dato anómalo.

La "moda" es aquel valor de X que se repite más, es decir, el de más


frecuencia. Si solamente hay una moda, se denomina "unimodal"; si hay varias, se
llama "multimodal". Vienen a ser los picos que forman un histograma de frecuencias
no acumulado.

En una distribución simétrica, coinciden los tres parámetros, pero si hay una
cola hacia la derecha, lo que se llama "asimetría positiva", ocurre que:

moda < mediana < media

x−~x
Coef . Asim .Pearson =
s

y si la cola es hacia la izquierda, es "asimetría negativa", y ocurre que

moda > mediana > media

-28-
2. Estadística Descriptiva

x−~x
Coef .Asim.Pearson =
s

Se define el "percentil p%" como aquél valor de X que deja a su izquierda un


p% de los datos. Si p = 25%, se le llama "primer cuartil" Q1 , si p= 50%, es el
"segundo cuartil " Q 2 , que coincide con la mediana, y para p=75% es el "tercer
cuartil" Q 3 . Los cuartiles dividen a los datos en 4 partes con igual número de ellos.

2.2.8. Medidas de dispersión

Las principales medidas que empleamos son: la varianza, la desviación típica, el


rango, y el coeficiente de variación.

-29-
2. Estadística Descriptiva

La varianza poblacional se representa por σ 2 , y se define con todos los datos


de la población:

∑( x - μ )
2
i
2 i=1
σ =
N

Para el conjunto de valores x1 , x2 , x3 ,..., xn de la variable X, la "varianza" es:

∑( x - x )
2
i

s2 = i=1
n-1

Dicho valor nos sirve para hacer estimaciones de la varianza poblacional y recibe el
nombre de "cuasivarianza” o varianza muestral corregida:

La varianza es una medida cuyas unidades están al cuadrado. Para hacerlas


homogéneas con las unidades de los datos y de la media se define la "desviación
típica muestral" como la raíz cuadrada con signo positivo de la varianza muestral.
Así:

s = + s2

Cuanto mayor es la varianza, mayor es la dispersión de los datos.

Otra idea de la variabilidad de los datos la proporciona el "recorrido", que se


define como la diferencia entre el máximo y el mínimo de los valores observados. Se
expresa como:

R = xm ax - xmin

Si n=2 la información que dan R y s 2 acerca de la dispersión de los datos es


la misma, ya que utilizan los mismos datos, pero para n=3, R ya no emplea uno de
ellos, pero aún es una buena aproximación. Para n>10, el rango ya no es útil para ver
la dispersión de los datos, y entonces se preferirá el empleo de s 2 .

El "coeficiente de variación" es una medida adimensional de la dispersión, se


define como el cociente entre la desviación típica y la media, esto es:

s σ
C.V. = × 100 o bien CV = × 100
x μ

y permite comparar la dispersión de dos conjuntos de datos.

Así, por ejemplo, dos grupos de datos pueden tener la misma dispersión, sea
s=1, pero si la media de uno es de 10, y la del otro de 1000, lógicamente hay mayor

-30-
2. Estadística Descriptiva

variación relativa en el primero que en el segundo. Este coeficiente de variación nos


da una idea de la "precisión" de los datos.

Otras medidas de dispersión son.

• El recorrido intercuartílico: Q3-Q1


• Desviaciones:
i. Media de las desviaciones absolutas respecto a la media:
n

∑ x −x
i =1
i
Dm=
n
ii. Mediana de las desviaciones absolutas respecto de la
mediana: MEDA= mediana x − ~
x i

MEDIDA DE ASIMETRÍA

El coeficiente de asimetría es,

∑( x
i=1
1 - x )3 / ( n − 1 )
CA = 3
s

Si CA = 0 se trata de una distribución simétrica; si CA<= la distribución es


asimétrica hacia la izquierda; y si CA>0 la distribución es asimétrica hacia la derecha.

MEDIDA DEL APLANAMIENTO

El coeficiente de aplanamiento es,


n

∑( x - x )
4
i /( n −1)
i=1
CC = 4
s

Si CC=3 tiene el mismo aplanamiento (curtosis) que una campana de Gauss;


si CC>3 la distribución es más apuntada que la campana de Gauss; y si CC<3, la
distribución es más plana que la campana de Gauss.

2.2.9. Diagrama de tallos y hojas

El histograma de frecuencias es una buena herramienta para identificar la forma,


posición y dispersión de los datos, pero hay una pérdida de información, ya que los
datos individuales se pierden al representarlos en un gráfico de rectángulos. Para ello

-31-
2. Estadística Descriptiva

se emplean otros métodos que dan la misma idea que el histograma, sin perder la
información individual de cada dato.

Se trata de dividir los números en dos partes. La parte de la izquierda, que


llamamos "tallo", y la parte de la derecha, que llamamos "hojas". Así el número 123,
tenemos el 12, que constituye el tallo, y el 3, que es la hoja. De esta forma para una
misma línea agrupamos todos los números que tienen el mismo tallo, así, por
ejemplo, para el 128, se agrupa junto al anterior como:

12 | 38

separando el tallo de las hojas mediante una barra vertical. Si tenemos el 115,
aparece otro tallo, y ahora la figura es:

11 | 5
12 | 38

De esta manera no perdemos los datos individuales, a la vez que se va


formando algo parecido a un histograma de frecuencias.

Cuando se quiere subdividir más las clases, los diez dígitos de la derecha se
van agrupando de dos en dos, formando 5 nuevas clases. Así:

Clase * = el 0 y el 1.

Clase T = el 2 y el 3.

Clase F = el 4 y el 5.

Clase S = el 6 y el 7.

Clase . = el 8 y el 9.

También se puede hacer una agrupación en dos: una del 0 al 4, y otra del 5 al
9.

2.2.10. Diagrama de caja-y-bigotes

Otra forma de representar los datos es mediante un diagrama de una Caja, cuyos
lados vienen dados por el primer cuartil y el tercer cuartil, y en su interior se dibuja el
segundo cuartil, esto es, la mediana. Partiendo de cada lado se dibujan unas líneas
que llegan hasta el 10 percentil, por un lado, y el 90 percentil por el otro. Para datos
extensos, se dibuja el 5 y el 95 percentiles. Concretamente, en el STATGRAPHICS
los bigotes se calculan con una longitud de 1,5 veces la anchura del rectángulo, y los
extiende hasta el último punto que está dentro del bigote. De esta forma aquellos

-32-
2. Estadística Descriptiva

puntos que quedan fuera de los bigotes, se consideran puntos anómalos, esto es,
puntos que posiblemente no pertenecen a la distribución considerada.

La anchura de la Caja contiene el 50% de los datos, lo cual da una idea de la


dispersión, y la posición de la mediana, junto con la longitud de los bigotes nos da
una idea de la simetría o no de los datos.

Este diagrama es muy útil para comparar dos grupos de datos y observar de
forma gráfica si hay diferencia o no entre ellos.

Box-and-Whisker Plot

45 55 65 75 85
Peso

Figura 2. 6 Diagrama de Caja y bigotes

2.3. ESTADÍSTICA DESCRIPTIVA BIDIMENSIONAL

2.3.1. Tablas de frecuencia de doble entrada

Cuando para cada elemento de la población, o bien para cada unidad de estudio, se
observan dos características, y clasificamos cada unidad según las dos
características, asignándola a una de las celdillas que resultan de dividir cada
característica en un conjunto de intervalos, y contamos el número de unidades que
resultan en cada celdilla, se tiene una tabla de doble entrada o también se llama una
tabla de contingencia.

Como ejemplos tenemos:

- De cada alumno de una clase tomamos nota de su peso y su altura y lo


clasificamos en su celdilla correspondiente.

-33-
2. Estadística Descriptiva

- Cada persona se puede clasificar según que haya tomado o no la vacuna


contra la gripe y según que haya o no contraído la enfermedad.

- En una fábrica donde hay tres turnos de producción se cuenta el número de


defectos de calidad que hay en los coches producidos y se clasifican éstos
en función del turno en que han sido producidos(1º, 2º ó 3º) y del número de
defectos que contienen (0, 1, 2, 3 >=4)

Las características observadas se representan por (X,Y) siendo X la primera


de ellas, por ejemplo el peso, e Y la segunda, por ejemplo la altura. Para las
unidades observadas 1, 2,..., n tenemos los valores
( x1 , y1 ),( x2 , y2 ),...,( xn , yn ) . Estas características, que también llamamos
variables muestrales, pueden ser ambas cualitativas, por ejemplo,
defectuoso- correcto, o tipo de defecto; o ser ambas cuantitativas, caso del
peso-altura, o bien una de ellas cualitativa y la otra cuantitativa, en cuyo
caso se dice que es una variable bidimensional mixta.

Si la primera característica podemos tener I intervalos, los cuales representan


I filas de una matriz, y para la segunda característica tenemos J columnas de una
matriz, entonces se tiene una tabla de doble entrada de la siguiente forma:

Tabla 2.1. Tabla de frecuencias

1 2 j J total

i n ij ni•

total n• j n••

Donde se tiene la siguiente notación:

n ij = número de elemento en la celdilla ij.

ni• = número de elementos de la fila i.

n• j = número de elementos de la columna j.


-34-
2. Estadística Descriptiva

n•• = número total de elemento observados.

La frecuencia absoluta de cada celdilla es nij y la frecuencia relativa es:

nij nij
f r ( xi , y j ) = =
n n••

La suma de las frecuencias relativas de todas las casillas es igual a la unidad,


esto es:

n n
∑ ∑ f ( x , y )= ∑ ∑ n = n = 1
i j
r i j
i j
ij

Como ejemplo de una tabla de doble entrada, supongamos que un fabricante


de automóviles dispone de tres turnos de fabricación de coches, y para cada turno
cuenta aquellos coches que han tenido 0 defectos de calidad, ó 1, 2,3, ó más de 4
defectos de calidad. Para un día de producción ha obtenido la siguiente tabla de
doble entrada

Tabla 2.2. Ejemplo de tabla de frecuencias


número de defectos de calidad

0 1 2 3 >=4 Total
A 310 50 30 40 20 450
turno B 390 40 60 50 10 550
C 220 60 90 10 20 400
Total 920 150 180 100 50 1400

La tabla de frecuencias relativas es:

-35-
2. Estadística Descriptiva

Tabla 2.3. Tabla de frecuencias relativas


número de defectos de calidad

0 1 2 3 >=4 Total

A .221 .036 .021 .029 .014

turno B .279 .029 .043 .036 .007

C .157 .043 .064 .007 .014


Total

2.3.2. Frecuencias marginales

Si a partir de una tabla de doble entrada solamente queremos estudiar una de las
características, tomaremos las frecuencias que aparecen en el lado derecho de la
tabla, si deseamos estudiar la primera característica, o bien la fila que el margen de
abajo, si deseamos estudiar las segunda característica. Cada una de esas
frecuencias son las llamadas frecuencias marginales, ya que aparecen justamente
en los márgenes de las tablas de doble entrada.

Así la frecuencia relativa de la clase xi es:

ni•
f r ( xi ) =
n ••

y la frecuencia relativa de la clase y j es:

n• j
f r ( y j )=
n••

Lógicamente se cumple que:

n••
∑ f ( x )= ∑ nn
i
r i
i
i•

••
=
n••
=1

n n••
∑ f ( y )= ∑ n
j
r j
j
.j

••
=
n••
=1

Por ejemplo la distribución de frecuencias marginales del número de defectos


de calidad es:
-36-
2. Estadística Descriptiva

Tabla 2.4. Tabla de frecuencias marginales


número de defectos de calidad

0 1 2 3 >=4 Total

A .321

turno B .393

C .286
Total .657 .107 .129 .071 .036

2.3.3. Frecuencias condicionales

En otras situaciones se quiere conocer la distribución de una variable para un valor


dado de la otra. Por ejemplo, en la tabla de doble entrada para una valor de y j se
desea conocer la distribución de las casillas que aparecen en esa columna. Dicha
distribución recibe el nombre de distribución de frecuencias condicionales, y su valor
para cada casilla es:

nij
f r ( xi / y j ) =
n• j

Como es lógico, la suma de todas las frecuencias condicionales para ese


valor de y j es igual a la unidad.

n n• j
∑ f ( x / y )= ∑ n
i
r i j
i
ij

•j
=
n• j
=1

Por ejemplo para el turno B la distribución de frecuencias condicionales es:

-37-
2. Estadística Descriptiva

Tabla 2.5. Tabla de frecuencias condicionales


número de defectos de calidad
0 1 2 3 >=4 Total

turno B .709 .073 .109 .091 .018 1.000


C
Total

2.3.4. Representaciones gráficas de las distribuciones bidimensionales

Cuando se tienen los datos como ( x1 , y1 ),( x2 , y2 ),...,( xn , yn ) una forma inmediata de
representación son unos ejes coordenados en los que cada punto representado
corresponde a un elemento observado con la primera coordenada igual al valor de X
y la segunda coordenada igual al valor de Y. Por ejemplo, si de cada alumno de la
clase se ha observado el peso y la altura, cada punto representa a un alumno.

El interés de estas representaciones se basa en la necesidad de contestar a


las preguntas de:

- ¿Existe una relación lineal entre las dos características?

- ¿Cuál es el grado de relación lineal que hay?

- ¿Se puede predecir un valor a partir del otro?

El diagrama que resulta recibe el nombre de diagrama de dispersión. Un


ejemplo de diagrama de dispersión aparece en la Figura 2.7.

-38-
2. Estadística Descriptiva

Plot of Peso vs Altura

85

75
Peso

65

55

45
150 160 170 180 190 200
Altura

Figura 2. 7 Gráfico de Dispersión

Otra forma de representación es el histograma en tres dimensiones. Este


consiste en representar en un sistema de ejes X-Y-Z, las celdillas de la tabla de doble
entrada como formando un suelo de baldosas en el plano X-Y, y encima de cada
baldosa, que corresponde con cada casilla, una columna de altura proporcional a la
frecuencia relativa de cada una de ellas. Un ejemplo de histograma en tres
dimensiones es el que aparece en la Figura 2.8.

Figura 2. 8 Histograma en 3 dimensiones

-39-
2. Estadística Descriptiva

El volumen del edificio que resulta se dice que es igual a la unidad. La


proyección de ese edificio sobre el plano X-Z resulta el histograma de frecuencias
relativas de X, y la proyección del edificio sobre el plano Y-Z resulta el histograma de
frecuencias relativas de la característica Y.

2.3.5. Covarianza muestral

Mediante el gráfico de dispersión o el histograma tridimensional, se puede observar si


hay una relación lineal entre las variables, es decir, si para valores altos de una de
ellas, la otra también toma valores elevados. En este caso la relación lineal es en
sentido positivo, y gráficamente los puntos tienden a situarse alrededor de una recta
de pendiente positiva.

Cuando para valores altos de X se observan valores bajos de Y se dicen que


la relación lineal es negativa.

Para dar una idea numérica de la relación lineal entre las dos variables, se
define la covarianza muestral s xy como:

1
2
s xy = ∑ ( xi - x )( y i - y )
n −1 i

Como s xy tiene dimensiones, por ejemplo para (peso, altura) puede ser
kgs.cms, con objeto de tener una medida adimensional, se emplea el coeficiente de
correlación muestral r xy que se define por:

2
s xy
r xy =
sx s y

r xy es un valor que siempre está entre -1 y +1. Cuánto más se acerca a la


unidad en valor absoluto, mayor es la relación lineal que hay entre las dos variables.
Si vale cero, no hay ninguna relación lineal entre las dos variables

2.3.6. Regresión lineal

Si observamos una relación lineal entre los valores de X e Y, podemos ajustar un


recta que sea la que minimice, para el conjunto de todos los casos, la suma de
cuadrados entre el valor observado y el predicho por dicha recta.

-40-
2. Estadística Descriptiva

La ecuación de la recta de regresión de ajuste por mínimos cuadrados del


valor de Y conocido un valor de x, viene dada por,

sy
y − y = rxy · (x−x)
sx

O bien,

s xy
y−y= (x−x)
s x2

2.4. PROBLEMAS Y CUESTIONES DE EXÁMENES

2.4.1.- En las pruebas de acceso del último año se seleccionaron al azar 120
alumnos de tres tipos de colegio y se tomaron en cuenta las notas obtenidas por cada
uno de ellos. Con estos datos se definió la variable aleatoria bidimensional (Tipo de
colegio, Calificaciones obtenidas) como muestra la tabla siguiente:

SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Total


fila
-----------------------------------------------------
PUBLICO | 3 | 15 | 22 | 6 | 46
-----------------------------------------------------
PRIVADO | 3 | 24 | 8 | 5 | 40
-----------------------------------------------------
CONCERTADO | 4 | 8 | 17 | 5 | 34
-----------------------------------------------------
Total columna 10 47 47 16 120

a) Completar la tabla anterior calculando las probabilidades de la distribución


bidimensional conjunta de la variable (Tipo de colegio, Calificaciones) (0,5
puntos)

b) Completar la tabla siguiente con las distribuciones unidimensionales


marginales de las variables Tipo de colegio y Calificaciones (1 punto)

-41-
2. Estadística Descriptiva

SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Total


fila
-----------------------------------------------------
PUBLICO | 3 | 15 | 22 | 6 | 46
-----------------------------------------------------
PRIVADO | 3 | 24 | 8 | 5 | 40
-----------------------------------------------------
CONCERTADO | 4 | 8 | 17 | 5 | 34
-----------------------------------------------------
Total columna 10 47 47 16 120

c) Completar la tabla siguiente con la distribución condicional de las


calificaciones en los colegios privados (0,5 puntos)

SUSPENSOS APROBADOS NOTABLES SOBRESALIENTES Tot fila


-----------------------------------------------------
PUBLICO | 3 | 15 | 22 | 6 | 46
-----------------------------------------------------
PRIVADO | 3 | 24 | 8 | 5 | 40
-----------------------------------------------------
CONCERTADO | 4 | 8 | 17 | 5 | 34
-----------------------------------------------------
Total columna 10 47 47 16 120

-42-
2. Estadística Descriptiva

SOLUCIÓN

Las frecuencias de cada casilla (en porcentaje) son:

SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total


fila

PÚBLICO 3/120 15/120 22/120 6/120

PRIVADO 3/120 24/120 8/120 5/120

CONCERTADO 4/120 8/120 17/120 5/120

Total columna 120

Las distribuciones marginales (en porcentaje) son:

SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total fila

PÚBLICO 46/120

PRIVADO 40/120

CONCERTADO 34/120

Total columna 10/120 47/120 47/120 5/120 120

La distribución condicional de las notas para los colegios privados (en porcentaje) es:

SUSPENSOS APROBADOS NOTABLES SOBRESAL. Total


fila

PÚBLICO

PRIVADO 3/40 24/40 8/40 5/40 40

CONCERTADO

Total columna

2.4.2.- A partir del diagrama siguiente, que representa los datos de consumo
eléctrico mensual entre enero 2010 y junio 2011, elija la respuesta correcta a las

-43-
2. Estadística Descriptiva

siguientes preguntas:

Box-and-Whisker Plot

20 30 40 50 60 70
Consumo

1. El consumo medio ha sido: (0,25 puntos)


a. 49.4
b. 56.5
c. 43.5

2. El 75% de los meses se consumió: (0,25 puntos)


a. Menos de 56.5 €.
b. Más de 56.5 €.
c. Entre 43.5 y 56.5 €.

3. El consumo mínimo observado en estos 20 meses fue de: (0,25 puntos)


a. 20 €.
b. 39 €.
c. 42.5 €.

4. La distribución tiene una asimetría… (0,25 puntos)


a. Positiva, porque el tercer cuartil es mayor que el primer cuartil.
b. Negativa, porque el tercer cuartil es mayor que el primer cuartil.
c. Se puede decir que la distribución es simétrica.

5. El 50% de los meses se consumió: (0,25 puntos)


a. Más de 56.5 €.
b. Menos de 43.5 €.
-44-
2. Estadística Descriptiva

c. Entre 43.5 y 56.5 €.

2.4.3.- Una empresa decide realizar un estudio sobre el consumo de un determinado


material, necesario para el proceso de fabricación que lleva a cabo, en función del día
de la semana, en vistas a optimizar su stock semanal del producto y la detección de
posibles anomalías. Se han analizado un total de 57 días, de lunes a viernes. Con
estos datos de consumo se realiza el diagrama Box-Whisker múltiple que se muestra
a continuación:

Gráfico de Cajas y Bigotes

Lunes

Martes
DIA

Miércoles

Jueves

Viernes

0 100 200 300 400 500


CONSUMO

-45-
2. Estadística Descriptiva

A la vista de los diagramas, responder a las siguientes preguntas justificando


convenientemente las respuestas.

1. La mayor dispersión de consumo se produce: (0.25


puntos)
a. Los lunes
b. Los martes
c. Los miércoles
d. Todos tiene la misma dispersión ya que el consumo es independiente
del día

Pues el rango intercuartílico es mayor.

2. La mayor asimetría se presenta: (0.25 puntos)


a. Los jueves y es positiva
b. Los martes y es negativa
c. Los martes y es positiva
d. Los jueves y es negativa

Pues ese día se da la mayor distancia entre la mediana y la media, y


media > mediana.

3. En términos medios, los días de menor consumo son: (0.25


puntos)
a. Los miércoles
b. Los viernes
c. Los martes
d. No se dispone de datos suficientes

Pues la media es la que está más a la izquierda de todos los días.

4. ¿Cuál de las siguientes afirmaciones es cierta? (0.25


puntos)
a. El 75% de los lunes se consume por encima de 300
b. El 75% de los lunes se consume por debajo de 300
c. El 25% de los miércoles se consume por debajo de 260
d. El 25% de los miércoles se consume por encima de 180

El límite derecho de la caja de los lunes, que corresponde al tercer


cuartil, está en 300.

-46-
2. Estadística Descriptiva

2.4.4. A partir de la siguiente tabla de contingencia en la que hemos clasificado a los


alumnos del grupo A el curso pasado según sus aficiones y sus notas en Estadística

Row

DEPORTES LECTURA CINE Total

----------------------------------------

SUSPENSOS | 15 | 2 | 2 | 19

| 11,69 | | 4,38 |

| 0,94 | | 1,30 |

----------------------------------------

APROBADOS | 20 | 4 | 8 | 32

| 19,69 | 4,92 | 7,38 |

| 0,00 | 0,17 | 0,05 |

----------------------------------------

NOTABLES | 5 | 4 | 5 | 14

| | 2,15 | 3,23 |

| | 1,58 | 0,97 |

----------------------------------------

Column 40 10 15 65

Total

Cell contents:

Observed frequency

Expected frequency

Contribution to chi-squared

Prescindiendo de la condición de que las frecuencias de las celdas tendrían que ser
mayores que 5:

Completar la tabla con los valores que faltan y estudiar si las aficiones de los
alumnos y sus notas de Estadística son independientes con un nivel de
significación del 5%

-47-
2. Estadística Descriptiva

SOLUCION:

Pruebas de Independencia

Prueba Estadístico Gl Valor-P

Chi-Cuadrada 6,822 4 0,1456

Advertencia: algunas celdas contienen menos de 5 casos.

DEPORTES LECTURA CINE Total por Fila

15 2 2 19

SUSPENSO 11,69 2,92 4,38 29,23%

0,94 0,29 1,30

20 4 8 32

APROBADO 19,69 4,92 7,38 49,23%

0,00 0,17 0,05

5 4 5 14

NOTABLE 8,62 2,15 3,23 21,54%

1,52 1,58 0,97

Total por Columna 40 10 15 65

61,54% 15,38% 23,08% 100,00%

Contenido de las celdas:

Frecuencia Observada

Fecuencia Esperada

Contribución a la Chi-Cuadrada

Zcalc=6,82 y para 4 grados de libertad P-valor =0,145 como 0,145>0,05 SON


INDEPENDIENTES AL NIVEL DEL 5%

-48-
3. Probabilidades

TEMA 3. PROBABILIDADES

Contenido
3.1. INTRODUCCIÓN ............................................................................................. 49
3.2. PROBABILIDAD .............................................................................................. 50
3.2. ESPACIOS DE PROBABILIDADES ................................................................ 50
3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES ...................................... 54
Probabilización de Espacios Muestrales Discretos ............................................ 54
Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria ........ 55
3.5. PROBABILIDAD CONDICIONADA ................................................................. 56
3.6. TEOREMA DE LA INTERSECCIÓN ................................................................ 58
3.7. TEOREMA DE LA PARTICIÓN TOTAL ........................................................... 58
3.8. SUCESOS INDEPENDIENTES ....................................................................... 59
3.9. TEOREMA DE BAYES .................................................................................... 60
3.10. PROBLEMAS PROPUESTOS ....................................................................... 62
Probabilidad condicional ..................................................................................... 63
3.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 69

3.1. INTRODUCCIÓN

El objeto central del Cálculo de probabilidades y de la Estadística, lo constituyen los


llamados fenómenos aleatorios. Los fenómenos aleatorios son aquellos fenómenos
reales que se caracterizan por la impredecibilidad de sus resultados y por la llamada
regularidad estadística.

El cálculo de probabilidades se ha desarrollado en situaciones en las cuales


se realiza un experimento y se observa un resultado. Pero dicho resultado no se
puede predecir de antemano con exactitud. A estos experimentos los llamamos
Experimentos Aleatorios. Este concepto tiene otras características comunes. La
primera de ellas es que no podemos saber de antemano su resultado, a lo sumo
podemos describir un conjunto de posibles resultados. Segundo es que dicho
experimento lo podemos repetir exactamente en las mismas condiciones y el
resultado ser totalmente distinto. No obstante, a medida que el número de
repeticiones del experimento va aumentando se presenta un comportamiento
característico de la frecuencia con que aparece cada resultado, que llamamos
"regularidad estadística"

Si llamamos n al número de repeticiones del experimento aleatorio, ν a la

-49-
3. Probabilidades

frecuencia absoluta, es decir, al número de veces que ocurre un determinado


resultado y a f r su frecuencia relativa, tendremos que:
ν
fr=
n
Por definición de fenómeno aleatorio, cuando n crece fr tiende a estabilizarse
alrededor de un cierto valor. Cuando el fenómeno aleatorio tiene esta propiedad,
diremos que posee la característica de la Regularidad Estadística.

3.2. PROBABILIDAD

Al repetir el experimento aleatorio, se observa que unos resultados aparecen más


que otros, por lo cual cabe hablar de la posibilidad de que un suceso aparezca más
veces que otro. Esto es, a cada suceso asociamos una medida de la posibilidad de
que tenga lugar. A esta medida se llama probabilidad de ocurrencia del suceso.

Tres puntos de vista o enfoques de la probabilidad:

• Clásico: la probabilidad de un suceso es el número de casos favorables


dividido por el número de casos posibles.
• Frecuencialista: la probabilidad de un suceso es el límite al que tiende la
frecuencia relativa con que se presenta dicho suceso.
• Objetivas: es el grado de evidencia de una proposición cualquiera.
• Subjetiva: es el grado de creencia personal en la veracidad de una
proposición.

3.2. ESPACIOS DE PROBABILIDADES

E= Espacio muestral

A
x
x
x
x

A=suceso compuesto
x=suceso elemental

Figura 3. 1 Espacio muestral

-50-
3. Probabilidades

Al conjunto de los posibles resultados del experimento aleatorio se denomina


"Espacio muestral". Gráficamente lo solemos representar por un círculo, tal como
aparece en la Figura 3. 1.

Si los resultados se pueden contar, o se pueden contabilizar, aunque sea para


un número infinito, el espacio muestral es discreto.

Si el espacio muestral es incontable, caso de un número real en el intervalo


de la recta real, se dice que el espacio muestral es "continuo".

Ejemplos de espacio muestrales son:

- Número de puntos al lanzar un dado (discreto y finito),


- Número de accionamiento de un interruptor hasta su fallo (discreto e infinito
numerable),
- Medida del peso de un paquete de arroz (contínuo).

Al espacio muestral lo representamos por la letra E.

Actividad 3.1:
• ¿Cuál es el espacio muestral al lanzar un dado?
• ¿Cuál es el espacio muestral al lanzar una moneda?
• ¿Cuál es el espacio muestral al medir el peso de un paquete de arroz?.

Un suceso A, es cualquier subconjunto contenido en el espacio muestral. Si el


suceso es un posible resultado del experimento aleatorio, lo llamamos "suceso
elemental". Cualquier otro subconjunto se denomina "suceso compuesto".

Otros sucesos que se definen a partir del espacio muestral son:

1) Suceso vacío. El que teóricamente nunca va a aparecer. Lo representamos por


φ . (ej. Obtener 7 puntos al lanzar un dado normal)

2) Suceso cierto. El que siempre aparece. El suceso E siempre aparece, ya que al


realizar el experimento aleatorio siempre tendrá lugar algún resultado del espacio
muestral. (ej. Obtener 6 puntos o menos al lanzar un dado)

3) Suceso complementario. Dado el suceso A∈ E , el complementario A ocurre

-51-
3. Probabilidades

cuando no aparece el A. (ej. Obtener tirada par u obtener tirada impar)

4) Sucesos mutuamente excluyentes. Cuando dados dos sucesos A1 , A2 , si


ocurre uno de ellos no ocurre el otro, es decir, no se pueden dar al mismo
tiempo. (ej. Obtener oros y copas al extraer una carta de una baraja)

5) Suceso unión. Dados dos sucesos A1 , A2 , se llama suceso unión A1 ∪ A2


cuando aparece el A1 o el A 2 o ambos a la vez. También recibe el nombre de
adición. (ej. Sacar oros o copas en la extracción de una carta de una baraja)

6) Suceso intersección. Dados los sucesos A1 , A2 ∈ E se llama intersección


A1 ∩ A2 , cuando sucede A1 y A 2 a la vez. (ej. Obtener el rey de oros que es
obtener simultáneamente oros y rey)

Al igual que con el conjunto de números se establecen unas operaciones que


dan lugar a otros números, con los sucesos pertenecientes al espacio muestral, y
mediante operaciones de complementación, unión e intersección, dan lugar a otros
sucesos. El conjunto de dichos sucesos se dice que forman una σ -álgebra si se
cumplen las dos condiciones siguientes:

1) Si A∈ F el suceso A también pertenece a F.

2) Si A1 , A2 ,....∈ F , el suceso unión infinita también pertenece a F.

Recordar las propiedades conmutativas y asociativas de la unión y de la


intersección, y la propiedad distributiva de cada una de estas operaciones respecto
de la otra.

Realmente la probabilidad es una aplicación del espacio muestral en la recta


real. Dado un espacio muestral E, y una σ -algebra F, decimos que la aplicación
P : F → ℜ es una probabilidad, si y solo si se cumplen los siguientes axiomas:

1) ∀A ∈ F P(A) ≥ 0

2) P(E)= 1

3) ∀ A1 , A2 ,.... ∈ F; Ai ∩ A = φ es P( ∪ A )= ∑ P( A )
i≠ j
j i
i
i

A partir de estos axiomas se demuestran las siguientes propiedades:

1) Probabilidad del suceso contrario: P( A ) = 1 - P(A)

-52-
3. Probabilidades

2) Probabilidad del suceso vacío: P(φ ) = 1 - P(E)= 1 - 1 = 0

3) Inclusión. Si A ⊂ B, P(A)≤ P(B)

4) ∀A ∈ F, 0 ≤ P(A)≤ 1, ya que cualquier A⊂ E .

5) Probabilidad de la unión: P(A∪ B)= P(A)+ P(B)- P(A∩ B)

Gráficamente se observa en la Figura 3. 2.

E= Espacio muestral

A B

A∩B

Figura 3. 2 Unión de sucesos

La demostración es:

A ∪ B = A ∪ ( A ∩ B), y A ∩ ( A ∩ B) = φ

la probabilidad será la suma de probabilidades,

P(A ∪ B) = P(A) + P( A ∩ B)

pero también el suceso B se puede poner como

B = (A ∩ B) ∪ ( A ∩ B)

como son conjuntos disjuntos

P(B) = P(A ∩ B) + P( A ∩ B)

de donde despejando P( A ∩ B) queda:

-53-
3. Probabilidades

P(A∪ B)= P(A)+ P(B)- P(A∩ B)


Como generalización de la unión de tres o más sucesos, tenemos la
expresión general de la unión de sucesos:
P(A∪ B ∪ C) = P(A)+ P(B)+ P(C)- P(A∩ B) - P(A∩ C) - P(B ∩ C)+ P(A∩ B ∩ C)

Observar la correspondencia que hay entre probabilidades y la frecuencia


relativa de un suceso A.

A la tripleta (E,F,P) se denomina espacio probabilístico.

Actividad 3.2:
• Un submarino lanza tres torpedos contra un barco. Cada uno de los torpedos
tiene una probabilidad de 0,7 de alcanzar el barco. ¿Cuál es la probabilidad
de hundir el barco?
• Si de una baraja de 40 cartas extraemos 3 al azar, ¿cuál es la probabilidad
de que salgan 2 oros?
o Con reposición,
o Sin reposición.

3.4. PROBABILIZACIÓN DE ESPACIOS MUESTRALES

Podemos asimilar, desde un punto de vista mecánico, la probabilidad como la


cantidad de masa unitaria que se reparte en el espacio muestral. De forma que la
probabilidad de un suceso corresponde con la cantidad de masa que incluye dicho
suceso dentro del espacio muestral. Si el espacio muestral es discreto, la cantidad de
masa unitaria se encuentra repartida en un serie de puntos discretos. Si el espacio
muestral es continuo, la masa se reparte de forma continua en el espacio muestral,
aunque puede haber zonas donde haya más cantidad de masa que en otras.

Probabilización de Espacios Muestrales Discretos

Cuando el espacio muestral es discreto, cada resultado elemental tiene asignado un


peso, probabilidad, de manera que la suma de pesos elementales debe dar la unidad,
ya que la unión de todos ellos forma el espacio muestral E, y cada suceso elemental
es excluyente respecto a cualquier otro suceso elemental.

-54-
3. Probabilidades

Si el espacio muestral discreto es finito y, además cada uno de los resultados


es igualmente probable, entonces el peso, o probabilidad, que asignamos a cada
suceso elemental es 1/n de resultados que hay. Pero si es un espacio muestral
discreto infinito pero numerable, como la suma debe dar 1, no puede pesar igual un
resultado que otro, no obstante se debe cumplir que la suma infinita de los pesos
converja a la unidad.

En cualquiera de los casos anteriores, la probabilidad de un suceso


compuesto es la suma de las probabilidades de los resultados individuales que lo
integran.

Probabilización de Espacios Muestrales Finitos Simétricos. Combinatoria

Para el caso de un espacio muestral discreto finito y simétrico, esto es, que cada
posible resultado tiene el mismo peso, la probabilidad de un suceso se puede calcular
sumando las probabilidades de los sucesos elementales que incluye, lo cual equivale
a aplicar la regla de:
casos favorables
P(suceso A) =
casos posibles
y para hacer un recuento de casos favorables y casos posibles debemos acudir a la
combinatoria, donde habrá que distinguir si influye el orden, variaciones, o no influye
el orden, combinaciones, y dentro de cada uno de ellos, si los elementos se pueden
repetir o no. Así tenemos el siguiente esquema:

Combinatoria

Variaciones sin repetición de m elementos tomados de n en n.:


- V m,n = m(m - 1)(m - 2)...(m - n + 1)

Permutaciones sin repetición de n elementos

- Pn = n!

Variaciones con repetición de m elementos tomados de n en n:


- V ’m,n = m n
Permutaciones de n elementos de los cuales se repiten α, β,…
n!
- P’n,α ,β ,... = donde α + β + ... = n
α ! β !...

Combinaciones sin repetición de m elementos tomados de n en n:

-55-
3. Probabilidades

⎛ m⎞ m!
- C m,n = ⎜⎜ ⎟⎟ =
⎝ n ⎠ n! (m - n)!

Combinaciones con repetición de m elementos tomados de n en n.:

⎛ m + n - 1⎞
- C’m,n = ⎜⎜ ⎟⎟
⎝ n⎠

La probabilización de espacios muestrales contínuos se lleva a cabo mediante


una función llamada función de densidad.

Actividad 3.3:
• Con las letras a, b, c, d
o ¿Cuántas palabras de 2 letras se pueden formar?
o ¿Cuántas palabras de 3 letras se pueden formar?
o ¿Cuántas palabras de 4 letras se pueden formar?
o Si podemos repetir las letras, ¿cuántas palabras de 2 letras se pueden
tener?
o Si no podemos repetir las letras, ¿cuántas combinaciones de 2 letras
podría obtener?
o Si ahora podemos repetir las letras, ¿Cuántas palabras podemos
obtener?

3.5. PROBABILIDAD CONDICIONADA

Dado un espacio muestral E, si conocemos que ha ocurrido un suceso A∈ E , el


espacio muestral realmente se ha reducido ahora a dicho suceso A conocido, con lo
cual las probabilidades de los sucesos pertenecientes a E se modifican de acuerdo
con el conocimiento de A, y entonces el peso de cualquier B∈ E viene dado por la
parte común de B con A en relación al total de A, que en el nuevo espacio muestral
es el suceso cierto.

Si partimos del espacio de probabilidades (E,F,P) y conocemos el suceso


A ∈ F, con P(A)≠ 0 , definimos la probabilidad de suceso C condicionado a que ha
ocurrido el suceso A, como:

-56-
3. Probabilidades

P(B ∩ A)
P A (B) = P(B/A) =
P(A)

Actividad 3.4:
• Al lanzar un dado, ¿cuál es la probabilidad de sacar un 2?
• Si antes de mostrar el dado, yo lo veo y digo que es un número par, ¿cuál es
la probabilidad de que ahora sea el 2?

Esta medida así definida cumple los axiomas de probabilidad, esto es:

1) P(B/A)≥ 0

2) P(A/A)= 1

3) Si B1 ∩ B2 = φ ; P( B1 ∪ B2 /A)= P( B1 /A)+ P( B2 /A) .

Como es una probabilidad, reúne todas las propiedades de la misma, es decir:

1) P( B /A) = 1 - P(B/A) .

2) P(φ/A)= 0 .

3) Si B1 ⊂ B2 , P( B1 /A) ≤ P( B2 /A).

4) ∀B ∈ F, 0 ≤ P(B/A)≤ 1 .

5) P( B1 ∪ B2 /A)= P( B1 /A)+ P( B1 /A) - P( B1 ∩ B2 /A)

6) La definición de probabilidad condicional se puede aplicar a la propia probabilidad


condicional:
P(C ∩ B ∩ A)
P A (C ∩ B) = P(A) P(A ∩ B ∩ C)
P A (C/B) = =
P A (B) P(A ∩ B) P(A ∩ B)
P(A)

P(C/B/A)= P(C/B∩ A)

-57-
3. Probabilidades

3.6. TEOREMA DE LA INTERSECCIÓN

La probabilidad de la intersección de dos sucesos se puede obtener de la propia


definición de probabilidad condicionada como:
P(A∩ B)= P(A).P(B/A) = P(B).P(B/A)

Para el caso de ser tres sucesos, la probabilidad de la intersección es:


P(A∩ B ∩ C)= P(A).P(B/A).P(C/A∩ B)

Lo anterior también se aplica a probabilidades condicionales, así:

P(A∩ B/C)= P(A/C).P(B/A ∩ C)

Si A y B son independientes también lo son los sucesos complementarios, así


como entre todos ellos.

3.7. TEOREMA DE LA PARTICIÓN TOTAL

Dado un espacio muestral E, recibe el nombre de partición al conjunto de sucesos


A1 , A2 , A3 ,...., An tales que:

1) A1 ∩ A2 ∩ A3 ∩ .....∩ An = φ siendo Ai ∩ A j = φ ∀i ≠ j , es decir son mutuamente


excluyentes.

2) La unión de dichos sucesos forman el espacio muestral, esto es:


A1 ∪ A2 ∪,.....,∪ An = E

Gráficamente se representa en la Figura 3. 3.

-58-
3. Probabilidades

E= Espacio muestral
A1
A2

B
Ai
Ai∩B

An

Figura 3. 3 Teorema de la partición

Si definimos otro suceso B incluido en E, a su vez queda dividido por la


partición efectuada sobre E, de modo que se puede reconstruir B mediante

B = ( A1 ∩ B) ∪ ( A2 ∩ B) ∪ ....∪ ( An ∩ B)

Los conjuntos Ai ∩ B son mutuamente excluyentes, luego la probabilidad del


suceso B también es:

P(B) = ∑ P( Ai ∩ B) = ∑ P( Ai )P(B/ Ai )
i i

3.8. SUCESOS INDEPENDIENTES

Dados dos sucesos A y B, se dicen que son independientes, si el que aparezca uno
de ellos no tiene nada que ver ni influye para nada en la aparición del otro. Es decir,
que la probabilidad de uno de ellos condicionada al la presencia del otro no se ve
modificada. Matemáticamente, dos sucesos A y B son independientes si y solo si se
cumple que:
P(A/B)= P(A) ó P(B/A)= P(B)

Por la definición de probabilidad condicional, si A y B son independientes:

P(A ∩ B)
P(A/B) = = P(A)
P(B)
de donde
P(A∩ B)= P(A).P(B)

-59-
3. Probabilidades

Todo ello se puede generalizar a más sucesos, de esta forma si A1 , A2 ,.... An


son independientes, la probabilidad de la intersección es el producto de
probabilidades:

P( A1 ∩ A2 ∩ A3 ∩ .....∩ An ) = P( A1 ).P( A2 ).P( A3 )....P(An )

Actividad 3.5:
• ¿Cuál es la probabilidad de que al lanzar dos monedas una sea cara y la otra
cruz?
• ¿Cuál es la probabilidad de que al sacar sin reemplazamiento dos cartas de
una baraja de 40, una de ellas sea oros?
• ¿Cuál es la probabilidad de que al sacar 4 cartas haya 2 oros y 1 espada?
• Un temario de oposición tiene 50 temas. El tribunal elige 3 al azar y tenemos
que elegir uno de ellos. Si nos estudiamos 10 de los 50 temas, ¿cuál es la
probabilidad de aprobar?

3.9. TEOREMA DE BAYES

Efectuada una partición sobre el espacio muestral E, y dado el suceso B que está
incluido en E, deseamos calcular la probabilidad condicional de un suceso Ai ,
sabiendo que ha ocurrido el suceso B. Al suceso B también se le llama el efecto, y los
sucesos Ai (i = 1..n) expresan las distintas causas que pueden producir el efecto B.
El teorema de Bayes permite calcular la probabilidad de que habiéndose presentado
el efecto B, sea debido a una de las causas Ai .

Para su cálculo aplicamos la definición de probabilidad condicional:


P( Ai ∩ B)
P( Ai /B) =
P(B)

Para el denominador aplicamos la fórmula de la probabilidad total, y el


numerador, como Ai y B no son independientes, lo podemos expresar como
producto de probabilidades, una de ellas condicional. Así se tiene:
P( Ai ∩ B) P( Ai ).P(B/ Ai )
P( Ai /B) = =
∑ P( Ai ∩ B) ∑ P( Ai )P(B/ Ai )
i i

Donde P(Ai) son las probabilidades “a priori” de las causas Ai, y P(Ai/B) son las
probabilidades “a posteriori” de las causas Ai sabiendo que se ha presentado el
suceso B.

-60-
3. Probabilidades

Árbol de Bayes

Este tipo de problemas es muy interesante resolverlos mediante el árbol de


Bayes que se muestra a continuación,
P( A 1 ∩ B) = P( A 1 )·P(B / A 1 )

P(B / A 1 )

A1

P( A 1 )

P( A 2 ∩ B) = P( A 2 )·P(B / A 2 )

P(B / A 2 )
P( A 2 )

A2

Actividad 3.6:
• En la urna U1 hay 2 bolas blancas y 2 negras, y en la urna U2 hay 3
blancas y 1 negra. Tomamos una bola de la urna U1 y la pasamos a la
urna U2. Después sacamos una bola al azar de la urna 2 que resulta
ser blanca. ¿Cuál es la probabilidad de que la bola que haya pasado
de la urna U1 a la urna U2 sea negra?

Actividad 3.7:
• Tres componentes de un sistema están situados en serie. Si cada uno
de ellos tiene una probabilidad de funcionar del 90%, ¿Cuál es la
probabilidad de que funcione todo el sistema?
• ¿Y si los componentes están situados en paralelo?
• ¿Y si los dos primeros están en paralelo y la tercero esta en serie?

-61-
3. Probabilidades

3.10. PROBLEMAS PROPUESTOS

3.10.1. Se inspeccionan 4 componentes y se definen los siguientes sucesos:

A =" las cuatro componentes son defectuosas"


B =" exactamente dos componentes funcionan correctamente"
C =" A lo sumo tres componentes son defectuosas"

¿A qué son equivalentes los siguientes sucesos?

a) B∪C b) B∩C c) A∪C d) A∩C.

Solución: a) C b) B c) E d) ∅

3.10.2. En una ciudad se publican tres periódicos A, B y C. Supongamos que el


60% de las familias de la ciudad están suscritas al periódico A, el 40% están
suscritas al periódico B y el 30% al periódico C. Supongamos también que el
20% de las familias están suscritas a los periódicos A y B, el 10% a A y C, el
20% a B y C y el 5% a los tres periódicos A, B y C.

a. ¿Qué porcentaje de familias de la ciudad están suscritas al menos a


uno de estos tres periódicos?
b. ¿Qué porcentaje de familias de la ciudad están suscritas únicamente a
uno de los tres periódicos?

Solución: a) 0.85 b) 0.45.

3.10.3. ¿Cuál es la probabilidad de obtener en la lotería primitiva?

a) un pleno,
b) cinco y el complementario,
c) cinco aciertos,
d) cuatro aciertos,
e) tres aciertos.

Solución: a) 7.15E-8 b) 4.29E-7 c) 1.80E-5 d) 9.68E-4 e) 0.017

3.10.4. Una caja contiene 100 chips, de los cuales 75 funcionan correctamente y
25 son defectuosos. Se seleccionan aleatoriamente 12 chips. Calcular la
probabilidad de que al menos un chip seleccionado sea defectuoso.

-62-
3. Probabilidades

Solución: 0.9751.

3.10.5. Si las letras a,a,e,i,i,c,d,t,t,s,s se ordenan aleatoriamente, ¿cuál es la


probabilidad de que formen la palabra "estadistica"?.

Solución: 4.008E-7.

3.10.6. Los alumnos que se presentan a este examen realizan 3 actividades


culturales. El 60% de ellos va al cine, el 40% al teatro y el 30% a museos.
Además el 25% van al cine y al teatro, el 20% al cine y a museos, el 10% a
museos y teatros y el 2% realiza las tres actividades. ¿Qué porcentaje de
alumnos realizan al menos una de las tres actividades?

a) 0’6700
b) 0’7900
c) 0’7500
d) 0’7700

Probabilidad condicional

3.10.7. Cuatro marcas de ordenadores A, B, C y D presentan una oferta para un


cierto contrato. Un análisis de los éxitos obtenidos anteriormente por estas firmas
en contratos similares nos permite establecer que las probabilidades de llevarse
este contrato para cada una de las marcas son:

P(A) = 0.35 P(B) = 0.15 P(C) = 0.3 P(D) = 0.2

Antes de resolverse el contrato, la firma B retira su oferta. Hallar las nuevas


probabilidades de llevarse el contrato para A, C y D.

Solución: P(A) = 0.411, P(C) = 0.352, P(D) = 0.235.

3.10.8. Se hizo una encuesta a cien clientes de un almacén, de los cuales


sesenta dijeron que visitaban el almacén por un anuncio del periódico y el resto
no habían visto el anuncio. Así mismo, cuarenta clientes hicieron compra, y de
ellos treinta habían visto el anuncio.

a) ¿Cuál es la probabilidad de que una persona que no vio el anuncio, hiciera


compra?

-63-
3. Probabilidades

b) ¿Cuál es la probabilidad de que una persona que vio el anuncio, comprase?

Solución: a) 1/4 b) 1/2.

3.10.9. Se dispone de una caja que contiene 5.000 chips, de los cuales 1.000
han sido fabricados por la compañía X y el resto por la compañía Y. El 10% de
los chips fabricados por la compañía X y el 5% de los fabricados por la compañía
Y son defectuosos. Si un chip seleccionado al azar es defectuoso, calcular la
probabilidad de que proceda de la compañía X.

Solución: 1/3.

3.10.10. Un sistema recibe energía eléctrica el 30% del tiempo, energía hidráulica
el 60% y energía mecánica el 10% restante. Cuando funciona eléctricamente la
probabilidad de avería es 0.002, cuando lo hace hidráulicamente es 0.001 y
cuando lo hace mecánicamente es 0.05. Hallar la probabilidad de avería.

Solución: 0.0062.

3.10.11. Una compañía utiliza un test para la contratación del personal. El test lo
aprueban el 60% de los aspirantes. De los que pasan el test el 80% completan la
formación. En una prueba, se empleó a aquellos aspirantes que no aprobaron el
test. La formación fue terminada con éxito solo por el 50% de este grupo. Si no
se usará ningún test, que porcentaje de aspirantes podría esperarse que
completarán la formación.

Solución: 0.68.

3.10.12. Dos cajas contienen cerrojos grandes y cerrojos pequeños. Supongamos


que una caja tiene 60 cerrojos grandes y 40 cerrojos pequeños y que la otra caja
tiene 10 grandes y 20 pequeños. Seleccionamos una caja al azar y extraemos un
cerrojo de la misma. Calcular la probabilidad de que el cerrojo sea grande.

Solución: 7/15.

3.10.13. Un lote de circuitos contiene un 2% de defectuosos. Cada circuito es


comprobado antes de su uso. El téster no es totalmente fiable ya que la
probabilidad de que el téster indique que un circuito es correcto siendo correcto
es 0.95 y la probabilidad de que el téster indique que es defectuoso siendo
defectuoso es 0.94. Si el téster ha indicado que un circuito es defectuoso, ¿cuál

-64-
3. Probabilidades

es la probabilidad de que efectivamente sea defectuoso?

Solución: 0.2772.

3.10.14. De todos los estudiantes de una universidad, el 70% son mujeres y el


30% son hombres. Si el 20% de las mujeres y el 25% de los hombres fuman.
Determinar la probabilidad de que un estudiante elegido al azar sea:

a) una mujer que fuma,


b) un hombre que fuma,
c) un fumador,
d) siendo fumador sea mujer.

Solución: a) 0.14 b) 0.075 c) 0.215 d) 0.651.

3.10.15. Un canal de comunicación binario transporta información con dos tipos


de señal representados por 0 y 1. Debido a los ruidos, un 0 transmitido es
recibido a veces como 1 y un 1 transmitido es recibido a veces como 0. Para un
canal dado la probabilidad de que un 0 transmitido sea recibido como 0 es 0.94 y
la probabilidad de que un 1 transmitido sea recibido como 1 es 0.91. Por otra
parte la probabilidad de transmitir un 0 es 0.45. Si se envía una señal, calcular:

a) la probabilidad de que se reciba un 1,


b) la probabilidad de que se reciba un 0,
c) la probabilidad de que se haya transmitido un 1, sabiendo que se ha recibido
un 1,
d) la probabilidad de que se haya transmitido un 0, sabiendo que se ha recibido
un 0.
e) la probabilidad de que haya un error en la transmisión.

Solución: a) 0.5275 b) 0.4725 c) 0.9488 d) 0.8952 e) 0.0765.

3.10.16. Sea un canal de comunicación, con tres tipos de señal 1,2 y 3 .Para i
=1,2,3, Ti es el suceso "el dígito i es transmitido y Ri es el suceso "el dígito i es
recibido". Sabemos que:

P(R1/T1 )=1-α P(R2/T1 )=α/2 P(R3/T1 )=α/2


P(R1/T2)=β/2 P(R2/T2)=1-β P(R3/T2)=β/2
P(R1/T3)=τ/2 P(R2/T3)=τ/2 P(R3/T3)=1-τ

-65-
3. Probabilidades

Sabemos también que el 3 se transmite tres veces más que el 1, y el 2 dos veces
más que el 1.

a) Si se recibe un 1, ¿cuál es la probabilidad de que se haya enviado un 1?.


b) Calcular la probabilidad de que una transmisión sea errónea.

Solución: a)(2-2α)/(2-2α+2β+3τ) b) (α/6)+(β/3)+(τ/2)

3.10.17. Supongamos dos líneas de fabricación del mismo producto. La primera


línea fabrica 20 unidades/hora, de las cuales el 90% son apropiadas para una
segunda operación. La segunda línea produce 90 unidades/hora, de las cuales
sólo el 20% son apropiadas. Todas las unidades van a un almacén común. Si al
extraer una pieza al azar, ha resultado ser apropiada, ¿cuál es la probabilidad
de que provenga de la primera línea?

Solución: 0.5

3.10.18. Por un canal de comunicación se transmite una de las sucesiones de


letras AAAA, BBBB o CCCC con probabilidades P1, P2 y P3 (P1+P2+P3 =1).
Cada letra transmitida se recibe correctamente con una probabilidad n y cada
una de las otras dos opciones erróneas (las otras dos letras) se reciben con
probabilidad (1-n)/2. Se supone que las letras se distorsionan
independientemente unas de otras (incluso dentro de la misma secuencia). Se
pide:

a) Hallar la probabilidad de que se haya transmitido AAAA si se ha recibido


ABCA.
b) Establecer la decisión a tomar al recibir ABCA cuando n=0.7 y P1=P2=1/8.
c) ¿Cuál es la probabilidad de que una secuencia recibida contenga al menos un
error?

Solución: a) 2nP1/(2nP1+(1-n)P2+(1-n)P3) b) La decisión es que sea transmitido


CCCC c) 0.76

3.10.19. El Departamento de Control técnico (DCT) realiza la clasificación de los


aparatos fabricados. Cada aparato tiene, independientemente de los demás,
defectos con una probabilidad p. Durante una comprobación el DCT revela la
existencia de defectos con una probabilidad igual a a. Además, durante la
comprobación un aparato en buen estado puede comportarse como defectuoso
con una probabilidad b. Todos los aparatos que en la comprobación se
comportan incorrectamente son rechazados.

-66-
3. Probabilidades

a) Hallar la probabilidad q 0 de que un aparato no desechado tenga defectos y la


probabilidad q1 de que un aparato desechado tenga defectos.
b) ¿Para qué condiciones q 0 > q1 ?

Solución: a) q0=(1-a)p/((1-a)p+(1-b)(1-p)) y q1=ap/(ap+b(1 -p)) b) b>a

3.10.20. En los ensayos de cierto equipo se ha determinado que la probabilidad


de buen funcionamiento de un relé, en ausencia de perturbaciones es 0.99,
si sólo hay sobrecalentamiento se sitúa en 0.95, si sólo hay vibraciones en 0.9 y
si se dan ambas circunstancias baja a 0.8. Se supone que ambas
perturbaciones se presentan independientemente.

a) Hallar la probabilidad de que el relé falle en un ambiente donde la probabilidad


de sobrecalentamiento es 0.2 y la de vibraciones de 0.1.
b) Sabemos que se ha producido un fallo. Se ha detectado que ha habido
sobrecalentamiento. ¿Cuál es la probabilidad de que también hayan habido
vibraciones? Y si no se supiera nada sobre el sobrecalentamiento, ¿cuál
sería la probabilidad de que hubiera habido vibraciones?
c) Si se trabaja ahora en un entorno donde sobrecalentamiento y vibraciones no
son independientes, sino que, con las probabilidades del apartado a), la
probabilidad de que se den ambas a la vez es 0.05, ¿cuál es la probabilidad
de que el relé funcione correctamente?

Solución: a) 0.0282 b) 0.3077 0.4255 c) 0.97

3.10.21. Si A y B son dos sucesos independientes entonces: (determinar la


respuesta incorrecta)

a) A y B no siempre son independientes.


b) P(A/B)= P(A)
c) P(A/ B) = P(A)
d) P(A/B) = P(A)

3.10.22. La probabilidad de que funcione una máquina cuando no existe ni


sobrecalentamiento ni vibraciones es del 99%. Si hay vibraciones y no
sobrecalentamiento, la probabilidad de que funcione es del 95%. Si hay
sobrecalentamiento y no vibraciones, la probabilidad de que funcione es del 90%.
Y si existen vibraciones y sobrecalentamiento a la vez, la probabilidad de que

-67-
3. Probabilidades

funcione es del 80%. Calcular la probabilidad de que dicha máquina funcione un


día cualquiera en una fábrica en la cual la probabilidad de que existan
vibraciones es del 20% y la probabilidad de que exista sobrecalentamiento es del
15%.

a) 0’8965
b) 0’9667
c) 0’9208
d) 0’8999

3.10.23. Un proceso de fabricación puede estar ajustado o desajustado. Cuando


está ajustado produce un 1% de piezas defectuosas y cuando está desajustado
un 10%. El proceso está desajustado el 25% del tiempo. En un momento
determinado, se toma una muestra de 10 piezas y no aparece ninguna
defectuosa. Calcular la probabilidad de que esté ajustado en ese momento.

a) 0.8582
b) 0.8861
c) 0.9121
d) 0.9362

3.10.24. Dados dos sucesos A y B pertenecientes al mismo espacio muestral E, la


probabilidad de que ocurra A es de 0.85 y la probabilidad de que ocurra B de
0.25. Entonces:

a) A y B son siempre dependientes pero no excluyentes.


b) A y B son siempre mutuamente excluyentes pero no dependientes.
c) B está siempre incluido en A.
d) ninguna de las anteriores es cierta

3.10.25. Existe un test de control de piezas que rechaza piezas buenas un 5% de


las veces y piezas malas un 95%. Se sabe que en un proceso de fabricación en
el que se aplica este test, la probabilidad de que una pieza que ha sido
rechazada sea buena es del 0.9%. ¿Qué porcentaje de piezas defectuosas se
están produciendo en dicho proceso?

a) 85.28%
b) 90.32%
c) 14.73%
d) 79.89%

-68-
3. Probabilidades

3.11. PROBLEMAS Y CUESTIONES DE EXÁMENES

3.11.1. Para el siguiente esquema de fiabilidad, donde al lado de cada elemento


figura la probabilidad de funcionamiento del elemento,

calcular la probabilidad de funcionamiento de todo el sistema. (1 punto)

Solución cuestión 2:

La probabilidad de funcionamiento del primer grupo es:

R S1 = 1 − [(1 − R A )(1 − RB )(1 − RC )] = 1 − [(1 − 0,95)·(1 − 0,98)·(1 − 0,87)] = 0,99987

Y la probabilidad de funcionamiento del segundo grupos es:

R S2 = 1 − [(1 − RD )(1 − RE )] = 1 − [(1 − 0,85)(1 − 0,90)] = 0,985

Y la probabilidad de funcionamiento de todo el sistema es,

R SYS = R S1·R S2 = 0,99987·0,985 = 0,9849

3.11.2. El departamento de recursos humanos de una gran empresa tiene


clasificados a sus empleados por grupos de edad. Un total de 220 están entre 18 y
40 años, 150 entre 41 y 55 años y 50 con más de 56 años. De los más jóvenes el
20% tienen titulación superior, el 30% otras titulaciones y el resto no tiene
estudios. El 15% del grupo de edad intermedia tiene titulación superior, el 40%
otras titulaciones y el resto no tiene estudios. El grupo de mayor edad hay un 2%
con titulación superior, 20% con otras titulaciones y el resto sin estudios.
a) ¿Cuál es la probabilidad de que al seleccionar al azar a un trabajador sea del
grupo de los mayores y no tenga estudios? (0,5 puntos)
b) ¿Cuál es la probabilidad de que al elegir al azar un expediente sea de un
titulado superior? (0,5 puntos)

-69-
3. Probabilidades

c) Si los expedientes se encuentran ahora agrupados en tres carpetas, una para


cada grupo de edad y se cogen al azar 6 trabajadores de una carpeta también
elegida al azar y resulta que solo 2 de ellos no tienen ningún tipo de estudio
¿Cuál es la probabilidad de que la carpeta elegida sea la de los jóvenes? (1
punto)

Solución cuestión 5:

El árbol de Bayes es,

0,2 S C1

0,3 M C2
18-40
SE C3
0,5
220/420
0,15 S C4
0,4
41-55 M C5
150/420
0,45
SE C6
50/420
0,02 S C7
>=56
0,2
M C8
0,78
SE C9

a) La probabilidad de que sea mayor de 56 y sin estudios es justamente el camino 9,


esto es,

50
P( Edad > 56 ∩SinEstudio s ) = C 9 = ·0 ,78 = 0 ,0929
420
b) La probabilidad de que al elegir uno al azar sea titulado superior es la suma de
los caminos 1, 4 y 7, esto es:

220 150 50
P ( Superior ) = C1 + C 4 + C 7 = ·0,2 + ·0,15 + ·0,02 = 0,16
420 420 420
c) Ahora el árbol de probabilidades es,

-70-
3. Probabilidades

⎛6⎞
p1 = P(B(6;0,5) = 2) = ⎜⎜ ⎟⎟·0,5 2 (1 − 0,5) 4 = 0,2344
⎝2⎠

⎛6⎞
p1 = P(B(6;0,45 ) = 2) = ⎜⎜ ⎟⎟·0,45 2 (1 − 0,45 ) 4 = 0,2780
⎝ 2⎠

⎛6⎞
p1 = P(B(6;0,78 ) = 2) = ⎜⎜ ⎟⎟·0,78 2 (1 − 0,78 ) 4 = 0,0214
⎝ 2⎠

La probabilidad pedida es,

P(jóvenes/hay 2 de 6 sin estudios)=


1
·0,2344
C1 3
= = 0,4391
C1 + C2 + C3 1 1 1
·0,2344 + ·0,2780 + ·0,0214
3 3 3

3.11.3. Un fabricante de motores produce un 20% de defectuosos. El coste es de


5.000 € por unidad y el precio de venta es de 10.000 euros. Si el motor es
defectuoso debe devolverse lo cobrado y pagar una indemnización de 7.000 €.
a) Calcular el beneficio medio por motor si vende todos los motores tal como
salen de fábrica. (1 punto)
b) Se puede hacer una prueba de control de calidad A que cuesta 3.000 €. y que
determina con toda seguridad si el motor es o no es defectuoso. Estudiar si es
rentable la prueba. (1 punto)
c) Se puede utilizar una prueba alterativa B, que conduce a conclusiones
erróneas en un 5% de los casos. Calcular el precio máximo que puede
pagarse por dicha prueba. (1 punto)
d) En qué porcentaje de los casos en los que la prueba B indique que el motor
es correcto se tendrá que pagar indemnización. (1 puntos)

NOTA: se asume que cuando la prueba indica que el motor es defectuoso no se


vende el mismo, mientras que si la prueba indica que el motor es correcto, se vende.

a) E(B) = 0.8×5000 + 0.2×(-5000-7000)= 4000 – 2400 = 1600 euros

b) E(B) = 0.8×(5000-3000) + 0.2×(-5000-3000)=1600 –1600 = 0 euros. Como 0


euros es menos que 1600 euros, NO ES RENTABLE hacer la prueba.

-71-
3. Probabilidades

c) B=10000-5000-x
Prueba Correcto
0.95

Prueba
Motor Correcto Defectuoso
0.05
0.8 B=-5000-x

B=-5000-x
Motor Defectuoso Prueba
Defectuoso
0.2 0.95

Prueba Correcto
0.05
B=-5000-7000-x

E(B)=0.8×0.95×(5000-x)-0.8×0.05×(5000+x)-0.2×0.95×(5000+x)-0.2×0.05×(12000-
x)=1600

Despejando,

2530-x=1600, de donde el precio máximo a pagar por la prueba es 930 euros.

d)

MD=Motor defectuoso
MC=Motor correcto
PC=Prueba correcta

Por el teorema de Bayes,

P(MD/PC)= P(PC/MD)×P(MD)/P(PC)=0.05×0.2/0.77=1.3%

Donde, por el teorema de la probabilidad total,

P(PC)= P(PC/MD)×P(D)+P(PC/MC)×P(MC)=0.05×0.2+0.95×0.8=0.01+0.76=0.77

-72-
3. Probabilidades

3.11.4. Una empresa electrónica fabrica una placa base para un determinado tipo de
ordenador. Se sabe que el porcentaje de placas base defectuosas de toda la
producción es del 2%. El coste de fabricación de cada placa es de 100€ y se
vende cada una a 300€. Si al instalar en el ordenador se detecta que no funciona
bien, se debe reemplazar por otra que seguro que no es defectuosa, pero cuyo
coste de fabricación es de 150€. La empresa puede realizar un test antes de
venderla, pero este test, cuando la placa es correcta, falla en el 1% de los casos, y
cuando la placa realmente está mal, acierta en el 90% de los casos. Se pide:

a) Sabiendo que el test dice que una placa está bien, calcular la probabilidad de
que dicha placa realmente sea defectuosa. (0,75 puntos)
b) Calcular el porcentaje de veces que se equivoca el test. (0,75 puntos)
c) Si el test resulta positivo, se instala la placa tal y como está (aun pudiendo ser
defectuosa). Si el test resulta negativo, una reparación de 10 € asegura que la
placa estará bien. ¿Cuál es el precio máximo que debemos pagar por el test
para que, en promedio, sea rentable?(2 puntos)
d) Si la placa base internamente consta de 10 componentes idénticas e
independientes, que asumimos que están montados en serie, y un requisito es
que la probabilidad de no fallo de la placa base es del 80%, ¿cuál debe ser la
probabilidad de no fallo de cada componente? (0,75 puntos)

Solución Cuestión 1:

C3 0,02·0,1 0,002
a) P(D / + ) = = = = 0,0021
C1 + C3 0,98·0,99 + 0,02·0,1 0,9722

b) P(Error)=P(C2+C3)=0,98·0,01+0,02·0,1=0,0118. Es decir, el 1,18 % de las veces


se equivoca el test.

c) El beneficio es

-73-
3. Probabilidades

El valor medio del beneficio es,

E(B) = 200·0,9702+(190)·0,0098+50·0,002+(190)·0,018 = 199,442

Sin hacer el test, el árbol con los beneficios es,

Y el valor medio del beneficio es,

E(B)=0,98·200+0,02·50=197

El precio máximo del test es 199,332-197=2,442 €.

d)

Para que funcione el sistema deben funcionar todos los elementos, por lo que la
probabilidad de funcionamiento del sistema es,

-74-
3. Probabilidades

P(S) = P(C1 ∩ C2 ∩····C10 ) = P(C1 )·P(C2 )····P(C10 ) = P(C)10 = 0,8

De donde P(C) = 0,81/ 10 = 0,9779 debe ser la de cada componente.

3.11.5. Los componentes de un determinado producto están dispuestos según la


figura de abajo, donde al lado de cada elemento se indica la probabilidad de no
fallo del mismo.

a) ¿Cuál debe ser la probabilidad de no fallo del componente 4 para que en


conjunto la probabilidad de no fallo sea del 90%?
(1.5 puntos)

SOLUCIÓN:

Llamando de R la probabilidad de no fallo de cada componente, la fiabilidad del


sistema es,
R sys = (1 − (1 − R1 )·(1 − R2 ))·(1 − (1 − R3 )·(1 − R 4 ))·R5

Sustituyendo valores,

0.90 = (1 − 0.15·0.07)·(1 − 0.25·(1 − R 4 ))·0.95

0.90 = 0.9895(1 − 0.25·(1 − R 4 ))·0.95

1 − 0.25·(1 − R 4 ) = 0.9574
1 − 0.9574
(1 − R 4 ) = = 0.1703
0.25
De donde la probabilidad de no fallo del componente 4 es R 4 = 0.8297

3.11.6. Para comprobar si un motor eléctrico es correcto o defectuoso el


Departamento de Calidad aplica dos pruebas independientes y sucesivas. La
primera prueba tiene una probabilidad de acertar en el diagnóstico del 90%, y la
segunda prueba, cuando el motor es correcto acierta el 95% de los casos, pero
cuando el motor es defectuoso se equivoca en el 7% de las veces. Sabiendo que

-75-
3. Probabilidades

la proporción de motores defectuosos es del 5%, se pide:

a) Si una cualquiera de las pruebas, pero no ambas, dice que el motor es correcto,
¿qué proporción de casos realmente será correcto el motor?
(1 punto)
b) ¿Cuál de las dos pruebas tiene mayor probabilidad de error?
(1 punto)

SOLUCIÓN:
a) El árbol de probabilidades es,

La probabilidad que nos piden es,


C2 + C3 0.95·0.90·0.05 + 0.95·0.10·0.95
P(C / 1+ ) = = =
C2 + C3 + C6 + C7 0.95·0.90·0.05 + 0.95·0.10·0.95 + 0.05·0.10·0.93 + 0.05·0.90·0.07
0.0428 + 0.0903 0.1331
= = = 0.945
0.0428 + 0.0903 + 0.0047 + 0.0032 0.141

b) La probabilidad de error de la primera prueba es del 10%, y la de la segunda


prueba, árbol de probabilidades es,

-76-
3. Probabilidades

La probabilidad de error viene dada por la suma de probabilidades de los caminos 2 y


3. Esto es,
P(Error ) = C2 + C3 = 0.95·0.05 + 0.05·0.07 = 0.051

Por lo que la prueba 1 es la de mayor probabilidad de error.

-77-
3. Probabilidades

-78-
4. Concepto de variable aleatoria

4. CONCEPTO DE VARIABLE ALEATORIA

Contenido
4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL ...................... 79
4.2. FUNCIÓN DE DISTRIBUCIÓN ........................................................................ 80
4.3. VARIABLES DISCRETAS ............................................................................... 81
4.4. VARIABLES CONTINUAS ............................................................................... 83
Función de densidad ........................................................................................... 83
Transformación de variables aleatorias .............................................................. 86
4.5. ESPERANZA MATEMÁTICA ........................................................................... 87
Esperanza matemática ....................................................................................... 88
Momentos ........................................................................................................... 88
4.6 PARÁMETROS DE TENDENCIA ..................................................................... 90
Valor medio ......................................................................................................... 90
Mediana .............................................................................................................. 91
Cuartiles .............................................................................................................. 91
Moda ................................................................................................................... 92
4.7. VARIANZA. CONCEPTO Y PROPIEDADES .................................................. 92
Desviación típica ................................................................................................. 93
4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN ......................................... 93
Rango o Recorrido .............................................................................................. 93
Coeficiente de variación ...................................................................................... 94
Coeficiente de asimetría .................................................................................... 94
Coeficiente de apuntamiento o de curtosis ......................................................... 94
4.9. DISTRIBUCIONES BIDIMENSIONALES ........................................................ 95
Concepto ............................................................................................................. 95
Función de distribución ....................................................................................... 96
Función de densidad ........................................................................................... 97
Función de densidad marginal ............................................................................ 98
Función de densidad condicional ...................................................................... 100
Independencia de variables aleatorias ............................................................. 101
Esperanza de vectores aleatorios ..................................................................... 102
Momentos ......................................................................................................... 103
Matriz de varianzas-covarianzas ...................................................................... 104
Combinación lineal de variables aleatorias ....................................................... 108
Curva de regresión condicional ........................................................................ 108
Recta de regresión mínimo cuadrática ............................................................. 109
4.10. PROBLEMAS PROPUESTOS ..................................................................... 111
4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES ........................................ 115

4.1. DEFINICIÓN DE VARIABLE ALEATORIA UNIDIMENSIONAL

Dado un espacio de probabilidades (E,F,P) vemos que podemos asignar una


probabilidad a cada A ∈ F , pero en lugar de manejar frases para designar a los
sucesos, es más cómodo numerizar los posibles resultados del experimento
aleatorio, de esta forma todas las frases se corresponden con números. Estos

-79-
4. Con
ncepto de varia
able aleatoria

núme eros serán variables y como su re


esultado es
s impredecib
ble las llam
mamos varia
ables
aleattorias.

ncretamente
Más con e, dado un
n espacio probabilístic
p o (E,F,P) ddiremos qu
ue la
apliccación X : E → R es una varia ble aleatorria unidime
ensional, sii y solo si, la
magen de cualquier intervalo I x =] - ∞, x] pertenece
antiim p a la sigmaa-álgebra F. La
repreesentación gráfica de una
u variable
e aleatoria aparece
a en la Figura 44.1

Figura 4.. 1.Variable aleatoria.


a

Todos lo
os conjuntos ma ] - ∞, x] , más sus complement
s de la form c tarios y los que
se puueden obte de unión e intersección, forman l o que se llama
ener por operaciones d
un cconjunto dee Borel en R, y cuallquier conjuunto está probabilizaddo, ya que e su
magen perttenece a F, el cual esstá probabilizado por la medida P. Esto es
antiim s, la
probaabilidad assignada a un conjuntto de la reecta real es
e la probaabilidad de e su
antiim
magen. Así:

p ∈ I x ) = P[ O x ( I x )]
P( I x ) = p(X ) = P(X(e)≤ x) = P(X
X ≤ x)

do a O x ( I x ) el originall por la aplic


Llamand cación X de
el conjunto I x .

4.2. FUNCIÓN
N DE DISTR
RIBUCIÓN
N

Dadaa una variable aleatoriia X, se llam


ma función de distribu
ución de essta variable a la
funciión F(x) deffinida como sigue:

∀x ∈ R F(x)= P(( I x ) = P(X(e (X ≤ x)


(e)≤ x) = P(X

-80-
4. Concepto de variable aleatoria

Esta función F(x) tiene las siguientes propiedades:

1) ∀ x ∈ R es 0 ≤ F(x) ≤ 1 , pues es una probabilidad. (F(x) existe en toda la


recta real)

2) El lim F(x) = 1 .
x →+ ∞

3) El lim F(x) = 0 .
x→-∞

4) La P(x∈]a,b]) = F(b)- F(a) , ya que como a < b se cumple que

] - ∞ , a]+]a,b] =] - ∞,b]

] - ∞,a]∩ ]a,b] = φ

y por el axioma tercera de la probabilidad,

P(a < X ≤ b) = F(b) - F(a)

luego,

P(x ∈] - ∞,a]) + P(x ∈]a,b]) = P(x ∈] - ∞,b]

5) F(x) es no decreciente. De la propiedad anterior:

F(b)= F(a)+ P(a < X ≤ b)

6) F(x) es siempre continua por la derecha y si P(X = a) = 0 , también es


continua por la izquierda. Si P(X = a) ≠ 0 es discontinua por la izquierda con un salto
igual a P(X = a) .

Una analogía mecánica que resulta útil es pensar que la cantidad de masa
(tiza) de 1 gramo se reparte a lo largo de la recta real, y entonces la función de
distribución en un punto se define como la cantidad de masa que existe a su
izquierda, incluyendo dicho punto.

4.3. VARIABLES DISCRETAS

Una variable aleatoria es discreta cuando toma un conjunto finito de valores. También
se llama categórica.

-81-
4. Concepto de variable aleatoria

La cantidad de masa se encuentra almacenada en un conjunto de puntos de


la recta real. La función de probabilidad P(x) define la cantidad de masa de cada
punto. La función de distribución tiene unos saltos en los puntos discretos de masa.

Si la v.a. es discreta, la cantidad de masa está repartida en una serie de


puntos discretos de la recta real, cada uno de ellos con P( xi ) ≠ 0 . La función de
distribución es la suma de todas las masas que hay a la izquierda, esto es:

F(x) = ∑ P( x )
∀ xi ≤ x
i

La forma gráfica es una función escalonada donde en cada punto donde


existe la variable, hay un salto igual a la probabilidad en dicho punto.

Actividad 4.1:

• Dibujar la función de probabilidad de la variable aleatoria número de puntos obtenidos


al lanzar un dado.
• Dibujar la función de distribución de la variable aleatoria número de puntos obtenidos
al lanzar un dado.
• ¿Cuánto vale P(X=6)?
• ¿Cuánto vale F(2,5)?
• ¿Cuánto vale F(3)?
• ¿Cuánto vale P(X>=5)?
• ¿Cuánto vale P(x<5)?
• Calcular la función de distribución de la variable aleatoria suma de puntos al lanzar
dos dados.

Binomial Distribución
0,4 Prob. de Even
0,1,10
probabilidad

0,3

0,2

0,1

0
0 2 4 6 8 10
x
Figura 4. 2. Función de probabilidad discreta

-82-
4. Concepto de variable aleatoria

Binomial Distribución
probabilidad acumulativa 1 Prob. de Even
0,1,10
0,8

0,6

0,4

0,2

0
0 2 4 6 8 10
x

Figura 4. 3. Función de distribución discreta

4.4. VARIABLES CONTINUAS

Para una variable continua, la gráfica no presenta ningún salto. Se trata del límite de
la variable aleatoria discreta.

Función de densidad

Diremos que X es una v.a. continua, si existe una función f(x) no negativa, tal que
para todo a de la recta real se cumple que:

a
Fx (a) = ∫ f(x)dx
-∞

Esta función f(x) se denomina función de densidad.

También decimos que X es continua si la F(x) es continua en todo punto y


derivable respecto de x, excepto a lo sumo en un número finito de puntos o
intervalos. La derivada de la función de distribución es la función de densidad,

dF(x)
f(x) =
dx

Por la definición matemática de derivada, se tiene que:

-83-
4. Concepto de variable aleatoria

dF(x) F(x + Δx) - F(x)


f(x) = = lim
dx Δx →0 Δx

El numerador del límite expresa la cantidad de masa que hay en un intervalo


de longitud Δ x . Cuando Δ x → 0 , el límite expresa la cantidad de masa que hay
encima de un incremento infinitesimal, esto es, la cantidad de masa por unidad de
longitud, lo que en mecánica recibe el nombre de una densidad, y de ahí el nombre
de función de densidad para designar f(x) .

Para una variable aleatoria continua, la probabilidad de exactamente un punto


es P(X = a) = 0 , es decir, no hay probabilidad pero si hay densidad de probabilidad
encima del punto.

La cantidad de masa en el intervalo I =]a,b] es:

b
P(a < X ≤ b) = F(b) - F(a) = ∫ f(x)dx = P(a <= X ≤ b) = P(a ≤ X < b)
a

Si X es continua, la cantidad de masa en toda la recta real es:

+∞


-∞
f(x)dx = 1 = F(+∞ ) - F(-∞ )

la cantidad de masa en un diferencial de longitud es:

f(x)dx

La función de densidad se puede tomar como el límite de un histograma de


frecuencias cuando la base de los rectángulos es infinitesimal.

Para una variable discreta no existe la función de densidad, y la función que


expresa la cantidad de masa que hay en cada punto la denominamos "función de
probabilidad".

Actividad 4.2:

• Si X está distribuida uniformemente entre 1 y 3:


o ¿Cuánto vale la función de distribución en un punto cualquiera a?
o ¿Cuánto vale la función de densidad en un punto cualquiera a?
• Si X está distribuida de forma triangular como se expresa en la figura siguiente,

-84-
4. Concepto de variable aleatoria

Figura 4. 4 Distribución triangular

o Calcular la función de densidad y la función de distribución en un punto


cualquiera a
o ¿Cuál será la probabilidad de que un punto esté entre 1,5 y 2,5?

• Si X está distribuida de forma triangular como se expresa en la figura siguiente,

Figura 4. 5 Distribución en triángulo isósceles

o Calcular la función de densidad y la función de distribución en un punto


cualquiera a
o ¿Cuál será la probabilidad de que un punto esté entre 1,5 y 2,5?

-85-
4. Concepto de variable aleatoria

Exponencial Distribución
0,1 Media
10
0,08
densidad

0,06

0,04

0,02

0
0 10 20 30 40 50 60
x

Figura 4. 6. Función de densidad

Exponencial Distribución
probabilidad acumulativa

1 Media
10
0,8

0,6

0,4

0,2

0
0 10 20 30 40 50 60
x

Figura 4. 7. Función de distribución

Transformación de variables aleatorias

En muchas ocasiones una variable aleatoria se obtiene como una función de


otra variable aleatoria, esto es una transformación del tipo Y=g(X), y deseamos
conocer la distribución de la nueva variable aleatoria Y sabiendo la distribución de X.

Para ello aplicamos la definición de la función de distribución de Y,

Fy ( a ) = P( Y ≤ a )

Y sustituyendo la expresión de Y en función de X, tenemos que,

Fy ( a ) = P( Y ≤ a ) = P( g ( X ) ≤ a ) = P( X ≤ g −1( a )) = Fx g −1( a ) ( )

-86-
4. Concepto de variable aleatoria

Una vez conocida la función de distribución de Y, podemos obtener todas las


demás características de la variable Y.

Figura 4. 8. Transformación de variables

Por ejemplo, supongamos que el coste de una determinada materia prima


fluctúa en el mercado según una función de densidad de,

x
f(x)= − 5 10 ≤ x ≤ 12
2

Pero el precio de venta de dicha materia prima es Y=1,3*X+20. La


probabilidad de que el precio de venta sea menor de 34 es,

34 − 20
P( Y ≤ 34 ) = P( 1,30· X + 20 ≤ 34 ) = P( X ≤ )=
1,30
10 ,77 ⎛x ⎞
P( X ≤ 10 ,77 ) = ∫ ⎜ − 5 ⎟dx = 0 ,148
10
⎝2 ⎠

4.5. ESPERANZA MATEMÁTICA

Actividad 4.3:

• Un casino plantea el siguiente juego de azar. Se hace una apuesta del resultado de
lanzar un dado. Se lanza una dado, si sale un 1, el casino dará 1000€, si sale un 2 ó
un 3, el casino dará 500€, y si sale un 4, un 5 ó un 6, el casino dará 100€. ¿Cuánto
tendremos que pagar por cada apuesta para que el juego no favorezca ni al casino ni
al jugador?

-87-
4. Concepto de variable aleatoria

Esperanza matemática
Dada la variable aleatoria X y una función uniforme g(x) , llamamos Esperanza
matemática de dicha función, a la expresión:

Si la v.a. es discreta, la esperanza matemática es:

E[g(x)] = ∑ g( xi )P( xi )
∀ xi

y si la v.a. es continua, es:

+∞
E[g(x)] = ∫ g(x)f(x)dx
−∞

donde f(x) es la función de densidad de una variable aleatoria continua.

El concepto de esperanza matemática es el valor que cabe esperar de la


función g(x), si repetimos el experimento aleatorio hasta el infinito. A la esperanza
matemática también se le llama “valor medio” o simplemente “media”.

Actividad 4.4:

• Calcular el valor medio de la suma de puntos al lanzar dos dados.

La esperanza matemática es un operador lineal, esto es, sea X una variable aleatoria,
y g 1 (x) y g 2 (x) dos funciones uniformes de la misma, entonces la esperanza
matemática de una combinación lineal de dichas funciones es:

E[a· g 1 (x) + b· g 2 (x)] = a· E[ g 1 (x)] + b· E[ g 2 (x)]

La expresión se deduce a partir de la definición de integral de Rieman-Stieljes.

Momentos

Dada la v.a. X, para el caso particular de que la función g(x) sea g(x) = xν , la
esperanza matemática de dicha función se denomina momento respecto al origen de
orden ν , y se escribe:

-88-
4. Concepto de variable aleatoria

Si la v.a. es discreta, se tiene:

α ν = E( X ν ) = ∑ xνi P( xi )
∀ xi

y si la v.a. es continua,

α ν = E( X ν ) = ∫ xν f(x)dx
_

El primer momento respecto al origen, recibe el nombre de media, o valor


medio, de la v.a. X, y se representa por la letra μ (griega).

Caso discreto es:

μ = ∑ xi P( xi )
∀ xi

Caso continuo es:

+∞
μ=
-∞
∫ xf(x)dx
ν
Si la función g(x) es ahora g(x) = (X - μ ) , donde a cada valor de X le hemos
restado su media, es decir hemos centrado la variable, entonces la esperanza
matemática de dicha función se denomina "momento centrado de orden ν , y su
expresión es:

Si la v.a. es discreta:

μν = E(X - μ ) = ∑( xi - μ ) P(xi )
ν ν

∀ xi

y si la v.a. es continua,

+∞


ν
μν = E(X - μ ) = (x - μ )ν f(x)dx
−∞

donde f(x) es la función de densidad, de la v.a. X.

El momento centrado de orden uno es siempre nulo, ya que

+∞ +∞ +∞

μ1 = E(X - μ ) = ∫
−∞
(x - μ )f ( x )dx = ∫
−∞
xf ( x )dx - μ ∫ f ( x )dx = μ - μ = 0
−∞

-89-
4. Concepto de variable aleatoria

+∞
ya que ∫ f ( x )dx expresa toda la cantidad de masa que hay en la recta real.
−∞

Todo momento centrado se puede poner en función de momentos respecto al


origen, desarrollando el polinomio y tomando valores medios.

4.6 PARÁMETROS DE TENDENCIA

Valor medio

Ya hemos definido el valor medio como

+∞
μ = E(X)= ∫ xf ( x )dx
-∞

y expresa, mecánicamente, el centro de gravedad de la distribución de masas.

Es una medida "poco robusta", ya que un valor extremo modifica totalmente el


centro de masas. Gráficamente se puede asimilar al punto de apoyo de una barra,
donde arriba situamos una serie de pesos, ya sea de forma puntual, caso de v.a.
discreta, o continua, caso de v.a. continua.

Tiene las siguientes propiedades:

1) Si multiplicamos la v.a. por una constante a, el valor medio queda


multiplicado por dicha constante.

E(aX)= a.μ

2) El valor medio de una constante es la misma constante.

E(a)= a

3) El valor medio de una suma de variables aleatorias es la suma de sus


medias.

E( X 1 + X 2 + ...+ X n ) = E( X 1 ) + E( X 2 ) + ...+ E( X n ) = μ1 + μ 2 + ...μ n

4) El valor medio de una combinación lineal de variables aleatorias es la


combinación lineal de sus medias, esto es:

-90-
4. Concepto de variable aleatoria

E( a1 X 1 + a 2 X 2 + ....+ a n X n ) = E( a1 X 1 ) + E( a 2 X 2 ) + ...+ E a n X n ) =
= a1 μ1 + a 2 μ2 + ...+ a n μ n

1
Si el espacio muestral es discreto y simétrico, con n elementos, P( xi ) = y
n
el valor medio es

1 ∑
xi
E(x) = ∑ xi ·P( xi ) = ∑ xi · = i
∀xi i n n

Actividad 4.5:

• Calcular el valor medio de la variable aleatoria número de puntos al lanzar un dado.


• Calcular el valor medio de la distribución uniforme entre a y b.
• Calcular el valor medio de la distribución triangular.
• Calcular el valor medio de la distribución exponencial.

Mediana

Expresa el punto por debajo del cual está el 50% de los valores y por encima el 50 %
de los valores. Matemáticamente, es aquel valor de x para el cual F(x), la función de
distribución, vale 0,5.

F( xmed ) = 0,5

A aquel valor de x por debajo del cual hay una cantidad de masa de p%, se le
llama percentil p. De esta forma:

F( x p ) = p

La mediana es el percentil 50%.

La mediana es una medida muy robusta, ya que para un valor extremo


apenas se modifica.

Cuartiles
Si la cantidad de masa la dividimos en 4 partes, a cada uno de los puntos de
la división se le llama "cuartil". Así el "tercer cuartil" es el que tiene por debajo de él
una cantidad de masa del 75%, es decir las 3/4 de los valores de x.

-91-
4. Concepto de variable aleatoria

Moda

Como su nombre indica, es el valor más frecuente, es decir, el máximo valor de


P( xi ) , para una distribución discreta, o el valor máximo de la curva f(x). Esta curva
puede tener varios máximos, y entonces la distribución se denomina "multimodal".

4.7. VARIANZA. CONCEPTO Y PROPIEDADES

Se define como el momento centrado de orden 2, es decir:

σ 2 = var( X ) = D 2 ( X ) = E( X − μ )2

Si la v.a. es discreta:

σ = E(X - μ ) = ∑( xi - μ ) P( xi )
2 2 2

∀ xi

y si la v.a. es continua:

+∞

∫ (x - μ )
2 2
σ = E(X - μ ) =
2
f(x)dx
-∞

La varianza es el valor medio de las diferencias al cuadrado entre los valores


de la X y su media, por ello siempre es una cantidad positiva. Cuanto mayor sea
dicha cantidad, mayor dispersión hay en los datos.

Esta medida tiene las siguientes propiedades:

1) La varianza de una constante es cero.

2
D (a) = E(a - a) = 0

2) La varianza de una constante por la v.a. X es la constante al cuadrado por


la varianza de la variable aleatoria X.

2 2 2
D (a.X) = a D (X)

2 2 2
D (aX) = E(aX - a μ x ) = E[ a (X - μ x ) ] = a E(X - μ x ) = a D (X)
2 2 2 2 2

3) La varianza de a· X + b es:

2 2 2
D (aX + b) = a D (X)

-92-
4. Concepto de variable aleatoria

4) La varianza en función de los momentos respecto al origen vale:

2 2
D (X) = E(X - μ ) = E( X - 2μx + μ ) =
2 2

= E( X 2 ) - 2μE(X) + μ 2 = α 2 - α12

D (X) = E( X ) - (E(X))
2 2 2

Desviación típica

La varianza es una medida al cuadrado y por lo tanto no se puede comparar con la


medida X. Para poder hacer comparaciones empleamos la raíz cuadrada en signo
positivo de la varianza, a la cual denominamos desviación típica, y se expresa por:

σ = D(X) = + var(x) = + σ2

Si la desviación típica es grande, indica que hay una gran dispersión en los
datos.

Tanto la varianza como la desviación típica son medidas poco robustas, ya


que para valores extremos (muy altos o muy bajos) se modifica en gran manera su
valor.

Actividad 4.6

• Calcular la variancia de la variable aleatoria del dado.


• Calcular la variancia de la distribución uniforme entre a y b.
• Calcular la variancia de la distribución triangular.
• Calcular la variancia de la distribución exponencial.

4.8. OTROS PARÁMETROS DE UNA DISTRIBUCIÓN

Rango o Recorrido

Otra idea de la dispersión de los datos la indica la diferencia entre el máximo y el


mínimo, a la cual denominamos "Recorrido" o "Rango" de variación de la v.a. X.

-93-
4. Concepto de variable aleatoria

Coeficiente de variación

Es el cociente entre la desviación típica y la media de la v.a.

σ
C.V.=
μ

Sirve para comparar dispersiones de dos distribuciones, cuando éstas tienen


diferentes situaciones en la recta real.

Coeficiente de asimetría

Para ver si una distribución es asimétrica, empleamos el momento centrado de orden


3, ya que si existe simetría respecto de la media, los valores por encima de la media
tienden a compensarse con los valores por debajo de la media, y su valor será nulo.
De lo contrario, habrá un valor + si la asimetría es hacia la derecha de la media, o un
valor "-", si la asimetría es hacia la izquierda.

Pero como son valores al cubo, para que sea una medida adimensional,
dividimos por el cubo de la desviación típica. Se representa por
N

∑ (x - x )
i
3
/(N - 1)
μ 3 E( X − μ )3
CA = i=1
= =
σ
3
σ3 σ3

Coeficiente de apuntamiento o de curtosis

Para conocer el mayor o menor grado de apuntamiento de la distribución, se emplea


el momento de orden 4, y para que sea adimensional, lo dividimos por la desviación
típica elevada a la cuarta. Se representa por:
N

∑ (x - x ) i
4
/(N - 1)
μ 4 E( X − μ )4
CC = i=1
= =
σ
4
σ4 σ4

Si es igual a 3, es el caso estándar, >3, está por encima del caso estándar, y <3 está
por debajo del caso estándar.

-94-
4. Concepto de variable aleatoria

4.9. DISTRIBUCIONES BIDIMENSIONALES

Concepto

Si al realizar un experimento observamos dos o más valores, por ejemplo, al extraer


una persona al azar podemos anotar el peso, la altura, la edad, etc. Las dos, tres o
más características observadas constituyen una variable aleatoria bidimensional o n-
dimensional.

La v.a. bidimensional se define como una aplicación del espacio muestral en


el plano R 2 , de manera que a cada punto del espacio muestral le corresponde un
punto en el plano R 2 .

Al igual que en el caso unidimensional, podemos pensar que la masa unitaria


se encuentra ahora repartida en el plano, de manera que para cualquier punto del
plano, la antiimagen del conjunto de puntos del plano,

I x1 ,x2 = {( x1 , x 2 )/ X 1 ≤ x1 , X 2 ≤ x 2}

es un suceso perteneciente a la σ-álgebra F, y por lo tanto, probabilizable.

Si las dos coordenadas son puntos discretos, entonces se dice que la v.a.
bidimensional es discreta, y si ambas son continuas, la v.a. bidimensional es
continua. Puede ser que una sea discreta y la otra continua, en cuyo caso cabe
hablar de v.a. mixtas.

Gráficamente se representa en la Figura 4.9

-95-
4. Con
ncepto de varia
able aleatoria

Figura 4. 9.
9 Definición de variable aleatoria
a bidim
mensional

Func
ción de dis
stribución

Dada
a una v.a. bidimension
b al, definimo
os la función ución F( x1 , x2 ) como
n de distribu

F( x1 , x2 ) = P( X 1 ≤ x1 ; X 2 ≤ x2 ) = P(( X 1(e),
( X 2 (e))∈ I x1,x2 )

es de
ecir, es la cantidad
c de masa que e
existe por debajo
d a izquierda del punto
y a la
( x1 , x2 ) , incluyeendo dicho punto.

Esta función tiene la


as siguiente
es propieda
ades:

1) 0 ≤ F
F( x1 , x2 ) ≤ 1 .

2) lim FF( x , x
x1→ - ∞
1 2 )= 0

lim FF( x , x
x2 →- ∞
1 2 )= 0

3) lim
x1 →+∞
F( x1 , x 2 ) = 1
x2 →+∞

4) La cantidad de masa
m en el rrectángulo de
d la Figura
a 4.10 es:

-96-
4. Conceptoo de variable alleatoria

Figura 4. 100. Función dee distribución


n

P( a1 < X 1 ≤ b1 ; a2 < X 2 ≤ b2 ) = F( b1 ,b2 ) - F( a1 ,b2 ) - F( a2 ,b1 )+ F( a1 , a2 )

5) F( x1 , x2 ) es sie
empre conttinua por la derecha y discontinuaa por la izqu
uierda
de ( x1 , x2) en
n aquellos puntos de prrobabilidad no nula.

a v.a. discretas se o btiene sum


6) Para mando todas las masaas que hay
y por
bajo y a la izzquierda de
deb e punto ( x1 , x2 ) , incluy
yendo dichos valores.

Fun
nción de de
ensidad

Si la variable aleatoria
a es d de masa que hay poor debajo y a la
s continua, la cantidad
izqu
uierda del punto
p ( x1 , x2 ) equivalee a calcular el volumen de masa een cada pun
nto, la
de u
una función mamos función de den
n de punto, a la que llam nsidad, de ttal forma qu
ue:

+∞ +∞
f( x1 , x2 ) ≥ 0 y ∫∫
-∞ -∞
f( x1 , x2 )d x1 d x 2 = 1

La funcción de distrribución se obtiene a partir


p de la función de ddensidad co
omo:

a b
F(a,b) = ∫ ∫ f( x , x
-∞ -∞
1 2 )d x1 d x2

-97-
4. Concepto de variable aleatoria

O también por derivación parcial de la función de distribución, obtenemos la


función de densidad:

2
∂ F( x1 , x2 )
f( x1 , x2 ) =
∂ x1 ∂ x2

Como significado físico, es la cantidad de masa por unidad de superficie.

La cantidad de masa debajo de una área A viene dada por

P( x1 , x 2 ) ∈ A) = ∫ ∫ A f( x1 , x 2 )d x1 d x 2

Para un rectángulo es:

b1 b2
P( a1 ≤ X 1 ≤ b1 ; a 2 ≤ X 2 ≤ b2 ) = ∫ ∫ f( x , x1 2 )d x1 d x 2
a1 a2

Al igual que en el caso unidimensional, cuando la v.a. es continua no existe


cantidad de masa en un punto, pero sí que hay densidad encima de él.

Función de densidad marginal

Dada la v.a. bidimensional ( X 1 , X 2 ) con función de distribución F( x1 , x2 ) , y en el


caso continuo, función de densidad f( x1 , x2 ) , deseamos saber la distribución de una
de ellas, sin tener en cuenta la otra. A ello se llama distribución marginal, ya que en
una tabla de doble entrada se calculaba en el margen derecho o en el margen inferior
de la tabla, de ahí el término de "marginal".

La distribución marginal de X 1 se obtiene imponiendo la condición de que X 2


pueda tener cualquier valor entre - ∞ y + ∞ . Así la función de distribución marginal
de X 1 es:

x1
⎡+∞ ⎤
F( x1 ) = lim F( x1 , x2 ) =
x2 →+∞
∫-∞ ⎣ -∫∞
⎢ f( x1 , x 2 )d x 2 ⎥ d x1

y la función de densidad marginal es:

+∞
f( x 1 ) = ∫
-∞
f( x 1 , x 2 )d x 2

-98-
4. Concepto de variable aleatoria

Para variables discretas se tiene que la función de probabilidad es,

P( X 1i ) = ∑ P( x 1i , x 2j )
∀j

Físicamente, viene a ser la proyección de toda la cantidad de masa que había


en el plano, sobre un solo eje, ya sea el X 1 , o el X 2 .

X2

x1
X1

Figura 4. 11 Distribución marginal de X1

Actividad 4.7:

1. Para la siguiente distribución bidimensional, calcular:


o P(X1=1).
o PX2=2).
o P(X1<=2).
o P(X1=2,X2=2)

X2

0,28 0,18 0,09


2

1
0,06
0,24 0,15

X1
1 2 3

Figura 4. 12 Distribución marginal de X1

-99-
4. Concepto de variable aleatoria

Función de densidad condicional

En otras ocasiones nos interesa conocer, para un determinado valor de la variable,


como se distribuye la otra. Por ejemplo, para aquellas personas que pesan 70 kg.,
cuál es la distribución de sus alturas. A esta distribución se llama "distribución
condicional".

Físicamente equivale a realizar un corte infinitesimal que pasa por el punto


condicionante y paralelo al otro eje. Pero como la cantidad de masa que se toma ya
no vale la unidad, debemos hacer una redistribución de manera que siga valiendo la
unidad.

La función de distribución se define como el límite de:

P( X 2 ≤ x 2 ∩ x1 ≤ X 1 ≤ x1 + h)
F( x2 / x1 ) = lim P( X 2 ≤ x 2 / x1 < X 1 ≤ x1 + h) = lim
h →0 h →0 P( x1 ≤ X 1 ≤ x1 + h)

Si la v.a. ( X 1 , X 2 ) es discreta, la probabilidad condicionada se obtiene


imponiendo la condición de que la suma de pesos debe ser la unidad, y para ello
nada más que dividir cada peso P( x1 , x2 ) por el total, que corresponde a la
distribución unidimensional. Esto es,

P( x 2 , x 1 ) P( x 2 ).P( x 1 / x 2 ) P( x 2 ).P( x 1 / x 2 )
P( X 2 / x 1 ) = = =
P( x 1 ) P( x 1 ) ∑ P( x 2j )P( x1 / x 2j )
∀j

Si la v.a. ( X 1 , X 2 ) es continua, análogamente es

f( x 1 , x 2 ) f( x 2 )f( x 1 / x 2 ) f( x 2 ).f( x 1 / x 2 )
f( x 2 / x 1 ) = = =
f( x 1 ) f( x 1 ) ∫ f( x 2 )f( x 1 / x 2 )d x 2

cuya expresión es semejante al Teorema de Bayes.

Si la v.a. bidimensional es mixta se tiene en cuenta si la condicionante es


discreta o continua, y si la condicionada es discreta o continua.

Gráficamente, y empleando la analogía mecánica, es fácil deducir cada


expresión. Recordar que una v.a. discreta no tiene función de densidad. Al pasar de
discretas a continuas, la regla sencilla es que donde pone "P" se cambia a "f", de
función de densidad, y donde pone un ∑ , se cambia a ∫ .

-100-
4. Concepto de variable aleatoria

X2

x1 x1+h
X1

Figura 4. 13Distribución condicional de X2/x1

Actividad 4.8:

• Para la siguiente distribución bidimensional calcular:


o P(X2<=1/X1=2)
o P(X2=1/x1<=2)
o P(X1<=2/X2=2)
X2

0,28 0,18 0,09


2

1
0,06
0,24 0,15

X1
1 2 3

Figura 4. 14 Distribución condicional

Independencia de variables aleatorias

Dada una variable aleatoria bidimensional ( X 1 , X 2 ) diremos que las v.a. marginales
2
X 1 , X 2 son independientes, cuando para cualquier ( x1 , x 2 ) ∈ R se cumple que los
sucesos ] - ∞ , x1 ] y ] - ∞ , x2 ] son independientes, lo cual significa que:

P( X 1 ≤ x1 ∩ X 2 ≤ x 2 ) = P( X 1 ≤ x1 ).P( X 2 ≤ x 2 )

-101-
4. Concepto de variable aleatoria

Esto equivale a decir que la función de distribución conjunta es igual al


producto

F( x1 , x2 ) = F 1 ( x1 ). F 2 ( x2 )

Si la v.a. es continua, y las marginales son independientes, la función de


densidad es el producto de funciones de densidad marginales.

f( x1 , x 2 ) = f 1 ( x1 ). f 2 ( x 2 )

También se cumple que:

f( x1 , x 2 ) f( x1 ).f( x2 )
f( x2 / x1 ) = = = f( x2 )
f( x1 ) f( x1 )

es decir, semejante a la probabilidad condicional.

Si las variables aleatorias marginales no son independientes, la función de


densidad conjunta se puede calcular como:

f( x1 , x2 ) = f( x1 ).f( x2 / x1 ) = f( x2 ).f( x1 / x2 )

Esperanza de vectores aleatorios

Dada la v.a. ( X 1 , X 2 ) y una función uniforme g( x1 , x2 ) se define esperanza


matemática de dicha función, al valor medio que cabe esperar de dicha función, al
extraer infinitos valores de la v.a. bidimensional. Su expresión es

Si la v.a. es discreta,

E[g( x 1 , x 2 )] = ∑ ∑ g( x 1i , x 2j )P( x 1i , x 2j )
∀i ∀j

y si la v.a. es continua,

E[g( x 1 , x 2 )] = ∫ ∫ R 2 g( x 1 , x 2 )f( x 1 , x 2 )d x 1 d x 2

Además de la propiedad de ser operador lineal, si las variables X 1 , X 2 son


independientes y g 1 ( x1 ) y g 2 ( x 2 ) son funciones uniformes de X1 y X2 ,
respectivamente, entonces el valor medio del producto es el producto de valores
medios:

-102-
4. Concepto de variable aleatoria

E[ g 1 ( x1 )· g 2 ( x 2 )] = E[ g 1 ( x 1 )]· E[ g 2 ( x 2 )]

La media de la suma de v.a., sean varias independientes ó no, son suma de


valores medios.

Para distribuciones condicionales, el valor medio de una función es:

+∞
E[g( x1 )/ x2 ) = ∫ g( x )
-∞
1 f c ( x1 / x2 )d x1

Pudiendo variar los límites de integración para cada valor de x2 .

Momentos

Si la función g( x1 , x2 ) es ahora g( x1 , x 2 ) = x1u . x v2 , a su esperanza matemática se le


llama momento respecto al origen de orden u+v, su expresión es:

Si la v.a. es discreta

αu,v = ∑ ∑ X 1iu . X v2j P( x1i ,x 2j )


i j

Si la v.a. es continua,

α u,v = ∫ ∫ x1 . x 2 f( x1 , x 2 )d x1 d x 2
u v

Si en la función g( x1 , x 2 ) = x1u x v2 , a cada valor de X i (i = 1,2) le restamos su


media, su esperanza matemática recibe el nombre de momento centrado de orden
u+v, y se expresa por

u v u v
μu,v = E[( X 1 - μ1 ) .( X 2 - μ 2 ) ] = ∫ ∫( x1 - μ1 ) ( x 2 - μ 2 ) f ( x )d x1 d x 2 )

Algunos casos particulares son:

α1,0 = μ x1

α0,1 = μ x2

μ1,0 = 0

-103-
4. Concepto de variable aleatoria

μ0,1 = 0

μ 2,0 = σ2x1

μ0,2 = σ2x2

Todo momento centrado se puede poner en función de los momentos


respecto al origen, desarrollando los polinomios y aplicando el operador valores
medio.

Matriz de varianzas-covarianzas

El momento centrado μ1,1 = μ11 cuya expresión es:

μ11 = E( X 1 - μ1 )( X 2 - μ 2 ) = σ12 = cov( X 1 , X 2 )

recibe el nombre de covarianza y expresa el grado de relación lineal que existe entre
X 1 y X 2 . Por ejemplo, si la distribución de los valores es como la que aparece en la
Figura 4. 15.

X2
I
IV

II
III

X1

Figura 4. 15. Concepto de covariancia

-104-
4. Concepto de variable aleatoria

Tomando como punto de referencia el (μ1, μ 2 ) , centro de gravedad de masas,


y trazando dos rectas paralelas a los ejes coordenados, dividimos el plano en 4
regiones, marcadas con I, II, III y IV. En la región I todos los valores de X 1 son
mayores que m1 , a igual que los de m 2 , por lo que los productos ( x1 - μ1 )( x 2 - μ 2 )
serán positivos. En la región III, tanto X 1 como X 2 están por debajo de sus medias,
por lo cual el producto ( x1 - μ1 )( x 2 - μ 2 ) también será positivo. En cambio en las
regiones II y IV, los productos son negativos. Como se observa en la figura, hay
muchos más productos positivos que negativos, por lo cual la cantidad μ11 será
positiva, indicando una relación lineal en sentido positivo, es decir, a medida que
aumenta una componente, aumenta el valor de la otra componente. Si la cantidad
μ11 < 0 indica que al aumentar una componente tiende a disminuir la otra.

Si μ11 = 0 no hay ningún tipo de relación lineal entre las variables marginales.

Si las variables son independientes μ11 = 0 , pero no a la inversa.

La covarianza también se puede representar por:

μ 11 = σ 12 = cov( X 1 , X 2 ) = E( X 1· X 2 ) - E( X 1 )· E( X 2 )

Actividad 4.9:

• Para la siguiente distribución bidimensional, calcular la covariancia entre X1 y X2.

X2

0,28 0,18 0,09


0,55 2

0,45 1
0,06
0,24 0,15

X1
1 2 3
0,52 0,33 0,15

E(X1) = 1·0,52 + 2·0,33 + 3·0,15 = 1,63 E( X2 ) = 1·0,45 + 2·0,55 = 1,45

-105-
4. Concepto de variable aleatoria

E ( X 1·X 2 ) = 1·1·0,24 + 1·2·0,28 + 2·1·0,15 + 2·2·0,18 cov(X1, X2 ) = E( X1·X2 ) − E( X1 )·E( X2 )


+ 3·1·0,06 + 3·2·0,09 = 2,54 = 2,54 − 1,63·1,45 = 0,1765

Figura 4. 16 Covarianza

A la matriz V = [σij ] siempre que i+j=2, recibe el nombre de matriz de


varianzas-covarianzas. Los elementos de la diagonal son las varianzas de las
distribuciones marginales.

Actividad 4.10:

• ¿Cuáles son los elementos de una matriz de varianza-covarianzas de 3 variables


aleatorias?

Coeficiente de correlación

La covarianza es una cantidad al cuadrado, y para que sea adimensional, se divide


por sus desviaciones típicas, recibiendo el nombre de "coeficiente de correlación".

cov( X 1 , X 2 )
ρ 12 =
D( X 1 ).D( X 2 )

Siempre se cumple que cov 2 ( X 1 , X 2 ) ≤ D 2 ( X 1 ). D 2 ( X 2 )

ρ 12 es una cantidad que siempre está entre -1 y +1. Si ρ 12 = +1 , hay una


relación lineal perfecta en sentido positivo entre las variables X 1 , X 2 , y si es
negativa, hay una relación lineal perfecta en sentido negativo.

Si ρ 12 = 0 , significa que no hay correlación lineal entre las v.a. X 1 , X 2 .

La matriz cuyo término general es el ρ ij se llama matriz de correlación.

-106-
4. Concepto de variable aleatoria

Actividad 4.11:

• Calcular el coeficiente de correlación de la distribución bidimensional siguiente,

X2

0,28 0,18 0,09


2

1
0,06
0,24 0,15

X1
1 2 3

E( X12 ) = 12 ·0,52 + 2 2 ·0,33 + 3 2 ·0,15 = 3,19

var( X1 ) = E( X12 ) − (E( X1 )) = 3,19 − 1,63 2 = 0,533


2

E( X 22 ) = 12 ·0,45 + 2 2 ·0,55 = 2,65

var( X2 ) = E( X22 ) − (E( X 2 ))


2

= 2,65 − 1,452 = 0,548

cov( X1 , X 2 )
ρ= =
var( X1 )·var( X 2 )
0,1765
= = 0,327
0,533·0,548

Figura 4. 17 Coeficiente de correlación

-107-
4. Concepto de variable aleatoria

Combinación lineal de variables aleatorias

Si la variable aleatoria Y viene dada por una combinación lineal de las v.a. X1, X2 de
la forma

D ( a1 X 1 ± a 2 X 2 ) = a1 D ( X 1 ) + a 2 D ( X 2 )
2 2 2 2 2

El valor medio de la v.a. Y es,

Y Si las v.a. X1, X2 son dependiente, la varianza de una combinación lineal de


variables aleatorias es:

2
D ( a1 X 1 + a 2 X 2 ) = E( a1 X 1 + a 2 X 2 - a1 μ1 - a 2 μ 2 ) =
2

= E( a1 ( X 1 - μ1 ) + a 2 ( X 2 - μ 2 ) )2 =

= E[ a12 ( x1 - μ1 )2 + a 22 ( x 2 - μ 2 )2 + 2 a1 a 2 ( x1 - μ1 )( x 2 - μ 2 )] =

= a12 σ12 + a 22 σ22 + 2 a1 a 2 E( x1 - μ1 )( x 2 - μ 2 ) =

= a12 σ12 + a 22 σ22 + 2 a1 a 2 cov( x1 , x 2 )

Actividad 4.12:
• Una variable X1 tiene de valor medio 4 y desviación típica 2. Otra variable aleatoria X2
tiene un valor medio de 3 y una desviación típica de 1, y la covariancia que hay entre
las dos variables se de 1,8. Calcular la variancia de la nueva variable aleatoria
Y=2·X1-X2.

Curva de regresión condicional

Dada una distribución bidimensional ( x1 , x 2 ) ,se define la curva de regresión


condicional de x 2 / x1 , como el lugar geométrico de los puntos medios de las
distribuciones condicionales de x 2 / x1 . Se expresión matemática es:

+∞
E ( x 2 / x1 ) = ∫ x 2 f c ( x 2 / x1 ) dx 2 = h( x1 )
−∞

-108-
4. Concepto de variable aleatoria

Esta curva h(x1) es la que minimiza los errores de predicción de x2 conocido


x1 . Se expresa también como xˆ 2 = h( x1 ) .

De forma análoga se obtendría la curva de regresión condicional de x1 / x 2 ,


sin más que intercambiar los subíndices.

Actividad 4.12:

• Calcular el E(X2/X1=2) para la siguiente distribución bidimensional.

X2

0,28 0,18 0,09


2

1
0,06
0,24 0,15

X1
1 2 3

E( X 2 / x1 = 2) = ∑x
∀x 2i
2i ·P( x 2i / x1 = 2)

0,15 0,18
= 1· + 2· = 1,54
0,15 + 0,18 0,15 + 0,18

Figura 4. 18 Esperanza condicional

Recta de regresión mínimo cuadrática

Si en lugar de una curva queremos encontrar la recta que minimiza la suma de los
cuadrados de los errores de predicción de x2 conocido x1 , se tiene la recta de
regresión mínimo cuadrática. Esta recta viene dada por

cov( x1 , x2 )
x̂2 = μ 2 + ( x1 − μ1 )
σ12

-109-
4. Concepto de variable aleatoria

De forma análoga se obtiene la recta de regresión mínimo cuadrática de


x1 / x 2 .

Actividad 4.13:

• Calcular la recta de regresión mínima-cuadrática de la siguiente distribución


bidimensional:

X2

0,28 0,18 0,09


2

1
0,06
0,24 0,15

X1
1 2 3

0,1765
X̂ 2 = 1,45 + ·( x1 − 1,63 )
0,533

X̂ 2 = 0,91 + 0,331·x1

Figura 4. 19 Recta de regresión mínimo cuadrática

cov( x1, x 2 )
x̂ 2 = μ 2 + ( x1 − μ1 )
σ12

x̂ 2 = h( x1 ) = E( X2 / x1 )

Figura 4. 20 Curva y rrmc

-110-
4. Concepto de variable aleatoria

4.10. PROBLEMAS PROPUESTOS

4.10.1. Si X es la variable aleatoria número de puntos al lanzar un dado,


determinar su valor medio y su varianza.
Solución: E(x) = 7/2 D2(x) = 224/9

4.10.2. Si se selecciona al azar un número entero entre 1 y 100, ¿cuál es el valor


esperado?
Solución: 50.5

4.10.3. Las lecturas sobre sensores son analógicas (continuas), y deben ser
convertidas a una escala discreta para permitir su procesamiento digital. Sea X la
lectura de un sensor. En un caso muy sencillo, supongamos que si la lectura
iguala o supera un valor límite t=1/2, el valor almacenado es 1 y en caso
contrario es 0. Si la función de densidad de X es:
⎧x 0 ≤ x ≤1

f ( x ) = ⎨− x + 2 1 < x ≤ 2
⎪0 otroscasos

Hallar la función de probabilidad de la variable aleatoria Y que indica el valor


almacenado.

Solución: P(Y=0)=1/8 P(Y=1 )=7/8

4.10.4. El tiempo, X, que tarda una máquina en elaborar un producto tiene como
función de densidad:
⎧2 ⋅ e−2⋅ x x>0
f ( x) = ⎨
⎩0 otroscasos

Si el mecanismo tarda 3 minutos o menos, el beneficio del fabricante es 100 euros. Si


tarda más de tres minutos el beneficio es -200 euros. Si Y es el beneficio, hallar su
función de probabilidad y su función de distribución.

4.10.5. Un fabricante de motores produce un 30% de defectuosos. El coste es


de 4.000 €. por unidad y el precio de venta es de 9.000 ∈.. Si el motor es
defectuoso debe devolverse lo cobrado y pagar una indemnización de 6.000 €.
a) Calcular el beneficio medio por motor.

-111-
4. Concepto de variable aleatoria

b) Se puede hacer una prueba de control de calidad A que cuesta 2.000 €. y que
determina con toda seguridad si el motor es o no es defectuoso. Estudiar si es
rentable la prueba.

c) Se puede utilizar una prueba alterativa B, que conduce a conclusiones


erróneas en un 10% de los casos. Calcular el precio máximo que puede
pagarse por dicha prueba.

Solución: a)500 b)300 c)990

4.10.6. La longitud de una cierta pieza se distribuye con la siguiente función de


densidad:
⎧k 1≤ x ≤ 2

f ( x) = ⎨k − ( x − 2)2 2 ≤ x ≤ 2.5
⎪0 otros valores

y se consideran correctas las piezas de longitud comprendida entre 1'5 y 2'1.Se


pide:

a) valor de la constante k

b) proporción esperada de piezas correctas

c) función de distribución de la variable longitud de la pieza

Solución: a) k=0'694 b) 0'4163

4.10.7. Sea X una variable aleatoria continua cuya función de densidad es:
⎧k (1 + x 2 ) x ∈ [0,3]
f ( x) = ⎨
⎩0 x ∉ [0,3]

Hallar:

a) El valor de la constante k.

b) Probabilidad de que X esté comprendida entre 1 y 2.

c) Probabilidad de que X sea menor que uno.

d) Sabiendo que X es mayor que 1, probabilidad de que sea menor que 2.

Solución: a) 1/12 b) 5/18 c) 1/9 d) 5/16

-112-
4. Concepto de variable aleatoria

4.10.8. Dada la función de densidad de la variable aleatoria X:


⎧x 0 ≤ x ≤1

f ( x ) = ⎨2 - x 1≤ x ≤ 2
⎪0 otros valores

Hallar su función de distribución.

x2 (2 − x )2
Solución: Fx ( x ) = si 0 ≤ x ≤ 1; Fx ( x ) = 1 − si 1 ≤ x ≤ 2
2 2

4.10.9. La variable X está definida en el intervalo ]-∝, a] con función de densidad


f(x). La expresión:
a

∫ x ⋅ f ( x)dx
−∞

facilita:

a) el valor de la función de distribución en el punto x=a.

b) el valor de la desviación típica de X.

c) es una expresión que vale 1.

d) es el valor medio de la variable X.

4.10.10. Se realiza un estudio sobre la duración de las llamadas en una centralita


telefónica y se estima que su función de densidad de la variable es:
⎧ 1 − 2x
⎪ e x≥0
f ( x) = ⎨ 2
⎪0 otros valores

Hallar el valor esperado de la longitud de una llamada telefónica en esa estación.

Solución: E(x)=2

4.10.11. Dada una variable aleatoria continua cuya función de densidad es:

-113-
4. Concepto de variable aleatoria

⎧ x − 0.5 1≤ x ≤ 2
f ( x) = ⎨
⎩0 otrosvalores

Hallar su esperanza matemática.

Solución: 19/12.

4.10.12. Dada una variable aleatoria continua cuya función de densidad es:
⎧⎪ 1 0 < x <1
f ( x) = ⎨ 2 x
⎪⎩0 otros valores

Hallar su varianza.

Solución: 4/45.

4.10.13. De una estación parte un tren cada 20 minutos. Un viajero llega de


imprevisto. Calcular:
a) Probabilidad de que espere el tren menos de 7 minutos

b) Valor medio del tiempo de espera

c) Probabilidad de que espere exactamente 12 minutos.

Solución: a) 7/20 b) 10 c) 0.

4.10.14. Se intenta estudiar el porcentaje de tiempo en el que se esta utilizando


un ordenador en un determinado departamento a lo largo de las semanas de
trabajo. Supongamos que el porcentaje de utilización del ordenador sigue una
función de densidad de probabilidad dada por:
⎧3x 2 0 ≤ x ≤1
f ( x) = ⎨
⎩0 otros valores

Calcular el promedio y la varianza del porcentaje de utilización del ordenador.

Solución: 0.75 0.0375

4.10.15. Un almacenista compra a principio de semana N kg. de un producto


perecedero a 200 pts/kg. y lo revende a 300 pts/kg. La demanda se distribuye
exponencialmente con media 100 kg/semana, y aquellos kilos que no vende se
estropean y pierden. Calcular cuántos kilos del producto debe comprar a la
semana para maximizar su beneficio.

-114-
4. Concepto de variable aleatoria

Solución: N= 40.55 Kg.

4.10.16. Un revendedor de entradas sabe que la demanda diaria en la reventa de


las mismas se distribuye aleatoriamente, siendo Prob(D> d)= e-0.05 d. Si el
revendedor compra en taquilla a 200 ptas. y revende con un beneficio del 20%,
pero debe quedarse con las que no puede vender, calcular cuántas entradas
debe comprar al día para maximizar su beneficio.
Solución: 4 entradas diarias

4.10.17. Si X es una variable aleatoria que mide la duración real de una lámpara,
X=EXP(θ), determinar el valor medio de su duración.
Solución: 1/θ

4.10.18. Dada la función de densidad de la variable X:


⎧x
⎪5 0≤ x≤1

⎪1 1≤ x ≤5

f ( x ) = ⎨5
⎪6 − x
⎪ 5≤ x≤6
⎪ 5
⎪⎩0 otros

determinar su valor medio.

Solución: E(x) = 3

4.11. PROBLEMAS Y CUESTIONES DE EXÁMENES

4.11.1 El espesor de una plancha de acero sigue una distribución aleatoria según la
figura de abajo. La plancha de acero es adecuada para su uso siempre que el
espesor sea mayor de 1,75 mm y menor de 3 mm. Se pide:

-115-
4. Concepto de variable aleatoria

a) Calcular la función de densidad en cada punto.


b) Calcular el E(X).
c) Calcular la proporción de planchas defectuosas.
Solución:

a) Como el área total bajo la función de densidad tiene que ser la unidad, la altura
de la figura debe ser,
( 2 − 1 )·h
+ ( 3,5 − 2 )·h = 1
2

De donde h=1/2.

La función de densidad será:

⎧a + bx ∀x ∈ [ 1,2 ]

f ( x ) = ⎨h = 1 / 2 ∀x ∈ [ 2;3,5 ]
⎪0 resto

Aplicando la fórmula de la ecuación de una recta que pasa por 2 puntos, se tiene

y−0 h−0 y x 1
= = h y se tiene que y = f ( x ) = hx − h = −
x −1 2 −1 x −1 2 2

b) El valor medio viene dado por,


2 3 ,5
+∞ x 12 3 ,5 1 ⎡ x3 x2 ⎤ ⎡ x2 ⎤
E( x ) = ∫ x· f ( x )dx = ∫x( - )dx + ∫x· dx = ⎢ - ⎥ + ⎢ ⎥ = 2 ,48
∞ 1 2 2 2 2 ⎣ 3·2 2·2 ⎦ 1 ⎣ 2·2 ⎦ 2

c) El porcentaje de defectuosas será la suma del porcentaje de piezas por debajo


del límite inferior de tolerancias más el porcentaje de piezas defectuosas por
encima del límite superior de tolerancias. Esto es,
1 ,75 x−1 3 ,5 1
p = p1 + p2 = P( X < 1,75 ) + P( X > 3 ) = ∫ dx + ∫ dx = 0 ,14 + 0 ,25 = 0 ,39
1 2 3 2

4.11.2 El contenido de arroz en gramos dentro de un paquete sigue una


distribución con función de densidad,

1 ⎛ x ⎞
f(x)= ⎜2 − ⎟ para 239 ≤ x ≤ 254
5 ,35 ⎝ 150 ⎠
f ( x ) = 0 en otro caso

a) Calcular la media y la dispersión del contenido de arroz en cada paquete.


b) Si el contenido de arroz es menor de 245 gr. se considera que es un paquete
defectuoso. Calcular el porcentaje de paquetes defectuosos.

-116-
4. Concepto de variable aleatoria

c) Si el contenido de arroz pesa menos de 245 gramos, el coste es de 1,25·x 2 , y


si es mayor a 245 el coste es de 1,3·x . Calcular el valor medio del coste del
contenido de arroz de un paquete.
Solución:

a) El valor medio es,


254 1 x
E( X ) = ∫ x· (2 − )dx = 246 ,15
239 5 ,35 150

Y la varianza se calcula como,

D 2 ( X ) = E( X 2 ) − (E( X ))
2

254 1 x
Siendo E ( X 2 ) = ∫
239
x 2·
5 ,35
(2−
150
)dx = 60608 ,2

D 2 ( X ) = E( X 2 ) − (E( X )) = 60608 ,2 − 246 ,15 2 = 18 ,38


2

Y la desviación típica es D( X) = 4,29

b) El porcentaje de paquetes defectuosos es,


245 1 x
P( X < 245 ) = ∫ (2 − )dx = 0 ,434
239 5 ,35 150

c) El valor medio del coste es,


245 1 x 254 1 x
E( c ) = ∫ 1,25· x 2 (2 − )dx + ∫ 1,3· x (2 − )dx = 31920
239 5 ,35 150 245 5 ,35 150

4.11.3 El espesor, X, de una determinada pieza sigue una distribución


aleatoria, según la siguiente función de densidad,

15 − x
f(x) = si 5 ≤ x ≤ 15
50
f ( x ) = 0 en otro caso

Sabiendo que la tolerancia del espesor es de 10±3 mm, se pide:

a) Calcular la proporción de piezas defectuosas.


b) Por término medio, ¿cuánto vale el espesor de cada pieza?
c) Calcular la varianza del espesor de la pieza.
d) Calcular el valor de la media y el valor de la desviación típica del espesor
medio de 5 piezas tomadas al azar.
e) Si la pieza es correcta, el beneficio es de 10 €/unidad, pero si es mayor que la
tolerancia superior se tiene una pérdida de 2·(X-13) €/unidad, y en caso de
ser menor que la tolerancia inferior, la pérdida es de 2·(7-X)€/unidad. Calcular

-117-
4. Concepto de variable aleatoria

el beneficio medio que obtendríamos al producir 5000 piezas.


Solución:

a) La proporción de piezas correctas es,


13
13 13
15 − x ⎡ − ( 15 − x )2 ⎤ − 22 82
1− p = ∫
7
f ( x )dx = ∫
7 50
dx = ⎢
⎣ 2·50
⎥ =
⎦7
+
100 100
= 0 ,60

De donde la proporción de defectuosas es del p=0,40.

b) La media de X es,
15 15
15 − x 15 x2
E( x ) = ∫ x· dx = ∫ ( x− )dx =
5 50 5 50 50
15
⎡ 15· x 2 x3 ⎤ 15·15 2 15 3 15·5 2 53
⎢ − ⎥ = − − + = 8 ,333
⎣ 50·2 150 ⎦ 5 100 150 100 150

c) La varianza es,
D 2 ( X ) = E ( X 2 ) − ( E ( X ))
2

15 15
15 − x 15 2 x 3
E( x 2 ) = ∫ x 2 · dx = ∫ ( x − )dx =
5
50 5
50 50
15
⎡ 15· x 3 x4 ⎤ 15·15 3 15 4 15·5 3 54
⎢ − ⎥ = − − + = 75
⎣ 150 200 ⎦ 5 150 200 150 200

Y la varianza es,

D 2 ( x ) = 75 − 8 ,33 2 = 5 ,611

d) Llamando a Y el espesor medio, éste es,


x1 + x2 + x3 + x4 + x5
y=
5

La media de y es,

5· E( x )
E( y ) = = E( x ) = 8 ,333
5

Y la desviación típica es,

D 2 ( x1 ) + D 2 ( x2 ) + D 2 ( x3 ) + D 2 ( x4 ) + D 2 ( x5 ) 5·5 ,611
D( y ) = = = 1,059
52 25

e) El valor medio del beneficio viene dado por,

-118-
4. Concepto de variable aleatoria

7 13 15
15 − x 15 − x 15 − x
E( B ) = ∫ − 2·( 7 − x )· dx + ∫ 10· dx + ∫ − 2·( x − 13 )· dx = 5 ,2 / pieza
5 50 7 50 13 50

4.11.4 Sea una variable aleatoria X que representa el espesor, en milímetros,


de las arandelas que produce una máquina. Si la variable X tiene una
función de densidad dada por:

⎧2.5 ⋅ x x ∈ ( 1.9 ,2.1 ),


f(x) = ⎨
⎩ 0 caso contrario

Determinar:

a) La función de distribución.
b) La probabilidad de que una arandela tenga un espesor igual a 1.95 mm.
c) P(1.95 < X < 2.05).
d) El valor a tal que P(X < a) = 0.25 e interpretar el resultado.
e) Sabiendo que la media de X es 2, calcular su varianza.
Solución:

a)
⎧0 x < 1.9
⎪x

F ( x ) = ⎨ ∫ 2.5xdx = 1.25x2 − 4.51 x ∈ (1.9,2.1)
⎪1.9
⎪1 x > 2.1

b) P(X=1.95)=0
2.1
c) P( 1.95 < X < 2.05 ) = ∫ 2.5 xdx = 0.5
1.9
a

∫ 2.5xdx = 0.25 ⇒ 1.25( a − 1,9 2 ) = 0.25 ⇒a=1.95


2
d)
1.9
2.1
σ2 = E( X 2 ) − [ E( X )] 2 = ∫ x 2 ⋅ 2.5 xdx − 2 2 = 4.01 − 4 = 0.01
1.9

4.11.5 En el almacén de un taller de fontanería hay tubos de cobre de 1.25


pulgadas de diámetro interior cortados a diferentes longitudes y
amontonados los trozos en un contenedor. Asumimos que la longitud de
los tubos cortados que se utilizan es una variable aleatoria cuya función de
densidad es:

-119-
4. Concepto de variable aleatoria

⎧x / k x ∈ (0.40 , 2.20),
f ( x) = ⎨
⎩ 0 caso contrario

Supuestos:

I. Todos los tubos se compran a un proveedor pagando un coste de 3 €/m

II. Los tubos se eligen del contenedor al azar para proceder a su montaje en la
construcción de una caldera de vapor

III. El coste de montaje de los tubos (preparación, limpieza, soldadura, etc.)


asciende a 10 €/m de tubo montado

IV. Al cliente se le cobra según los metros montados a razón de 50 €/m

V. Los tubos de longitud inferior a 0.50 m se desechan directamente y no se


montan

VI. Los tubos de longitud comprendida entre 0.5 y 2.00 m se montan enteros

VII. A los tubos con longitud mayor de 2.00 m, se les corta previamente el exceso
sobre los 2.00 m que se pierde y no se cobra. Los 2 m restantes se montan
como en el apartado anterior

Calcular:

a) El valor medio de la longitud de los tubos del contenedor.

b) El valor medio del beneficio por tubo del almacén.

Solución:

f(x)

0,40 2,2 X

-120-
4. Concepto de variable aleatoria

a) Recordando que
2, 2
x ⎡1 ⎤
2, 2 1

x
f ( x)dx = 1 tendremos ∫ dx = ⎢ x 2 ⎥ =
0, 4 k
⎣ 2 k ⎦ 0, 4 2 k
(2,2 2 − 0,4 2 ) = 1

despejando k=2,34

2 ,2
x
2 ,2⎡1 ⎤ 1
E( X ) = ∫ xf ( x )dx = ∫ x dx = ⎢ x3 ⎥ = ( 2,23 − 0 ,4 3 ) = 1,5077
0 ,4 k
x ⎣ 3k ⎦ 0 ,4 3k

E ( Beneficio) = E ( B) = ∫ B( x) f ( x)dx
b) x

B= (cobrado-pagado) en cada caso

B1 =0 -3x = -3x para (0,4≤ X ≤0,5)

B2 =50x-(3+10)x= 37x para (0,5≤ X ≤2.0)

B3 =(50 . 2)-(3x+2 . 10)= 80-3x para (2,0≤X ≤2,2)

0, 5 x 2,0 x 2, 2 x
E( Beneficio) = E( B) = ∫ B( x) f ( x)dx = ∫ (−3x) dx + ∫ 37x dx + ∫ (80 − 3x) dx =
x
0, 4 2,34 0, 5 2,34 2, 0 2,34

0,5 2,0 2, 2
⎡ 3 x3 ⎤ ⎡ 37 x 3 ⎤ 1 ⎡ 80 x 2 ⎤
= ⎢− ⎥ +⎢ ⎥ + ⎢ − x 3 ⎥ = −0,0261 + 41,5064 + 13,2274 = 54,7077 euros / tubo
⎣ 2,34 3 ⎦ 0, 4 ⎣ 2,3 3 ⎦ 0,5 2,34 ⎣ 2 ⎦ 2,0

4.11.6 La longitud de una determinada pieza es una variable aleatoria con


función de densidad,

300 − x
f ( x ) = k· para 100 mm ≤ x ≤ 200 mm
3
f ( x) = 0 en otro caso

Consideramos que la pieza es correcta cuando su longitud está entre 105 mm y 190
mm. Se pide:

a) Calcular el porcentaje de piezas defectuosas.


b) Calcular la función de distribución de la variable aleatoria longitud de la pieza.
c) Si la longitud de la pieza es mayor de 190 la pérdida que se produce es de
2
10€, si la longitud es menor de 105 mm la pérdida es de 30·x €, y si la pieza
es correcta el beneficio es de 200 ·x €. Por término medio, ¿cuál será el
beneficio por cada pieza producida?

-121-
4. Concepto de variable aleatoria

Solución:

La constante k la calculamos con la condición de que la integral de la función de


densidad para todo su campo de existencia es igual a la unidad.

200 ( 300 − x )
∫ 100

x
dx = 1

Integrando,
200
k ⎡ - ( 300 − x )2 ⎤ k ⎡ 200 2 100 2 ⎤ k
·⎢ ⎥ = ·⎢ − ⎥ = ·30000 = 1
3⎣ 2 ⎦ 100 3 ⎣ 2 2 ⎦ 6

De donde k=0.0002

a) La proporción 1-p de piezas correctas es,


190 ( 300 − x )
1− p = ∫105
0 ,0002·
3
dx = 0 ,864

Y la proporción de piezas defectuosas es p=1-0,864=0,136.

b) La función de distribución para x entre 100 y 200 es,


x
X ( 300 − x ) 0 ,0002 ⎡ − ( 300 − x )2 ⎤ 0 ,0002
F ( x ) = ∫ 0 ,0002· dx = ⎢ ⎥ = [ 40000 − ( 300 − x )2 ]
100 3 3 ⎣ 2 ⎦ 100 6

F(x) = 0 para x<100

F(x)= 1 para x>200

c) El valor medio de cada pieza producida es,


105
( 300 − x )
∫ ( −30 x
2
E( B ) = )·0 ,0002· dx +
100
3
190 ( 300 − x ) 200 ( 300 − x )
∫105
200 x·0 ,0002·
3
dx + ∫ ( −10 )·0 ,0002·
190 3
dx =

= 4060€ / pieza

4.11.7 El tiempo de reparación de una máquina es una variable aleatoria cuya


función de densidad de probabilidad es constante en el intervalo entre 1 y
5 horas y 0 en el resto:

f(x) = k para 1<x<5 y

f(x)=0 en el resto de casos.

-122-
4. Concepto de variable aleatoria

Cuando la máquina se avería, se avisa a un mecánico que cobra 60 euros la hora si


está menos de dos horas y 50 euros la hora si está más de dos horas. Además, y en
todos los casos, cobra 30 euros por desplazamiento. Calcular el valor medio del coste
por reparación de las averías de la máquina. (1 punto)

SOLUCIÓN:

En primer lugar, tenemos que averiguar el valor de k. Para ello, tenemos dos
opciones:

a) Si tenemos en cuenta que se trata de una distribución uniforme, sabemos que k =


1/(b-a) = 1/(5-1) = 1/4
b) Si desconocemos que la variable sigue una distribución uniforme:
+∞
5 1
∫ f ( x)dx = 1 ⇒ ∫ kdx = 4k = 1 ⇒ k = 4
−∞
1

Definimos el coste de reparación g(x) de la máquina como:

⎧ 60 x + 30 ∀x ∈ [1,2]
g ( x) = ⎨
⎩50 x + 30 ∀x ∈ [2,5]

Por tanto, el valor medio o esperanza matemática del coste será:

2 1 5 1
E( g( x )) = ∫ ( 60 x + 30 ) dx + ∫ ( 50 x + 30 ) dx =
1 4 2 4
1
4
[ ]
( 30 x 2 + 30 x )12 + ( 25 x 2 + 30 x )25 = 183.75 €/reparación

4.11.8 El tiempo de respuesta (milisegundos) de un radar fijo de tráfico a la


señal producida por el paso de un vehículo, es una variable aleatoria que
varía entre 0 y 2 milisegundos con la función de densidad siguiente:

f1(x)=(1-x) f2(x)= (x-1) f(x)=0 en el resto


∀x ∈ [0,1] ∀x ∈ [1,2]

a) Calcular la función de distribución de la variable tiempo de respuesta (1


punto)
b) Calcular el valor medio, la varianza y la desviación típica del tiempo de
respuesta (1 punto)

-123-
4. Concepto de variable aleatoria

c) Si Fernando Alonso pasa por ese radar a una velocidad tal que permanece en
el “campo de visión del radar” un tiempo entre 0,20 y 1,50 milisegundos ¿Cuál
es la probabilidad de que sea cazado por el radar? (0,5 puntos)
d) En un día de intensa lluvia el tiempo de respuesta del radar se ralentiza
pasando a ser un 20% mayor ¿Cuál es el valor medio y la desviación típica
del tiempo de respuesta en estas condiciones adversas? (0,5 puntos)
SOLUCION:

a)

F(x)=0 ∀x ≤ 0

x
x2
F1 ( x ) = ∫ ( 1 − x )dx = ( x − ) ∀x ∈ [0 ,1]
0
2

1
x2 2
F2 ( x) = ∫ (1 − x)dx + ∫ ( x − 1)dx = 1 / 2 + [ ]1x = ( x ∀x ∈ [1,2]
x
−x − x) + 1
0
1 2 2
∀x ≥ 2 F(x)=1

2
1
⎡ x2 x3 ⎡ x3 x2 ⎤
]
2
∫ ∫
1
b) E ( x) = x(1 − x)dx + x( x − 1)dx = 1 / 2 + ⎢ − 0 +⎢ − ⎥ = 1
0
1
⎣2 3 ⎣3 2 ⎦1

D 2 ( x) = E ( x 2 ) − E 2 ( x)

1
2
D 2 ( x) = ∫ x 2 (1 − x)dx + ∫ x 2 ( x − 1)dx − 12 = 1 / 2
1
0

-124-
4. Concepto de variable aleatoria

D ( x) = + D 2 ( x) = 0,707

a)

P (cazado ) = P ( x ∈ (0´2 ; 1´5) ) = F2 (1,5) − F1 (0,2) = 0,445

b) Y = X + 0,20 X = 1,2 X
E ( y) = 1,2E ( x) = 1,2 . 1 = 1,2

D 2 ( y ) = 1,2 2 D 2 ( x ) = 1,2 2 . 1 / 2 = 0,72

D ( y ) = + D 2 ( y ) = 0,845

-125-
4. Concepto de variable aleatoria

-126-
5. Principales distribuciones discretas

5. PRINCIPALES DISTRIBUCIONES DISCRETAS

Contenido
5.1. DISTRIBUCIÓN DICOTÓMICA .............................................................. 127
5.2. DISTRIBUCIÓN BINOMIAL .................................................................... 128
5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA .................................................. 129
5.4. DISTRIBUCIÓN DE POISSON ............................................................... 131
5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA................................................. 132
5.6. DISTRIBUCIÓN MULTINOMIAL............................................................. 133
5.7. PROBLEMAS PROPUESTOS................................................................ 135
5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES ................................... 149

A continuación vamos a estudiar las principales distribuciones discretas que aparecen


en la práctica. Para cada una de ellas definimos:

1) La función de probabilidad.

2) Valor medio.

3) Varianza.

4) Suma de variables aleatorias del mismo tipo.

5) Convergencia a otras variables.

5.1. DISTRIBUCIÓN DICOTÓMICA


Diremos que X es una v.a. dicotómica de parámetro "p", y la representamos por

X ≡ D(p)

si toma únicamente dos valores posibles:

X = 1 , con probabilidad "p",

X = 0 , con probabilidad "q",

donde p + q = 1 .

Se suele asociar el "1" con la presencia de un cierto suceso, y "0" por su


ausencia. Por ejemplo, una pieza mecánica puede ser defectuosa, 1, o no tener
defecto, 0. Al lanzar una moneda aparece la cara, y lo asociamos con el "1", y en
caso contrario, lo asociamos con el "0".

-127-
5. Principales distribuciones discretas

El valor medio de X se calcula como:

E(X) = ∑ xi · P( xi ) =1· P( 1 ) + 0· P( 0 ) = 1· p + 0·q = p


∀ xi

La varianza la calculamos a partir de los momentos respecto al origen, así

2 2
D (X) = α 2 - α1

de donde

α1 = p; α 2 = E( X ) = ∑ xi P( xi ) = 1 .p + 0 .q = p
2 2 2 2

2 2
σ = p - p = p.(1 - p) = p.q

5.2. DISTRIBUCIÓN BINOMIAL


Al repetir un experimento aleatorio n veces, de forma independiente, el número de
veces que aparece un suceso A, de probabilidad P(A), se denomina variable
aleatoria binomial, y se representa por,

X ≡ B(n, p)

Al realizar una vez el experimento aleatorio puede ocurrir el suceso A o el


suceso contrario. Al efectuar n repeticiones, una posible secuencia puede ser:

A A A A A.......A A

Supongamos que queremos calcular la probabilidad de que al repetir n veces


el experimento aleatorio, aparezcan ν veces el suceso A, esto es P(X = ν ) . Ello
significa en una secuencia de aparición de los sucesos, hay ν -veces el A y, por lo
ν n -ν
tanto, n - ν veces el suceso A , con una cantidad de masa de P(A) P( A ) , y como
cada secuencia, con igual número de A son mutuamente excluyentes, el total de
secuencias viene dado por:

n! ⎛n⎞
= ⎜⎜ ⎟⎟
ν! (n - ν )! ⎝ ν ⎠

Luego la probabilidad de obtener exactamente ν veces el suceso A, es

⎛ n⎞
P(X =ν ) = ⎜⎜ ⎟⎟ pν (1 - p )n-ν
⎝ν ⎠

También se puede considerar la variable binomial como una suma de "n"


variables aleatorias dicotómicas independientes, ya que al sumar el número de 1's
-128-
5. Principales distribuciones discretas

nos da el número de veces que aparece el suceso A. A partir de esta suma de


variables se pueden calcular las características de la binomial.

De este modo, el valor medio de la binomial es:

n n
E(X) = E( X 1 + X 2 + ....+ X n ) = ∑ E( X i ) = ∑ p = n.p
1 1

La varianza de la binomial es:

n n

D (X) = D ( X 1 + X 2 + ...+ X n ) = ∑ D 2 ( X i )= ∑ pq = npq


2 2

i=1 i=1

Si X 1 ≡ B( n1 , p) y X 2 ≡ B( n 2 , p) e independientes, la suma de estas dos v.a.


es otra binomial de parámetros X 1 + X 2 ≡ B( n1 + n 2 ; p) .

Actividad 5.1:
• Probabilidad de que al lanzar 5 monedas salgan dos caras.

5.3. DISTRIBUCIÓN HIPERGEOMÉTRICA


Sea E una población finita cuyos elementos son de dos tipos: el A o el A . El número
de veces que aparece el suceso A al realizar n extracciones sin reemplazamiento, se
denomina v.a. hipergeométrica y se representa por:

X ≡ H(N, n, p)

Por ejemplo, supongamos un lote de N piezas, de las cuales hay N 1


defectuosas y N 2 correctas. Si tomamos n piezas al azar del lote y contamos el
número de piezas defectuosas que aparecen de entre esas "n", dicho número se
denomina variable hipergeométrica.

-129-
5. Principales distribuciones discretas

Figura 5. 1. Distribución hipergeométrica

Se suele representar por el esquema que aparece en la Figura 5. 1 5. 1.

La función de probabilidad es:

⎛ N 1 ⎞⎛ N 2 ⎞
⎜ ⎟⎜ ⎟
⎜ ⎟⎜ ⎟
P(X = ν ) = ⎝ ν ⎠⎝ n - ν ⎠
⎛ N1+ N2⎞
⎜ ⎟
⎜ ⎟
⎝ n⎠

Se demuestra que el valor medio de esta v.a. es:

E(X) = np

y que su varianza es:

2 N -n
D (x) = npq.
N -1

Observar que cuando N es muy grande en relación al tamaño n de la muestra,


la varianza, tomando límites, tiende a

2
D (X)= npq

esto es la varianza de la binomial. Por ello cuando se cumple la condición de que

N
>> 10
n

la variable hipergeométrica se aproxima a la binomial B(n,p). Es decir, las


extracciones sin reemplazamiento equivalen a extracciones con reemplazamiento, ya

-130-
5. Principales distribuciones discretas

que al ser el tamaño de la población muy grande en relación al tamaño de la muestra,


hay muy pocas posibilidades de que un mismo elemento sea elegido dos veces. Es
decir, que podemos considerar extracciones independientes o realizaciones
independientes del experimento aleatorio, que es la condición que poníamos al definir
la variable binomial.

Actividad 5.2:
• Probabilidad de que al extraer al azar 3 cartas de una baraja de 40 cartas, dos de
ellas sean oros.

• En un contenedor hay 500 motores y se sabe que el 5% de ellos son defectuosos. Si


extraemos al azar 10 motores ¿cuál es la probabilidad de que en esos 10 hayan 2
motores defectuosos?

5.4. DISTRIBUCIÓN DE POISSON

Si observamos el número de defectos que aparecen en una pieza mecánica, estos


pueden ser 0,1,2,3..., y en teoría pueden haber hasta infinitos defectos. Es decir, se
trata de un espacio muestral infinito numerable.

Un modelo matemático que se ajusta bastante bien al número de defectos es


la distribución de Poisson, la cual aparece como consecuencia del límite de una v.a.
binomial B(n, p) cuando n → ∞ , p → 0 y se mantiene constante el producto de
n.p = λ .

Para obtener la función de probabilidad de la v.a. de Poisson, partimos de la


fórmula de la binomial, y hacemos tender el límite para cuando n → ∞ y p → 0 , así:

⎛ n⎞
P(X = ν ) = ⎜⎜ ⎟⎟ pν (1 - p )n-ν =
⎝ν ⎠
n! ν n -ν n(n - 1)...(n -ν + 1) ν n -ν
= p (1 - p ) = p (1 - p )
ν ! (n -ν )! ν!

Haciendo tender n → ∞ , p → 0, q → 1 , y queda


. ν
P(X = ν ) = e λ
ν!

La media es

E(X) = α 1 = λ
-131-
5. Principales distribuciones discretas

y la varianza es

D (X) = α 2 - α 1 = λ + λ - λ = λ
2 2 2 2

Si X 1 ≡ PS( λ 1 ) y X 2 ≡ PS( λ 2 ) e independientes, la suma de v.a. de Poisson


da lugar a otra distribución de Poisson de parámetro suma de parámetros.

Otra forma en que aparece la distribución de Poisson es contando el número


de sucesos hasta un cierto tiempo "t", cuya expresión es:
ν
e ( λt )
- λt
P( X t = ν ) =
ν!

donde λ·t es el promedio de sucesos que ocurren en un tiempo t.

Para obtener los distintos valores de P(X ≤ ν ) se emplea el ábaco de


Poisson o las tablas con los valores de F( ν ) de la distribución de Poisson para
diferentes valores de λ y ν .

Actividad 5.3:

o En una fábrica donde hay muchas máquinas se sabe que por término medio se
averían 2 al día. Se pide:

o Probabilidad de que en un día se averíen 4 máquinas.

o Probabilidad de que se averíen 4 máquinas en 5 días.

o De una determinada póliza de seguros se sabe que reclaman por término medio 4 al
mes. Si por cada póliza hay que indemnizar con 1000€, ¿cuánto dinero tenemos que
preparar para poder pagar al final del mes con una probabilidad del 95%?

5.5. DISTRIBUCIÓN BINOMIAL-NEGATIVA

El número de veces que hay que repetir un experimento aleatorio hasta que aparece
exactamente "r" veces el suceso A de probabilidad p, se llama variable aleatoria
binomial negativa, y se representa por:

X ≡ BN(r, p)

La función de probabilidad P(X = ν ) , se calcula pensando que para que en la


repetición número ν haya aparecido el suceso A "r" veces, en los ν - 1 primeros tiene
-132-
5. Principales distribuciones discretas

que haber aparecido de cualquier forma r-1 veces el suceso A, y en la repetición ν el


suceso A, de aquí:

⎛ν - 1⎞ r -1 ν -r ⎛ν - 1⎞ r ν -r
P(X = ν ) = ⎜⎜ ⎟⎟ p q .p = ⎜⎜ ⎟⎟ p q
⎝ r - 1⎠ ⎝ r - 1⎠

El valor medio de esta variable aleatoria es:

r
E(X) =
p

y su varianza

2 rq
D (X) = 2
p

Un caso particular interesante es cuando r=1, esto es, el número de veces


que hay que repetir un experimento aleatorio hasta que aparece por primera vez el
suceso A. A este caso particular también recibe el nombre de "distribución
geométrica" o "distribución de Pascal".

El valor medio y la varianza son:

1
E ( x) =
p

q
D2( X ) =
p2

Actividad 5.4:

• ¿Cuántas veces, por término medio, hemos de tirar un dado para que salga por
primera vez el 1?

• ¿Cuántas veces por término medio hemos de tirar un dado para que salga por
segundo vez el 1?

5.6. DISTRIBUCIÓN MULTINOMIAL

La distribución multinomial es una generalización de la binomial. En lugar de contar la


aparición de un suceso cada vez que realizamos un experimento aleatorio, contamos

-133-
5. Principales distribuciones discretas

más de un suceso. De esta forma, nombrando a A1 , A2 ,..., Ak los distintos sucesos


que pueden aparecer al efectuar el experimento aleatorio, designamos con x1 el
número de veces que aparece el suceso A1, x2 el número a veces que aparece el
suceso A2, y xk el número de veces que aparece el suceso Ak, al repetir n veces el
experimento aleatorio,

La variable k-dimensional (x1, x2, ...,xk) recibe el nombre de variable aleatoria


multinomial, con función de probabilidad,

n!
P ( x1 = ν 1 ; x 2 = ν 2 ;...; x k = ν k ) = p1ν 1 pν2 2 ⋅ ⋅ ⋅ pνk k
ν 1!ν 2 ! ...ν k !

siendo pi la probabilidad que aparezca el suceso Ai al realizar una vez el experimento


aleatorio, y cumpliéndose que:

ν 1 + ν 2 + ν 3 + .... + ν k = n
p1 + p 2 + p3 + ... + p k = 1

Cuando k=2 se trata de la variable binomial, que tal como dice el nombre cuenta
dos sucesos aleatorios.

El valor medio de cada marginal viene dado por:

E ( xi ) = np i

La variancia de cada marginal es:

D 2 ( xi ) = np i q i

La covariancia (mide la relación lineal que hay entre dos variables) entre dos
marginales es:

cov( xi , x j ) = − np i p j

Por ejemplo, si lanzamos n veces un dado, la variable aleatoria que cuenta el


número de 1's, 2's, 3's, 4's, 5's y 6's, es una variable aleatoria multinomial.

Actividad 5.5:

1. De 20 barajas de 40 cartas, saco al azar 8 cartas. ¿Cuál es la probabilidad de que


sean 2 oros, 1 espadas, 2 copas y 3 bastos.

-134-
5. Principales distribuciones discretas

5.7. PROBLEMAS PROPUESTOS

5.7.1.- Si X es la variable aleatoria número de veces que hay que lanzar un dado
hasta obtener por primera vez un seis, determinar su valor medio.

Solución: 6

5.7.2.- Un interruptor debe ser reemplazado después del primer fallo. La probabilidad
de que funcione adecuadamente en cualquier utilización es 0,995. Si X indica el
número de veces que el interruptor ha funcionado correctamente hasta su
reemplazamiento, calcular su valor medio y su varianza.

Solución: E(X) = 199 Var(X) = 39800

5.7.3.- Sea X el número de veces que se ha lanzado un dado hasta conseguir un


seis. Hallar:

a) Función de probabilidad de X,

b) Valor esperado de X.

Solución: a) P(X = k) =(5/6)k-1 (1/6) k =1,2, . . b) 6

5.7.4.- Una nave de fabricación está integrada por un número considerable de


máquinas idénticas y se sabe por experiencia que el promedio de las que se averían
semanalmente es de 5.

a. Calcular la probabilidad de que hayan más de 3 averiadas en la misma


semana.

b. ¿Cuál es el número de máquinas de reserva que se precisan en una semana


para tener una probabilidad al menos de 0,99 de que al averiarse cualquier
máquina podrá sustituirse.

Solución: a) 0,7340 b) 11

5.7.5.- En una central telefónica de una ciudad se reciben un promedio de 4 llamadas


por minuto, en las horas de máximo tráfico. Si la instalación tiene una capacidad tal

-135-
5. Principales distribuciones discretas

que puede atender a los sumo 12 llamadas por minuto, ¿cuál es la probabilidad de
que en un minuto determinado no sea posible dar línea a todos los clientes que lo
soliciten?

Solución: 0,0003

5.7.6.- Un servicio de mantenimiento de aviones realiza diferentes tipos de


reparaciones. Las solicitudes de reparación para un sistema particular recibidas en un
período de tiempo pueden considerarse que constituyen un proceso de Poisson.
Concretamente:

SISTEMA Nº MEDIO DE REPARACIONES


EN UNA SEMANA

motor λ1 = 2.0

diseño λ2 = 0.5

hidráulica λ3 = 1.3

tren de aterrizaje λ4 = 0.2

a) ¿Cuál es la probabilidad de que el número total de reparaciones solicitadas en


una semana sea mayor o igual que tres y menor o igual que 7?

b) Si el promedio de reparaciones de diseño se duplica y el promedio de


reparaciones de motor se reduce a la mitad, ¿cuál es la probabilidad de que
en dos semanas el número total de reparaciones sea menor o igual que 8?

Solución: a) 0.7108 b) 0.7291

5.7.7.- Los fallos de fluido eléctrico en una estación de trabajo siguen una distribución
de Poisson y tienen un promedio de 1,5 fallos al mes.

a) ¿Cuál es el número de fallos esperado en un año?

b) ¿Cuál es la probabilidad de que se produzcan más de 20 fallos en un año?

c) ¿Cuál es la probabilidad de que el próximo fallo ocurra antes de 2 meses?

d) ¿Cuál es la probabilidad de que ocurra antes de tres meses pero no antes de


2 meses?

Solución: a) 18 b) 0,2776 c) 0,9502 d) 0,0387

-136-
5. Principales distribuciones discretas

5.7.8.- Las máquinas de 5 fábricas diferentes se rompen con una frecuencia media de
1.2, 3.2, 0.7, 3.5 y 2.4 veces al día. Los procesos de rotura en los diferentes sitios son
independientes, y cada proceso se asume que satisface las condiciones de un
experimento de Poisson:

a) ¿Cuál es la probabilidad de que el número total de roturas en un día dado


exceda de 12 unidades?,

b) Después de una rotura en cualquier fábrica ¿cuál es la probabilidad de que la


próxima rotura (sea cual sea la fábrica) ocurra en las dos horas siguientes?

Solución: a) 0.3113 b) 0.60

5.7.9.- Se ha fabricado una partida de transistores con un 20% de unidades


defectuosas. Si X es una variable aleatoria que indica el número de transistores
defectuosos obtenidos al seleccionar 4 transistores de la partida, obtener su función
de probabilidad.

⎛ 4⎞
Solución: P( x) = ⎜⎜ ⎟⎟ ⋅ (0.2) ⋅ (0.8)
x 4− x

⎝ x⎠

5.7.10.- Un sistema multiproceso utiliza 12 procesadores y ha sido configurado de


modo que puede satisfacer todas sus funciones, aunque mas lentamente, si
funcionan 9 procesadores. Si la probabilidad de que funcione cada procesador
durante el tiempo de ejecución de un trabajo es 0,8 y los fallos de los procesadores
son independientes ¿cuál es la probabilidad de que el sistema funcione hasta que se
complete el trabajo?

Solución: 0.7946

5.7.11.- Una compañía de seguros, que cuenta con 10.000 asegurados, determina
que el 0,005% de la población fallece cada año de un cierto tipo de accidente:

a) Calcular la probabilidad de que la compañía de seguros tenga que pagar a los


beneficiarios de 3 o más de los asegurados contra tal tipo de accidente en un
año determinado.

b) ¿Cuál es el número de accidentes al año por término medio?

Solución: a) 0,0144 b) 0,5

-137-
5. Principales distribuciones discretas

5.7.12.- Se seleccionan por separado tres muestras aleatorias en una línea de


producción en la cual el 5% de las unidades son defectuosas. Las dos primeras
muestras tienen un tamaño igual a 20 y la tercera un tamaño igual a 10. ¿Cuál es la
probabilidad de que el número de unidades defectuosas encontradas entre las tres
muestras sea mayor o igual que 1 y menor o igual que 4?.

Solución: 0.81944

5.7.13.- Una partida de bujías con alta proporción de inservibles (20%) sale al
mercado en paquetes de 4 unidades y en cajas de 10 paquetes. Calcular la
probabilidad de que:

a) Elegido un paquete al azar contenga 2 o más bujías inservibles.

b) Elegida una caja al azar contenga más de 10 bujías inservibles.

c) Elegida una caja al azar contenga 3 paquetes sin bujías inservibles.

Solución: a) 0'1808 b) 0'1608 c) 0'2062

5.7.14.- Una máquina de fabricación de tornillos produce por término medio 2


tornillos defectuosos por cada 85, empaquetándose éstos en cajas de 170 unidades.
¿Cuál es la probabilidad de que tomadas al azar 7 cajas, en sólo 2 de ellas no haya
ningún tornillo defectuoso?

Solución: 0'0064

5.7.15.- Una fábrica encuentra que el 20% de los diskettes que produce son
defectuosos. Si se eligen diez diskettes al azar de un lote, hallar la probabilidad de
que:

a) Hayan exactamente dos defectuosos.

b) Que dos o más sean defectuosos.

Solución: a) 0.3 b) 0.62419

5.7.16.- Cada hora se toman 50 unidades de la producción de una máquina. Si la


muestra contiene dos o más unidades defectuosas, se ajusta la máquina. Si esta
produce un 2% de unidades defectuosas, calcular el tiempo medio entre sucesivos
ajustes.

-138-
5. Principales distribuciones discretas

Solución: (3'784-1) horas

5.7.17.- Una industria recibe piezas en lotes de un gran número de unidades. Se


desea reparar un plan de control de calidad de tal forma que tomando al azar n
unidades del lote, si se observa alguna defectuosa se rechaza el lote. Determinar n
para que si el lote tiene un 5% de unidades defectuosas, la probabilidad de
aceptarlos sea menor de 0,01.

Solución: 90.

5.7.18.- Un cargamento de 20 acelerómetros altamente sensibles deben ser


aceptados o rechazados en base a una muestra de 5 unidades seleccionadas
aleatoriamente del lote. El cargamento será rechazado si en la muestra hay más de
una unidad defectuosa. ¿Cuál es la probabilidad de que el cargamento sea aceptado
si se sabe que el 10% de las unidades no cumplen las especificaciones?.

Solución: 0,9473

5.7.19.- Un comerciante compra relés eléctricos en lotes de 1.000 unidades. En cada


lote se seleccionan 15 unidades, y el lote se acepta si el número de unidades
defectuosas es menor o igual que 3. El fabricante sabe que hay un 10% de unidades
defectuosas en cada lote, ¿cuál es la probabilidad de que sea rechazado un lote?

Solución: 0,0555

5.7.20.- En una fábrica el número de accidentes por semana sigue una distribución
de Poisson de parámetro λ =2. Se pide:

a) Probabilidad de que en una semana haya algún accidente

b) Probabilidad de que hayan 4 accidentes en el transcurso de 2 semanas

c) Probabilidad de que hayan 2 accidentes en una semana y otros 2 en la


siguiente

d) Es lunes, y ya ha habido un accidente. Calcular la probabilidad de que en esa


semana no haya más de tres accidentes.

-139-
5. Principales distribuciones discretas

Solución: a) 0'8646 b) 0'1954 c) 0'0733 d) 0'8348

5.7.21.- Un partida de diamantes industriales con una proporción de inservibles de


15% sale al mercado en paquetes de 4 unidades y en cajas de 10 paquetes, elegida
una caja al azar calcular la probabilidad de que contenga 2 paquetes con al menos un
diamante defectuoso.

a) 0’0567

b) 0’1860

c) 0’2456

d) 0’0836

5.7.22.- Una línea de fabricación está compuesta por un número considerable de


robots ¿Cuál es el número de robots de reserva que se precisan en una semana para
tener una probabilidad al menos del 90% de que al averiarse cualquier robot podrá
sustituirse?. Se sabe por experiencia que el promedio de averías es de 9’5 a la
semana.

a) 10

b) 16

c) 13

d) 14

5.7.23.- En una empresa de electrónica se reciben componentes en lotes de gran


tamaño. Un lote se considera correcto si tiene menos de un 1‰ de piezas
defectuosas. Se toma una muestra de tamaño n y si no aparece ninguna defectuosa
se acepta el lote. Calcular el tamaño de muestra mínimo que se debe tomar si
queremos cometer un error de segunda especie con probabilidad menor del 8%
cuando el porcentaje de piezas defectuosas en el lote sea del 1%

a) 230

b) 240

c) 252

d) 265

-140-
5. Principales distribuciones discretas

5.7.24.- De un paquete de bolígrafos en los que hay un 18% que no funcionan, ¿cuál
es la probabilidad de tener que probar 6 de ellos hasta encontrar 3 que funcionen?.

a) 0.0116

b) 0.0326

c) 0.0097

d) 0.0177

5.7.25.- El número medio de defectos por metro cuadrado de una superficie cerámica
es de 0.29, ¿cuál es la probabilidad de que una superficie de 50 m2 encontremos 12
o mas defectos?

a) 0.9389

b) 0.2911

c) 0.8200

d) 0.7799

5.7.26.- La probabilidad de que en un telar se produzca al menos una avería en un


día, es del 5%. Calcular, por término medio, el número de averías que se producirán
semanalmente.

a) 0.359

b) 20.97

c) 0.0513

d) 0.0073

5.7.27.- En un lote de 40 diamantes industriales para máquinas de corte, existe una


probabilidad del 25 % de que un diamante no cumpla las características físicas para
ser utilizado. ¿Cuántos diamantes debemos tomar para tener una probabilidad de
0.98785 de que al menos uno nos va a ser útil?

-141-
5. Principales distribuciones discretas

a) 8

b) 7

c) 5

d) 3

5.7.28.- Un plan de muestreo de materias primas en lotes de 1000 unidades, consiste


en tomar 10 piezas al azar, y si aparece alguna defectuosa se rechaza el lote.
Calcular la proporción de piezas defectuosas en un lote que tenga una probabilidad
de ser rechazado, según dicho plan de muestreo, de 0.1.

a) 0.3162

b) 0.2056

c) 0.0513

d) 0.0104

5.7.29.- Se denomina fiabilidad de un sistema informático a la probabilidad de que


funcione satisfactoriamente. Supongamos que esta formado por 50 componentes
cuya función requiere el correcto funcionamiento de al menos 40 de ellos. La
probabilidad de que cada componente funcione después de 100 horas es 0.9 y los
componentes se averían independientemente. ¿cual es la fiabilidad del sistema
informático después de 100 horas?

Solución: 0.985

5.7.30.- De una Base de Datos se cogen 20 registros para su verificación. Se


considera que la Base de Datos es correcta cuando no hay ningún registro
defectuoso. ¿Cual es la probabilidad de aceptar cuando la Base de Datos tiene un
10% de registros defectuosos?

-142-
5. Principales distribuciones discretas

Solución: 0.12

5.7.31.- Se tiene constatado que 1/3 de una Base de Datos de Clientes de un


empresa son extranjeros. Tomando una muestra al azar de 10 registros de la Base
de Datos, estudiar:

a) Probabilidad de que hayan 2 empresas extranjeras.

b) Probabilidad de que hayan más de 3 empresas extranjeras.

c) Probabilidad de que hayan como máximo cinco empresas extranjeras.

Solución: a) 0.1951 b) 0.44 c) 0.9235

5.7.32.- El control de calidad de las carcasas de ordenadores, se realiza tomando 2


unidades y contando el nº de defectos que aparecen. El promedio de defectos que se
ha tenido hasta el presente es de 1.3 (entre las dos unidades). ¿Cuál es la
probabilidad de que, sin cambios en el proceso, aparezca una muestra con más de 5
defectos?

Solución: 0.002

5.7.33.- Si de cada 200 diskettes hay uno con virus, ¿cuántos discos debemos
verificar para tener una probabilidad de 0.85 de encontrar al menos uno con virus?

Solución: 379

5.7.34.- En un proceso de fabricación de componentes electrónicos se produce un


0.5% de unidades defectuosas. Dichas componentes se expiden en cajas de 3.000
unidades.

a) ¿Cuál puede ser la población de estudio?, ¿y la variable aleatoria?, ¿cómo se


distribuye?

b) Se desea acompañar cada caja con un certificado garantizando que la caja


contiene como mínimo C componentes correctas. ¿cuál es el máximo valor que
puede darse a C si se desea que la probabilidad de cumplir la garantía sea

-143-
5. Principales distribuciones discretas

superior al 99%?

Solución: a) X= B(3000, 0.005) , N(15, 3.863) b) 2976 unidades

5.7.35.- Una persona rellena sus quinielas completamente al azar,

a) ¿Cuántas tendría que rellenar si deseara tener una probabilidad superior al


95% de acertar al menos 13 resultados?

b) Si rellena 100.000 quinielas de la misma forma ¿cuál es la probabilidad de


obtener al menos dos veces una de 14 aciertos?

c) ¿Y si rellena 1.000.000 quinielas?

Solución: a) 494.018 quinielas b) 0.000308 c) 0.01992

5.7.36.- Una empresa de software desea vender un nuevo programa de aplicación en


empresas, para ello envía publicidad postal a una muestra de 40 empresas,
invitándoles a conocer la última novedad de la empresa y ofrecerles un obsequio a
cambio. Los expertos estiman que un 30% de las empresas responderán a la
invitación pero que, de éstas, sólo un 20% adquirirá el programa. Calcula la
probabilidad de que después de la demostración nadie haya decidido comprar el
programa.

Solución: 0.084

5.7.37.- Una determinada normativa oficial exige que para unos envíos de disquetes,
el porcentaje de defectuosos no puede exceder del 10%; con el fin de controlar el
cumplimiento de dicho requisito un servicio de control inspecciona cada partida
seleccionando N disquetes al azar y rechazando el envío si encuentra más de 2
defectuosos.

a) Calcular cuánto debe valer N para que la probabilidad de aceptar un envío


que no satisfaga el requisito de calidad exigido sea inferior al 5 %.

b) Los disquetes se agrupan en cajas de 10 unidades que se envían en


paquetes de 50 cajas. Una caja se considera defectuosa si tiene más de 1
disquete defectuoso. Si un envío tiene un 10% de disquetes defectuosos ¿cuál
es la probabilidad de que un paquete no tenga ninguna caja defectuosa? (definir
-144-
5. Principales distribuciones discretas

las poblaciones y variables aleatorias de estudio en cada caso).

Solución: a) N= 62 unidades b) p= 0.0000002062

5.7.38.- Para controlar la calidad de las partidas de cierto tipo de piezas que se
reciben en una factoría se utiliza el siguiente plan de muestreo en dos etapas:

1 - Se toma una primera muestra de 50 piezas. La partida se acepta si todas las


piezas resultan correctas y se rechaza si hay más de 2 defectuosas.

2- En el resto de los casos se toma una muestra de otras 50 piezas,


aceptándose definitivamente la partida si en el total de las dos muestras hay
menos de 3 piezas defectuosas y rechazándose en el caso contrario.

a) ¿Qué probabilidad tiene el plan anterior de aceptar una partida que tenga un
1% de piezas defectuosas?.

b) Si todas las partidas que llegan a la factoría tienen un 1% de piezas


defectuosas, en promedio ¿ qué número de piezas se examinarán por partida?

Solución: a) 0.9285 b) 69.04 unidades revisadas

5.7.39.- Se sabe que una mecanógrafa comete en promedio un error cada 1000
caracteres tecleados. Calcular la probabilidad de que en un escrito que contiene 3000
letras haya más de dos errores.

Solución: 0.577

5.7.40.- Una peña juega a las quinielas 1000 boletos cada semana manteniendo 6
partidos fijos rellenando al azar los resultados (1, X ó 2) de los 8 restantes.
Supongamos que la peña acierta siempre los resultados de los 6 fijos:

a) ¿Cómo se distribuye la variable aleatoria X: número de aciertos en una


quiniela?

b) Un boleto resulta premiado si ha acertado al menos 12 resultados, ¿cómo se


distribuye la variable aleatoria Y: número de boletos premiados obtenidos en una
semana?

c) La peña juega todos los años de la forma indicada las 40 jornadas en las que
hay quinielas, ¿cómo se distribuye la variable aleatoria Z: número de semanas
en que la peña obtiene algún premio a lo largo del año? (definir también la
población y sucesos de estudio en todos los casos, y no considerar el partido del
-145-
5. Principales distribuciones discretas

pleno al 15, es decir sólo 14 partidos).

Solución: a) X: B(14, 0.33) b) Y: B(1000, 0.0196)» N(19.66, 4.43) c) Z: B(40,1)

5.7.41.- Un campo de naranjos es atacado por una plaga de mosca del Mediterráneo
y se sabe que cada mosca deposita sus huevos (es decir "pica") en una sola naranja.
Suponiendo que en el huerto hay 200.000 naranjas y que es atacado por 50.000
moscas

a) ¿Cuál es la probabilidad de que una naranja tenga más de una picada?.

b) Si las naranjas del huerto se vendieran en bolsas de 10 unidades ¿cuál sería


la probabilidad de que hubiera 10 naranjas sanas en la bolsa? (definir las
poblaciones y variables aleatorias de estudio en cada caso, así como los
supuestos para las que estén justificadas las distribuciones propuestas).

Solución: a) 0.0265 b) 0.082

5.7.42.- Se sabe que el 1 por mil de las ostras que se encuentran en determinada
zona tiene una perla en su interior. Para hacer una determinada joya se precisan 5
ostras. ¿cuál es el número mínimo de ostras que hay que coger si se desea tener una
probabilidad superior al 95% de reunir las 5 perlas necesarias?.

Solución: 9000 ostras

5.7.43.- Una determinada pieza de una máquina sufre a lo largo de su funcionamiento


impactos accidentales que la van deteriorando progresivamente. Estos impactos, no
apreciables exteriormente, se presentan siguiendo un proceso de Poisson de
parámetro λ=0.4 impactos por hora.

Se sabe que, a causa del deterioro ocasionado, la pieza falla al recibir el


decimoquinto impacto. Con el fin de evitar el fallo de la pieza, que puede
ocasionar serios daños a toda la máquina, la sección de mantenimiento ha
decidido sustituir sistemáticamente la pieza por otra nueva tras cada Z horas de
funcionamiento.

¿Cuánto debe valer como máximo Z, si se desea que la probabilidad de fallo de


una pieza sea inferior a 0.05?

-146-
5. Principales distribuciones discretas

Solución: 21.57

5.7.44.- La pérdida espontánea de información de un "bit" almacenado en una


memoria de cálculo se denomina fallo S. Este tipo de fallo no es muy frecuente
apareciendo en promedio uno por cada millón de horas y por "bit" almacenado. Sin
embargo, cuando el "chip" está expuesto a partículas alfa (núcleos de Helio), lo que
ocurre de forma natural en el ambiente, esta probabilidad de fallo S se ve
incrementada, siendo igual a 1 fallo por cada 1000 horas.

Si "chips" que contienen 6000 "bits" son expuestos a partículas alfa:

a) ¿Qué distribución sigue la variable aleatoria X: número de fallos S por hora en


un "chip"? ¿Cuál es la población objeto de estudio? Justifica las respuestas.

b) ¿Cuál es la probabilidad de que en una hora haya al menos un fallo S en un


"chip"?. ¿Sería anormal que hubiera cinco o más fallos S en una hora? Justifica
la respuesta obteniendo la probabilidad del suceso correspondiente.

c) Si un módulo contiene dos "chips" de estas característica, ¿sería extraño que


en dicho módulo hubiera más de 20 fallos S en una hora? Justifica la respuesta
obteniendo la probabilidad del suceso correspondiente.

d) ¿Cuál es la mediana de la distribución del número de fallos S por módulo y


por hora? ¿Qué indica? ¿Cuál crees que será el coeficiente de asimetría de esta
distribución? Justifica las respuestas.

Solución: a) 0.998 b) 9 0.715 c) 0.01 d) 12 y CA=0

5.7.45.- Para poder aceptar las partidas de diskettes que ofrece un nuevo proveedor,
una multinacional exige que el porcentaje de diskettes con algún sector defectuoso
no puede exceder el 2.5%.

Con el fin de controlar el cumplimiento de este requisito, un servicio de control en


recepción inspecciona cada envío, seleccionando N diskettes al azar y rechazando
dicho envío si encuentra más de dos diskettes defectuosos.

a) Calcular cuánto debe valer N para que la probabilidad de aceptar un envío


que no satisfaga el requisito exigido sea inferior al 5%. (Utilizar aproximación de
Poisson).

b) Los diskettes se comercializan en paquetes de 10 unidades, y a su vez los


paquetes se envían en cajas de 15 paquetes cada una. Un paquete se considera

-147-
5. Principales distribuciones discretas

defectuoso si tiene más de 1 diskette dañado. Si un envío tiene un 8% de


diskettes defectuosos:

b1) ¿Cómo se distribuye la variable aleatoria X: número de paquetes


defectuosos en una caja?

b2) ¿Sobre qué población estará definida X?

b3) ¿Cuál es la probabilidad de que una caja no tenga ningún paquete


defectuoso?

Solución: a) N>248 b3) 0.044

5.7.46.- Un canal binario simétrico transmite los dígitos 0 y 1. Se supone que hay una
probabilidad de 0,2 de que al transmitir uno de los números se reciba otro a causa de
ruidos o perturbaciones. supongamos que se envía un mensaje importante y para
transmitir "0" enviamos "000" y análogamente para "1" enviamos "111". Se supone
que el receptor al traducir la señal recibida utiliza la regla de la mayoría.

Ejemplo:

Si se recibe "110" se traduce como 1

Si se recibe "010" se traduce como 0

... ... ...

¿Cuál es la probabilidad de que al traducir una señal sea errónea?

Solución: 10.4%

-148-
5. Principales distribuciones discretas

5.8. PROBLEMAS Y CUESTIONES DE EXÁMENES

5.8.1.- En un taller se ha recibido un envío de 150 tuercas de rosca métrica 5, 2500


tuercas de rosca métrica 6 y 2350 tuercas de rosca métrica 7. Por un error del
proveedor vienen todas mezcladas en una única caja.

a) Si tomamos 10 tuercas al azar, calcular la probabilidad de que haya


exactamente 5 de rosca métrica 6. (0,5 puntos)
b) Ahora separamos una caja con 100 tuercas elegidas al azar ¿Cuál es la
probabilidad de que haya más de 2 y menos de 5 tuercas de rosca métrica 5?
(0,5 puntos)
c) Si un operario necesita exactamente 4 tuercas de rosca métrica 6. Si las va
cogiendo una a una al azar ¿Cuál es la probabilidad de que tenga que sacar
exactamente 7 tuercas hasta conseguir las 4 necesarias? (0,5 puntos)
d) Si un operario coge un puñado de 10 tuercas ¿Cuál es la probabilidad de que
haya exactamente 5 de rosca métrica 6 y otras 5 de rosca métrica 7? (0,5
puntos)
e) Si necesitamos exactamente 5 tuercas de rosca métrica 5 ¿Cuántas
deberemos coger aleatoriamente para garantizarnos una probabilidad del 90%
de que conseguiremos las 5 necesarias? (1 punto)

SOLUCIÓN

a) Llamando a X= número de roscas de métrica 6, ésta sigue una distribución


binomial de parámetros,

2500
X ≡ B ( n = 10; p= ) ≡ B (10; 0,5)
5000

La probabilidad pedida es

⎛10 ⎞
P( X = 5) = ⎜⎜ ⎟⎟·0,55 ·0,55 = 252·0,510 = 0,2461
⎝5⎠

b) Llamando ahora a X= número de roscas de métrica 5, ésta sigue una distribución


binomial de parámetros,

150
X ≡ B ( n = 100; p= ) ≡ B (100; 0,03)
5000

Y esta distribución, como n>30 y p<0,1 y np<5, se puede aproximar a una distribución
de Poisson de parámetros Ps(λ = 3) . La probabilidad pedida es,

-149-
5. Principales distribuciones discretas

P( X > 2 ∩ X < 5) = P( X ≤ 4) − P( X ≤ 2) = 0,8153 − 0,4232 = 0,3911

c) Si llamamos a X= número de tuercas que sacamos hasta tener 4 de métrica 5,


ésta es una distribución binomial negativa de parámetros,

X ≡ BN(r = 4; p = 0,5)

La probabilidad de que exactamente X sea 7 es,

⎛ ν − 1⎞ r
P( X = ν ) = ⎜⎜ ⎟⎟ ⋅ p ⋅ (1 − p)ν − r
⎝ r − 1 ⎠

⎛ 7 − 1⎞
P( X = 7 ) = ⎜⎜ ⎟⎟·0,5 4 ·(1 − 0,5 )7 − 4 = 20·0,5 7 = 0,1563
⎝ 4 − 1 ⎠

d) En este caso la X se trata de una distribución multinomial de parámetros,

X ≡ M(n = 10; p1 = 0,03 p2 = 0,5 p3 = 0,47)

Y la probabilidad pedida es,

10!
P ( X 1 = 0, X 2 = 5, X 3 = 5) = ·0,030 ·0,55 ·0,47 5 = 0,1806
0! 5! 5!

e) El número de roscas de métrica 5 que hay en n elegidas al azar, sigue una


distribución binomial de parámetros,

X ≡ B ( n; p = 0,03) ≈ Ps (λ = n·0,03)

La condición impuesta es que P ( Ps (0,03·n) ≥ 5) ≥ 0,9 , y su contraria es

P ( Ps (0,03·n) ≤ 4) ≤ 0,10

Buscando en las tablas se tiene que λ = 0,03·n = 8 de donde,

8
n≥ = 266 ,67 = 267
0,03

5.8.2.-

a) En la empresa FORD ESPAÑA S.A. se lleva a cabo el control de calidad del


proceso de imprimación de las carrocerías contando los defectos de todo tipo
(rayas, manchas, pelusas, cráteres,…) que aparecen en las carrocerías antes
de proceder al lijado de dichos defectos como paso previo al pintado de las
carrocerías. El ingeniero de calidad de la planta propone un plan de control de

-150-
5. Principales distribuciones discretas

calidad consistente en contar los defectos en 2 carrocerías y rechazar que el


proceso sea correcto si en total aparecen más de C defectos. ¿Cuál debe ser
ese valor C si queremos que cuando el promedio de defectos por carrocería
sea de 1,45 aceptemos el proceso como correcto en el 99% de los casos?(1,5
puntos)
b) En la misma empresa se inspeccionan las grapas de sujeción de la tapicería
cogiendo n grapas y aceptando el lote si en ellas aparece como máximo 5
defectuosas. ¿Cuál debe ser el número de grapas a inspeccionar si queremos
que un lote con solo un 1% de grapas defectuosas sea aceptado con una
probabilidad mayor del 99%? (1,5 puntos)

SOLUCIÓN

a) El número de defectos en una carrocería es una variable X=Ps(λ) y en dos


carrocerías Y=X1+X2=Ps(2λ).

Según la propuesta habrá que calcular un C tal que

P(Ps(2x1,45)≤C)=0,99.

En las tablas de la variable de Poisson esto ocurre para C=7

b) El número de grapas defectuosas en una muestra de n grapas es X=B(n,


P)≈Ps(nP) (después comprobaremos la aproximación)

Habrá que buscar n para que

P(Ps(n0,01)≤5)=0,99

En las tablas de la Poisson, para λ=1,70 tenemos p(Ps(1,70)≤5)=0,9920 (>0,99)

Luego λ=1,70=n·0,01→n=170

Justificación: n=170 >50, p=0,01<0,10 y nP=1,70< 5 luego vale la aproximación

5.8.3.- El director de una fábrica, un Graduado en Tecnologías Industriales, debe


decidir el número de operarios de una cierta sección de la fábrica que va a
contratar. Dichos operarios procesan unidades de un cierto producto, que llegan a
su sección cada mañana a primera hora. El número de unidades de dicho
producto que llega a la sección cada día se distribuye según una Poisson con
media 5. Cada operario puede procesar una y sólo una unidad por día. Las
unidades que no se procesen se acumulan en un contenedor único y serán
eliminadas mediante el uso de una máquina recicladora, lo que genera un coste
igual a 1000 € por día que se utilice (independientemente del número de unidades
que tenga que reciclar).

-151-
5. Principales distribuciones discretas

a) ¿Cuántos operarios tendrá que contratar como mínimo para asegurarse que,
con una probabilidad del 95%, todas las unidades que llegan en un día
cualquiera serán procesadas? (1.25 puntos)

b) Suponiendo que se dispone de 9 operarios, ¿cuál es la probabilidad de que se


tenga que usar la máquina recicladora más de 5 veces en un año? ¿Cuál será,
en promedio, el gasto de la fábrica en la máquina recicladora por año?
(Suponer que la fábrica opera 300 días al año). (1.25 puntos)

c) En promedio, ¿cuántos días pasarán a partir de hoy hasta que la máquina


recicladora tenga que actuar por primera vez? ¿Y por segunda vez? (0.5
puntos).

SOLUCIÓN

a) X=Ps(5)

Hay que buscar a/ P(Ps(5)≤a)≥0,95 según ábaco P(Ps(5)≤9)=0,97 a=9


trabajadores

b) Según los datos anteriores P(Ps(5)>9)=0,03 que es la probabilidad de que en


un día tengamos que utilizar la recicladora por uno o más equipos reciclados

El número de días en 300 que se utiliza la recicladora X=B(n=300, P=0,03)=Ps(9)

P(X>5)=1-P(X≤5)=1-P(Ps(9)≤5)=1-0,12=0,88

El coste anual de la recicladora es Y=1000X y su valor medio

E(Y)=1000E(X)=1000 x 9 =9000 Euros/año

c) Días hasta 1ª vez X=Bn(r=1, P=0,03) E(X)=r/P= 1/0,03=33,33

Días hasta 2ª vez X=Bn(r=2, P=0,03) E(X)=r/P= 2/0,03=66,66

-152-
5. Principales distribuciones discretas

5.8.4.- Una empresa de telefonía móvil factura un 5% de llamadas de duración


superior a 10 minutos.

a) Calcular la probabilidad de que en 15 llamadas elegidas al azar haya


exactamente 1 con duración superior a 10 minutos (1 punto)

b) ¿Cuál es el promedio de llamadas que tendremos que verificar hasta


encontrar 10 con duración inferior a 10 minutos? (1 punto)

SOLUCIÓN

a) El número de llamadas con duración superior a 10´ en una muestra de n=15


llamadas, si sabemos que hay un 5% de llamadas con duración superior a ese tiempo
será una variable

X=B(n=15; P=0,05)

⎛15 ⎞
La P ( X = 1) = ⎜⎜ ⎟⎟0,051 (1 − 0,05 )14 = 0,3658
⎝1⎠

b) El número de llamadas hasta obtener 10 con una duración inferior a 10´ será una
variable X=BN(r=10;P=0,95)

y su valor medio E(X)=r/P=10/0,95=10,526

5.8.5.- De una partida de 1000 componentes electrónicos se toma una muestra de 80


de ellos. Se sabe que el porcentaje de componentes defectuosos que hay en la
partida es de 2,5%. Se pide:

a) Calcular la probabilidad de que en la partida aparezcan más de 6


componentes defectuosos.
b) ¿Cuántos componentes deberíamos extraer al azar par que la probabilidad de
encontrar al menos 5 componentes defectuosos sea del 20%?
c) Cada 15 componentes se empaquetan en una caja, y una caja es defectuosas
cuando contiene al menos un componente defectuoso. ¿Cuál es la
probabilidad de que al comprar 10 cajas al menos una de ellas sea
defectuosas?
d) ¿Cuál será el número medio de cajas examinar hasta que encontremos la
segunda caja defectuosa?

SOLUCIÓN:

a) El número de componentes defectuosos en la muestra de 80 sigue una


distribución binomial B(n=80;p=0,025). Como n>30 p<0,10 y np=2<5, esta
binomial se puede aproximar a una Poisson de parámetro λ = n· p = 2 . La
probabilidad que nos piden es
-153-
5. Principales distribuciones discretas

P( X > 6 ) = P( X ≤ 6 )

Y buscando en el ábaco de Poisson, esta probabilidad es 0,995.

b) La condición impuesta es P( X ≥ 5 ) = 0 ,20 lo cual equivale a


P( X ≤ 4 ) = 0 ,80 y en el ábaco de Poisson para una probabilidad acumulado
del 0,80 y una curva c=4, el valor de la abscisa es λ = 3,8 = n· p = n·0 ,025 , de
donde n=152.

c) La probabilidad de que de 15 componentes haya al menos uno defectuoso es,


Y ≡ N ( n = 15, p = 0 ,025 )

⎛ 15 ⎞
P( Y ≥ 1 ) = 1 − P( Y = 0 ) = 1 − ⎜⎜ ⎟⎟·0 ,0250 ·( 1 − 0 ,025 )15 = 0 ,32
⎝0⎠

Y el número de cajas defectuosas sigue una distribución binomial


W ≡ B( n = 10 , p = 0 ,32 ) , y la probabilidad pedida es,

⎛ 10 ⎞
P( W ≥ 1 ) = 1 − ⎜⎜ ⎟⎟·0 ,320 ( 1 − 0 ,32 )10 = 0 ,9789
⎝0⎠

d) El número de cajas que se comprar hasta que aparece la segunda defectuosa


es una distribución binomial negativa T ≡ BN( r = 2 , p = 0 ,32 ) y el valor medio
es,
r 2
E( T ) = = = 6 ,25
p 0 ,32

-154-
6. Principales Distribuciones Continuas

TEMA 6. PRINCIPALES DISTRIBUCIONES CONTINUAS

Contenido
6.1. DISTRIBUCIÓN UNIFORME .................................................................... 155
6.2. DISTRIBUCIÓN EXPONENCIAL .............................................................. 156
Tasa de fallos .................................................................................................... 158
6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL ........................................ 160
6.3.1. Variable normal tipificada ........................................................................ 161
6.3.2. Variable normal general .......................................................................... 164
6.3.3. Teorema central del límite ...................................................................... 166
Aproximación de la binomial a la normal ......................................................... 167
Aproximación de la Poisson a la normal ........................................................... 168
Corrección por continuidad ............................................................................... 169
6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL ..................................... 171
Distribuciones marginales ................................................................................. 172
Distribuciones condicionales ............................................................................. 172
6.5. PROBLEMAS PROPUESTOS ...................................................................... 175
Distribución uniforme ........................................................................................ 175
Distribución exponencial ................................................................................... 176
Distribución Normal ........................................................................................... 178
Distribuciones bidimensionales ......................................................................... 188
6.6. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 191

6.1. DISTRIBUCIÓN UNIFORME

La variable aleatoria X sigue una distribución uniforme en el intervalo [a;b] cuando


cualquier punto del mismo tiene la misma densidad de probabilidad. De este modo la
función de densidad es constante en todo el intervalo de definición de la variable, tal
y como se expresa en la figura de abajo,

fx(x)

a b X

Figura 6. 1. Función de densidad de la distribución uniforme

-155-
6. Principales Distribuciones Discretas

El valor de la altura de la función de densidad tiene que ser de tal forma que el área
bajo dicha función y el eje de abscisas sea la unidad. De aquí que la función de
densidad sea,

1
f(x)=
b−a

La función de distribución viene dada por,


x x 1 x−a
F ( x ) = ∫ f ( x )dx = ∫ dx =
a a b−a b−a

El valor medio es,


b
b b 1 1 ⎡ x2 ⎤ b2 − a2 b+a
E( X ) = ∫ x ⋅ f ( x )dx = ∫ x⋅ dx = ⎢ ⎥ = =
a a b−a b − a ⎣ 2 ⎦ a 2( b − a ) 2

Y la varianza se calcula como,


( b − a )2
D 2 ( X ) = E( X − m x ) 2 = E( X 2 ) − (E( X )) =
2

12

Actividad 6.1:
• A partir de un valor al azar entre 0 y 1, obtener un valor al azar de una
uniforme entre 1 y 6.

6.2. DISTRIBUCIÓN EXPONENCIAL

Sea X una v.a. no negativa con función de densidad

f(x) = λ e- λx para 0 ≤ x < +∞

a esta v.a. se denomina distribución exponencial, y se representa por X ≡ EXP( λ ) .

El valor medio y la varianza son:

1 2 1
E(X) = D (X) =
λ λ2
y la función de distribución es:

-156-
6. Principales Distribuciones Continuas

FX (x)= λ·e-λ·x ·dx =1-e-λ·x


0

fX(x)

0 1/λ 2/λ 3/λ 4/λ 5/λ 6/λ X

Figura 6. 2. Función de densidad exponencial

FX(x)
1

0 1/λ 2/λ 3/λ 4/λ 5/λ 6/λ x


Figura 6. 3. Función de distribución de la exponencial

Cuando veíamos la distribución de Poisson, definíamos el "proceso de


Poisson" como aquel que cuenta el número de sucesos hasta un tiempo t, cuya
función de probabilidad es:

ν
e .( λt )
- λt
P(X(t) = ν ) =
ν!

El tiempo aleatorio entre dos sucesos viene dado por la distribución


exponencial. Así, llamando a "T" la v.a. que indica el tiempo hasta el siguiente

-157-
6. Principales Distribuciones Discretas

suceso, se cumple que ese tiempo será mayor que uno en concreto "t", siempre y
cuando de o a t, no haya ocurrido nada, esto es:

0
e .( λt )
- λt
P(T > t) = P(X(t) = 0) = = e- λt
0!

y la función de distribución es:

- λt
F T (t) = 1 - P(T > t) = 1 - e

que es la función de distribución de la exponencial y es un modelo matemático muy


empleado en el cálculo los tiempos de vida de un elemento en su periodo de vida útil.

Otra característica de la exponencial es la “falta de memoria” que se interprete


del siguiente modo: la probabilidad de que la variable supere un cierto periodo s es
independiente del momento en que se empiece a contar dicho periodo adicional, esto
es:

P(X > t + s) e- λ(t+s)


P(X > t + s/X > t) = = −λt = e-λs = P( X > s )
P(X > t) e

Actividad 6.2:
• A partir de un valor al azar de una uniforme entre 0 y 1, obtener un valor al
azar de una exponencial de media 20.
• ¿Cuál es la probabilidad de obtener un valor menor que la media de una
distribución exponencial?
• ¿Cuánto vale la mediana de una distribución exponencial de media 20?

Tasa de fallos

Se trata del número de fallos por unidad de tiempo que tiene lugar en una población
de muchos elementos. Matemáticamente se define como un límite de la probabilidad
que un elemento falle en el intervalo de t a t+Δt, cuando sabemos que el elemento
estaba funcionando en el instante t, todo eso dividido por incremento de t y cuando
este incremento tiende a cero. La expresión que resulta es:

-158-
6. Principales Distribuciones Continuas

P(t<T<t+Δt/T>t) 1 P(t<T<t+Δt) f(t) f(t)


h (t )= lim = lim · = =
Δt→0 Δt Δt→0 Δt P(T>t) R(t) 1-F(t)

La función R(t) = P(T>t) es la probabilidad que el elemento esté en


funcionamiento durante un tiempo t, y se define como la fiabilidad de dicho elemento.

La tasa de fallos h(t) viene a ser la velocidad de extinción de los elementos de


una población. Si dibujamos la función h(t) tomando como abscisas el tiempo, la
forma es como se ve en la Figura 6. 4.

Figura 6. 4. Tasa de fallos

A esta curva se llama “curva en bañera”. En ella se distinguen claramente tres zonas:

1. Zona A, de fallos precoces o infantiles. Es la etapa de fallos en garantía. Al


principio hay muchos elementos que fallan y poco a poco va decreciendo la
velocidad de fallos.
2. Zona B, de fallos accidentales. Los fallos en esta etapa son accidentales o
debidos al azar. Es la etapa de madurez o periodo de vida útil y la tasa de
fallos h(t) es constante en el tiempo.
3. Zona C, de fallos por envejecimiento. A partir de una determinada edad
aparecen fallos por desgaste o envejecimiento de los elementos.

La distribución exponencial es representativa de los fallos accidentales, donde h(t)


es constante. Así, para la distribución exponencial la tasa de fallo es:

( ) ·
ℎ( ) = = =
( )

-159-
6. Principales Distribuciones Discretas

Y λ es la constante de esa tasa de fallo, que expresa el número de fallos por


unidad de tiempo. Tener en cuenta que la media de la variable exponencial es
justamente la inversa de esa tasa de fallos.

En las otras dos zonas, la tasa de fallo se puede aproximar por medio de una
ecuación lineal de la forma
h(t)=λ·β(λ·t)β-1
De manera que:

• Si β = 1, h(t) = λ y se trata de la distribución exponencial.


• Si β > 1, h(t) es creciente y es representativo de la zona por
envejecimiento. La distribución que sigue los tiempos de fallo es una
Weibull.
• Si β <1, h(t) es decreciente y es representativo de la zona infantil. La
distribución del tiempo de fallo es también una Weibull.

La tasa de fallo tiene mucha importancia en la Ingeniería de Fiabilidad y del


Mantenimiento

6.3. DISTRIBUCIÓN NORMAL UNIDIMENSIONAL

La distribución más importante, tanto por aspectos teóricos como prácticos, es la


distribución normal, la más empleada y la que modeliza el mayor número de
comportamientos de la vida real.

La primera vez que se empleó la distribución normal fue durante el siglo XVIII
en la observación de los errores de medición, de forma que sus valores se ajustaban
bastante bien a una curva en forma de campana. Fue Moivre en 1733, quien utilizó
por primera vez esta distribución para demostrar la aproximación de la binomial a la
distribución normal. Esta distribución fue utilizada también por Laplace hacia el año
1775, para demostrar que la suma de los efectos de muchas variables cada una con
poca importancia en relación a las demás, era una distribución normal. No obstante
debido a un error histórico, se atribuyó a Gauss, cuya primera referencia apareció en
1809, y por ello también se le da el nombre de "campana de Gauss" o distribución
Gaussiana.

En un principio se pensaba que todas las distribuciones seguían una campana


de Gauss, de ahí su nombre de "normal" o "estándar" para referirse a ella, ya que “lo
normal” es que apareciera.

-160-
6. Principales Distribuciones Continuas

6.3.1. Variable normal tipificada

Aquella variable continua, con campo de existencia en toda la recta real, y con
función de densidad

1 1 2
e 2 x para - ∞ < x < +∞
-
f(x) =

se denomina variable "normal tipificada", y se representa por X ≡ N(0;1) .

f(x) es una función de densidad, ya que f(x) ≥ 0 y se demuestra que su


integral para todo el campo de existencia vale la unidad. La forma de la función f(x)
aparece en la Figura 6. 5.

fZ(z)

-3 -2 -1 0 1 2 3 Z

Figura 6. 5. Función de densidad de la normal N(0;1)

El área que hay bajo la curva f(x), la cual tiene forma de campana, y la recta
real vale la unidad.
+∞


-∞
f(x)dx = 1

Del estudio de la curva f(x) se deducen las siguientes propiedades:

1) Asíntotas.
lim ( )=0

lim ( )=0

-161-
6. Principales Distribuciones Discretas

2) Simétrica respecto a x=0.


f(x) = f(-x)

3) Tiene un máximo en el punto x=0.

4) Para x < 0 es creciente y para x > 0 es decreciente.

5) En x = -1 y x = +1 hay puntos de inflexión, y es cóncava para | x |> 1 , y convexa


en aquellos puntos en que | x |< 1 .

Todas estas propiedades corroboran la forma de campana que tiene la


función de densidad.

La media es y la varianza son:

E(X) = α 1 = 0 ( )= − =1−0=1

de ahí la notación de N(0;1) para caracterizar a la distribución, donde 0 corresponde


a la media, y 1 a la desviación típica.

Una de las características de la distribución Normal es que la distribución de


probabilidades es siempre la de la figura 6.6

68’26%
95’44%

99’73%

μ -3σ μ -2σ μ-1σ μ μ+1σ μ+2σ μ+3σ X

Figura 6.6. Áreas bajo la campana de Gauss


La función de distribución de la N(0;1) es

x
1 - 1 x2
F(x) = ∫
-∞ 2π
e 2 dx

y para cada valor de x se obtiene un valor de dicha función. Como la integral no es


inmediata, se ha tabulado su valor para cada punto x, de esta manera tenemos las
-162-
6. Principales Distribuciones Continuas

áreas a la izquierda para cada punto, según la Figura 6..

fZ(z)

FZ(z)

-3 -2 -1 0 1 2 3 Z

Figura 6.7. Función de distribución de la normal N(0;1)

Los valores de la normal tipificada o estándar, también se representan por z, y


mediante el símbolo zα expresamos aquel valor de la abscisa que tiene a su derecha
una probabilidad α , según la Figura 6. 6

fZ(z)

-3 -2 -1 0 1 zα 2 3 Z

Figura 6. 6. Área a la derecha de un valor de la normal N(0;1)

De la Figura 6. 5 se deduce que


+∞ zα

∫ f(x)dx = α ∫
-∞
f(x)dx = 1 - α

Actividad 6.3:
• Calcular las siguientes probabilidades de una normal tipificada:

-163-
6. Principales Distribuciones Discretas

o P(Z<1)
o P(Z>2)
o P(-1<Z<+1)
o P(-1.25<Z<2.37)

• Calcular los siguientes valores de la normal tipificada:


o P(Z<a)=0.60
o P(Z>a)=0.35
o P(-a<Z<+a)=0.95
o Z0.05
o Z0.90

6.3.2. Variable normal general

Dada la v.a. normal tipificada X ≡ N(0;1) , si aplicamos la transformación lineal


Y = aX + b

resulta la distribución normal general, cuyo campo de existencia es toda la recta real.

El valor medio de Y es,


E(Y) = E(a ⋅ X + b) = a ⋅ E(X) + b = a ⋅ 0 + b = b = μ y

es decir, el coeficiente b coincide con la media de la distribución.

La varianza de Y es
D (Y) = D (aX + b) = a D (X) = a .1 = σ Y
2 2 2 2 2 2

de donde "a" puede ser positivo o negativo, pero su módulo coincide con la
desviación típica de y, así:
| a |= σ esto es Y = σ ·X + μ
La variable Y se representa por Y ≡ N( μ; σ ) , ya que conociendo μ y σ
conocemos todas sus características.

La función de densidad de Y es, a partir de la fórmula del cambio de variable,

dx 1
f y (y) = f x (x(y)) = f x (x(y))
dy dy
dx

-164-
6. Principales Distribuciones Continuas

y-μ
x=
|σ |
despejando x,
1 -
1 (y - μ )2 1 1 -
1 (y - μ )2
f y (y) = e2 σ2 . = e 2 σ2
2π | a | σ 2π

Se observa que esta función es simétrica respecto de μ, y tiene los puntos de


inflexión en ± σ .

La función de distribución es:

y
1 1 ⎛ y-μ ⎞
2

∫ σ.
- ⎜ ⎟
F(y) = e 2⎝ σ ⎠ dy
-∞ 2π

Como para cada valor de μ y σ habría que tener una tablas con todas las
áreas a la izquierda, lo que se hace es tipificar la variable y calcular el área de la
normal tipificada. "Tipificar" o "estandarizar" una variable significa restar su valor
medio y dividirla por la desviación típica. Así,

⎛Y - μ a - μ ⎞
P(Y ≤ a) = P⎜ ≤ ⎟
⎝ σ σ ⎠

Y -μ
y la variable tiene una distribución N(0;1) , por lo tanto:
σ

⎛ a-μ⎞ ⎛a-μ⎞
P(Y ≤ a) = P⎜ N(0;1) ≤ ⎟ = φ⎜ ⎟
⎝ σ ⎠ ⎝ σ ⎠

yα expresa el valor de Y que deja a su derecha un área de α , y la función φ( z ) es


la función de distribución de la normal N(0;1) en el punto z.

Actividad 6.4:
• De una variable aleatoria normal de media 15 y desviación típica 1.5, calcular
las siguientes probabilidades:
ƒ P(Y<16)
ƒ P(Y>12.5)
ƒ P(12<Y<17)

-165-
6. Principales Distribuciones Discretas

La combinación lineal de un conjunto de variables normales e independientes, es a


su vez otra distribución normal. Esto es, si X 1 , X 2 ,..., X n son v.a. normales
Xi ≡ N(μi ; σi) , e independientes,

Y = a1 X 1 + a 2 X 2 + ....+ a n X n

entonces Y sigue una distribución normal con

μ y = a1 μ 1 + a 2 μ 2 + ... + a n μ n
2 2 2 2 2 2 2
D (Y) = a1 σ 1 + a 2 σ 2 + ....+ a n σ n

6.3.3. Teorema central del límite

Si Y es una suma de n variables aleatorias independientes que satisfacen ciertas


condiciones generales, entonces para n suficientemente grande, Y se distribuye
según una v.a. normal.

Más concretamente, el teorema central del límite dice que si X 1 , X 2 ,... X n es


una secuencia de n v.a. independientes con E( X i ) = μ i y D2 ( X i ) = σ i , y
Y = X 1 + X 2 + ...+ X n , entonces la suma tipificada

Y - ∑ μi
Sn = n

∑σ
i=1
2
i

converge a una distribución normal N(0;1) .

Cada X i representa una aportación a la suma Y, la cual es de pequeña


importancia en relación a las demás, pero la suma de muchos factores de pequeña
importancia cada uno de ellos, da lugar a la distribución normal.

Un caso particular del teorema central del límite es cuando todas las variables
aleatorias son independientes y tienen la misma distribución. Esta propiedad se
recoge como el Teorema de Lindenberg-Levy.

Dicho teorema dice que para una sucesión de variables aleatorias

-166-
6. Principales Distribuciones Continuas

independientes X 1 , X 2 ,..., X n , la suma tipificada converge a una distribución normal


N(0;1).

De esta forma, si E(Xi)=μ y D2(Xi)=σ2, la media y la varianza de


Y=X1+X2+···+Xn es:

E(Y)= E[ X 1 + X 2 + ...+ X n ] = μ 1 + μ 2 + ...+ μ n


2 2 2
D (Y) = D ( X 1 + X 2 + ...+ X n ) = n σ
D(Y) = σ n
De aquí que:
Y - nμ
Sn =
σ n
converge a una N(0;1).

Aproximación de la binomial a la normal

Hemos visto que la v.a. binomial se puede considerar como la suma de n variables
aleatorias dicotómicas D(p) cada una de ellas con igual distribución. En
consecuencia, si n → ∞ , entonces podemos aplicar el teorema de Lindenberg-Levy,
y la suma tipificada converge a una distribución normal N(0;1).

De esta forma

Y ≡ B(n, p) Y = X 1 + X 2 + ....+ X n
X i ≡ D(p) E( X i ) = p D ( X i ) = pq
2

de donde E ( Y ) = np y D 2 ( Y ) = npq por lo que


Y - np
Sn = → N(0;1)
npq
Ello equivale a decir que:

B(n, p) - - - - - - - - - - > N(np; npq )

La aproximación a la normal es bastante buena cuando se dan las siguientes


condiciones:

1) n > 30 .

-167-
6. Principales Distribuciones Discretas

2) 0 ,1 < p < 0 ,9
3) n· p ≥ 5

Distribución Binomial

0,4
B(10,0’1)
B(40,0’2)
0,3
PX(x)
0,2

0,1

0
0 10 20
x

Figura 6. 7. Aproximación de la Binomial a la Normal

Aproximación de la Poisson a la normal

La distribución de Poisson de parámetro λ , por su propiedad aditiva, se


puede considerar como la suma de λ variables independientes de parámetro "1", y
en consecuencia también podemos aplicar el teorema de Lindenberg-Levy. De este
modo:

Y ≡ PS( λ ) ; Y = X 1 + X 2 + ... X λ
X i ≡ PS(1) ; E( X i ) = 1 ; D ( X i ) = 1
2

cuando λ → ∞
Y - λ ·1 y-λ
Sn = = → N(0;1)
1· λ λ
lo cual es equivalente a

PS( λ ) - - - - - - - - - -- > N( λ , λ )

La aproximación es bastante buena a partir de λ > 5 .

-168-
6. Principales Distribuciones Continuas

Distribución de Poisson

0,3
Ps(10)
0,25 Ps(2)
0,2
PX(x)
0,15
0,1

0,05
0
0 5 10 15 20 25

Figura 6. 8. Aproximación de la Poisson a la Normal

Corrección por continuidad

Al aproximar la distribución binomial o la de Poisson a una normal, estamos pasando


de una variable discreta a otra continua, y al calcular probabilidades se comete un
error que puede ser apreciable cuando np o bien λ están entre 5 y 25. Cuando np o
bien λ son elevados, el error cometido no es muy importante.

Por ejemplo, supongamos que X sigue una distribución de Poisson de


parámetro λ=8, y nos piden calcular la probabilidad P(X>10). Aplicando la distribución
de Poisson,

10
e−8 ·8 c
P( X > 10 ) = 1 − P( X ≤ 10 ) = 1 − ∑ = 1 − 0 ,8159 = 0 ,1841
c =0 c!

Mediante la aproximación a la normal es,


⎛ 10 − 8 ⎞
P( X > 10 ) = P⎜ Z ≥ ⎟ = P( Z ≥ 0 ,7071 ) = 0 ,2398
⎝ 8 ⎠
La diferencia con el valor exacto de la Poisson es muy apreciable.

Gráficamente es,

-169-
6. Principales Distribuciones Discretas

Figura 6. 9. Corrección por continuidad

El error sería menor si al efectuar la aproximación a la variable continua, en


lugar de calcular el área a la derecha de 10, tomáramos el área a la derecha de 10,5,
y así el cálculo es,
⎛ 10,5 − 8 ⎞
P( X > 10) = P( X ≥ 10,5) = P⎜⎜ Z ≥ ⎟⎟ = P( Z ≥ 0,8839) = 0,1884
⎝ 8 ⎠

Y esto es mucho mejor aproximación al valor exacto de 0,1841 que sin hacer
esta corrección por continuidad.

De esta forma, si el área pedida hubiera sido,


P (a < X < b)

Al pasar a una variable continua, y teniendo en cuenta que las desigualdades


puede ser estrictas o no, para el caso anterior la corrección por continuidad es,
P ( a + 0,5 ≤ X ≤ b − 0,5)

Gráficamente es,

-170-
6. Principales Distribuciones Continuas

Figura 6. 10. Corrección por continuidad

6.4. LA DISTRIBUCIÓN NORMAL BIDIMENSIONAL

r
Para una variable aleatoria n-dimensional y la función de densidad conjunta de la
normal general es:

r 1 1 r r r r
- (y - μ )’ V -1(y - μ )
f(y) = e2
( n
)
2π | det V |
1/2

r
y en el caso de dos dimensiones, el vector de medias μ es:
μ 1 = E( y 1 ) = b1
μ 2 = E( y 2 ) = b 2
y la matriz V de varianzas-covarianzas es:
⎡σ 11 σ 12⎤
V=⎢ ⎥
⎢⎣σ 12 σ 22⎥⎦

Calculando la inversa de V y el determinante de V , la función de densidad


bidimensional es:

⎧ ⎡⎛ y - μ ⎞2 ⎛ y - μ ⎞⎛ y - μ ⎞ ⎛ y - μ ⎞ ⎤ ⎫
2
1 ⎪
⎨-
1
⎢ ⎜ 1 1 ⎟ - 2 ρ ⎜ 1 1 ⎟ ⎜ 2 2 ⎟+⎜ 2 2 ⎟ ⎥ ⎪⎬
f( y 1 , y 2 ) = e ⎜
⎪⎩ 2(1 - ρ ) ⎢⎣ ⎝ σ 1 ⎠
2 ⎟ ⎜ ⎟ ⎜ ⎟ ⎜ ⎟
⎝ σ 1 ⎠ ⎝ σ 2 ⎠ ⎝ σ 2 ⎠ ⎥⎦ ⎪⎭
2π σ 1 σ 2 1 - ρ 2

-171-
6. Principales Distribuciones Discretas

Si ρ = 0 la función de densidad conjunta se puede expresar como producto


de funciones de densidad marginales y de ahí que y1 e y2 sean independientes. Esta
implicación solamente se cumple para las variables normales.
Lo anterior equivale a decir que si la matriz de varianzas-covarianzas tiene
todos sus elementos nulos excepto en la diagonal, todas las marginales son
independientes entre si.

f(y1,y2)

y2

y1

Figura 6. 11. Distribución normal bidimensional

Distribuciones marginales

Las distribuciones marginales siguen otra distribución normal, es decir,

Y 1 ≡ N( μ 1 ;σ 1 ) e Y 2 ≡ N( μ 2 ,σ 2 )

Hay que pensar que la proyección de la campana de Gauss sobre cualquiera


de los planos de Y 1 Y 2 define otra campana de Gauss.

Distribuciones condicionales

Dada la campana de Gauss en tres dimensiones, si efectuamos un corte infinitesimal,


la forma que tiene la distribución de masas es otra campana de Gauss. La función de
densidad condicional de Y 2 sabiendo un valor de y1 es:

-172-
6. Principales Distribuciones Continuas

f( y 2 , y1 )
f c ( y 2 / y1 ) =
f( y1 )
que efectuando las correspondientes operaciones y agrupando términos es:

⎧ ⎛ ⎛ σ ⎞⎞ ⎫
2

⎪ ⎜ y 2 - ⎜⎜ μ 2 + ρ 2
( y1 - μ 1 ) ⎟⎟ ⎟ ⎪
1 ⎪ 1⎜ ⎝ σ1 ⎠⎟ ⎪
f c ( y 2 / y1 ) = exp ⎨- ⎜ ⎟⎬
⎪ 2⎜
2 2
σ2 1- ρ 2π σ2 1- ρ ⎟⎪
⎪ ⎜⎝ ⎟⎪
⎠⎭

En consecuencia, la distribución condicional es otra normal,

⎛ σ 2 ( y - ); 2⎞
Y 2 / y 1 ≡ N ⎜⎜ μ 2 + ρ 1 μ1 σ 2 1 - ρ ⎟

⎝ σ1 ⎠

Lógicamente si ρ = 0 queda la distribución marginal de y2 .

Lo mismo se puede decir de la distribución condicional de Y 1 dado un valor de


y2 :
⎛ σ1 2⎞
Y 1 / y 2 ≡ N ⎜⎜ μ 1 + ρ ( y 2 - μ 2 );σ 1 1 - ρ ⎟⎟
⎝ σ2 ⎠

sin más que intercambiar los índices.

Todas las distribuciones condicionales tienen la misma desviación típica al no


depender ésta del valor y condicionante.

-173-
6. Principales Distribuciones Discretas

f(y1,y2)

y2

y1

Figura 6. 12. Distribución normal bidimensional con correlación de 0.6

f(y2 / y1) y2

E(Y2 / y1)

y1

Figura 6.12. Distribución condicional de Y2 dado y1.

-174-
6. Principales Distribuciones Continuas

f(y1 / y2) y2

E(y1/ y2)

y1
Figura 6.13. Distribución condicional de Y1 dado y2

6.5. PROBLEMAS PROPUESTOS

Distribución uniforme
6.5.1. Se ha desarrollado un programa de simulación para una determinada
investigación que tarda en ejecutarse entre 10 y 30 segundos, siguiendo una
distribución uniforme. ¿Qué número máximo de simulaciones se pueden hacer
para que la probabilidad de tardar más de 45 minutos sea inferior a 1.5% ?

Solución: 127

6.5.2. La venta diaria de una fábrica de montaje de ordenadores se adapta a


una distribución uniforme entre 20 y 40 unidades.

a) Después de transcurridos 182 días de venta, ¿cuál es la probabilidad de


haber vendido más de 5.600 ordenadores, suponiendo las ventas
independientes de un día para otro?.
b) ¿Cuántos días de venta debemos considerar para asegurar, con un 67% de
probabilidad, la venta de más de 6.000 unidades?

Solución: a) 0.036 b) más de 202 días

6.5.3. El tiempo que tarda un programa en ejecutar un determinado


procedimiento sigue un modelo uniforme de 0 a 12 milisegundos. Calcula:

-175-
6. Principales Distribuciones Discretas

a) La proporción de ejecuciones superiores a 5 milisegundos.


b) Aplicando la función de densidad, el primer y tercer cuartil.

Solución: a) 0.5833 b) 3 y 9

Distribución exponencial

6.5.4. La distribución exponencial se utiliza a menudo para modelizar la


duración de un sistema. En este caso, la variable X indica el tiempo que funciona
el sistema antes de fallar. Si la duración de un sistema, en años, sigue una
distribución exponencial de media E(X)=6 meses:

a) ¿cuál será la función de densidad de la variable aleatoria X?


b) ¿Y la desviación típica?
c) ¿cuál será la probabilidad de que el sistema funcione por lo menos durante 1
año?

Solución: b) σ=1/2 c) 0.1353

6.5.5. Si el tiempo de vida de una máquina sigue una distribución exponencial,


siendo el tiempo medio entre fallos (MTBF) de 200 horas ¿Cual es la
probabilidad de que transcurran más de 200 horas sin que se produzca una
avería?

Solución: 0'37

6.5.6. Se ha comprobado que la vida de un diseño de un sistema informático


sigue una distribución exponencial con media de 8 años (sin que se modifique
substancialmente el diseño). Se pide:

a) Calcular la probabilidad de que un diseño tenga una vida entre 3 y 12 años.


b) La probabilidad de que un diseño que ha vivido sin modificarse más de 10
años, perdure 15 años más.

Solución: a) 0,47 b) 0,15335

6.5.7. Una empresa de fabricación de carcasas de ordenador, tiene tres plantas


de proceso, y todas reciben planchas de metal para cortar y confeccionar las
carcasas (en kg.). La cantidad de Kg. de plancha de metal que puede procesar
una planta en un día se puede representar mediante una función exponencial
con un promedio de 4 (en miles de Kg.), para cada una de las tres plantas. Si las
plantas trabajan de forma independiente, calcular la probabilidad de que sean
exactamente dos de las tres plantas las que procesen más de 4 (miles de Kg.) en
-176-
6. Principales Distribuciones Continuas

un día determinado.

Solución: 0.26

6.5.8. La duración X de unos componentes electrónicos fluctúa aleatoriamente,


verificándose que Prob(X>x)= e-λx. Se sabe que las componentes duran en
promedio 400 horas de funcionamiento. ¿Qué porcentajes de las componentes
duran más de 400 horas?

Solución: 0.37

6.5.9. La probabilidad de que la vida de unos componentes electrónicos sea


superior a t, decrece exponencialmente a medida que aumenta dicho parámetro,
fluctuando aleatoriamente, verificándose que P( V > t )=e -λt. Se sabe que en el
50% de los casos la vida no sobrepasa 100 horas de funcionamiento.

Calcular la probabilidad de que con dos componentes, la vida del conjunto


sobrepase 100 horas:

a) Situados en paralelo.
b) Situados en serie.

Solución: a) 0.75 b) 0.25

6.5.10. En el servicio técnico de mantenimiento y reparación de una compañía


de ordenadores, el tiempo en horas que transcurre entre dos avisos consecutivos
de avería sigue una distribución exponencial con media de un cuarto de hora, en
cualquier momento del día. Se pide :

a) Probabilidad de que si a las diez y media se recibe una llamada de aviso, la


próxima se reciba después de las 11h.
b) ¿Cuál es el número máximo de avisos que se recibirán entre las once y media
y las trece horas con una probabilidad del 98%?

Solución: a) 0,1353 b) Aprox. 11 avisos.

6.5.11. El personal de una empresa de ingeniería usa un terminal para realizar


cálculos técnicos. El tiempo que cada técnico emplea en una sesión es en
promedio 20 minutos. (Asumiendo que dicho tiempo sigue una distribución
exponencial con f ( x ) = λ·e − λx ;x>0).

a) Calcular la probabilidad de que un técnico emplee menos de 20 minutos en su


sesión.
-177-
6. Principales Distribuciones Discretas

b) Cuando un técnico va a usar el terminal, encuentra que está ocupado por otro
que lleva ya media hora. ¿Cuál es la probabilidad de que tenga que esperar
más de 10 minutos antes de que quede libre?
c) Sabiendo que una mañana deben realizarse 10 sesiones en el terminal (cada
una de las cuales empieza nada más terminar la anterior), calcular
aproximadamente la probabilidad de que todas ellas puedan finalizarse a lo
largo de las 4 horas de la jornada de la mañana.

Solución: a) 0.6321 b) P(X>10) c) 0.7364

6.5.12. Un dispositivo está formado por dos componentes electrónicos iguales A


y B montados en serie. La duración en horas de funcionamiento de dichos
componentes fluctúa aleatoriamente siguiendo una distribución exponencial de
parámetro z. Si por motivos de seguridad es necesario que el dispositivo tenga
una fiabilidad del 99.4% a las t horas de funcionamiento, ¿qué fiabilidad se
requiere a las t horas para cada uno de los dos componentes?

Solución: 0.997

6.5.13. La duración de un determinado componente electrónico sigue una


distribución exponencial de media 1000 horas. Un componente de este tipo lleva
funcionando 300 horas. ¿Cuál es la probabilidad de que siga funcionando
durante más de 700 horas adicionales?

Solución: 0.496

Distribución Normal

6.5.14. Si Z es una variable aleatoria N(0,1), hallar:

a) P(Z ≤ 1.85)
b) P(Z ≤-1.85)
c) P(1 < Z ≤ 1.85)
d) P(-1.85 < Z ≤ -1)
e) P(-1 < Z ≤ 1.85)

Solución: a) 0.9678 b) 0.0322 c) 0.1265 d) 0.1265 e) 0.8091

6.5.15. Sea X una variable N(5,2). Calcular:

a) P(1 < X ≤8)


-178-
6. Principales Distribuciones Continuas

b) P(X ≤1)
c) P(X ≤ -1)

Solución: a) 0.9104 b) 0.0228 c) 0.00135.

6.5.16. Los límites medios de tolerancia de un interruptor son 40±0,5 amperios.


Si un interruptor se dispara a una intensidad menor de 39,5 o mayor de 40,5 se
considera defectuoso. Si los puntos de ruptura de los interruptores de una partida
se distribuyen normalmente con media 39,5 y desviación típica 0,2, ¿cuál será el
porcentaje de interruptores defectuosos en esa partida?

Solución: 0,5

6.5.17. En la producción de piezas para un motor de combustión interna, los


pesos presentan bastante dispersión. Una dispersión demasiado grande
provoca un mal funcionamiento. Supongamos que un fabricante concreto desea
rechazar el 3% de los cojinetes de menor peso y el 3% de los cojinetes de mayor
peso. Si el peso medio es 4,72 Kg, la desviación típica es 0,006 kg y la
distribución de los pesos es normal, determinar el peso máximo y el peso mínimo
para que una pieza sea aceptada.

Solución: 4.7087 y 4.7313

6.5.18. Se admite que los pesos, expresados en kilogramos, de los jóvenes


varones de un cierto grupo, se distribuyen según una ley normal N(69, 6). Se
desea poder afirmar que la probabilidad de que el peso X de un joven, tomado al
azar de ese grupo, sea mayor que una cantidad L es 0.9. Calcular L.

Solución: 61.29

6.5.19. Los coeficientes intelectuales de los alumnos de un colegio siguen la ley


normal y se sabe que P(X>1.4)=0.1056 y P(X>1)=0.4013. Calcular los
parámetros de la distribución.

Solución: N=0.9 a=0.4

6.5.20. Dada una variable aleatoria normal X tal que P(X≤15)=0.1 y


P(X≤20)=0.95, calcular:

a) P(X≤13)
b) un valor a tal que P(X≤a)=0.05
c) un valor b tal que P(X>b)=0.5.

-179-
6. Principales Distribuciones Discretas

Solución: a)0.00695 b)14.39 c)17.19

6.5.21. La señal recibida por la pantalla de un ordenador se considera apta si la


desviación del voltaje observado respecto del teórico no es mayor de 10 voltios.
Las desviaciones observadas obedecen a una ley normal de media 0 y
desviación típica 5. Calcular que porcentaje de señales recibidas por la pantalla
se consideran aptas.

Solución: 97,7%

6.5.22. En un sistema binario, la información se representa mediante señales


eléctricas (por ejemplo voltaje). Un voltaje representa el bit 0 y otro el bit 1.
Supongamos que deseamos representar los bits 0 y 1 por los voltajes 2 y 3
respectivamente. Debido a las fluctuaciones del voltaje en un circuito, la terminal
de entrada de un circuito digital no siempre recibe el voltaje destinado ya que es
frecuentemente distorsionada debido a ruidos en el canal. Muy a menudo, el
ruido se modela como una variable aleatoria distribuida normalmente y se
denomina ruido Gaussiano. Si el ruido es Gaussiano con media N=0 y desviación
típica a=0,22, y la terminal de entrada reconoce el bit 0 si el voltaje recibido es
menor de 2,6 y el bit 1 si el voltaje recibido es mayor o igual que 2,6, calcular la
probabilidad de que el receptor reconozca:

a) un 1 cuando se ha transmitido un 0
b) un 0 cuando se ha transmitido un 1.

Solución: 0.0032 0.0344

6.5.23. El tiempo medio de CPU necesario para la ejecución de una clase de


programas en un ordenador central es 2,52 minutos y la desviación típica es 0,37
minutos. Si el tiempo de ejecución se distribuye normalmente, ¿Cuál es la
probabilidad de que un programa seleccionado aleatoriamente requiera entre 2
y 4 minutos de CPU? ¿cuál es la probabilidad de que la diferencia en valor
absoluto entre el tiempo de ejecución y la media sea menor o igual que 1
minuto?

Solución: 0.92 0.9931

6.5.24. El nivel de decibelios de un escape averiado sigue una distribución


normal con media 90.4 decibelios y varianza 5.8 decibelios2 . Si se toma el valor
medio de dos medidas, en lugar de una medida única ¿cuál será su distribución?
¿qué sucede a la varianza cuando se promedian dos medidas, en lugar de tomar
una única?.

Solución: N(90'4,1'70)

-180-
6. Principales Distribuciones Continuas

6.5.25. Un ingeniero de proyectos que está colaborando en el diseño de una


refinería petroquímica. Se deben realizar cuatro actividades secuencialmente y
sin solapamiento. Las duraciones de las actividades se supone que son
variable aleatoria independientes normalmente distribuidas:

ACTIVIDAD MEDIA DESVIACIÓN TÍPICA


a 50 días 5 días
b 20 días 3 días
c 70 días 10 días
d 40 días 4 días

¿Cuál es la probabilidad de que el tiempo total necesario para que se elaboren


las cuatro actividades no supere los 200 días?

Solución: 0'9485

6.5.26. Los diámetros de los ejes fabricados para una determinada aplicación
están distribuidos normalmente con una media de 3'810 cm y una desviación
típica de 0'051. Las arandelas de los ejes tienen diámetros interiores que están
normalmente distribuidos con una media de 3'942 cm y una desviación típica de
0'025. Dados un eje y una arandela seleccionados al azar, ¿cuál es la
probabilidad de que el eje no entre en la arandela?

Solución: 0'0102

6.5.27. El peso neto de un paquete es una variable aleatoria N(20,2) y el del


envase es una variable aleatoria N(1, 0'2). Colocamos 13 de estos paquetes
sobre un soporte de madera que pesa 50 Kg. ¿Cuál es la probabilidad de que al
ponerlos en un montacargas cuya carga límite es de 300 Kg. este no arranque?

Solución: 0'9990.

6.5.28. Los diámetros de los tornillos de una caja, medidos en cm siguen una
distribución N(2,0'03) y los diámetros interiores de las tuercas de otra caja siguen
una distribución N(2'02, 0'04). Un tornillo y una tuerca ajustarán si el diámetro
interior de la tuerca es mayor que el diámetro del tornillo y la diferencia entre
estos diámetros no es mayor de 0'05 cm. Si se seleccionan al azar un tornillo y
una tuerca ¿cuál es la probabilidad de que ajusten?

Solución: 0'3811

6.5.29. En un examen de selectividad, los estudiantes del colegio A alcanzan

-181-
6. Principales Distribuciones Discretas

calificaciones que se distribuyen N(625,10) y los del colegio B alcanzan


calificaciones que se distribuyen N(600,12'25). Si 2 estudiantes del colegio A y 3
del colegio B hacen este examen ¿cuál es la probabilidad de que el promedio de
las dos calificaciones de los estudiantes del colegio A sea mayor que el promedio
de los 3 estudiantes del colegio B?

Solución: 0’9938

6.5.30. La dimensión principal de cierta pieza producida en una fábrica se


distribuye normalmente con media 150 y varianza 0,16. Se sabe que las piezas
son aceptables si la longitud se halla comprendida entre 149.2 y 150.4. Calcular
la probabilidad de que al menos el 90% de las piezas de un lote sean correctas:

a) En el caso de que el tamaño del lote sea 10.


b) En el caso de que sea 100.

Solución: a) 0.4342 b) 0.0239 (0.0178 sin aplicar la corrección por continuidad)

6.5.31. La resistencia eléctrica de las lámparas fabricadas según un determinado


proceso, se distribuye normalmente con μ=2.000 y σ=200. Dichas lámparas se
empaquetan en lotes de 100 unidades. Una lámpara se considera defectuosa si
su resistencia es inferior a 1900 y un lote se considera de baja calidad si 20 o
más lámparas son defectuosas. Calcular la probabilidad p de que un lote sea
defectuoso.

Solución: 0'993

6.5.32. Si el tiempo de vida de un componente eléctrico sigue una distribución


exponencial, siendo el tiempo medio entre fallos es de 100 horas. Calcular la
probabilidad de que transcurran más de 200 horas sin averías.

a) 0’3679
b) 0’1353
c) 0’6065
d) 0’0183

6.5.33. Una máquina fabrica piezas cuya longitud sigue una distribución Normal.
La probabilidad de que una pieza tenga una longitud mayor que 10 cm es del
6’68%, y la probabilidad de que sea menor que 5 cm es del 15’87%. Si una pieza
se considera correcta cuando su longitud se encuentra entre 3 y 12 cm. Calcular
el porcentaje de piezas defectuosas fabricadas por la máquina.

a) 0’0290
b) 0’1919
c) 0’0668

-182-
6. Principales Distribuciones Continuas

d) 0’1857

6.5.34. El peso en vacío de una bombona de butano sigue una distribución


normal de media 6 Kg y desviación típica 1 Kg. El peso del gas es una variable
normal e independiente de la anterior de media 13 Kg y desviación típica 1’5 Kg.
Si el butanero pesa 86’94 Kg y el montacargas no soporta más de 100 Kg.
Calcular la probabilidad de que el montacargas suba.

a) 0’0005
b) 0’0040
c) 0’0322
d) 0’0427

6.5.35. HIJOS DE ILUMINADA S.A. es una empresa que se dedica a producir


bombillas. En una de sus líneas se fabrican bombillas de 40 Vatios y se
introducen en paquetes de 40 bombillas. El filamento de las mismas tiene una
resistencia con distribución NORMAL N(605,1.18) ohmios, y una bombilla se
considera correcta cuando su resistencia esta situada entre los valores 607.86Ω
y 600.96Ω.¿Cuál es la probabilidad de que elegido un paquete (de 40 bombillas)
al azar, contenga 2 ó más bombillas defectuosas (por la resistencia)?

a) 0.81142
b) 0.00849
c) 0.18858
d) 0.04084

6.5.36. Disponemos de un montacargas que soporta 100 Kg, y queremos


utilizarlo para que, en un 95% de las veces, pueda subir 3 paquetes de cemento.
Para su traslado, los paquetes son colocados sobre un palet de madera. El peso
individual de cada paquete tiene una distribución normal N(20,0.5)Kg. ¿Cuál
debe ser el peso máximo del palet?

a) 37.53
b) 36.51
c) 38.57
d) 29.53

6.5.37. Una determinada máquina fabrica láminas de acero cuyo espesor sigue
una distribución normal N(0.1, 0.005) cm. La máquina se considera que funciona
mal, y por tanto se debe revisar, si al tomar una muestra, el espesor promedio de
las láminas es superior a 0.1041cm. Calcular el número de piezas que
deberemos tomar para que, cuando la máquina funcione bien, sólo tengamos
que revisarla en un 5% de las veces.

a) 9

-183-
6. Principales Distribuciones Discretas

b) 6
c) 4
d) 8

6.5.38. La media de una variable aleatoria normal que modeliza el tiempo de


ejecución de un determinado algoritmo es de 5 veces la desviación típica. Se
cumple además que P(X≤6)=0.84134. Calcular la media y la desviación típica.

Solución: 5 y 1

6.5.39. El tiempo de transmisión vía modem de un fichero con una gran cantidad
de información, que se realiza semanalmente en una empresa (45 veces al año),
se distribuye normalmente con una media de 168 seg. y una desviación típica de
5 seg. Calcular:

a) El número de veces con un tiempo de transmisión entre 165 y 175 seg.


b) El número de veces con un tiempo de transmisión mayor que 180 seg.

Solución: a) 29 b) 0.369

6.5.40. En un multiplexor de gran potencia, se pueden establecer 4600


conexiones por minuto. El número de conexiones por minuto se ha podido
estudiar, que es una variable aleatoria que sigue una distribución de Poisson de
valor λ=4489. Calcular la probabilidad de que en un minuto el multiplexor esté
saturado de llamadas.

Solución: 0.0480

6.5.41. Una empresa de fabricación de mesas de ordenador, posee dos plantas


de producción (A y B), en la planta A, la altura de las mesas fluctúan con media
75 cm. y σ=1.2 cm, y en la planta B, la altura de las mesas fluctúan con media 77
cm. y σ=0.9 cm. Suponiendo que ambas variables se distribuyen normalmente,
determinar la probabilidad de que al seleccionar al azar una mesa de la planta A
y otra de la planta B, resulte la mesa de la planta A mas alta que la de la planta
B.

Solución: 0.0918

6.5.42. La dimensión de un determinado componente electrónico (para


incorporarlo en la placa base) fabricada por una determinada firma, exige que
esté comprendida entre 149.2 mm y 150.4 mm (fuera de estos limites hay
problemas). Se comienza a trabajar con un proveedor cuya dimensión de la
componente se distribuye normalmente con media 150 mm y varianza 0.16 mm.

-184-
6. Principales Distribuciones Continuas

Calcular la probabilidad de que al menos el 90% de los componentes de un lote


sean correctas:

a) Si el tamaño del lote es 10.


b) Si el tamaño del lote es 100.

Solución: a) 0.434 b) 0.0236

6.5.43. El tiempo medio de CPU necesario para la ejecución de una clase de


programas en un ordenador central es 2.52 minutos y la desviación típica es 0.37
minutos. Si el tiempo de ejecución se distribuye normalmente.

a) Determinar la probabilidad de que un programa seleccionado aleatoriamente


requiera entre 2 y 4 minutos de CPU.
b) Calcular la probabilidad de que la diferencia en valor absoluto entre el tiempo
de ejecución y la media sea menor o igual que 1 minuto.

Solución: a) 0.92 b) 0.9931

6.5.44. La variable X se distribuye normalmente con media 200. Se sabe que la


probabilidad de que X sea superior a 250 es 0.2. Calcular cuántos valores
independientes de X deben observarse para tener una probabilidad mayor que
0.5 de que el mayor de ellos sea superior a 300.

Solución: 15 (clave: P(xmax>300)=1-P(Todos<300))

6.5.45. Unas 180 personas matriculadas en la universidad están en una cola


para pagar las matrículas de los cursos; el importe no es el mismo en cada caso
pero se estima una media por persona de 85.000 ptas. y una desviación de
12.300 ptas. ¿Qué probabilidad hay de que el cajero haya recibido en total más
de 15 millones de ptas.?

Solución: 0.9656

6.5.46. Se calcula que durante el próximo mes de enero las ventas de una
empresa de ordenadores bajarán entre 350 y 610 millones de ptas., con una
probabilidad del 80%, siendo la cifra más probable de disminución de ventas los
480 millones de pts. ¿cuál es la probabilidad de que las ventas disminuyan
menos de 500 millones de pts. aceptando un modelo de distribución
aproximadamente normal?

Solución: 0.5792

6.5.47. Se ha advertido que el número de errores al escribir por primera vez un


-185-
6. Principales Distribuciones Discretas

programa sigue una distribución de Poisson de media 0.8 errores por página del
listado. Calcula la probabilidad de que:

a) Haya algún error en una página.


b) En un procedimiento de diez páginas haya más de diez errores.
c) En las 500 páginas de que consta el programa haya menos de 350 errores.

Solución: a) 0.55067 b) 0.18411 c) 0.005868

6.5.48. Se ha calculado, de acuerdo con experiencias anteriores, que dos de


cada cinco alumnos matriculados en una determinada asignatura, no acudirán a
realizar el examen. Teniendo en cuenta que los alumnos son convocados en
distintas aulas de examen, ¿a cuántos debe convocarse en un aula, con
capacidad para 120 personas, para poder asegurar espacio para todos los que
se presenten, con una probabilidad de 0.975?

Solución: 180 alumnos

6.5.49. La resistencia de un montacargas de una fábrica es de 10 Tm.; en el


mismo se cargan paquetes de peso aleatorio distribuido uniformemente entre 40
y 60 Kg. Determinar el número máximo de paquetes que pueden cargarse
manteniendo la probabilidad de rebasar la carga crítica inferior al 1 por mil.

Solución: 195 paquetes.

6.5.50. El número de placas base correctas que se elaboran en una fábrica de


componentes de ordenador cuadruplica al de placas defectuosas. Se pide:

a) La probabilidad de que de 200 placas producidas en un día más de 40 y


menos de 70 sean defectuosas.
b) Las placas que deben producirse en un día para, con un 90% de probabilidad,
asegurar más de 100 placas correctas con el fin de satisfacer la demanda.

Solución: a) 0.464 b) 133 piezas

6.5.51. El peso de las naranjas que llegan a una envasadora se distribuye


normalmente con media 150 gr. y desviación típica 30 gr. Calcular el número
mínimo de naranjas que es necesario introducir en una bolsa para que la
probabilidad de que ésta pese menos de 5 Kg. sea inferior al 1%.

Solución: 37 naranjas

6.5.52. En una población normal de media 20 y desviación típica 4, ¿a qué

-186-
6. Principales Distribuciones Continuas

distancia de la media se encuentra?:

a) el segundo cuartil.
b) el tercer cuartil.
c) el valor que dista 1.5 veces el Intervalo intercuartílico por encima del tercer
cuartil.

Solución: a) 0 b) 2.7 c) 30.8

6.5.53. Un fabricante exige a sus proveedores de placas de montaje que un


determinado orificio de las mismas tenga un diámetro comprendido entre 96 y
102 micras, debiendo desecharse las que no verifiquen esta condición.
Si un proveedor sabe que las placas que produce son de una calidad tal, que el
10% de ellas tienen el orificio con un diámetro mayor de 100 micras y que el 5%
de las placas lo tienen inferior a 97 micras, y suponiendo que dicho diámetro se
distribuye normalmente, determinar el porcentaje de placas que deben ser
desechadas por el proveedor. ¿Qué debería hacer éste para disminuir dicho
porcentaje?.

Solución: 0.6%

6.5.54. Un determinado microprocesador tiene una probabilidad de error de


cálculo de una entre un millón. Para un determinado proceso se realizan
4.800.000 operaciones y el efecto de cada error es restar una décima de unidad
de su valor correcto. ¿Cuál es la probabilidad de que el número obtenido sea
exactamente una unidad por debajo del valor real?

Solución: 0.015

6.5.55. Por un punto de una carretera pasa en promedio un coche cada 20


segundos en un sentido y un coche cada 15 segundos en el sentido contrario.

a) ¿Qué tiempo transcurrirá en promedio entre el paso por el punto de dos


coches consecutivos, sea cual sea el sentido en el que circulen? (Indicar con
precisión las hipótesis realizadas para responder a esta cuestión.)
b) t segundos después del paso de un coche llega por un lateral a dicho punto
un peatón que desea cruzar. ¿Cómo se distribuirá la variable aleatoria "tiempo
desde que llega hasta que pasa un coche"? Justificar la respuesta.
c) Si el peatón necesita disponer de 10 segundos sin que pase ningún vehículo
para poder cruzar ¿cuál es la probabilidad de que pueda cruzar nada más
llegar sin tener que esperar?

Solución: a) 8.6 seg c) 0.31

-187-
6. Principales Distribuciones Discretas

6.5.56. Una industria dispone de dos envasadoras de un producto químico. La


primera dosifica el 75% de la producción y la segunda el resto. Se sabe que el
peso de producto por envase es una variable N(170,7) en la primera envasadora
y N(176,7) en la segunda. Se consideran como incorrectos aquellos paquetes
cuyo contenido neto es superior a 180 gr. Se pide:

a) Calcular la probabilidad que tiene cada envasadora de producir una paquete


incorrecto
b) Si se elige un paquete al azar y resulta ser incorrecto, hallar la probabilidad de
que haya sido envasado por la segunda máquina
c) Si se eligen 5 paquetes al azar, calcular la probabilidad de que 2 de ellos
hayan sido envasados por la 1ª máquina.

Solución: a) 0.0764 y 0.2843 b) 0.55 c) 0.0330

Distribuciones bidimensionales

6.5.57. Un sistema electrónico contiene cuatro componentes. Sea Xj el tiempo


transcurrido hasta que falla la componente j (j=1,2,3,4). Suponemos que X1,X2,X3
y X4 son variable aleatoria independientes y cada una de ellas tiene como
función de distribución F. El sistema funciona mientras funcione el componente 1
y al menos uno de los otros tres componentes. Determinar la función de
distribución de la variable aleatoria X que indica el tiempo de duración del
sistema.

Solución: FX(t)=1-(1-F(t))(1-F(t)3) t>0

6.5.58. Dos sistemas de ignición son utilizados en un satélite, como un


dispositivo redundante para ayudar a garantizar la ignición. Si ambos sistemas
poseen tiempos de supervivencia distribuidos exponencialmente, el primero con
una media de 3 años y el segundo con una media de 4 años, ¿cuál es la
probabilidad de que al menos uno sobreviva 2 años?.

Solución: 0'8086.

6.5.59. Sea X la temperatura en ºF e Y la cantidad de lluvia en pulgadas/acre de


una ciudad seleccionada aleatoriamente. Se sabe que:

Cov(X,Y)=8'12 Var(X)=78'24 Var(Y)=2'17

-188-
6. Principales Distribuciones Continuas

Calcular el coeficiente de correlación existente entre estas dos variables, ¿qué


conclusiones se pueden obtener?
Si hubiéramos medido la temperatura en grados Celsius y la lluvia en litros/m2,
¿sería diferente el valor de la covarianza? ¿y el valor del coeficiente de
correlación?.

Solución: 0'623

6.5.60. Sean X1, X2 y X3 tres variables aleatorias independientes e idénticamente


distribuidas. Cada una de ellas tiene una distribución uniforme sobre el intervalo
(0,1). Determinar el valor de E[(X1-2X2+X3)2].

Solución: 0.5

6.5.61. Sean X e Y dos variable aleatoria tales que Var(X)=9 Var(Y)=4 y


cov(X,Y)=-1. Calcular:

a) Var(X+Y)
b) Var(X-3Y+4).

Solución: a) 11 b) 51

6.5.62. Sean X e Y dos variables aleatorias, que pueden ser dependientes, tales
que Var(X)=Var(Y). Demostrar que la covarianza de las variables aleatorias X+Y
y X-Y es nula.

6.5.63. El coste de fabricar un pequeña pieza para una máquina de corte es una
variable aleatoria (X) con función de densidad f(x) = x/2 - 5 en el intervalo [10,12]
y nula en el resto. El precio de venta es otra variable aleatoria (Y), que se puede
calcular en función del coste de fabricación, según la expresión: precio de venta
(Y) = coste(x) + 10% coste(x). Calcular la probabilidad de que el precio de venta
de una pieza sea inferior 13.

a) 0.8265
b) 0.9649
c) 0.7641
d) 0.5153

6.5.64. La recta de regresión mínimo cuadrática de Y/X

a) Es el lugar geométrico de los valores medios de Y/Xi.


b) Es siempre la mejor función de predicción de los valores de Y a partir de los
-189-
6. Principales Distribuciones Discretas

de X.
c) Pasa siempre por el punto medio de la distribución de (X,Y)
d) Tiene pendiente negativa si el coeficiente de correlación entre X e Y es
próximo a cero.

6.5.65. Un ingeniero que está diseñando la cabina de un avión, considera que el


brazo del piloto alcanza una longitud X y su altura sentado es Y. Estas variables
siguen una distribución normal bivariante siendo μX=88'9 μy=91'44 σX=4'06
σY=3'3 ρ=0'8 . Hallar la probabilidad de que un piloto seleccionado al azar:

a) alcance con el brazo una longitud de más de 96'52


b) tenga sentado una altura de más de 96'52.

Solución: a) 0'0307 b) 0'0618

6.5.66. Una empresa grande de ingeniería y arquitectura pasa un conjunto de


tests a los aspirantes a entrar en la sección de diseño. Los índices importantes
son la destreza manual X y la visión espacial Y que se consideran juntos. Datos
anteriores sugieren que estas dos variables tienen una distribución normal
bivariante con parámetros μX=75, μY=60, σX=10, σY=15 y ρ=0,6.

a) Obtener la distribución condicional de la puntuación conseguida en visión


espacial, Y, para una destreza manual baja X=50, y para una destreza manual
alta X=90.

b) Si se requiere una puntuación mínima en visión espacial de 80 para ser


aceptado ¿cuál es la probabilidad de que sea aceptado un aspirante con una
puntuación en destreza manual de 50? ¿y con una puntuación de 90? ¿existe
alguna relación entre las variables X e Y?.

Solución: a) N(37'5,12) N(73'5,12) b) 2x10-4 0'2946

6.5.67. Dado un lote específico de engranajes, se cree que la duración del


tratamiento de calor a que ha sido sometido, X, y la profundidad del
endurecimiento Y tienen una distribución normal bivariante con μX =18 segundos,
μY =7'87 mm, σX = 4'8, σY = 2'03 y ρ = 0'87 .

a) Obtener la recta de regresión E(Y/X=x) que proporciona el valor esperado de


la distribución condicional de la profundidad del endurecimiento para los
distintos tiempos.
b) Obtener la distribución condicional del endurecimiento para una duración
del tratamiento de 15 segundos.
c) Si X=15, ¿cuál es la probabilidad de que la profundidad del endurecimiento

-190-
6. Principales Distribuciones Continuas

esté entre 5'84 y 9'90?


d) Si la profundidad del endurecimiento es de 7,62, ¿cuál es el valor esperado de
la duración del tratamiento?

Solución: a) E(Y/X=x)=7'87+0'3679(x-18); b) N(6'76,1); c) 0'8204; d) 17'44

6.5.68. Se supone que la resistencia a la rotura de las soldaduras, Y, y el


diámetro de las soldaduras, X, siguen una distribución normal bivariante. El
modelo tiene los parámetros μX=0'201 pulgadas, μY=2240 p.s.i., σX=0'046,
σy=342 y ρ=0'75.
a) Obtener E(Y/X=x)
b) si se observa un diámetro de 0'184 ¿cuál es la distribución condicional de la
resistencia a la rotura?
c) Si X=0'184, ¿cuál es la probabilidad de que la resistencia a la rotura sea
mayor de 1500 p.s.i.?

Solución: a) E(Y/X=x)=2240+5576'08(x-0'201) b) N(2145'20,226'211) c) 0'9978

6.5.69. En los mensajes que se transmiten en una red de ordenadores se tiene


constatado que la Carga del Sistema (X) y el Tiempo de Respuesta (Y) fluctúan
aleatoriamente con media mx = 20.5 trabajos y my = 5.2 seg., desviaciones típicas
σx =5.7 trabajos y σy =1.3 seg. y coeficiente de correlación r=0.85. ¿Entre que
limites fluctuara el Tiempo de Respuesta del 95% de los mensajes cuando hay
una carga de 22 trabajos?

Solución: 4.125 y 6.865

6.5.70. En una red de ordenadores se ha realizado un estudio de regresión


comprobándose que la relación entre la carga del sistema y el tiempo de
respuesta de cualquier consulta, se ajusta mediante la recta
TIEMPO_RESPUESTA en función de la CARGA_SISTEMA, con un coeficiente
de correlación de 0.9, y se sabe que cuando la carga del sistema es de 6
trabajos, el tiempo medio de respuesta de cualquier consulta fluctúa en el 95%
de los casos entre 15 y 35 segundos. ¿ cuánto vale la desviación típica de la
variable TIEMPO_RESPUESTA?

Solución: 11.47

6.6. PROBLEMAS Y CUESTIONES DE EXÁMENES

6.6.1. Se sabe que el tiempo de vida de un determinado componente electrónico


sigue una distribución exponencial de media 125 minutos. Se pide:

-191-
6. Principales Distribuciones Discretas

a) Probabilidad de que el componente dure más de 3 horas. (0.5 puntos)

b) Sabiendo que el componente estaba funcionando a las 3 horas, calcular la


probabilidad de que siga funcionando después de 4 horas. (0.5 puntos)

c) Si colocamos 2 componentes en serie, ¿cuál es la probabilidad de que la vida


del sistema formado por estos dos componentes dure más de 100 minutos?
Considerar componentes independientes. (1 punto)

d) Cuando falla un componente lo sustituimos por otro. Si al final hemos utilizado


50 componentes, ¿cuál es la probabilidad de que la suma de las vidas de los 50
componentes esté entre 100 horas y 110 horas? (1 punto)

SOLUCIÓN:

La vida del componente sigue una distribución exponencial X ≡ EXP( λ = 1 / 125 = 0,008 )

a) La probabilidad de que dure más de 3 horas es,

P( X > 180 ) = e − λ·180 = e −0,008·180 = e −1,44 = 0,2369

b) Sabiendo que a los 180 minutos ya estaba funcionando, la probabilidad de


que dure más de 240 minutos es,

P( X > 240 ∩ X > 180 ) P( X > 240 ) e − λ·240


P( X > 240 / X > 180 ) = = = = e − λ·60 = e − 0,008·60 = e − 0,48 = 0,6188
P( X > 180 ) P( X > 180) e − λ·180

c) Para el sistema en serie, para que la vida del sistema dure más de 100
minutos se debe cumplir que los dos componentes duren más de 100
minutos, y como son componentes independientes, la probabilidad es,

P( X > 100) = P( X1 > 100 ∩ X 2 > 100) = P( X1> 100)·P( X 2 > 100) = e −λ·100 ·e −λ·100 = e −2·λ·100 = e −2·0,008·100 =
e −1,6 = 0,2019

d) De acuerdo con el teorema central del límite, la suma de variables


independientes y con la misma distribución sigue una normal de media la
suma de las medias y varianza la suma de varianzas. Esto es,

S = X1 + X 2 + ... + X 50
1
E(S ) = E( X1 + X 2 + ... + X 50 ) = E( X1 ) + E( X 2 ) + ...E( X 50 ) = 50· = 50·125 = 6250 min utos
λ
1 1
D2 (S) = D 2 ( X1 + X 2 + ... + X50 ) = D2 ( X1 ) + D2 ( X 2 ) + ... + D 2 ( X50 ) = 50· 2 = 50· = 781250 min
λ 0,0082

-192-
6. Principales Distribuciones Continuas

D(S ) = 883,88 min utos

La probabilidad que nos piden es,


⎛ 6600− 6250⎞ ⎛ 6000− 6250⎞
P(100·60 < S < 110·60) = P(6000< S < 6600) = φ⎜ ⎟ − φ⎜ ⎟=
⎝ 883,88 ⎠ ⎝ 883,88 ⎠
= φ(0,396) − φ(−0,283) = 0,6539− 0,3886= 0,2653

6.6.2. En el envasado de una marca de frutos secos, por normativa uno de los
parámetros a controlar es el peso de cada paquete. Esta variable sigue una
distribución Normal de media 110 g y de desviación típica 2 g.

a. Calcular la probabilidad de que un paquete pese más de 113 g. (0,5 puntos)

Llamando X al peso por cada paquete y siguiendo esta una distribución del tipo
X~N(110,2), la probabilidad pedida es:

113 − 110
( > 113) = > = ( > 1,5) = 1 − ( ≤ 1,5) = 1 − 0,9332
2
= ,

b. De acuerdo a la normativa para el control del contenido efectivo de los


productos alimenticios envasados, un paquete de estas características se
considera defectuoso si su contenido es inferior al 95,5% del valor nominal,
que en este caso coincide con la media. Calcular la proporción de paquetes
defectuosos, es decir, que incumplen la normativa. (1 punto)

Los paquetes que incumplirán la normativa serán aquellos que su peso sea
inferior a
− 0,045 =0,955 = 105,05. Es por ello que la probabilidad pedida será:

105,05 − 110
( < 105,05) = < =
2
= ( < −2,475) = ,

c. Estos paquetes se envasan en cajas de 40 unidades. Si una caja contiene 3 o


más paquetes defectuosos son retirados de la cadena de producción.
Determinar el porcentaje de cajas que se retiran de la cadena de envasado. (1
punto)

-193-
6. Principales Distribuciones Discretas

Se retiran aquellas caja con 3 o más paquetes defectuosos, por lo que se define
una nueva variable Y que determina el número de defectuosos en cada caja. Esta
nueva variable sigue una distribución del tipo Y~B( 40, 0,0067).
La probabilidad pedida será:

( ≥ 3) = 1 − ( ≤ 2) = 1 − ( = 0) − ( = 1) − ( = 2)
40 40
=1− 0,0067 (1 − 0,0067) − 0,0067 (1 − 0,0067)
0 1
40
− 0,0067 (1 − 0,0067) = ,
2

d. Una cadena de supermercados hace un pedido de 200 cajas de dicho


producto. Calcular la probabilidad de que en el total del pedido haya más de
10 paquetes que incumplan la normativa. (1 punto)

Definimos una nueva variable T que sume el número de defectuosas que hay en
las 200 cajas, esto es:
= + + ⋯+ , siendo Yi el número de paquetes defectuosos en la caja i,
tal y como se definió en el apartado anterior.
Esta nueva variable, por el Teorema Central del Límite, tendrá como distribución
T~ N(200·40·0,0067, 200·40·0,0067·0,9933)=N(53,6, 7,3) por lo que la
probabilidad pedida es:
10 − 53,6
( > 10) = 1 − ( ≤ 10) = 1 − ≤ = 1 − ( ≤ −5,98) ≅
7,3

e. En el proceso de control de calidad, ¿cuantas cajas por término medio han de


controlarse hasta encontrar la primera que sea defectuosa? (1 punto)

Sea S, el número de cajas a controlar antes de encontrar una defectuosa. Esta


variable sigue una distribución de tipo S~BN(1, 0,00247), por lo que en término
medio el número de cajas que tiene que controlar hasta que parezca la primera
defectuosa es:

= = 404,86 ≅ cajas habrá que controlar


.

6.6.3. El 50% de unos cartuchos de tinta para impresión duran 10 horas. Admitiendo
que la duración de los cartuchos sigue una distribución exponencial, se pide:

a) Calcular la probabilidad de que un cartucho recién instalado permita imprimir


durante más de 18 horas. (1 punto)

b) ¿Cuál es la probabilidad de que con los 20 cartuchos que vienen en una caja
podamos imprimir durante más de 300 horas. (1 punto)

-194-
6. Principales Distribuciones Continuas

Solución:

a) La función de distribución de la exponencial es Fx ( x ) = 1 − e − λx . Para x=10


1 − e − λ·10 = 0,5 y despejando el valor de λ es
ln 0,5
λ= = 0,0693
− 10
La probabilidad pedida es,
P( X > 18 ) = e − λ·18 = e −0,0693·18 = 0,2873

b) la duración total de los cartuchos es,


Y = X1 + X 2 + ... + X 20
Aplicando el teorema central del límite, la variable Y se aproxima a una normal
de media y varianza dado por,
20
1
E( Y ) = ∑E( X ) = 20·0,0693 = 288,6
i=1
i

20
1
var( Y ) = ∑ var( X ) = 20·0,0693
i=1
i 2
= 4164,51

D( Y ) = 64,5
La probabilidad pedida es,
⎛ 300 − 288,6 ⎞
P( Y > 300) = P⎜ Z ≥ ⎟ = P( Z ≥ 0,1767) = 0,4299
⎝ 64,5 ⎠

6.6.4. La vida de un componente electrónico y la temperatura del entorno siguen una


distribución normal bivariante de covarianza -30 h ºC. La vida del componente se
distribuye de forma normal, con media 100 horas y desviación típica 10. Sabemos
además que la probabilidad de que la temperatura sea superior a 30º es 0,0228 y
la de que sea superior a 20 ºC es 0,5. Se pide:

a) Calcular la probabilidad de que el componente funcione más de 100 horas si


la temperatura es de 25 ºC. (1 punto)

Solución:
como P(T>20)=0.5, la media de la temperatura será 20, y
1-f(z)=0.0228 para z=2.0, por lo tanto s=30-20/2.0=5

De modo que el vector de medias será m=(100, 20) y la matriz V será (100,-
30//-30,25). El coeficiente de correlación será entonces r=-0.6

(X|y=25)=N(100-0.6*10/5*(25-20); 10*sqrt(1-0.6²))=N(94,8)

Por lo tanto P(X>100)=1- f((100-94)/8)=1- f(0.75)=0.227

-195-
6. Principales Distribuciones Discretas

6.6.5. La flota de transporte de una empresa de distribución tiene vehículos con


motor diesel y vehículos con motor de gasolina,
El consumo semanal de gasoil es una variable aleatoria con distribución normal de
media 700 litros y solo en un 2,5% de las semanas el consumo es inferior a 651 litros.
El consumo semanal de gasolina es otra variable aleatoria con distribución normal
con desviación típica 10 litros y, además, el 50% de las semanas supera los 200
litros.
a) ¿Cuál es la probabilidad de que la próxima semana se consuman en total menos
de 850 litros entre los dos tipos de combustible?
b) Si en la semana próxima el gasoil está a 1,45 euros/litro y la gasolina a 1,65
euros/litro ¿Cuál es la probabilidad de que el coste total de combustible supere los
1250 euros?

Solución:
Consumo de gasoil X1=N(700, σ1)
Consumo de gasolina X2=N(m2, 10)

Como en X1 se sabe que P(X1<651)=0,025, tendremos que


651 − 700
φ( ) = 0,025 y por tablas φ ( −1,96) = 0,025
σ1
651 − 700
= −1,96 despejando σ 1 = 20 litros
σ1
Luego X1=N(700; 20)
En X2 se verifica que P(X2>200)=0,50 y como P(X2>m2)=0,50 entonces m2=200
Luego X2=N(200; 10)

a) Consumo total de combustible Y= X1+ X2=N(900; raíz(202+102)=N(900; 22,36)


P(Y<850)=ϕ((850-900)/22,36)=ϕ(-2,24)=0,0125

b) Coste total de combustible Y=1,45 X1 + 1,65 X2 que es una combinación lineal


de variables normales y por lo tanto también normal
Y=N(1,45 m1+1,65 m2 ; raíz(1,452 σ12 +1,652 σ22))
=N(1,45 x 700 + 1,65 x 200 ; raíz(1,452 x 202 + 1,652 x 102))
=N(1345 ; 33,36)
1250 − 1345
P (Y > 1250 ) = 1 − P (Y < 1250 ) = 1 − φ ( ) = 1 − φ ( −2,85) = 1 − 0,0022 = 0,9978
33,36

-196-
6. Principales Distribuciones Continuas

6.6.6. La velocidad a la que circulan los taxis de Valencia Y1 y la distancia de


frenado para los mismos Y2 , configuran una variable Normal bidimensional de
vector de medias y matriz de varianzas covarianzas
r ⎛ r ⎧30 Km / h ⎫ ⎡49 ( Km / h) 2 − − ⎤⎞
Y = N⎜μ = ⎨ ⎬ V = ⎢ 2⎥⎟

⎜ ⎩ 5 m ⎭ − − 1,5625 m
⎝ ⎣ ⎦ ⎠
siendo el coeficiente de correlación entre ambas ρ=0,99 ¿A qué velocidad deberá
circular un taxi para que, pisando el freno en el instante de ver el peligro, la
probabilidad de que atropelle a un gatito que está sentado en mitad de la calle a 8 m
de distancia sea de tan solo el 1%?

Solución:
σ2
E (Y2 / y1 ) = E (Y2 ) + ρ ( y − E (Y1 ))
σ1 1
1,25
E (Y2 / y1 ) = 5 + 0,99 ( y1 − 30) = mc (1)
7
D 2 (Y2 / y1 ) = D 2 (Y2 )(1 − ρ 2 ) = 1,5625(1 − 0,99 2 ) = 0,0311 ⇒ D (Y2 / y1 ) = σ c = 0,1763

Luego Y2/y1=N(mc ;σc=0,1763) y deberá cumplirse que


P((Y2 / y1 ) > 8) = 0,01 ⇒ P((Y2 / y1 ) < 8) = 0,99 ⇒
8 − mc 8 − mc
φ( ) = 0,99 En tablas φ (2,33) = 0,99 luego = 2,33 ⇒ mc = 7,59 Km / h
0,1763 0,1763

Sustituyendo mc =7,59 en la ecuación (1)


1,25
5 + 0,99 ( y1 − 30) = 7,59 ⇒ y1 = 44,65 Km / h
7

-197-
6. Principales Distribuciones Discretas

-198-
7. Distribuciones derivadas de la normal

7. DISTRIBUCIONES DERIVADAS DE LA NORMAL

Contenido
7.1. DISTRIBUCIÓN CHI-CUADRADO ............................................................. 199
7.2. DISTRIBUCIÓN t ...................................................................................... 200
7.3. DISTRIBUCIÓN F....................................................................................... 202
7.4. PROBLEMAS PROPUESTOS ................................................................... 203

7.1. DISTRIBUCIÓN CHI-CUADRADO

La distribución chi-cuadrado se define como la suma de los cuadrados de n variables


aleatorias normales tipificadas e independientes. De esta forma, z1, z2, …, zn son
v.a. N(0;1) e independientes, la variable chi-cuadrado se define como

χ 2n = Z 12 + Z 22 + ... + Z n2

La función de densidad es asimétrica a la derecha.

Chi-Cuadrado Distribución
0,24 Grad. de libert
3
0,2 5
densidad

0,16 9
15
0,12 30
0,08
0,04
0
0 20 40 60 80
x

Figura 7. 1. Función de densidad de la chi-cuadrado

El número de sumandos son los grados de libertad de la chi-cuadrado.

El valor medio es

E( χ 2n ) = n
y la variancia viene dada por,

D 2 ( χ 2n ) = 2n

-199-
7. Distribuciones derivadas de la normal

El interés de esta variable se debe a que una transformada de la varianza


muestral sigue una distribución chi-cuadrado. Más concretamente,

s2
( n −1) 2
= χ 2n −1
σ

El valor de χ n2 (α ) es aquel valor de la chi-cuadrado que deja a su derecha un


área de probabilidad α, según la expresión

P( χ 2n ≥ χ 2n( α ) ) = α

Actividad 7.1:
• Calcular la probabilidad P( χ32 > 5 )
• Calcular el valor de a tal que P( χ 32 > a ) = 0 ,10 , esto es χ 32( 0 ,10 ) o bien
χ 32 ;0 ,10 .

7.2. DISTRIBUCIÓN t

La t de STUDENT se define como el cociente entre una variable normal N(0;1) y la


raíz cuadrado de una chi-cuadrado dividida ésta por sus grados de libertad, siendo
estas dos variables independientes. Así,

Z
tn =
χ 2n
n

Donde Z es una variable N(0;1) e independiente de la chi quadrado.

La forma de la función de densidad es parecida a la normal N(0;1), pero un


poco más aplanada. Cuando n>30, la función de densidad de la t coincide con la
función de densidad de la normal N(0;1).

-200-
7. Distribuciones derivadas de la normal

t de Student Distribución
0,4 Grad. de liber
2
5
0,3
densidad 9
17
0,2 30

0,1

0
-8 -4 0 4 8
x

Figura 7. 2. Función de densidad de la t de Student

El valor medio de la tn es,


E [ tn ] = 0
La varianza de la tn es,
n
D 2 ( tn ) = para n>2
n−2

La cantidad tnα es aquel valor de la tn que deja a su derecha un área de


probabilidad α, según la expresión,

P( tn ≥ tnα ) = α

La media muestral está relacionada con una distribución t cuando la


desviación típica no es conocida y se estima a partir de la desviación típica muestral,
más concretamente, la expresión,
x −μ
= t n −1
s n
sigue una distribución tn-1 con n-1 grados de libertad.

Actividad 7.2:
• Calcular la probabilidad de P(t3> 2,33)
• Calcular la probabilidad de P(t5<-1,96)
• Calcular la probabilidad de P(|t7|>2,1)
0,10
• Calcular el valor de a que cumple P(t9>a)=0,10, esto es t 9

-201-
7. Distribuciones derivadas de la normal

7.3. DISTRIBUCIÓN F

La distribución F se define como un cociente de dos variables chi-cuadrado


independientes cada una de ellas divididas por sus grados de libertad, esto es,

χ 2n1
n1
Fn1 ,n2 = 2
χ n2
n2
Se dice que el cociente sigue una distribución F con n1 y n2 grados de
libertad, n1 para el numerador y n2 para el denominador.

La función de densidad es asimétrica hacia la derecha.

F (índice de varianza) Distribución


1 Numerador g.
10,10
0,8 5,9
densidad

13,16
0,6

0,4

0,2

0
0 1 2 3 4 5
x
Figura 7. 3. Función de densidad de una F

El valor medio de una F es,


n2
E [ Fn1 ,n2 ] = para n2 >2
n2 − 2

y la varianza es,

2n22 ( n1 + n2 − 2 )
D 2 ( Fn1 ,n2 ) =
n1 ( n2 − 2 )( n2 − 4 )

El valor de Fnα1 ,n 2 es aquel valor de la F que deja a su derecha un área de


probabilidad α, según la expresión,

-202-
7. Distribuciones derivadas de la normal

P( Fn1 ,n2 ≥ Fnα1 ,n2 ) = α

El cociente de dos varianzas muestrales sigue una distribución F, más con


concretamente,

s12
σ12
= Fn1 −1,n2 −1
s22
σ 22

Actividad 7.3:
• Calcular la probabilidad de P( F3 ;5 > 10 )
0 ,05
• Calcular el valor de a tal que P( F7 ;9 > a ) = 0 ,05 , esto es F7 ;9

7.4. PROBLEMAS PROPUESTOS

7.4.1. Determinar a y b para que P(a≤s2≤b)=0'8 si s2 procede de una muestra


aleatoria simple de tamaño 16 de una población NORMAL N(8,2).

Solución: a = 2.28, b = 5.95

7.4.2. Si tomamos una muestra de 10 envases de un proceso de envasado zumo de


piña en el que el contenido efectivo es una variable con distribución X=N(33cc,
0,5cc)

a) ¿Cuál es la probabilidad de que la varianza muestral corregida sea mayor que


0,25?

b) ¿Con qué tamaño de muestra n, conseguiríamos que la varianza muestral


corregida fuera superior a 1cc con probabilidad 0,0005?

Solución:
(n − 1) S n2−1 (n − 1)0,50 (n − 1).0,50 9. 0,50
a) P( S n2−1 > 0,5) = P( > ) = P( χ n2−1 > ) = P( χ 92 > ) = 0,030
σ 2
σ 2
σ 2
0,25
(n − 1) S n2−1 (n − 1) 1 (n − 1). 1
b) P( S n2−1 > 1) = P( > ) = P( χ n2−1 > ) = P( χ n2−1 > 4(n − 1)) = 0,0005
σ2 σ2 0,25
Mirando en las tablas, esto ocurre para n=7 siendo

P( χ 72−1 > 4(7 − 1)) = P( χ 62 > 24) = 0,0005

-203-
7. Distribuciones derivadas de la normal

-204-
8. Distribuciones en el muestreo

8. DISTRIBUCIONES EN EL MUESTRO

Contenido
8.1. POBLACIÓN, MUESTREO Y MUESTRA ..................................................... 205
8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL ......................................... 209
8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL ................................................ 211
8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS ..................................... 212
8.5. DISTRIBUCIÓN DE LA PROPORCIÓN ....................................................... 214
8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES ............ 215
8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES ...................... 216
8.8. VARIANZA EN POBLACIONES FINITAS..................................................... 218
8.9. PROBLEMAS PROPUESTOS ...................................................................... 219
8.10. PROBLEMAS Y CUESTIONES DE EXÁMENES ......................................... 220

8.1. POBLACIÓN, MUESTREO Y MUESTRA

Población y muestra

El conjunto de todos los elementos bajo estudio se denomina “Población”, y a una


parte de ellos recibe el nombre de “Muestra”. Por ejemplo si queremos estudiar el
nivel de renta en la Comunidad Valenciana, la población es el conjunto de individuos
que pertenecen a dicha Comunidad y una muestra es una parte de esa población,
elegida al azar, a partir de la cual se quiere deducir las características de toda la
población.

Conociendo cada elemento de la población, conocemos todas las


características y parámetros de la misma. Una población se puede caracterizar por
una función de distribución, la cual depende de un conjunto de parámetros. Así:

F(x;θ 1 ,θ 2 ,...,θ k )

Si todos los elementos de la población son conocidos, los parámetros


θ 1 ,θ 2 ,...,θ k son perfectamente conocidos. A estos parámetros se denominan
"parámetros poblacionales" y se representan por letras griegas.

El problema estriba en que no podemos conocer todos los elementos de la


población, debido a uno de los siguientes motivos:

-205-
8. Distribuciones en el muestreo

1) La población es muy extensa y llevaría mucho tiempo su recopilación.

2) El coste de obtener la información es muy elevado.

3) Al obtener la información se puede destrozar el elemento de la población.


Por ejemplo, para obtener la tensión de rotura de una barra de acero.

4) La población como tal puede no existir todavía. Por ejemplo, el conjunto de


piezas producidas por una máquina.

En tales casos no queda más remedio que tomar una pequeña parte de la
población y a partir de ella intentar deducir el valor de los parámetros poblacionales.
A esa pequeña parte de la población se denomina "muestra".

Los datos de una muestra se pueden considerar como un conjunto de


variables aleatorias, todas ellas con la misma función de distribución
F(x,θ 1 ,θ 2 ,...,θ k ) , así:
r
x = ( x1 , x 2 ,..., x n )

A cualquier función de estos valores, θ ( x 1 , x 2 ,..., x n ) , se denomina


"estadístico".

El problema se reduce a obtener un estadístico, función de los datos


muestrales, que nos dé una aproximación del parámetro poblacional, lo cual se
expresa por:

θˆ1 = θˆ1( x1 , x 2 ,..., x n )

La cantidad θˆ1 varía para cada x 1 , x 2 ,..., x n , luego se puede considerar como
una función o transformación de n-variables aleatorias, y por lo tanto, tendrá una
media, una varianza, así como su propia F( θˆ1 ) ,

E( θˆ1 )

D ( θˆ1 )
2

Con lo cual nos interesa estudiar las propiedades de esa distribución en


relación al parámetro desconocido poblacional.

A las distribuciones que tienen los estadísticos muestrales, y que dependen


de los parámetros poblacionales y del tamaño de la muestra y de la propia función
que define el estadístico, se denominan Distribuciones en el Muestreo y son las que
nos permitirán relacionar los estadísticos muestrales con los parámetros de la
población con vistas a un posible conocimiento de estos últimos.

-206-
8. Distribuciones en el muestreo

x1 s1

x2 s2

xm sm

Histogram Histogram
Histogram
600 80
80
500 60

frequency
frequency

60
frequency

400 40

300 40
20
200 20 0
100 0 0,3 0,6 0,9 1,2 1,5 1,8
0 SIGMAS
0 -1 -0,5 0 0,5 1 1,5
-3,7 -1,7 0,3 2,3 4,3 MEANS
X

Figura 8. 1. Población y muestra

Se debe cuidar mucho la forma de extracción de la muestra, ya que ésta debe


ser representativa de la población. Si al obtener la muestra, cada elemento de la
población tiene la misma probabilidad de salir, se dice que la muestra es "aleatoria
simple".

Si el tamaño de la población no es muy elevado en relación al tamaño de la


muestra, se aplican unos procedimientos que se estudian en "Muestreo en
poblaciones finitas". En este tema suponemos que el tamaño de la población es muy
grande en relación a la muestra, es decir, estamos en "Muestreo en poblaciones
infinitas".

-207-
8. Distribuciones en el muestreo

Tipos de muestreo

Los muestreos pueden ser probabilísticos y no probabilísticos. Entre los


probabilísticos, los más utilizados son:

• Muestreo aleatorio simple. Cada elemento de la población tiene la misma


probabilidad de salir elegido para formar parte de la muestra.

• Muestreo sistemático. Cuando la población esté enumerada en una lista y


queremos obtener los elementos a lo largo de la lista. Para ello se divide el
tamaño de la población entre el número de elementos a extraer en la muestra.
Esté cociente dará, por ejemplo, un valor h. A continuación se elige un
número al azar de 1 a h, por ejemplo k, y los elementos a extraer son el k, el
k+h, el k+2h, y así sucesivamente.

• Muestreo estratificado. Cuando en la población se pueden formar grupos


con una cierta homogeneidad (Ej. Grupos de edad, grupos por estatus
económico, etc.). A cada grupo se denomina estrato, y el tamaño n de la
muestra a tomar se subdivide para cada estrato según algún criterio de
afijación.

• Muestreo por conglomerados. Cuando en la población se pueden formar


grupos con una cierta heterogeneidad, y cada uno de esos grupos, de por sí,
puede representar al total de la población. El procedimiento es traer un
número al azar de conglomerados, y para cada uno de ellos examinamos
todos sus elementos.

• Muestreo por etapas. Viene a ser una generalización de los conglomerados.


En lugar de examinar todos los elementos del conglomerado, se toma una
muestra aleatoria del mismo.

Entre los muestreos no probabilísticos, los más empleados son:

• El muestreo opinático. Es función del entrevistador la elección del elemento


de la población a examinar.

• El muestreo por cuotas. Se requiere un cierto número de elementos para


cada grupo de la población. Se van tomando elementos de la población,
según algún procedimiento establecido de antemano, antes que se cubre la
cuota para dichos tipos de elementos.

• Muestreo por bola de nieve. Cuando es difícil acceder a los elementos de la


población, debido a su desconocimiento. Cuando se encuentra a alguno de
ellos, se le pregunta si nos puede indicar la existencia de otros. A su vez esos
otros nos pueden guiar para encontrar nuevos elementos de la población.

-208-
8. Distribuciones en el muestreo

Distribuciones muestrales

En este apartado supondremos que la población estudiada sigue una distribución


normal, N( μ; σ ) , y que de ella, extraemos unos valores ( x1 , x 2 ,..., x n ) al azar e
independientemente. Cada X i se puede considerar, antes de que aparezca el valor
concreto, como N( μ; σ ) , es decir, son variables aleatorias independientes con la
misma distribución normal.

POBLACIÓN MUESTRA

fX(x) P ∗X ( x)
(X1 , X2 , ..., X n) 1/n

X X

Características poblacionales Características muestrales


(constantes) (variables aleatorias)

μ (media) x (media muestral)

σ2 (varianza) s 2n (varianza muestral)


s 2n −1 (cuasivarianza)

σ (desviación típica) sn (desv. típica muestral)


sn-1 (cuasidesv iación típica)

p (proporción) f (proporción muestral)

Figura 8. 2 Distribuciones muestrales

8.2. DISTRIBUCIÓN DE LA VARIANZA MUESTRAL


2
Recordar que una distribución χ n se define como una suma de variables N(0;1) al
cuadrado e independientes. El valor medio y la varianza son:

E( χ 2n ) = n
2
D ( χ m ) = 2n
2

-209-
8. Distribuciones en el muestreo

Cuando n>30 se distribuye según una normal N(n; 2n ) .

El estadístico

∑( x - x )
2
i
S n2 = i
n

se denomina varianza muestral y al definido por

∑( x - x )
2
i
S n2−1 = i
n −1

se le conoce como varianza muestral corregida o cuasivarianza muestral.

En lo sucesivo, denominaremos indistintamente a la cuasivarianza muestral


2
como s o bien como sn2−1 .

La raíz cuadrada positiva de la varianza muestral es la desviación típica


muestral y se representa por s

Sea ( x1 , x 2 ,..., x n ) una muestra aleatoria simple extraída de una población


normal N(μ; σ) , se demuestra que el estadístico

∑( x - x )
2
i
i

σ2
2
sigue una distribución χ n -1 .

Multiplicando y dividiendo por n

n ∑ ( xi - x )2
n
i
2
= 2
sn2 = χ2n-1
nσ σ

o por (n-1),

(n - 1) ∑ ( x i - x )2
sn2−1
i
= (n - 1) = χ 2n -1
(n - 1) σ 2 σ
2

-210-
8. Distribuciones en el muestreo

Actividad 8.1:

• De una población normal N(30;2,5) se extrae una muestra de tamaño 5, ¿Cuál es la


probabilidad que la desviación típica muestral sea mayor de 3,5?

8.3. DISTRIBUCIÓN DE LA MEDIA MUESTRAL

La media muestral de un conjunto de valores muestrales ( x1 , x 2 ,..., x n ) ,

viene dada por

∑x i
x= i
n

La media y la varianza de x son :

2
σ
E( x ) = μ ; D 2 ( x ) =
n

1 1 1
Como x = x1 + x 2 + ...+ x n es una combinación de variables normales, x
n n n
será a su vez una normal,

σ
X ≡ N(E( x ); D( x )) ≡ N( μ; )
n

o bien tipificando,

x-μ
= N(0;1)
σ
n

Si σ es desconocida y empleamos los datos de la muestra para estimarla, y


la sustituimos por s, la desviación típica muestral, se obtiene que en lugar de una
N(0;1) sigue una distribución t de Student de n-1 grados de libertad.

Una distribución t de Student se define como un cociente de

-211-
8. Distribuciones en el muestreo

N(0,1)
tn =
χ 2n
n

El valor medio y la varianza son:

E( t n ) = 0
2
D ( tn )= n - 2

Cuando n>30 se distribuye según una N(0;1).

Así:

x-μ
= t n -1
s
n

Actividad 8.2:

• De una población normal de media 15 y desviación típica 3 se extrae una muestra de


tamaño 7. ¿Cuál será la probabilidad que la media muestral sea mayor de 16?

• De una población normal hemos obtenido la estimación de la media con un valor de


15,3 y una estimación de la desviación típica con una estimación de 2,3. Si de esta
población obtengamos una muestra de tamaño 9, ¿Cuál es la probabilidad que la
media muestral sea mayor de 17,2?

___________________________________________________________________

8.4. DISTRIBUCIÓN DEL COCIENTE DE VARIANZAS

Una distribución F n1 ,n2 se define como un cociente de dos χ 2 independientes dividida


cada una por sus grados de libertad

χ 2n 1

n1
F n1,n2 =
χ 2n 2

n2
-212-
8. Distribuciones en el muestreo

Sea X ≡ N( μ 1 ; σ1 ) y otra población Y ≡ N( μ 2 ; σ2 ) , e independientes. Si de la


primera población extraemos una m.a.s ( x1 , x 2 ,..., x n ) y de la segunda otra m.a.s.
( y1 , y 2 ,..., y n ) , el cociente de sus varianzas muestrales, dividida cada una de ellas por
su varianza poblacional, se distribuye según una F de n 1 , n 2 grados de libertad. Esto
es:

2
s1
2
σ1 =
2 F n1-1,n2 -1
s2
2
σ2

Para cada muestra se tiene que,

2
s1
( n1 - 1) 2
= χ2n1-1
σ1
2
s2
( n 2 - 1) 2
= χ n22 -1
σ2
2
dividiendo cada χ por sus grados de libertad y efectuando su cociente, resulta la
definición de una distribución F de n1 - 1, n2 - 1 grados de libertad.

Si las varianzas poblacionales son iguales σ 12 = σ 22 = σ , el cociente de


varianzas muestrales es una F,

2
s1
2
= F n1-1,n2 -1
s2

Por lo general, se suele colocar la varianza muestral mayor en el numerador,


y la menor en el denominador.

Actividad 8.3:

• De dos poblaciones normales con la misma variancia sacamos una muestra de cada
una de ellas. La primera de tamaño 7, y la segunda de tamaño 9. Cuál es la
probabilidad que la variancia de la primera muestra sea mayor que el doble que la
variancia de la segunda muestra.

-213-
8. Distribuciones en el muestreo

8.5. DISTRIBUCIÓN DE LA PROPORCIÓN

Proporción de defectuosas

El número X de unidades defectuosas de una muestra aleatoria simple de n unidades


sigue una distribución Binomial B(n;p). Como X es una suma de dicotómicas, cuando
np>5, el número de defectuosas en la muestra sigue una distribución normal,

(
X ≡ N np; np (1 − p ) )
La proporción de unidades defectuosas en la muestra es

X
f =
n

Y f sigue una distribución normal

⎛ p(1 − p) ⎞
f ≡ N ⎜⎜ p; ⎟

⎝ n ⎠

Proporción de defectos (defectos por unidad)

En caso de que X cuenta el número de defectos que hay entre todas las piezas de
una muestra de tamaño n, esta variable aleatoria sigue una distribución de Poisson
PS(c), donde c es el número medio de defectos por muestra. Si c>5 el número de
defectos sigue una distribución normal,

X ≡ N (c; c )

La proporción de defectos b(defectos por unidad) es

X
f =
n

En la que f sigue una distribución normal,

⎛ u⎞
f ≡ N ⎜⎜ u; ⎟

⎝ n ⎠

Donde u es el número medio de defectos por unidad.

-214-
8. Distribuciones en el muestreo

Actividad 8.4:

• Una máquina produce piezas con una proporción de defectuosas del 2%. Si de esta
máquina extraemos una muestra de 60 piezas, ¿cuál será la probabilidad que la
proporción de piezas defectuosas en la muestra sea mayor del 3%?

8.6. DISTRIBUCIÓN DE LA DIFERENCIA DE MEDIAS MUESTRALES

Si de una población que sigue una N(μ1 , σ1) extraemos una muestra aleatoria simple
de tamaño n1 , y de otra población con distribución N(μ2 , σ2) se extrae otra muestra
aleatoria simple de tamaño n2, y para cada una de dichas muestras calculamos las
medias muestrales, cada una de ellas sigue una distribución,

σ1 σ2
x1 ≡ N ( μ1 , ) x2 ≡ N ( μ 2 , )
n1 n2

La diferencia de medias muestrales, como es una combinación lineal de


variables normales, sigue una distribución,

⎛ σ 12 σ 22 ⎞⎟

x1 − x2 ≡ N μ1 − μ 2 ; +
⎜ n1 n2 ⎟⎠

Si σ1 y σ2 son desconocidas, las estimamos a partir de sus desviaciones


típicas muestrales, y suponiendo que n1 y n2 son suficientemente grandes, la
diferencia de medias muestrales sigue una distribución,

⎛ s2 s2 ⎞
x1 − x2 ≡ N ⎜ μ1 − μ 2 ; 1 + 2 ⎟
⎜ n1 n2 ⎟⎠

Si σ1 y σ2 son desconocidas, pero iguales, la mejor estimación de la σ común


es,

s12 (n1 − 1) + s22 (n2 − 1)


σˆ 2 = s 2 =
n1 + n2 − 2

Y la diferencia de medias muestrales seguirá una distribución t de Student con


n1+n2-2 grados de libertad. Esto es,

-215-
8. Distribuciones en el muestreo

( x1 − x 2 ) − ( μ1 − μ 2 )
= t n1 + n2 − 2
1 1
s +
n1 n 2

Actividad 8.5:

• De una población normal N(40;3) sacamos una muestra de tamaño 10, y de otra
población normal N(45; 3,5) sacamos una muestra de tamaño 13. Cuál es la
probabilidad que la media muestral de la segunda muestra sea mayor que la media
de la primera muestra.

• Si en el ejemplo anterior las desviaciones típicas realmente son estimaciones de las


desviaciones típicas poblacionales, cuál sería ahora la probabilidad que la media
muestral de la segunda muestra fuera mayor que la media muestral de la primera
muestra.

8.7. DISTRIBUCIÓN DE LA DIFERENCIA DE PROPORCIONES

Proporción de defectuosas

Si de un lote de gran tamaño en el cual conocemos la proporción de defectuosas p1,


tomamos una muestra de tamaño n1, la fracción de defectuosas es,

x1
f1 =
n1

Y sigue una distribución normal

p1 (1 − p1 )
f1 ≡ N ( p1 , )
n1

Si efectuamos el mismo procedimiento, pero para otra población con


proporción p2, la fracción de unidades defectuosas sigue una distribución normal

p 2 (1 − p 2 )
f 2 ≡ N ( p2 , )
n2

La diferencia de fracciones, como es una combinación lineal de variables


-216-
8. Distribuciones en el muestreo

normales, sigue otra distribución normal,

⎛ p (1 − p1 ) p 2 (1 − p 2 ) ⎞⎟
f1 − f 2 ≡ N ⎜ p1 − p 2 , 1 +
⎜ n1 n2 ⎟
⎝ ⎠

Si p1 y p2 son desconocidas pero iguales, la mejor estimación de la p común


es,

x1 + x 2
pˆ =
n1 + n1

Y en tal caso la diferencia de proporciones sigue una distribución,

⎛ ⎛ 1 1 ⎞⎞
f1 − f 2 ≡ N ⎜ 0; pˆ (1 − pˆ )⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n1 ⎠ ⎟⎠

Proporción de defectos (defectos por unidad)

Para la diferencia de proporción de defectos, la frecuencia observada es,


x1
f1 =
n1
Como x1 sigue una distribución de Poisson de parámetro p1 , la aproximación a la
normal es,
⎛ p ⎞
f1 ≡ N ⎜⎜ p1 , 1 ⎟⎟
⎝ n1 ⎠
Y para una diferencia de proporciones de defectos, la distribución normal que sigue
es,
⎛ p p ⎞
f1 − f 2 ≡ N ⎜ p1 − p 2 , 1 + 2 ⎟
⎜ n1 n2 ⎟⎠

Si p1 y p2 son iguales pero desconocidas, la mejor estimación de la proporción de
defectos es,
x1 + x2
pˆ =
n1 + n1
Donde:
x1 = total de defectos de la muestra de tamaño n1
x2 = total de defectos de la muestra de tamaño n2 .

Y la diferencia de proporciones sigue una distribución normal

-217-
8. Distribuciones en el muestreo

⎛ ⎛ 1 1 ⎞⎞
f1 − f 2 ≡ N ⎜ 0; pˆ ⎜⎜ + ⎟⎟ ⎟
⎜ ⎝ n1 n1 ⎠ ⎟⎠

Observar que estar fórmulas son las mismas que para la diferencia de proporciones
de defectuosas sin mas que cambiar la pq por p, y donde p es la proporción (número)
de defectos por unidad.

Actividad 8.6:

• Una maquina hace piezas con una proporción de defectos del 5%, y otra máquina
hace las mismas piezas con una proporción de defectos del 3%. ¿Si cogen una
muestra de 50 unidades de la primera máquina y 70 piezas de la segunda máquina,
¿cuál será la probabilidad que la proporción de defectos observada en la primera
muestra sea mayor que la proporción de defectos de la segunda muestra?

8.8. VARIANZA EN POBLACIONES FINITAS

Cuando el tamaño de la población no es muy grande en relación al tamaño de la


muestra, las varianzas de los estadísticos muestrales difieren un poco de las
varianzas en caso de poblaciones infinitas. Concretamente para la media muestral,
proporción muestral, y para el total de la muestra, las varianzas quedan multiplicadas
N −n
por un factor de corrección . Así, las expresiones de dichas varianzas son:
N −1

• Para la media muestral x es,

σ2 N −n
D2 (x) =
n N −1

• Para la proporción muestral f es,

pq N − n
D2 ( f ) =
n N −1

n
• Para el total T = ∑ xi de la muestra es,
i =1

-218-
8. Distribuciones en el muestreo

N −n
D 2 (T ) = nσ 2
N −1

8.9. PROBLEMAS PROPUESTOS

8.9.1.- Dada una población NORMAL N(5,2), ¿cuál es la probabilidad de que la media
muestral para una muestra de tamaño 4 sea superior a 6? ¿Y si el tamaño es 25?

Solución: 0.1587 0.0062

8.9.2.- Se extraen dos muestras aleatorias simples de tamaños n1=22 y n2=30 de


una población NORMAL de varianza 9. Calcular la probabilidad de que la diferencia
de medias de ambas muestras sea superior a 1.

Solución: 0.235

8.9.3.- Determinar el tamaño de muestra a tomar en el estudio de la fabricación de


ciertas piezas para que la media muestral de una cierta dimensión difiera de la media
poblacional en menos de 1 cm con una probabilidad del 95% si σ=3.

Solución: 36

8.9.4.- Un fabricante produce lámparas eléctricas con una vida media de 2.000 horas
y una desviación típica de 200 horas. Mediante la modificación del proceso de
fabricación se piensa elevar la media a 2.200 horas conservando la dispersión. Si se
tenía una muestra de 10 lámparas producidas antes del cambio, se toma una
muestra de 30 después del mismo y se halla la diferencia entre las medias
muestrales, ¿cuál es la probabilidad de que esta diferencia esté entre 195 y 205?

Se admite una distribución NORMAL para la vida de las lámparas.

Solución: 0.056

-219-
8. Distribuciones en el muestreo

8.10. PROBLEMAS Y CUESTIONES DE EXÁMENES

8.10.1.- El espesor de unas planchas de acero sigue una distribución normal con
varianza 5,4. Se pide:

a) Si tomamos una muestra de tamaño n=20, cuál es la probabilidad de que la


desviación típica sea superior a 3. (1 punto)

b) ¿Cuál debe ser el número de planchas a medir para que la probabilidad de


que la media muestral de estas planchas difiera de la media poblacional en
más de 2 unidades sea inferior al 10%? (1punto)

Solución :

⎛ (n − 1)·s 2 9·19 ⎞
a) P( s > 3) = P⎜⎜ > (
⎟⎟ = P χ192 > 31,66 = 0,034)
⎝ σ
2
5,4 ⎠

b) La condición que se debe cumplir es,

P( x − μ > 2) = 0,10

El suceso contrario es,

P( x − μ < 2) = 0,90

⎛ ⎞
⎜ −2 x−μ 2 ⎟
P⎜ < < ⎟ = 0,90
⎜ σ σ σ ⎟
⎝ n n n⎠

Buscamos el valor de z 0 , 05 = 1,645 , y de la expresión anterior el valor de n se


obtiene de,

2
= 1,645
σ
n

Despejando n se tiene,

1,645· 5,4
n=
2

n=3,65 de donde el valor de n tiene que ser como mínimo de n=4.


-220-
8. Distribuciones en el muestreo

8.10.2.- La longitud de una pieza utilizada en un proceso de montaje sigue una


distribución normal de media 50 mm y desviación típica 12 mm. Si extraemos una
muestra aleatoria simple de 16 piezas. Determinar:
a. ¿Cuál es la probabilidad de que su media sea menor de 58? (0,5 puntos)

La media muestral seguirá una distribución del tipo x ~N(50, 12/√16), por lo que
la probabilidad pedida es:

b. ¿Entre qué valores se encontrará el 38% de las medias muestrales obtenidas


al tomar reiteradamente muestras de 16 piezas de ese lote? (1,5 puntos)

La probabilidad pedida es:

Asumiendo simetría para simplificar

c. ¿Qué tamaño tendría que tener la muestra para que la probabilidad de


encontrar medias superiores a 52 fuese 0,2578? (1,5 puntos)

El tamaño de muestra n debe cumplir que:

-221-
8. Distribuciones en el muestreo

d. ¿Calcular la probabilidad de que la varianza muestral sea mayor de 12,5? (1


punto)

La varianza muestral sigue una distribución del tipo por lo que la


probabilidad pedida será:

8.10.3.- En un proceso de fabricación se dispone de dos máquinas. El peso de las


piezas fabricadas por la máquina A sigue una distribución N (100; 2). El peso de las
piezas fabricadas por la máquina B sigue una distribución N (102; 2). Se toma una
muestra aleatoria de 5 piezas fabricadas por la máquina A y se calcula la media
muestral. A continuación se toma otra muestra de 5 piezas de B y se calcula la media
muestral. ¿Cuál es la probabilidad de que la media muestral de A sea mayor que la
de B? (2 puntos)

Solución:

x A ≈ N (100; 2 5) x B ≈ N (102; 2 5)

( ) ( ) ( )
E x A − x B = E x A − E x B = 100 − 102 = −2

( ) ( ) ( )
σ 2 x A − x B = σ 2 x A + σ 2 x B = (4 / 5) + (4 / 5) = 1,6

( ) [( ) ] [ ] ( )
P x A > x B = P x A − x B > 0 = P N (−2; 1,6 ) > 0 = φ − 2 / 1,6 = φ (−1,58) = 0,057

-222-
9. Inferencia en poblaciones normales

9. INTRODUCCIÓN A LA INFERENCIA ESTADÍSTICA

Contenido
9.1 ESTIMACIÓN PUNTUAL .......................................................................... 223
9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA ............................... 226
9.2.1. Intervalo de confianza para la media poblacional ................................... 227
9.2.2. Intervalo de confianza para la varianza poblacional ............................... 230
9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales ..... 230
9.2.4. Intervalo de confianza para la proporción ............................................... 231
9.2.5. Intervalo de confianza para la diferencia de proporciones ..................... 233
9.2.6. Intervalo de confianza para la diferencia de medias poblacionales ........ 234
9.3. TEST DE HIPÓTESIS ............................................................................... 237
Conceptos ......................................................................................................... 237
Obtención de los tests ..................................................................................... 240
9.4. TEST DE HIPÓTESIS PARÁMETRICOS ...................................................... 241
9.4.1. Contrastes de la media de una poblacional normal .......................... 241
9.4.2. Test de hipótesis para la varianza poblacional ................................. 246
9.4.3. Test de hipótesis para el cociente de varianzas poblacionales ........ 247
9.4.4. Contrastes de proporciones .............................................................. 249
9.4.5. Test de hipótesis para la diferencia de medias poblacionales con
muestras independientes .................................................................................. 252
9.4.6. Test para la diferencia de medias poblacionales con datos
apareados ......................................................................................................... 253
9.4.7. Test para la diferencia de proporciones ............................................ 254
9.5. TEST NO PARAMÉTRICOS.......................................................................... 256
9.5.1. Test de ajuste a una distribución....................................................... 256
9.5.2. Test de independencia ...................................................................... 259
9.6. PROBLEMAS PROPUESTOS ....................................................................... 261
Test de hipótesis ................................................................................................... 262
Tabla de contingencia ........................................................................................... 266
Test de ajuste a una distribución .......................................................................... 267
9.7. PROBLEMAS Y CUESTIONES DE EXÁMENES .......................................... 268

9.1 ESTIMACIÓN PUNTUAL

Sea X una v.a. cuya función de distribución F(x;θ) depende del parámetro poblacional
θ , y una muestra aleatoria simple (x1, x2, ···, xn) extraída de la misma población. El
proceso de estimación consiste en elegir una función de dichos datos muestrales,

-223-
9. Inferencia en poblaciones normales

ˆθ( x , x ,..., x ) de manera que sus valores se aproximen lo mejor posible al valor
1 2 n

verdadero y desconocido del parámetro θ .

¿Cuál es el criterio para saber que nos aproximamos lo mejor posible al valor
verdadero del parámetro?

Llamando a
= ( , ,···, )

se sigue el criterio de elegir θˆ de forma que minimice la cantidad ( θˆ - θ ) , o lo que


2

es equivalente, que minimice por término medio esa cantidad. Esto se puede
expresar como:

min −

Imaginemos que tenemos dos posibles funciones de la muestra (estimadores)


y para estimar el mismo parámetro poblacional θ (la media de una distribución
N(0;1)), con las distribuciones que aparecen en la Figura 9. 1.

0,4
N(0,1)
N(0,2)
0,3
fx(x)
0,2

0,1

0
-10 -6 -2 2 6 10
x

Figura 9. 1. Dispersión de los estimadores

Observamos que será preferible al , ya que está centrado en el valor verdadero,


y tiene una dispersión menor que la del estimador .

Si el valor medio del estimador coincide con el parámetro a estimar, se dice


que el estimador es centrado o insesgado,

-224-
9. Inferencia en poblaciones normales

E( θˆ ) = θ

Caso contrario existe un sesgo b( θ ) que se define como,

b( θ ) = E( ˆθ ) − θ

0,4
N(0,2)
N(2,1)
0,3
fx(x)
0,2

0,1

0
-10 -6 -2 2 6 10
x

Figura 9. 2. Comparación de estimadores

Supongamos ahora que las distribuciones de los estadísticos fueran las que
aparecen en la Figura 9. 2. Aquí no tendríamos un criterio claro para elegir, ya que si
uno es preciso, el otro es más exacto.

La exactitud del estimador es la propiedad de proporcionar valores cerca del


valor verdadero, y la precisión se refiere a la dispersión de dichos valores.

x x x
xx
x x x xx
x x
x x
x

Preciso pero no exacto Exacto pero no preciso Exacto y preciso

Figura 9. 3. Exactitud y precisión de un estimador

Para comparar estos estadísticos debemos elegir otros criterios, por ejemplo,
el que sea Uniformemente de Mínima Varianza (UMV), es decir, entre todos los

-225-
9. Inferencia en poblaciones normales

posibles estimadores será mejor el que tenga una varianza más pequeña.

Luego en primer lugar, nos interesa estudiar aquellos estimadores que sean
insesgados y de mínima varianza.

El error cuadrático medio se descompone en sesgo al cuadrado y varianza del


estimador, según la siguiente expresión:
E( θˆ - θ ) = b(θˆ) 2 + D 2 (θˆ)
2

Para cada estimador nos interesa conocer su función de distribución, su


media y su varianza o desviación típica. La varianza del estimador viene dada por
la expresión ( ), cuya expresión depende, por lo general, de un parámetro
poblacional. Por ejemplo, la varianza de la media muestral es,
σ2
D 2 (x) =
n

En caso de no conocer la varianza poblacional, la estimamos por la varianza


muestral, con lo cual la varianza del estimador es realmente una estimación de la
varianza poblacional del estimador. Esto se expresa mediante ( ). La desviación
típica de esta varianza estimada se denomina error estándar del estimador , y se
expresa mediante EE (θˆ) , lo cual viene a ser equivalente a la notación Dˆ (θˆ) . El error
estándar de la media muestral es,
s
EE ( x ) =
n

Actividad 9.1:
Para estimar la media poblacional se toman 3 valores al azar. ¿Cuál de los dos
estimadores siguientes es el mejor?
x + x2 + x3
1) ˆθ1 = 1
3
x + 2· x2 + x3
2) ˆθ 2 = 1
4

9.2. ESTIMACIÓN POR INTERVALOS DE CONFIANZA

No solamente interesa obtener un valor concreto del parámetro desconocido, sino


también una idea de la precisión de la estimación. Con este objeto proporcionamos
un intervalo de valores, cuyos límites son función de los valores muestrales, de forma
que tendrá una gran probabilidad, 1 - α , de contener al valor verdadero del parámetro
-226-
9. Inferencia en ppoblaciones no
ormales

estimado. Es decir,
d se deb
be cumplir lla condición
n de que

r r
P( L1 (x ) ≤ θ ≤ L 2 (x )) = 1 - α

Cuanto
o menor sea
a el intervalo
o, mayor es
s la precisió
ón del estim
mador.

Si cam
mbia la mue estra, tambiién cambia los valores L1 y L2 , de manera
a que
tene
emos unos intervalos aleatorios.
a

antidad 1 - α se denom
A la ca ciente o nivel de confiaanza" y α es el
mina "coefic
eficiente o nivel
coe n de signnificación. P eral, α es el
Por lo gene e 5% ó el 11%. Si tomamos
α = 5% signiffica que de e cada 100 intervalos que obteng gamos paraa estimar θ , 95
con
ntendrán al valor verda adero y de esconocido del paráme etro y 5 noo lo conten
ndrán.
Esta
a idea se exxpone en laa Figura 9. 44.

Figura
a 9. 4. Conce
epto de intervalos de co
onfianza

r
Para obtener
o ervalos de confianza elegimos una funcióón g( x ;θ ) cuya
inte
disttribución, es conocidaa, y no deepende del parámetro
o a estimarr y que peermite
desspejar θ en n función de
d todo lo d
demás. Vamos a verlo con casoos sencillos
s que
estuudiamos a continuació
c n.

9.2..1. Intervalo
o de confia
anza para lla media po
oblacional

r
Si x procede
e de una población
p n μ;σ ) de
normal N(μ media y ddesviación típica
con
nocidas, enttonces:

-227-
9. Inferencia en poblaciones normales

x-μ
= N(0;1)
σ
n

y podemos obtener dos valores de la N(0;1) tales que

⎛ ⎞
⎜ ⎟
⎜ x-μ
P - zα/2 ≤ ≤ + zα/2 ⎟ = 1 - α
⎜ σ ⎟
⎜ ⎟
⎝ n ⎠

despejando μ queda:

⎛ σ σ ⎞
P ⎜⎜ - zα/2 ≤ x - μ ≤ + zα/2 ⎟⎟ = 1 - α
⎝ n n⎠
de donde:
⎛ σ σ ⎞
P⎜⎜ x - zα/2 ≤ μ ≤ x + zα/2 ⎟⎟ = 1 - α
⎝ n n⎠

Si la σ poblacional es desconocida, se tiene que

x-μ
= t n -1
s
n

y obtenemos unos valores de la t n -1 tales que:

⎛ ⎞
⎜ ⎟
⎜ x-μ α/2 ⎟
α/2
P - t n -1 ≤ ≤ + t n -1 = 1 - α
⎜ s ⎟
⎜ ⎟
⎝ n ⎠
despejando μ queda:

⎛ s s ⎞
P⎜⎜ x - tαn-/21 ≤ μ ≤ x + tαn-/21 ⎟⎟ = 1 - α
⎝ n n⎠

Y los límites del intervalo son:

-228-
9. Inferencia en poblaciones normales

s
L1 ( x ) = x - t αn -/21
n
s
L2 ( x ) = x + t αn-/21
n

Error de estimación de la media poblacional

Si empleamos el estadístico x para estimar la media poblacional, el error de


estimación es justamente la semiamplitud del intervalo de confianza, esto es,
σ
ε = zα / 2 ⋅
n

Si no conocemos la σ el error de estimación es,


s
ε = t αn/2-1 ⋅
n
Si el tamaño N de la población no es muy grande en relación al tamaño de la
N −n
muestra, a la varianza hay que aplicar el factor de corrección por población
N −1
finita, y los errores de estimación son,

σ N −n s N −n
ε = zα / 2 ⋅ ε = t αn /2-1 ⋅
n N −1 n N −1

Cálculo del tamaño muestral para un error determinado

Si deseamos saber cuántas unidades debemos evaluar para que nuestra


estimación de la media poblacional no sea superior a un error determinado ε con un
nivel de confianza de 1 − α , despejando el tamaño muestral n de las fórmulas
anteriores del error, tenemos la expresión,
2
⎛ σ ⋅ zα 2 ⎞
n = ⎜⎜ ⎟

⎝ ε ⎠

Si no conocemos la σ el valor de la n es,


2 2
⎛ s ⋅ tnα−/12 ⎞ ⎛ s ⋅ zα 2 ⎞
n = ⎜⎜ ⎟⎟ ≈ ⎜⎜ ⎟⎟
⎝ ε ⎠ ⎝ ε ⎠
Se aproxima a la normal para no tener que recurrir a tanteos al estar la
incógnita n en la fórmula del cálculo inicial.

Si la población es finita, el valor de la n se despeja de sus expresiones


respectivas, donde aparece el factor de corrección por población finita.

-229-
9. Inferencia en poblaciones normales

9.2.2. Intervalo de confianza para la varianza poblacional

Para una m.a.s. ( x1 , x 2 ,..., x n ) extraída de una población normal N( μ; σ ) , tenemos


que

s2
( n − 1) 2
= χ 2n -1
σ

y podemos calcular unos valores de la chi-cuadrado tales que

⎛ 2 s2 ⎞

P⎜χ α ≤ (n − 1) 2 ≤ χ
2

α ⎟ = 1-α
⎝ n -1,1-
2 σ n -1,
2⎠

despejando σ2

⎛ ⎞
⎜ 1 σ 2
1 ⎟
P⎜ 2 ≥ 2
≥ 2
⎟ = 1-α
⎜⎜ χ ( n − 1) s χ α ⎟
n -1, ⎟
α
⎝ n-1,1- 2 2 ⎠

⎛ ⎞
⎜ (n − 1) s 2 ( n − 1 ) s 2 ⎟
P⎜ 2
≤σ2 ≤ 2 ⎟ = 1-α
⎜⎜ χ α χ α ⎟⎟
⎝ n -1,
2
n -1,1-
2 ⎠

9.2.3. Intervalo de confianza para el cociente de varianzas poblacionales

r r
Sea X 1 una m.a.s. extraída de una población N(μ1; σ1) , y X 2 otra m.a.s. extraída de
una población N(μ2 ; σ2) , se tiene que:

s12
σ 12 =
F n1-1,n 2 -1
s 22
σ 22

-230-
9. Inferencia en poblaciones normales

y podemos obtener unos valores de la F tal que:

⎛ s12 ⎞
⎜ ⎟
P ⎜⎜ F 1n-1α-1,/2n 2 -1 ≤ σ 12 ≤ α/2 ⎟ = 1 - α
F n1-1,n 2 -1 ⎟
s 22
⎜⎜ ⎟⎟
⎝ σ 22 ⎠
⎛ σ 12 ⎞
⎜ ⎟
⎜ 1 σ 2
1 ⎟
P ⎜ 1-α/2 ≥ 2 ≥ α/2 ⎟ = 1-α
2

F s F
⎜ 1 2
n - 1,n - 1 1 n 1 - 1,n 2 - 1

⎜ s 2 ⎟
⎝ 2 ⎠
⎛ s12 s12 ⎞
⎜ 2

⎜ s2 σ 2
s 22 ⎟
P ⎜ α/2 ≤ 2 ≤ 1-α/2 ⎟ = 1 - α
1

⎜ F n 1 - 1,n 2 -1 σ 2 F n 1-1,n 2 -1 ⎟
⎜ ⎟
⎝ ⎠

Actividad 9.2:

En una planta de envasado de agua se toman al azar de la cadena de producción 15


botellas, y se analiza para cada una de ellas el contenido de calcio en mg/l.,
resultando los siguientes valores:

25 29,4 28,1 27,5 31 27,7 24,7 33,1 32,2 29,4 33,3 28,4 31 26,8 33,3

Se pide:
a) Estimar la media poblacional y su error de estimación con un nivel de
significación del 5%.
b) Calcular un intervalo de confianza para la media poblacional, con un
coeficiente de confianza del 95%.
c) De antemano se sabe que la varianza es 9, ¿cuánto vale el intervalo de
confianza al 95% para la media poblacional?
d) ¿Cuántas botellas se deben examinar para estimar la media poblacional con
un error menor del 1 mg/l y un nivel de confianza del 95%?

9.2.4. Intervalo de confianza para la proporción

Si de una población con proporción poblacional de defectuosas p 0 tomamos una

-231-
9. Inferencia en poblaciones normales

muestra aleatoria de tamaño n y observamos el número X de piezas defectuosas,


como el valor de X sigue una distribución binomial, y ésta se puede aproximar a una
distribución normal, un intervalo de confianza para la proporción p0 , viene dado por,

pˆ ⋅ qˆ pˆ ⋅ qˆ
pˆ − zα/2 ≤ p 0 ≤ pˆ + zα/2
n n

Siendo p̂ la proporción muestral, esto es,


x
pˆ = f =
n
Si p̂ fuera la proporción de defectos entre las n piezas, entonces X sigue una
distribución de Poisson, y como se puede aproximar a una distribución normal, el
intervalo de confianza para la proporción de defectos es,
pˆ pˆ
pˆ − zα/2 ≤ p 0 ≤ pˆ + zα/2
n n

Error de estimación de la proporción

El error de estimación de la proporción de unidades defectuosas viene dado


por la expresión que hay a la derecha del ± del intervalo de confianza para la
proporción, esto es,
p⋅q
ε = zα/2
n

Para el caso de población finita, hemos de adjuntar a la varianza el factor de


N −n
corrección , y el error es,
N −1
p⋅q N −n
ε = zα/2
n N −1

Si no conocemos la p poblacional, hay que obtener una estimación previa p̂ ,


o bien ponernos en el caso más desfavorable, y es considerar que el producto
p·q=0,25, que es lo máximo que puede ser dicho producto.

El tamaño muestral para un error determinado se obtiene despejando n de las


expresiones anteriores.

Si estamos estimando la proporción de defectos, el intervalo de confianza se


basa en la distribución de Poisson, y resultan las mismas expresiones pero quitando
la q, es decir, cambiando p·q por p. Las expresiones de los errores son,

-232-
9. Inferencia en poblaciones normales

p p N −n
ε = zα/2 ε = zα/2
n n N −1

Actividad 9.3:

De una producción de componentes electrónicos se examinaron 75, y resultaron 5


defectuosos.
a) Calcular un intervalo de confianza para la proporción de componentes
defectuosos.
b) ¿Cuántas piezas se deben examinar para estimar el valor verdadero de la
proporción de piezas defectuosas con un error menor de 0,01 y una confianza
de 95%?
c) Calcular el tamaño muestral si no conocemos un valor previo de p.
d) Calcular el tamaño muestral si tenemos una estimación previa de p=0,04.
e) Caso de suponer una población finita de N=1000 bujías.
f) Mismo enunciado que el anterior, pero suponiendo que deseamos estimar la
proporción de defectos por unidad de bujía.

9.2.5. Intervalo de confianza para la diferencia de proporciones

Si de una población de proporción de defectuosas p1 tomamos una muestra aleatoria


de tamaño n1 y observamos que hay X1 defectuosas; y de otra población de
proporción de defectuosas p2 tomamos una muestra aleatoria de tamaño n2 y
observamos el número de defectuosas X2, como tanto X1 como X2 siguen
distribuciones normales, si los tamaños de muestra son suficientemente grandes, la
diferencia
X1 X 2

n1 n2
también sigue una distribución normal, y un intervalo de confianza para la diferencia
de proporciones viene dado por,

pˆ 1 qˆ 1 pˆ 2 qˆ 2 pˆ 1 qˆ 1 pˆ 2 qˆ 2
pˆ 1 - pˆ 2 − zα / 2 + ≤ p1 - p 2 ≤ pˆ 1 - pˆ 2 + zα / 2 +
n1 n2 n1 n2

Donde,
x1 x2
pˆ 1 = f 1 = y pˆ 2 = f 2 =
n2 n2

Si las proporciones se refieren a defectos por unidad, el intervalo de confianza


es el mismo, pero cambiando el producto de p·q por p, esto es,

-233-
9. Inferencia en poblaciones normales

pˆ 1 pˆ 2 pˆ 1 pˆ 2
pˆ 1 - pˆ 2 − zα / 2 + ≤ p1 - p 2 ≤ pˆ 1 - pˆ 2 + zα / 2 +
n1 n2 n1 n2

Actividad 9.4:

De una muestra de 400 alumnos de la ETSII, 27 de ellos dijeron que fumaban


habitualmente, en cambio de una muestra de 500 alumnos de la Bellas Artes dijeron
que fumaban 35. ¿Se pueden considerar que el porcentaje de fumadores en BBAA
es bastante superior al de la ETSII?

9.2.6. Intervalo de confianza para la diferencia de medias poblacionales

Si de una población normal N(μ1;σ1 ) , extraemos una muestra de tamaño n1 y


calculamos la x1 ; y de otra población normal N(μ 2 ;σ 2 ) extraemos otra muestra
aleatoria de tamaño n2, y observamos x2 , como la diferencia x1 − x 2 sigue una
distribución normal,
⎛ σ 12 σ 22 ⎞⎟

x1 − x 2 ≡ N μ1 − μ 2 ; +
⎜ n1 n2 ⎟⎠

Un intervalo de confianza para la diferencia de medias poblacionales, siempre


y cuando los tamaños muestrales sean bastante elevados, es,

σ 12 + σ 22 ≤ μ − μ ≤ - + σ 12 + σ 22
x1 - x 2 + zα/2 ⋅ 1 2 x 1 x 2 z α /2 ⋅
n1 n2 n1 n2

En el caso de no conocer las varianzas poblacionales σ 2 las estimamos a


partir de las varianzas muestrales s 2 y el intervalo de confianza es,

s12 s 22 s12 s 22
α/2
x1 - x 2 − t n1+n 2 − 2 ⋅ + ≤ μ1 − μ 2 ≤ x1 - x 2 + t n1+n 2 − 2 ⋅
α/2
+
n1 n2 n1 n2

Si admitimos que las varianzas poblacionales son iguales pero desconocidas,


la varianza común la estimamos a partir de una ponderación de las varianzas
muestrales, esto es,
( n1 - 1) s12 + ( n2 - 1) s 22
s2 =
n1 + n2 - 2

-234-
9. Inferencia en poblaciones normales

Y el intervalo de confianza es,


1 1 1 1
α/2
x1 - x2 − t n1+n 2-2 ⋅ s ⋅ + ≤ μ1 − μ 2 ≤ x1 - x2 + tαn1/2+n 2- 2 ⋅ s ⋅ +
n1 n2 n1 n2

Actividad 9.5:

1. Un almacenista de pilas alcalinas desea conocer la duración media de las pilas que
ofrece un nuevo proveedor. Para ello ha tomado 12 pilas al azar y ha medido el
tiempo de duración en horas. Los resultados han sido:

Duración(hrs.)
27.5
31.2
33.4
29.8
25.4
30.5
31.7
26.3
29.2
32.1
30.8
28.6

a) ¿Cuál es la estimación de la duración media.


b) ¿Cuál es la estimación de su dispersión?
c) ¿Qué error se comete en la estimación de la duración media?
d) Calcular los intervalos de confianza para la duración media y la dispersión de
la duración de la pilas.

2. El almacenista anterior tiene la oportunidad de comprar pilas alcalinas de otro


nuevo proveedor que afirma que las que él fabrica tiene una mayor duración. Para
ello el almacenista extra 10 pilas de este nuevo proveedor y mide la duración de las
mismas. Los resultados han sido:

Duración(hrs.)
31.3
33.5

-235-
9. Inferencia en poblaciones normales

34.2
29.4
28.5
30.7
32.9
31.7
30.3
32.1

a) Estimar la media y la varianza de la duración de las pilas.


b) Calcular los errores de estimación.
c) Calcular el intervalo de confianza para diferencia de medias.
d) Estimar el intervalo de confianza para la desviación típica.
e) Contrastar la hipótesis de que el segundo proveedor es mejor que el
primero.
f) Contrastar la hipótesis de igualdad de varianzas.

3. En la tabla siguiente se recogen medidas de desgaste de las suelas de zapatos de


10 chicos. Las suelas se fabricaron de dos materiales sintéticos A y B. La pregunta a
contestar es, ¿hay diferencias entre el material A y el B en cuanto a desgaste de la
suela de zapato.

Chico Material A Material B Diferencia(B-A)


1 13,2 14,0 0,8
2 8,2 8,8 0,6
3 10,9 11,2 0,3
4 14,3 14,2 -0,1
5 10,7 11,8 1,1
6 6,6 6,4 -0,2
7 9,5 9,8 0,3
8 10,8 11,3 0,5
9 8,8 9,3 0,5
10 13,3 13,6 0,3

El material se asignó de forma aleatoria a cada zapato.

a) Obtener un intervalo de confianza para la diferencia de la media del desgaste


entre los dos tipos de materiales.

-236-
9. Inferencia en poblaciones normales

9.3. TEST DE HIPÓTESIS

Conceptos

Una hipótesis es una afirmación acerca de algo. Por ejemplo, el parámetro θ es igual
a cero. Bajo esta suposición estudiamos los datos y su comportamiento, y si no hay
mucha discrepancia entre lo observado y lo esperado, aceptamos tal afirmación,
cuanto menos decimos que no hay suficiente evidencia como para rechazar la
hipótesis establecida.

En consecuencia, se plantea el problema como una toma de una de las dos


decisiones siguientes:

d 0 = acepto la afirmación planteada.

d 1 = rechazo la afirmación planteada.

La afirmación que realizamos se llama "hipótesis nula" y casi siempre va


ligada a lo que es habitual indicando que hay “nulo” cambio; y la contraria se llama
"hipótesis alternativa".

Si la hipótesis respecto del valor de un parámetro se reduce a un punto,


decimos que la hipótesis es "simple", y si se trata de un conjunto de puntos, decimos
que la hipótesis es "compuesta".

Hipótesis simples son H0(θ=θ0) frente a la alternativa H1(θ=θ1). Hipótesis


compuestas son H0(θ ∈ ω0) frente a la alternativa H1(θ ∈ ω1). Así pues, podemos tener
H0(θ=θ0) vs H1(θ≠θ0)
que es un test bilateral cuando los valores alternativos están a ambos lados del valor
supuesto, y

H0(θ≤θ0) vs H1(θ>θ0) o bien H0(θ=θ0) vs H1(θ>θ0)


H0(θ≥θ0) vs H1(θ<θ0) o bien H0(θ=θ0) vs H1(θ<θ0)

que son test unilaterales, porque los valores alternativos están a un lado del valor
supuesto.

La hipótesis alternativa es la más fuerte, y se suele colocar como hipótesis


nula aquella cuyas consecuencias económicas sean más graves. Es decir, la
hipótesis nula tiende a ser más conservadora, de modo que no cambia su
formulación a menos de que no haya evidencias objetivas muy fuertes en su contra.

-237-
9. Inferencia en poblaciones normales

Región de aceptación y de rechazo

Una vez planteadas la hipótesis nula y la alternativa, el problema consiste en


tomar una muestra de la población, y a partir de ella decidir si aceptar o rechazar la
hipótesis nula, en función de la coherencia de los valores muestrales con la hipótesis
nula establecida.

Esto equivale a dividir el espacio muestral en dos zonas. Si el punto muestral


cae en la zona de aceptación, que llamamos X0(s), aceptamos H0, y si cae en la zona
de rechazo X1(s) aceptamos H1, lo cual implica rechazar H0. La letra "s" indica la
partición efectuada. Esquemáticamente es como aparece en la Figura 9. 5.

Figura 9. 5. Test de hipotesis

Encontrar el test significa encontrar la subdivisión del espacio muestral que


minimiza las pérdidas de las decisiones erróneas, según la matriz de pérdidas

Decisión\Espacio paramétrico θ0 ∈ ω0 θ1 ∈ ω1

d0 0, decisión correcta Error 2 (β) W(d0,θ1)

d1 Error 1 (α) W(d1,θ0) 0, decisión correcta

Suponemos que cuando la decisión es la correcta, la pérdida es cero.

Errores de primera y segunda especie

-238-
9. Inferencia en poblaciones normales

En el contraste de hipótesis se pueden cometer dos errores:

1) Rechazar H 0 , cuando realmente es verdadera.

2) Aceptar H 0 , cuando realmente es falsa.

El primero de ellos se llama error de primera especie o tipo I cuya probabilidad


es α , y viene dado por,
α = P(x ∈ X 1 (s)/ θ 0 )

y el segundo es el error de segunda especie o tipo II cuya probabilidad es β , y es

β = P(x ∈ X 0 (s)/ θ 1 )

σx/√n β σx/√n
α/2 α/2

LI μ0 LS μ1 x

Figura 9.6. Valor de la β

Para un contraste de hipótesis nos interesaría que tanto α como β sean cero,
o ambos lo más pequeño posible. Lo primero no se puede conseguir salvo que
analicemos toda la población. Para conseguir lo segundo bastaría con aumentar
suficientemente el tamaño de la muestra con lo que aumentamos nuestra información
y reducimos la probabilidad de equivocarnos. De tal forma que si hacemos α=0, se
cumple, para una misma n, que β=1; y al contrario, si hacemos que β=0, para una
misma n, se cumple que α=1.

La Potencia del test se define como:

Pot s ( θ ) = P(x ∈ X 1 (s)/ θ )

es decir, la probabilidad de rechazar la hipótesis nula en función del valor del


parámetro. El mejor test es aquel que para θ=θ0 la potencia es mínima y para otro
valor sea máxima.

-239-
9. Inferencia en poblaciones normales

La curva característica es la complementaria de la curva de potencia, es decir,

CC (θ ) = P ( aceptar H 0 / μ ) = β

Pa Pr

1 1
α
1-α
β
1-β

1-β
β
1-α
α
0 0
μ0 μ1 μ μ0 μ1 μ

Curva Característica Curva de Potencia

Figura 9. 7. Potencia del test

Obtención de los tests

La forma práctica de obtención del test de hipótesis es la siguiente: bajo el supuesto


de que se cumple la hipótesis nula H0, observamos un estadístico "T", función de la
muestra, que seguirá un determinado tipo de distribución, y por lo tanto será muy
probable que el valor observado esté dentro del campo de existencia de la
distribución T. Esta idea aparece representada en la Figura 9. 8.

1−α
α/2 α/2
Intervalo Esperado

LI LS

Figura 9. 8. Distribución del estadístico T

Pero si el valor observado cae fuera del intervalo esperado, esto está en
-240-
9. Inferencia en poblaciones normales

contradicción con la hipótesis nula, lo cual nos lleva a rechazarla. Por lo general, el
intervalo esperado corresponde al 1 - α de las muestras, siendo α = 5% .

También se puede decir que si la probabilidad de obtener un valor mayor que


el observado, el cual viene dado en un test unilateral por:

P(T > Tobserv ) = p - value


Y un test bilateral por
P(T > Tobserv ) = p - value
es muy pequeño, p - value < α , entonces es algo raro, bajo el supuesto de que se
cumpla la hipótesis nula, lo cual nos lleva a rechazarla.

Es decir, que admitimos un cierto nivel de discrepancia entre lo esperado y lo


observado, pero si la discrepancia es muy grande, esto lleva a rechazar la hipótesis
nula.

Con este razonamiento encontramos los principales test, que vemos a


continuación.

9.4. TEST DE HIPÓTESIS PARÁMETRICOS

9.4.1. Contrastes de la media de una poblacional normal

Las hipótesis que planteamos son H 0 ( μ = μ0 ) frente a H 1 ( μ ≠ μ0 ) , supuesto que


la varianza poblacional sea conocida. El estadístico a emplear es:

x - μ0
T= = N(0;1) = Z
σ
n

y bajo el supuesto de la hipótesis nula, se cumple que:

P(- zα/2 < T < + zα/2 ) = 1 - α

y si la T observada resulta

| T 0 |> z α/2

entonces se rechaza la hipótesis nula.


-241-
9. Inferencia en poblaciones normales

Si la varianza poblacional es desconocida, empleamos el estadístico t:

x - μ0
T= = t n -1
s
n

y bajo el supuesto de la hipótesis nula, se cumple que:

P(- tαn-/21 ≤ T ≤ + tαn-/21 ) = 1 - α

luego, si

| T0 |> tαn-/21

rechazamos la hipótesis nula.

Gráficamente es según la Figura 9. 9.

Zona de rechazo

1−α
α/2 α/2
Zona de aceptación

LI LS

Figura 9. 9. Zonas de aceptación y de rechazo

El test "s" es mejor que el "t" para contrastar H o ( μ = μ 0 ) , ya que, en general,


para dos test “s” y “t” con la misma extensión α , es mejor el que tiene mayor
potencia para todo θ del espacio paramétrico.

-242-
9. Inferencia en poblaciones normales

Pr

0
μ0

Figura 9. 10. Comparación de test μ0=15

Con este planteamiento también se puede resolver un test a un sólo lado, por
ejemplo

H 0 ( μ > μ 0 ) frente a H 1 ( μ ≤ μ 0 ) con σ conocido

El estadístico a observar es el mismo

x - μ0
T=
σ
n
las zonas de aceptación y de rechazo son según la Figura 9. 11.

Zona de rechazo

1−α
α Zona de aceptación

LI

Figura 9. 11. Test unilateral

Esto significa que el área α en lugar de repartirse a ambos lados, sólo está
en el lado de H 1 , ya que bajo H0 (μ > μ0) , lo normal es que la t observ. se vaya hacia la
izquierda de la figura.

-243-
9. Inferencia en poblaciones normales

De esta forma, si:

T observ. > - zα

aceptamos la H0.

De forma análoga, si el test de hipótesis es,

H 0 ( μ ≤ μ 0 ) frente a H 1 ( μ > μ 0 ) con σ conocido

Las zonas de aceptación y de rechazo se muestran en la figura siguiente,

Zona de rechazo

1−α
α
Zona de aceptación

LI LS

Figura 9. 12. Test unilateral

Actividad 9.6:
Un proveedor de pilas alcalinas del tamaño de R6 asegura que pueden funcionar por
término medio hasta 38 horas. El comprador de las pilas, para contrastar tal
afirmación, prueba 9 de ellas y observa el tiempo de duración de cada uno de ellas.
El resultado ha sido:

40,5 39,5 41 42 37 35 43 41,5 42,5

a) ¿Se puede aceptar la afirmación del proveedor?


b) ¿Cuánto vale el p-valor del test?
c) Si realmente la duración de las pilas fuera de 35 horas, ¿cuál serà la
probabilidad de aceptar que funcionan por término medio 38 horas?
d) ¿Cuál será el tamaño muestral a tomar para que cuando la media sea
realmente 35 la probabilidad de aceptar sea del 60%?
e) Si aceptamos que por término medio la duración de las pilas es 38 cuando la
media muestral de 11 pilas elegidas al azar está entre 36,5 y 39,5; ¿cuál es el
valor de α para este test?

-244-
9. Inferencia en poblaciones normales

Aplicación del test de hipótesis para la media poblacional

En función de la escala de la x , la zona de aceptación del test H0(μ=μ0) frente


a H1(μ≠μ0) es,
⎧ σ σ ⎫
X 0 ( s) = ⎨ x / μ0 − zα / 2 ≤ x ≤ μ0 + zα / 2 ⎬
⎩ n n⎭

Que gráficamente es colocar dos líneas, la LCS y la LCI, siendo,


σ0 σ0
LCS= μ 0 + zα / 2 ⋅ LCI= μ 0 − z α / 2 ⋅
n n

Tomamos una muestra de tamaño, calculamos su media muestral, y si este


valor está entre el LCI y el LCS, aceptamos que la media poblacional no se ha
modificado.

x
Rechazamos H0

LCS

Aceptamos H0

LCI

Muestra 1 Muestra 2 t

Figura 9. 13. Gráfico de control para la media poblacional

Cálculo de la β

Para el test H0(μ=μ0) frente a H1(μ≠μ0), si la media en lugar de μ0 cambia a


μ1 , la probabilidad de que un punto muestral esté dentro de los límites de aceptación
es,

β = P( LCI < x < LCS) = P⎜ μ − z
σ σ ⎞
2 n 1⎟
≤x≤μ +z μ
0 α 2 n 0 α
⎝ ⎠

Suponiendo que la σ no haya cambiado, para obtener la probabilidad


σ
tipificamos, pero ahora la distribución de x es x ≡ N(μ1; ) y el valor de la β
n

-245-
9. Inferencia en poblaciones normales

⎛ σ ⎞ ⎛ σ ⎞
⎜ μ 0 + zα / 2 · − μ1 ⎟ ⎜ μ 0 − z α / 2 · − μ1 ⎟
n n
β = φ⎜ ⎟ − φ⎜ ⎟
⎜ σ ⎟ ⎜ σ ⎟
⎜ ⎟ ⎜ ⎟
⎝ n ⎠ ⎝ n ⎠

Sustituyendo valores calcularíamos el valor de β.

Tamaño muestral

Si nos dan dos puntos de la curva característica (μ 0 ,1 − α) y (μ1;β) , el tamaño


de muestra para realizar el contraste de hipótesis, se obtiene imponiendo que la
curva característica pase por esos dos puntos y despejando el valor de n se tiene,
⎛ zα / 2 + z β ⎞
2
(z + z )
⎟⎟ = α / 2 2 β σ 2
2

n = ⎜⎜
⎝ d ⎠ δ
μ1 − μ 0
Donde d = es el descentrado relativo, y δ = μ1 − μ0 .
σ

9.4.2. Test de hipótesis para la varianza poblacional

El mismo razonamiento se aplica para la varianza poblacional. Así para el contraste

H 0 ( σ = σ 0 ) frente a H 1 ( σ ≠ σ 0 )
2 2 2 2

empleamos el estadístico

s2
2
χ observ . = ( n −1) 2
≡ χ 2n -1
σ0

y por lo tanto se pueden calcular unos valores de la chi-cuadrado tales que:

P( χ2n-1,1-α/2 ≤ χ 2n −1 ≤ χ2n-1,α/2 ) = 1 - α

2
y en consecuencia, si la χ observ . está fuera de ese intervalo, rechazamos la hipótesis

nula H 0 ( σ 2 = σ 02 ) .

Para el contraste de
H 0 ( σ = σ 0 ) frente a H 1 ( σ > σ 0 )
2 2 2 2

2
si el valor de la χ observ . se va hacia la derecha, da más peso a H 1 que a H 0 , luego el

-246-
9. Inferencia en poblaciones normales

área α se va hacia la derecha. Gráficamente es según la Figura 9. 14.

α
1-α

χ2n-1(α) χ
2
n-1

Figura 9. 14. Zona de rechazo.

2 2
Si χ observ . > χ n -1,α , rechazamos la H 0

Actividad 9.7:

La duración de las pilas alcalinas se sabe que tiene una desviación típica de 3
minutos. Para comprobar que una nueva remesa de pilas tienen la misma dispersión,
se prueba 11 de ellas y la desviación típica muestral ha sido s=3,7. ¿Se puede decir
que la dispersión es mucho mayor en esta segunda remesa?

9.4.3. Test de hipótesis para el cociente de varianzas poblacionales

Análogamente, para contrastar

H 0 ( σ 1 = σ 2 ) frente a H 1 ( σ 1 ≠ σ 2 )
2 2 2 2

el estadístico a observar es:

-247-
9. Inferencia en poblaciones normales

s12
σ 12 =
F observ. = 2 F n -1,n -1
s2 1 2

σ 22
que bajo el supuesto de que σ 12 = σ 22 , el estadístico se reduce a:

s12
F observ. = 2 = F n1-1,n 2 -1
s2

2
Tomando como s1 la mayor de las cuasivarianzas muestrales, el cociente
deberá ser la unidad, pero si es un poco mayor que la unidad, todavía no hay
evidencia de que σ 12 ≠ σ 22 , pero si el cociente es bastante mayor que la unidad,
entonces si hay razón para pensar que σ 12 ≠ σ 22 .

Fn(1α−)1, n2 −1 Fn1 −1, n 2 −1

Figura 9. 15. Zona de rechazo

Ese “bastante” nos lo indica el cociente de varianzas muestrales, de forma


que si F observ. > F αn1-1,n2-1 , rechazamos la H 0 , y podemos decir que σ 12 > σ 22 .

Actividad 9.8:

De una remesa de 11 pilas alcalinas la desviación típica ha sido de 3,7 y de una


segunda remesa de 13 pilas alcalinas la desviación típica ha sido de 4,6. ¿Se puede
decir que la dispersión de la segunda remesa es mucho mayor que la dispersión de la
primera?

-248-
9. Inferencia en poblaciones normales

9.4.4. Contrastes de proporciones

Para contrastar si el porcentaje de defectos de un lote de piezas es p0 ,


muestreamos n piezas al azar del lote, y observamos el número X de piezas
defectuosas. En principio, si el tamaño del lote es grande en comparación con la
muestra, X sigue una distribución Binomial B(n,p), pero si np>5, se puede aproximar a
una distribución normal X ≡ N(np; np(1- p) ) . Con ello bajo el supuesto de que

p = p0 la cantidad X se distribuye según una N( np0 ; np0 (1 - p0 ) ) y tipificando se


tiene:

X - n p0
z=
np0 (1 - p0 )

Esta cantidad Z sigue una distribución N(0;1), de forma que el valor observado
cabe esperar que esté dentro del campo de existencia de la normal tipificada, con
una probabilidad del 95% (tomando α = 0,05 ). En caso de que ocurra lo esperado,
no hay razón para rechazar la hipótesis nula de que p = p0 . Es decir, la región de
aceptación del test es,

- zα/2 < z < + zα/2


y la región de rechazo es la contraria,

| z | > zα/2

Actividad 9.9:

De un contenedor con 10000 piezas se afirma que el porcentaje de defectuosas es


del 2%. Para contrastarlo se toma una muestra de 50 unidades y se observa que hay
2 defectuosas.

a) ¿Es eso coherente con la hipótesis nula de que el porcentaje es del 2%?
b) ¿Cuánto vale el p-valor del test?
c) Si viniera un contenedor con un porcentaje del 5%, ¿cuál será la probabilidad
de aceptar la hipótesis nula?
d) ¿Si queremos que la probabilidad anterior fuera de 0,40 ¿qué tamaño de
muestra debemos tomar?

-249-
9. Inferencia en poblaciones normales

Cálculo de la β para un proporción

Para el test H 0 ( p = p0 ) frente a H 1 ( p ≠ p0 ) los límites de la zona de


aceptación son,

p0 q0 p0 q0
LCS = p 0 + z α / 2 LCI = p 0 − zα / 2
n n

Si la proporción fuera p1, el valor de β es,


p0q0 pq
β = P( LCI ≤ f ≤ LCS / p1 ) = P( p0 − zα / 2 ≤ pˆ ≤ p0 + zα / 2 0 0 / p1 )
n n

p1 ·q1
Cuando p0 cambia a p1, la f sigue una distribución normal N ( p1 ; ),
n
pero los límites de la zona de aceptación no cambian, y el valor de β es,

⎛ p ·q ⎞ ⎛ p ·q ⎞
⎜ p 0 + zα / 2 · 0 0 − p1 ⎟ ⎜ p 0 − zα / 2 · 0 0 − p1 ⎟
⎜ n ⎟ ⎜ n ⎟
β = φ⎜ ⎟ − φ⎜ ⎟
⎜⎜ p1·q1 ⎟⎟ ⎜⎜ p1·q1 ⎟⎟
⎝ n ⎠ ⎝ n ⎠

Sustituyendo valores, calcularíamos el valor de β.

Para la proporción de defectos(defectos por unidad), es todo igual pero


cambiando p·q por sólo p.

Gráficos de control para la proporción de piezas defectuosas

Para controlar que la proporción de piezas defectuosas de un proceso


industrial se mantiene en un nivel de p 0 , tomamos una muestra al azar de tamaño n
y observamos la proporción muestral,
x
pˆ = f =
n
Siendo x el número de piezas defectuosas que aparecen en la muestra.

Las sucesivas muestras de tamaño n, vamos graficando en ordenadas el valor


de dicha proporción muestral, y siempre que la misma esté dentro de unos límites de

-250-
9. Inferencia en poblaciones normales

aceptación para el test H 0 ( p = p0 ) frente a H 1 ( p ≠ p0 ) diremos que el proceso está


bajo control, tal y como se refleja en la figura de abajo.

Rechazamos la H0
f=x/n
p 0 q0
LCS = p 0 + z α / 2
n

p 0 q0
LCI = p 0 − z α / 2
n

Tiempo
Muestra 1 Muestra 2

Aceptamos la H0

Figura 9. 16. Gráfico de control para la proporción de defectuosas

Siempre que la proporción observada de la muestra esté dentro de dichos


límites, asumiremos que el proceso se encuentra dentro de lo que cabe esperar, pero
cuando un punto salga de dichos límites, habrá que buscar la causa del cambio del
proceso.

Tamaño muestral

Si nos dan dos puntos de la curva característica (μ 0 ,1 − α) y (μ1;β) , el tamaño


de muestra para realizar el contraste de hipótesis, se obtiene imponiendo que la
curva característica pase por esos dos puntos y despejando el valor de n se tiene,

2
⎛ zα / 2 p0q0 + zβ pq ⎞
n=⎜ ⎟
⎜ p − p ⎟
⎝ 0 ⎠

Para la proporción de defectos (defectos por unidad), el tamaño de muestra a


tomar para que el test pase por los dos puntos de la curva característica es,

2
⎛z p + zβ p ⎞
n = ⎜ α /2 0 ⎟
⎜ p − p0 ⎟
⎝ ⎠

-251-
9. Inferencia en poblaciones normales

9.4.5. Test de hipótesis para la diferencia de medias poblacionales con


muestras independientes

Si partimos de dos poblaciones de dos poblaciones que siguen distribuciones


N(μ1,σ1) y N(μ2 , σ2) respectivamente, para realizar el contraste de,

H (μ 1 = μ 2 ) frente a H (μ 1 ≠ μ 2 )

Tomamos una muestra de tamaño n1 de la primera población y otra muestra


de tamaño n2 de la segunda población, calculamos las medias muestrales de cada
muestra, y observamos el estadístico,

( x1 − x2 ) − (μ 1 − μ 2 )
T=
σ 12 σ 22
+
n1 n2

El cual sigue una normal tipificada. Si el valor de T cae dentro de la zona de


aceptación (1-α) no hay razón para rechazar la hipótesis nula. El área de aceptación
es,
− zα / 2 ≤ T ≤ zα / 2

En el caso de que σ1 y σ2 sean desconocidas pero iguales, la σ común la


estimamos mediante,
s12 ( n1 − 1) + s 22 ( n 2 − 1)
s=
n1 + n 2 − 2
Y el estadístico
( x1 − x 2 ) − ( μ1 − μ 2 )
T=
1 1
s +
n1 n2
Sigue una t de Student con n1+n2-2 grados de libertad.

Si
− t nα1 +/ 2n2 −2 ≤ T ≤ t nα1 +/ 2n2 −2

Aceptamos la hipótesis nula de igualdad de medias.

Para el contraste unilateral

-252-
9. Inferencia en poblaciones normales

H ( μ1 = μ 2 ) frente a H ( μ1 > μ 2 )

Aceptamos la H0 cuando
T < t nα1 +n2 −2

9.4.6. Test para la diferencia de medias poblacionales con datos


apareados

Se trata de un contraste para la diferencia de medias de dos poblaciones, pero en


que las muestras obtenidas no son independientes, sino que están de alguna forma
relacionadas una a una, de manera que el tamaño de las muestras es el mismo. Es
típico el caso de que de un elemento de la población realizamos mediciones antes y
después de un tratamiento y queremos contrastar si hay diferencias debido al
tratamiento.

El tamaño de la muestra es n, y para cada elemento tenemos las


observaciones x1i y x2i, la primera y segunda medición, y deseamos contrastar si las

d i = x1i − x2i

son por término medio cero. Es decir, el test de diferencias de medias,

H (μ1 = μ 2 ) frente a H (μ1 ≠ μ 2 )

Se reduce al test
H (μ d = 0) frente a H (μ d ≠ 0)

Para ello aplicamos este test a la variable di y observamos el estadístico,

d −0
T=
sd n
n n

∑d
i =1
i ∑ (d
i =1
i − d )2
Donde d = y sd = .
n n −1

Si − t nα−/12 ≤ T ≤ t nα−/12 aceptamos la hipótesis nula de igualdad de medias y en


caso contrario la rechazamos.

-253-
9. Inferencia en poblaciones normales

Actividad 9.10:

En la tabla siguiente se recogen medidas de desgaste de las suelas de zapatos de 10


chicos. Las suelas se fabricaron de dos materiales sintéticos A y B. La pregunta a
contestar es, ¿hay diferencias entre el material A y el B en cuanto a desgaste de la
suela de zapato.

Chico Material A Material B Diferencia(B-A)


1 13,2 14,0 0,8
2 8,2 8,8 0,6
3 10,9 11,2 0,3
4 14,3 14,2 -0,1
5 10,7 11,8 1,1
6 6,6 6,4 -0,2
7 9,5 9,8 0,3
8 10,8 11,3 0,5
9 8,8 9,3 0,5
10 13,3 13,6 0,3

Las mediciones son las alturas que restan en las suelas de los zapatos.

El material se asignó de forma aleatoria a cada zapato.

a) Suponiendo que los datos fueran independientes, ¿hay diferencias entre el


material A y B?
b) Como los datos se han obtenido a pares (son dependientes), ¿qué material es
el mejor?

9.4.7. Test para la diferencia de proporciones

Se trata de un contraste para comprobar si las proporciones de dos poblaciones son


iguales o distintas. Suponemos que la primera población tiene una proporción p1 de
una determinada característica, y de ésta tomamos una muestra al azar de n
elementos, y la segunda población tiene una proporción p2 de la misma característica,
y tomamos una muestra al azar de n2 elementos.

El test que plantamos es

-254-
9. Inferencia en poblaciones normales

H ( p1 = p2 ) frente a H ( p1 ≠ p2 )

El cual equivale a,

H ( p1 − p2 = 0) frente a H ( p1 − p2 ≠ 0)

Para su contraste empleamos el estadístico,

( f1 − f 2 ) − (0)
T=
⎛1 1⎞
pˆ (1 − pˆ )⎜⎜ + ⎟⎟
⎝ n1 n2 ⎠

donde

x1 + x 2 x1 x2
pˆ = f1 = f2 =
n1 + n 2 n1 n2

Siendo x1 y x2 el número de elementos de la muestra que poseen la


característica que estamos estudiando.

Bajo el supuesto de que se cumpla la H0 , y n1 y n2 lo suficientemente grandes,


el estadístico T se distribuye según una normal tipificada.

Si − zα / 2 ≤ T ≤ zα / 2 aceptamos la hipótesis nula con un nivel de significación


de α, y en caso contrario rechazamos la hipótesis nula.

Actividad 9.11:

Se quiere comprobar si dos lotes con un determinado tipo de componente presenta el


mismo porcentaje de unidades defectuosas. Para comprobarlo se sacan 40 piezas
del primer lote y resulta que hay 2 defectuosas; y después se sacan 50 piezas del
segundo lote y resulta que hay 4 piezas defectuosas.

a) ¿Podemos afirmar que el porcentaje es el mismo?


b) ¿Cuánto vale el p-valor del test?

-255-
9. Inferencia en poblaciones normales

9.5. TEST NO PARAMÉTRICOS

Son aquellos en los que no contrastamos hipótesis sobre el parámetro o los


parámetros de una distribución, sino que son hipótesis sobre la “forma“ de la
distribución, o la “independencia” de dos o más factores de clasificación como las
tablas de contingencia de dos o más factores.

9.5.1. Test de ajuste a una distribución

Cuando observamos unos datos extraídos al azar de una población se plantea la


hipótesis de si dicha población sigue una determinada distribución o por el contrario
los datos no se puede decir que proceden de dicha población supuesta.

Vamos a plantear el test de ajuste a una distribución mediante un ejemplo


sencillo, como es la distribución aleatoria del los puntos extraídos al lanzar un dado.
La función de probabilidad es,
1
P( X = xi ) = para x i = 1,2,3,4,5,6
6
El objetivo de la prueba es comprobar si un dado está trucado o no. Para ello
lanzamos el dado 60 veces y anotamos la frecuencia de cada cara. Imaginemos que
el resultado haya sido.

OBSERVADO ESPERADO
9 10
13 10
7 10
14 10
12 10
5 10

A la vista de los resultados, ¿podemos decir que el dado está bien?

Bajo el supuesto de que el dado está bien la frecuencia esperada de cada xi


es
1
n·P ( x i ) = 60· = 10
6
Si observamos que las frecuencias fluctúan alrededor del valor de 10, diremos
que no hay motivo para pensar que el dado está trucado. Pero si las frecuencias que
observamos se separan mucho de 10, habrá motivo para pensar que el dado
realmente está trucado, ya que existen valores que se escapan de lo que cabe
esperar.

¿Cómo decimos que hay mucha diferencia respecto de lo que esperamos?

-256-
9. Inferencia en poblaciones normales

Para medir está diferencia empleamos el estadístico Chi-cuadrado, cuya


expresión es,
k
(Oi − E i ) 2
χc = ∑ ≡ χ k2−1
i =1 E i

donde:
oi = frecuencia observada del valor xi .
ei = frecuencia esperada del valor de xi .

Las hipótesis que se plantean son:

H0(los datos siguen la distribución del dado) frente a H1(los datos no siguen la
distribución del dado)

Bajo el supuesto de la H0 se demuestra que el estadístico χc2 sigue una


distribución χ2 de k-1 grados de libertad, donde k es el número de intervalos o
número de sumas de la chi-cuadrado.

La aplicación del test consistir-a en calcular la cantidad χc2 y si

χc2 < χk2−1,α


Si aceptamos la H0
Si χc2 > χk2−1,α rechazamos la H0.

O bien calculamos el p-valor del estadístico χc2 , esto es,

(
p − valor = P χ k2−1 > χ c2 )
Y si,

El p-valor > α aceptamos la H0


El p-valor < α rechazamos la H0 .

En la siguiente hoja de cálculo EXCEL hemos realizado la aplicación de este


test.

-257-
9. Inferencia en poblaciones normales

OBSERVADO ESPERADO CONTRIBUCION


9 10 0,1
13 10 0,9
7 10 0,9
14 10 1,6
12 10 0,4
5 10 2,5
Suma…… 6,4

p-valor…, 0,269218814

Por lo tanto no podemos rechazar que el dado sea correcto con α=0,05.

En resumen, para comprobar si unos datos ( x1 , x2 ,...., xn ) se ajustan a una


determinada distribución aleatoria con función de distribución F(x), el procedimiento a
seguir es:

1) Dividir el campo de existencia de la v.a. X en k intervalos disjuntos, a ser


posible equiprobables (con igual probabilidad de pertenecer a uno de los
intervalos).
2) Contar el número de datos que caen en cada intervalo. Esto es las oi .
3) Calcular la frecuencia esperada en cada intervalo, mediante ei = n·pi .
4) Calcular la cantidad
k
(Oi − E i ) 2
χc = ∑ ≡ χ k2− s −1
i =1 Ei
donde s es el número de parámetros que definen la F(x) estimados a partir de los
propios datos.

Si para calcular la pi debemos conocer los parámetros de la distribución,


entonces los grados de libertad k-1 se reducen con el número s de parámetros que
estimamos a partir de los propios datos.

Por ejemplo, si X es una normal debemos conocer la media y la sigma. Pero


si son desconocidos, hay que estimarlos a partir de los propios datos. De este modo,
para este caso el valor de la s=2.

Comprobamos si la χc2 cae dentro de la zona de aceptación, con lo cual


decimos que los datos siguen esa función de distribución F(x), o si caen el la zona de
rechazo, y decimos que no se admite que los datos siguen esa F(x).

Para que el test funcione bien, un requisito es que la frecuencia esperada sea
al menos de 5, esto es, que n· pi > 5 . En caso de que algún intervalo no cumpla esta

-258-
9. Inferencia en poblaciones normales

condición, se combina con los anteriores o posteriores para cumplir que la frecuencia
esperada al menos sea de 5.

9.5.2. Test de independencia

En muchas ocasiones clasificamos a los elementos de una población en función de


dos características, la A y la B, donde la característica A tiene r posibles valores, y la
B tiene c posibles valores. La clasificación de cada elemento según el valor de A y el
valor de B da lugar a una tabla de doble entrada, filas y columnas, que recibe el
nombre de “tabla de contingencia”. Por ejemplo, la tabla de turno de fabricación en
filas y número de defectos de calidad en cada coche en columnas.

La pregunta que se formula es ¿tiene algo que ver el turno de trabajo con el
que aparezcan más o menos defectos de calidad? En definitiva, se trata de
comprobar si la característica A es independiente de la característica B, es decir,
plantemos un test de independencia entre las dos características.

Recordamos la notación expuesta en el tema de estadística descriptiva


bidimensional.

1 2 j J total
1
2

i nij ni•

I
total n• j n••

Y llamando a:

pi• = probabilidad de pertenecer a la clase i de la característica A.


p • j = probabilidad de pertenecer a la clase j de la característica B.

La probabilidad de pertenecer a la clase Ai y a la clase Bj es,


P( Ai ∩ B j )

Y bajo el supuesto de independencia, se cumple que,


pij = P( Ai ∩ B j ) = P( Ai )·P( B j ) = pi • ·p• j

-259-
9. Inferencia en poblaciones normales

Y las hipótesis son,


H0 ( pij = pi •·p• j ∀i, j ) frente a H 1 ( pij ≠ pi• ·p• j a menos un par i, j )

Para comprobar esta hipótesis aplicamos el estadístico chi-cuadrado como,

r c (oij − eij ) 2
χ = ∑∑
2
c
i =1 j =1 eij
Donde:
oij = frecuencia observada en la casilla i,j.
eij = frecuencia esperada en la casilla i,j.

Bajo el supuesto de independencia, eij se calcula como

eij = pij ·n = pi• · p• j ·n


Siendo
ni • n• j
pi• = p• j =
n n
Que sustituyendo queda,
ni • n• j ni • ·n• j
eij = · ·n =
n n n

Y bajo la H0 la cantidad χc2 se distribuye según una Chi-cuadrado de (r-1)·(c-


1) grados de libertad. La regla de decisión es,

Si χ c2 < χ (2r −1)(c −1),α aceptamos la H0.


Si χ c2 > χ (2r −1)(c−1),α rechazamos la H0.

O bien calculando el (
p − valor = P χ(2r −1 )( c−1 ) > χc2 , )
Si p-valor > α aceptamos la H0.
Si p-valor < α rechazamos la H0.

Para que funcione bien el test la frecuencia esperada en cada casilla debe ser
superior a 5.

Para el contraste de igualdad de proporciones de varias poblaciones o para la


igualdad de varias poblaciones (contraste de homogeneidad), los datos se clasifican
como una tabla de contingencia y se aplica el mismo procedimiento que el visto en el
test de independencia.
-260-
9. Inferencia en poblaciones normales

Actividad 9.12:

Se toma una muestra de estudiantes de diferentes grupos de clase de aula y se les


pide su opinión en cuanto a una propuesta de cambio del plan de estudios. Los
resultados son los siguientes:

Clase A favor En contra


1 120 80
2 70 130
3 60 70
4 40 60

¿Podemos decir que algunos grupos de clase están más a favor de la propuesta que
otros?

Se ha preguntado a un grupo de hombres y mujeres si fuman cigarrillos de forma


habitual. Los resultados han sido:

Fuma No fuma
Mujer 9 11
Hombre 20 40

¿Hay diferencias entre los hombres y las mujeres en cuanto al hábito de fumar
cigarrillos?

9.6. PROBLEMAS PROPUESTOS

9.6.1. Calcular el tamaño de la muestra para que el error relativo de s'2


respecto de σ2 sea inferior al 25% con una probabilidad mayor del 80%.

Solución: 52

9.6.2. Para estudiar el espesor de la capa de imprimación de la carrocería de


un determinado modelo de automóvil se examinaron 10 vehículos obteniéndose
los siguientes valores

-261-
9. Inferencia en poblaciones normales

{ 45, 40, 44, 43, 45, 43, 46, 45, 44, 45 }

medidos en micras. En el supuesto de que sigan una distribución NORMAL :

a) Calcular un intervalo de confianza al nivel α=0'05 para el promedio del


espesor.
b) Lo mismo para la varianza del espesor.

Solución: a) [42.78; 45.21] b) [1.37; 9.63]

9.6.3. Una resistencia eléctrica ha sido medida 6 veces, resultando los valores
en ohmios :
{ 1'5, 1'6, 1'4, 1'5, 1'3, 1'1 }

Calcular el intervalo de confianza para la media con α=0'05.

Solución:[1.21,1.59]

9.6.4. Para un intervalo de confianza de un determinado parámetro con un nivel


de confianza del 90%; indicar cuál de las siguientes afirmaciones es correcta:

a) contiene con una probabilidad del 90% el valor real y desconocido del parámetro
poblacional a estimar.
b) es la región de aceptación de un test de hipótesis al 10%.
c) estima puntualmente con una probabilidad del 90% el parámetro muestral.
d) ninguna de las anteriores.

Test de hipótesis

9.6.5. Una muestra de 16 transistores de cierto tipo ha presentado una vida


media de 734 horas. ¿Puede aceptarse que la media poblacional es de 740
horas con un nivel de significación α=0'05?

a) Supuesta normalidad y conocido σ=12 horas.


b) Supuesta normalidad y conocido s'=12 horas.

Solución: a) no [728.12,739.88] b) si [727.61,740.39]

9.6.6. Sea X una variable aleatoria de distribución NORMAL N(m,1). Con el fin
de contrastar la hipótesis de que la media poblacional es m=2 frente a m≠2 se
toma una muestra, siendo esta:

{ 2'1, 2'2, 2'5, 1'9, 1'2 }

-262-
9. Inferencia en poblaciones normales

¿Puede aceptarse la hipótesis nula con α=0'05?

Solución: si 1.98 ∈ [1.1235,2.8765]

9.6.7. Tras numerosas comprobaciones, el número de pulsaciones por minuto


de varones de 20 a 25 años se distribuye según una NORMAL N(72,9). Si una
muestra de 100 jugadores de fútbol da como media 64 pulsaciones por minuto,
¿debemos considerar esta diferencia como significativa con α=0'05?

Solución: no 64 < 70.5195

9.6.8. El contenido de un determinado elemento en un acero es una variable


aleatoria NORMAL N(35,1). Se sospecha que una modificación del proceso da
lugar a un aumento del contenido medio del elemento en cuestión, y se sabe que
es imposible que lo disminuya.

a) Plantear el Test de hipótesis que confirme el aumento de dicho elemento.


Tomar α=0'05.
b) Calcular la probabilidad de aceptar la hipótesis nula para diferentes valores
de la media.

La modificación no altera las dispersiones.


Muestra {35'5, 34'0, 36'8, 37'0, 35'8, 37'5, 34'5, 38'0, 37'5, 36'0}

Solución: a) x ≤ 35.62 b) {35,0.975} {35.62,0.5} {36.0,0.115} {36.2,0.033}

9.6.9. Se tiene el Test de hipótesis


Ho : σ2=4
H1 : σ2=9
a partir de una muestra aleatoria simple de tamaño n=21 procedente de una
población NORMAL. La región de aceptación es Xo(s)={ x / s'2≤6} y la de rechazo
X1(s)={ x / s'2≥7}. Si s'2 esta entre ambos se decide aceptar con probabilidad 0'6 y
rechazar con probabilidad 0'4. Hallar las probabilidades de los riesgos de I y II
especie.

Solución:α = 0.04 β = 0.2

9.6.10. Una empresa anuncia que el 10% de las unidades de un artículo en


venta procede de sus fábricas, frente a un competidor que asegura que dicho
porcentaje es menor. Se toma una muestra de 100 artículos, de los cuales sólo 3
son de la primera empresa. ¿Puede aceptarse que ésta tiene razón? Tomar
α=0'05.

-263-
9. Inferencia en poblaciones normales

Solución: no 0.03 ≤ 0.05065

9.6.11. En el proceso de fabricación de tornillos se desea que la proporción


máxima de tornillos defectuosos producidos debe ser de un 5o/o. En un control de
fabricación tomamos una muestra de 100 tornillos y encontramos uno
defectuoso.

a) ¿Se puede afirmar que el proceso esta fuera de control? Tomar α=0'05.
b) ¿Qué ocurre si la dirección quiere mas precisión en el test?

Solución: a) no 0.01 ∈ [0.0073, 0.0927]

9.6.12. Un partido afirma que el 55% de los electores están de acuerdo con sus
ideas frente a un problema. Se toma una muestra de 1.000 electores y se obtiene
una proporción del 51%. ¿Puede sostener el partido político dicha afirmación?
Tomar α=0'05.

Solución: no 0.51 ∉[0.5192, 0.5808]

9.6.13. La proporción de unidades defectuosas en un lote de 100 unidades del


proveedor A es del 4%, mientras que un lote de 150 unidades del proveedor B
es del 7%. ¿Hay evidencias para decir que el proveedor A produce menos
unidades defectuosas que el proveedor B? Tomar α=0'05.

Solución: no 0.9941 < 1.96

9.6.14. La variabilidad de un proceso en condiciones de producción correctas es


de 3 unidades. Se dispone de una muestra de tamaño n=15, con los siguientes
valores:

{ 27, 17, 18, 30, 17, 22, 16, 23, 26, 20, 22, 16, 23, 21, 17 }

¿Funciona correctamente el proceso? Tomar α=0'05.

Solución: no [3.6185, 16.7907]

9.6.15. Para contrastar

Ho : λ=1
H1 : λ=2

se dispone de una única observación x que proviene de una distribución de


Poisson Ps(λ). Si se toma como región de rechazo x≥4, calcular las
probabilidades de los errores de tipo I y tipo II.
-264-
9. Inferencia en poblaciones normales

Solución: α = 0.0189 β = 0.85712

9.6.16. Una partida de gran tamaño de piezas se considera válida si tiene menos
de un 2% de piezas defectuosas (H0 :p≤0’02). Para su control se toman 9 piezas
y se acepta la partida si todas las piezas son correctas. ¿Cuál es la probabilidad
de cometer un error de 2ª especie si en realidad el lote inspeccionado tiene un
10% de piezas defectuosas?

a) 0’3874
b) 0’6126
c) 0’2252
d) 0’7748

9.6.17. HIJOS DE ILUMINADA S.A. es una empresa que se dedica a producir


bombillas. En una de sus lineas se fabrican bombillas de 40 Watios. El filamento
de las mismas tiene una resistencia con distribución NORMAL N(605,1.18)
ohmios, y una bombilla se considera correcta cuando su resistencia esta situada
entre los valores 607.86Ω y 600.96Ω. Para comprobar que el proceso de
fabricación esta bajo control, es decir, que la media vale 605, los operarios de la
linea realizan un test consistente en tomar muestras de tamaño 7 de forma
periódica, y si la resistencia media esta situada entre los valores 606.338Ω y
603.662Ω se acepta que el proceso esta bajo control. Determinar la probabilidad
de cometer el error de primera especie, y el de segunda especie cuando el valor
de la media poblacional es de 606.5Ω.

a) α=0.00270, β=0.44540
b) α=0.02571, β=0.35942
c) α=0.02571, β=0.44540
d) α=0.00270, β=0.35942

9.6.18. Para contrastar la hipótesis de igualdad de precisión de dos métodos de


análisis, utilizamos la distribución:

a) N(m1+m2, σ 12 + σ 22 )
b) χ n21 + n2
c) Fn1 ,n2
d) t n1 + n2

-265-
9. Inferencia en poblaciones normales

9.6.19. Se quiere contrastar la hipótesis nula de que la proporción de piezas


defectuosas en una partida es menor o igual al 1%, contra la alternativa de que
es mayor. Para ello se realiza el siguiente plan: se van tomando piezas de la
partida hasta que aparezca una defectuosa. Si el número de piezas tomadas
hasta ese momento es menor o igual que 2 se acepta la partida y en caso
contrario se rechaza. Calcular el error de segunda especie para una proporción
de piezas defectuosas del 10%.

a) 0.1900
b) 0.1000
c) 0.0975
d) 0.0950

9.6.20. Una determinada máquina fabrica láminas de acero cuyo espesor sigue
una distribución normal N(0.1, 0.005) cm. La máquina se considera que funciona
mal, y por tanto se debe revisar, si al tomar una muestra, el espesor promedio de
las láminas es superior a 0.1041cm. Si al tomar una muestra el promedio de
longitud es inferior a 0.1041cm y por tanto no revisamos la máquina, ¿cuál de
estas afirmaciones es cierta?

a) Podemos estar cometiendo un error de primera especie


b) Podemos estar cometiendo un error de segunda especie
c) Seguro que cometeremos un error de primera especie
d) Seguro que cometeremos un error de segunda especie

Tabla de contingencia

9.6.21. La siguiente tabla muestra la frecuencia con la que se dan las distintas
calidades de piezas en dos máquinas de una determinada empresa. Se
pretende comprobar mediante un test χ2 si existen diferencias significativas entre
las dos máquinas en cuanto a número de piezas fabricadas de cada calidad.
Calcular el nivel de significación de dicho test.

Piezas Piezas Piezas


inútiles reciclables correctas
Máquina A 15 33 60
Máquina B 42 61 82

a) 0’05
b) 0’10
c) 0’25
d) 0’50

9.6.22. Un estudio realizado sobre el número de accidentes mortales de

-266-
9. Inferencia en poblaciones normales

automóvil durante el último puente festivo, muestra los siguientes resultados, en


función del tamaño del coche y el estado del conductor y los pasajeros:

MUERTOS \ TAMAÑO DEL COCHE PEQUEÑO MEDIANO GRANDE


al menos uno 49 35 18
ninguno 71 65 62

En un periódico (A) se afirma que el tamaño del coche (y su equipamiento de


seguridad) no influye en el número de accidentes mortales, mientras que otro (B)
dice que sí, y que la distribución es:

MUERTOS \ TAMAÑO DEL COCHE PEQUEÑO MEDIANO GRANDE


al menos uno 46 34 20
Ninguno 74 66 60

Con los datos expuestos:

a. Sólo el periódico A tiene razón, el tamaño del coche no influye en la


siniestrabilidad del accidente.
b. Sólo el periódico B tiene razón, y el tamaño del coche si que influye en el
número de muertos, y la distribución que aporta es aceptable.
c. Ninguno de los dos periódicos tiene razón, ya que el tamaño del coche si
que influye, pero la distribución no es la dada por el periódico
d. No se puede afirmar nada, ya que la muestra es demasiado pequeña y
los grados de libertad no son suficientes.

Test de ajuste a una distribución

9.6.23. Se han sacado 200 muestras de 3 piezas en una línea de montaje,


encontrándose fuera de tolerancia las siguientes:

Nº. de piezas Nº. de muestras


defectuosas
0 100
1 80
2 15
3 5
¿Cuál de las siguientes afirmaciones es cierta?

a) Con una confianza del 95% rechazamos que sigan una distribución binomial
de parámetro B(3,0.2).
-267-
9. Inferencia en poblaciones normales

b) Con una confianza del 99% rechazamos que sigan una distribución binomial
de parámetro B(3,0.2).
c) Con una confianza del 90% no podemos rechazar que sigan una distribución
binomial de parámetro B(3,0.2).
d) Con una confianza del 85% no podemos rechazar que sigan una distribución
binomial de parámetro B(3,0.2)

9.6.24. El nº de llamadas vía modem que recibe un ordenador por unidad de


tiempo se ha muestreado dando los siguientes resultados:

Nº llamadas Frecuencia
-----------------------------------------------
0 144
1 136
2 74
3 32
4 11
5 2
6 1

Pudiendo aceptarse que la variable tiene una distribución de Poisson, calcular el valor
de λ.

Solución: 1`1

9.7. PROBLEMAS Y CUESTIONES DE EXÁMENES

9.7.1. Una fábrica trabaja con dos máquinas A y B. El coste semanal, XA, de
reparación para la máquina A se aproxima a una distribución Normal con
parámetros μA=350 y σA2=500. El coste semanal, XB, de reparación de la máquina
B se aproxima a una distribución normal con parámetros μB=200 y σB2=400.
Queremos estudiar el coste de las reparaciones de cada máquina y, para ello,
tomamos una muestra aleatoria de nA=5 facturas de reparaciones de la máquina A
y otra de nB=4 de la máquina B y calculamos las medias muestrales de los costes
de reparación. Si queremos comparar los costes de las dos máquinas:

a) Determinar la distribución de la diferencia de los costes medios muestrales. (1


punto)

b) Hallar la probabilidad de que la diferencia entre el coste medio muestral de A y


el coste medio muestral de B sea superior a 180 euros. (0.5 puntos)

-268-
9. Inferencia en poblaciones normales

c) Hallar la probabilidad de que al tomar las dos muestras de facturas, como se


indica en el enunciado, la cuasivarianza del coste de la máquina A sea
superior a 11’4 veces la cuasivarianza del coste de B? (1.5 puntos)
SOLUCIÓN:
a)

̅ = , , ̅ = ,
√ √

b)

x A − xB = N ⎛⎜ μ A − μ B ,
σ A2
+
σ B2 ⎞ = N (350 − 200, 500 + 400 ) =
nA nB ⎟
⎝ ⎠ 5 4
N (150, 200 ) = N (150, 14,14)
180 − 150
(xA -xB > 180) = > = (−2,12) = 0,0170
14,14

c)

S A2 / σ A2 σ B2
P( S A2 > 11,4S B2 ) = P( S A2 / S B2 > 11,4) = P( > 11, 4 )=
S B2 / σ B2 σ A2
400
P( F( n A −1),( n B −1) > 11,4 ) = P( F4,3 > 9,12) = 0,05
500

9.7.2. El tiempo que tarda en realizar la entrega de los paquetes a los clientes de la
ciudad de Valencia una empresa de mensajería ubicada en el polígono de la
Fuente del Jarro es, de forma habitual, una variable con distribución N(m=35min,
σ=10min). La semana pasada se incorporaron al trabajo tres repartidores nuevos
con poca experiencia, hecho que podría afectar a los tiempos de entrega
empeorándolos. Para hacer un control verificamos el tiempo de entrega de 4
paquetes seleccionados aleatoriamente y obtenemos los siguientes valores
expresados en minutos (40; 15; 42; 70).

a. Con un nivel de significación del 5% ¿Hay evidencias significativas de un


empeoramiento del tiempo medio de entrega? (1 punto)

b. ¿Cuál sería el valor de β del test anterior si el tiempo medio de entrega


hubiese aumentado a 45 minutos? (1 punto)

c. Calcular un intervalo de confianza al 99% para la media del tiempo de entrega


y otro al 95% para la varianza de dicho tiempo de entrega (0,75 puntos)

d. ¿Cuántos envíos deberíamos controlar para estimar la media real del nuevo
tiempo de espera con error absoluto menor de 2 minutos y un nivel de
confianza del 80%? (0,75 puntos)

-269-
9. Inferencia en poblaciones normales

SOLUCIÓN:

a) Se trata de un test sobre la media m de una población normal


Es un test unilateral porque el cambio solo es previsible que se dé en un
sentido (aumentar) por lo tanto tenemos

H0: m=m0=35 minutos


H1: m>35

Dado que conocemos la desviación típica σ=10, la regla de decisión es

σ
Aceptar H0 si x ≤ m0 + z α
n

10
Calculamos x = 41,75 y 35 + 1,645 = 43,225
4
Como x = 41,75 < 43,225 podemos aceptar la hipótesis nula y admitir
que no ha habido un aumento significativo del tiempo medio de reparto.

b) Β=P(Aceptar H0/ H1 cierta)=P( x ≤ 43,25 / m = 45 )=P(N(45, σ/√n)≤43,25)=


P(N(45, 10/√4)≤43,25)= P(N(45, 5)≤43,25)=φ(43,25-45/5)=φ(-0,35)=0,3632

c) El intervalo de confianza para la media con varianza conocida es


σ
x ± zα / 2
n
y con nuestros datos
10
41,75 ± 2,57
4

(41,75 ± 12,85 ) (28,90 − 54,60)


El intervalo de confianza para la varianza poblacional es

(n − 1) s ′ 2 (n − 1) s ′ 2
2
≤ σ2 ≤ 2
χ n -1;α/2 χn-1;1- α/2

3. 505´583 3 .505´583
2
≤σ2 ≤
χ 3 α =0´025 χ 32 α =0´975

3. 505´583 3 .505´583
≤σ2 ≤
9´384 0´216
(161´63; 7021´944)

-270-
9. Inferencia en poblaciones normales

2 2
zα / 2 σ ⎞ ⎛ 1,285 . 10 ⎞
d) n ≥ ⎛⎜ ⎟ =⎜ ⎟ = 41,28 ⇒ 42 entregas
⎝ e ⎠ ⎝ 2 ⎠

9.7.3. Queremos estudiar si se mantiene la proporción de circuitos integrados


defectuosos que se producen en un proceso de producción. Lo habitual es que
haya alrededor de un 0,5%. Para comprobarlo, tomamos una muestra de 300
circuitos y si encontramos un circuito defectuoso o más decimos que la proporción
es superior a 0,5%.

a) Determinar, para este contraste de hipótesis, cuánto vale la probabilidad de


error de 1ª especie (1,25 puntos).

b) Si la proporción de circuitos defectuosos del proceso fuera del 1% ¿cuánto


valdría la probabilidad de error de 2ª especie? ¿Qué significado tiene? (1,50
puntos)

c) Si al tomar la muestra de 300 circuitos nos sale uno defectuoso ¿qué decisión
tomamos? ¿Qué tipo de error podríamos estar cometiendo? (0,75 puntos)

SOLUCIÓN:

H0(p=0’005) vs H1(p>0’005)

a)
α=P(Rech H0 ⁄H0 cierta)=P X≥1⁄X=B 300,0' 005 =1-P X=0⁄X=B 300,0' 005 =1-0'995300 =0'7777

b)
β=P Acep H0 ⁄H0 falsa =P X=0⁄X=B 300,0' 01 =0'99300 =0'0490

El 4’9% de las veces que apliquemos este test, aceptaremos que la proporción
de piezas defectuosas es p=0’005 cuando en realidad es 0’01 (por lo tanto nos
estaremos equivocando)

c) Tal y como dice el enunciado, si nos sale X≥1, rechazamos la H0.


El único tipo de error que podemos cometer es el de primera especie ya que
hemos RECHAZADO.

-271-
9. Inferencia en poblaciones normales

9.7.4. De forma habitual, el 10% de los envíos de una empresa de distribución


presentan alguna incidencia como retrasos, errores, etc. Después de la
incorporación de varios conductores inexpertos y a lo largo de una semana se
controlan 50 envíos registrándose incidencias en 6 de ellos.

a) Con un nivel de significación del 5% ¿hay evidencias significativas de un


empeoramiento en la proporción de envíos con incidencias? (1,5 puntos)
b) ¿Cuál sería el valor de β del test anterior si la proporción de envíos con
incidencias hubiese aumentado a un 15%? (1,5 puntos)
c) ¿Cuántos envíos deberíamos controlar para estimar la proporción real de
envíos con incidencias con un error absoluto menor del 4% y un nivel de
confianza del 80%? (0,5 puntos).
d) Calcular un intervalo de confianza al 99% para la proporción poblacional P de
envíos con incidencias después de la incorporación de los nuevos
conductores.(0,50 puntos)
Solución:
a) Las hipótesis a contrastar son: H0:P=P0= 0,10 H1:P>0,10 ya que de
acuerdo con el enunciado el cambio podría suponer un empeoramiento
respecto al funcionamiento habitual, es decir, una proporción mayor que la
habitual

La región de aceptación para este test es

P0 (1 − P0 )
Aceptar si pˆ ≤ P0 + zα
n
0,10 . 0,90
Como p=6/50=0,12 < 0,10 + 1,645 = 0,169
50
Podemos aceptar H0 y concluir que no ha habido un incremento significativo
de la proporción de envíos con incidencias

b) β=P(Aceptar H0/ H1)=P(p<0,169/P=0,15)=P(N(0,15 √0,15 . 0,85/50)<0,169)=


0,169 − 0,15
P(N(0,15 0,05)<0,169)= Φ ( ) = Φ (0,38) = 0,6480
0,05

c) El número de envíos a controlar, considerando como proporción habitual 0,10


es

zα2 / 2 pˆ (1 − pˆ ) 1,2852 . 0,10 . 0,90


n0 = = = 92,77 ≈ 93 envios
e2 0,04 2
Si tomamos como estimación previa de P el valor muestral 0,12 sale 108,98
109
Envíos.

d) El intervalo de confianza es
pˆ (1 − pˆ ) 0´12 .0´88
pˆ ± zα / 2 = 0´12 ± 2,57 = (0´0019; 0´2381)
n 50

-272-
9. Inferencia en poblaciones normales

9.7.5. El número de llamadas diarias realizadas con el móvil por las alumnas de 1º
de GITI podemos admitir que es una variable de Poisson de media 2,5
llamadas/día y el de las llamadas realizadas por los chicos tiene una distribución
de Poisson de promedio 1,5 llamadas/día.
Al entrar al examen todos dejan su móvil en la mesa del profesor. Elegido uno
de los móviles al azar, queremos verificar la hipótesis nula de que pertenece a una
chica frente a la alternativa de que es de un chico.
Como regla de decisión adoptamos la siguiente: Si el teléfono tiene
registradas tres llamadas o más a lo largo del día anterior, lo asignamos a una chica y
si tiene registradas dos o menos llamadas decimos que es de un chico.

a) Plantear estadísticamente las hipótesis a contrastar y las regiones de


aceptación y rechazo propuestas en el enunciado. (1 punto)
b) Calcular el riesgo de primera especie de la prueba. Interpretar la respuesta.
(1,5 puntos).
c) Calcular el riesgo de segunda especie de la prueba. Interpretar la respuesta.
(1,5 puntos).
Solución

a) Las hipótesis a contrastar son:

H0: λ=2,5 (pertenece a una chica)


H1: λ=1,5 (pertenece a un chico)

Las regiones de aceptación y rechazo son:

Aceptar H0 si X ≥3
Rechazar H0 si X ≤ 2 Siendo X=Ps(λ)

b) α=P(Rechazar H0/ H0)= P(X≤ 2/λ=2,5)=P( Ps (2,5)≤2)=0,5438 (El 54,38% de


los teléfonos de las chicas serían asignados a los chicos con el test
propuesto)

c) β=P(Aceptar H0/ H1)=P(X≥3/λ=1,5)=P(Ps(1,5)≥3)=1-P(Ps(1,5)≤2)=


1-0,8088=0,1912 (El 19,12 % de los teléfonos de los chicos serían asignados
a las chicas con el test propuesto)

9.7.6. El espesor de unas planchas de acero sigue una distribución normal con
varianza 5,4. Se pide:

-273-
9. Inferencia en poblaciones normales

a) Si tomamos una muestra de tamaño n=20, cuál es la probabilidad de que la


desviación típica sea superior a 3. (1 punto)

b) ¿Cuál debe ser el número de planchas a medir para que la probabilidad de


que la media muestral de estas planchas difiera de la media poblacional en
más de 2 unidades sea inferior al 10%? (1punto)

Solución 3:

⎛ (n − 1)·s 2 9·19 ⎞⎟
a) P(s > 3) = P⎜⎜
σ 2
>
5,4 ⎟⎠
( 2
= P χ19 )
> 31,66 = 0,034

b) La condición que se debe cumplir es,
P( x − μ > 2) = 0,10
El suceso contrario es,
P( x − μ < 2) = 0,90
⎛ ⎞
⎜ −2 x −μ 2 ⎟
P⎜ < < ⎟ = 0,90
⎜ σ σ σ ⎟
⎝ n n n⎠
Buscamos el valor de z0,05 = 1,645 , y de la expresión anterior el valor de n se
obtiene de,
2
= 1,645
σ
n
Despejando n se tiene,
1,645· 5,4
n=
2
n=3,65 de donde el valor de n tiene que ser como mínimo de n=4.

9.7.7. Un auditor de calidad está comprobando si los productos de un almacén


logístico de la empresa Mercadona cumplen los requisitos establecidos. Para ello
ha inspeccionado 30 de ellos y ha observado que 5 no cumplen los requisitos. Se
pide:

a) Calcular el intervalo de confianza para la proporción de productos que no


cumplen los requisitos, con un nivel de significación del 8%. (0,5 puntos)

b) ¿Cuál es el error máximo que cometemos en la estimación de dicha


proporción con un nivel de significación del 8%. (0,5 puntos)

c) ¿Qué tamaño de muestra habría que tomar si conocemos que el total de


productos almacenados es de 5000 y el error máximo que deseamos cometer
es de un 3% con un nivel de significación del 5%? (1punto)

-274-
9. Inferencia en poblaciones normales

Solución 4:

5
a) La proporción estimada es p̂ = = 0,167 . Con un α = 0,08 el valor de la z es
30
z0,04 = 1,75 . Y el intervalo de confianza es,

p̂·q̂ 0,167·(1 − 0,167) ⎧0,286


p̂ ± z α / 2 · = 0,167 ± 1,75· = 0,167 ± 0,119 = ⎨
n 30 ⎩0,048

b) El error máximo cometido es ε = 0,119 .


c) El tamaño de muestra viene dado por
p̂q̂ N − n
ε = zα / 2 ·
n N −1
Sustituyendo valores,
0,167·(1 − 0,167) 5000 − n
0,032 = 1,962 · · simplificando
n 4999
5000 − n
8,42 = 9,42·n = 5000 , y despejando n queda,
n

5000
n= = 539,79 . Esto , tomaremos n=540 elementos.
9,42

9.7.8. En un proceso de soldadura manual por puntos de planchas de acero, la


distancia entre puntos resultante viene siendo una variable con distribución N(2
cm, 0,5 cm).

a) Ante las quejas del área de montaje, el jefe de la línea decide comprobar si se
ha modificado sensiblemente la media de las distancias entre puntos. Para
ello, mide las distancias entre 10 parejas de puntos de soldadura elegidas al
azar obteniendo los siguientes valores expresados en cm

( 2,3 2,5 1,9 2,6 3,0 2,1 2,7 2,5 3,1 2,2 )

Con un nivel de significación α=0,10 ¿Qué podemos concluir? (Plantear las


hipótesis apropiadas y justificar la respuesta) (1 punto)

b) Si la media de las distancias hubiese pasado a ser realmente 2,5 cm ¿Cuál


sería el riesgo β de la prueba anteriormente propuesta? (1 punto)

c) Olvidando los dos apartados anteriores de este ejercicio, supongamos que el


jefe decide aceptar que la media de las distancias es 2 cm si el promedio de
9 distancias entre puntos de soldadura está entre 1,5 y 2,25 cm ¿Cuál sería
el riesgo α de esta prueba? (1 punto)

-275-
9. Inferencia en poblaciones normales

Solución 5:

a) Se trata de un test bilateral sobre la media de una población Normal con σ


conocida, dado que no hay indicios de que el cambio haya sido en un determinado
sentido

H0: m=2 H1: m≠2

Y la regala de decisión
⎡ σ ⎤ ⎡ 0,5 ⎤
AceptarH 0 si x ∈ ⎢m0 ± zα / 2 ⎥ = ⎢2 ± 1,645 ⎥ = (1,74 2,26) )
⎣ n⎦ ⎣ 10 ⎦

Como x = 2,49 ∉ (1,74 2,26) debemos rechazar la hipótesis nula y aceptar que ha
habido un cambio en la media.

b) Recordemos que
0,5
β = P( Aceptar H 0 / H 1cierta) = P( x ∈ (1,74 2,26) / m = 2,5) = P( N (2,5, ) ∈ (1,74 2,26) =
10
2,26 − 2,5 1,74 − 2,5
Φ( ) − Φ( ) = Φ(−1,52) − Φ(−4,81) = 0,0643 − 0 = 0,0643
0,158 0,158

c) Dada la expresión de la región de aceptación, las hipótesis establecidas son

H0: m=2 H1: m≠2

Recordemos que
0,5
α = P(Re chazar H0 / H0 cierta ) = P( x ∉ (1,5 2,25 ) / m = 2) = P(N(2, ) ∉ (1,5 − 2,25 ) =
9
⎡ 2,25 − 2 1,5 − 2 ⎤
1 − P(N(2, 0,167 ) ∈ (1,5 − 2,25 ) = 1 − ⎢Φ( ) − Φ( ) = 1 − [Φ(1,497 ) − Φ( −2,99 )] =
⎣ 0,167 0,167 ⎥⎦
1 − [0,9328 − 0,0014 ] = 0,0686

9.7.9. La distancia entre los centros de dos taladros hechos manualmente en unas
planchas de acero fabricadas en un taller, es una variable X=N(m, σ=0,20). La
distancia objetivo es de 20 cm, por lo que pretendemos obtener ese valor como
promedio del proceso. El jefe de control de calidad quiere comprobar que el
proceso es correcto midiendo dicha distancia en una muestra de n=4 planchas y
aplicando el test de hipótesis apropiado que deberá formular el alumno.

a) Si en una muestra de 4 planchas medimos las correspondientes distancias y


obtenemos los siguientes valores: 20,2 19,6 21,1 20 ¿qué conclusión podemos
obtener con el test propuesto sobre el funcionamiento del proceso empleando un

-276-
9. Inferencia en poblaciones normales

nivel de significación del 5%?

b) ¿Cuál sería el riesgo β del test propuesto si la media fuera realmente de 20,5 cm?

c) Si el test propuesto fuera medir las distancias en 9 planchas y aceptar si la media


muestral de las mismas estuviera entre 19,85 y 20,15 cm ¿Cuál sería el riesgo α de
esta nueva prueba?

Solución:

a) Dado que el proceso funciona bien cuando m=20 y funciona mal cuando m es
mayor o menor que 20, las hipótesis serán:

H0: m=20 H1: m#20

σ 0,20
Y el test Aceptar H0 si x ∈ m0 ± zα / 2 = 20 ± 1,96 = (19,87 20,13)
n 9
Como la media es 20,225 y no pertenece al intervalo RECHAZAMOS LA HIPÓTESIS
NULA y concluimos que el proceso no es correcto

b)
0,2
β = P (aceptar H 0 / H 1 ) = P( N (20,5; ) ∈ (19,87 20,13) =
4
20,13 − 20,5 19,87 − 20,5
P( N (20,5 0,1) < 20,13) − P ( N (20,5 0,1) < 19,87) = Φ ( ) − Φ( )
0,1 0,1
= Φ ( −3,7) − Φ ( −6,6) = 0,0001 − 0 = 0,0001

c)
α = P(rechazarH 0 / H 0 cierta ) = P( x ∉ (19,85 20,15) / m = m0 = 20) =
0,2 0,2 19,85 − 20 20,15 − 20
P( N (20; ) < 19,85) + P ( N (20; ) > 20,15) = Φ ( ) + (1 − Φ ( )) =
9 9 0,067 0,067
Φ (−2,25) + (1 − Φ (2,25)) = 2Φ (−2,25) = 2.0,0122 = 0,0244

-277-
9. Inferencia en poblaciones normales

-278-
10. Análisis de la varianza

10. ANÁLISIS DE LA VARIANZA

Contenido
10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO..................... 279
10.1.1. Generalidades .................................................................................. 279
10.1.2. Modelo teórico. Hipótesis del modelo .............................................. 281
10.1.3. Hipótesis nula ................................................................................... 284
10.1.4. Ecuación fundamental ...................................................................... 285
10.1.5. Test F ............................................................................................... 285
10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima significativa)
...................................................................................................................... 286
10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS .......... 288
10.2.1. Introducción. Planes factoriales ....................................................... 288
10.2.2. Anova para dos factores con repeticiones ....................................... 289
10.2.3. Concepto de Interacción .................................................................. 289
10.2.4. Modelo y supuestos teóricos ............................................................ 291
10.2.5. Hipótesis Nulas ................................................................................ 292
10.2.6. Descomposición de las Sumas de Cuadrados. Test F .................... 292
10.2.7. Comparación de Medias. Test L.S.D. .............................................. 292
10.2.8. Validación del modelo ....................................................................... 295
10.2.9. Igualdad de las varianzas.................................................................. 295
10.2.10. Estimación de los efectos................................................................ 296
10.2.11. Predicciones .................................................................................... 297
10.3. PROBLEMAS Y CUESTIONES DE EXAMEN................................................. 298

10.1. ANÁLISIS DE LA VARIANZA (I). UN FACTOR CONTROLADO

10.1.1. Generalidades

Bajo el nombre de Análisis de la Varianza se conocen un conjunto de métodos


estadísticos aplicables en general al análisis de observaciones que dependen
simultáneamente de varios factores. Fue desarrollado por Fisher en el 1er tercio del
siglo pasado.

Los factores a considerar, y que se presume pueden influir sobre la respuesta,


son aquéllos que podemos realmente controlar fijando a voluntad sus niveles
(factores controlados).

-279-
10. Análisis de la varianza

Los factores pueden ser cuantitativos, cuando sus niveles corresponden a


valores medibles (temperatura, pH, etc.) o cualitativos en otro caso (tipo de hojalata,
variedad, método de fabricación etc.).

Un ejemplo servirá para ilustrar un problema típico de aplicación de estos


métodos.

En un estudio sobre corrosión (X) en botes de conservas se desea investigar


la influencia al respecto del tipo de hojalata, pH del líquido de gobierno y temperatura
de almacenamiento del bote. En la terminología clásica del Análisis de la Varianza
existen en este caso tres factores:

ƒ Tipo de hojalata
ƒ pH
ƒ Temperatura de conservación

cuyos efectos se desean estudiar.

Para cada factor, se considerarán en el estudio diferentes niveles (si el factor


es cuantitativo) o variantes (si el factor es cualitativo). Así por ejemplo:

Factor tipo de hojalata (cualitativo): Se desean estudiar tres tipos distintos A, B


y C (3 variantes).

Factor pH (cuantitativo): Se estudiarán conservas a pH 4'5 y pH 5'5 (2


niveles).

Factor temperatura de almacenamiento (factor cuantitativo): Se almacenarán


los botes a 0º C, 15º C y 30º C (3 niveles).

A cada combinación de variantes de los diferentes factores se le denomina


tratamiento, por ejemplo un tratamiento será: bote hojalata tipo B con pH del líquido
de gobierno 4'5 almacenado a 15º C. En total existirán en este caso 3x2x3=18
tratamientos diferentes.

Una experiencia podría consistir en preparar 5 botes (repeticiones) con cada


uno de los 18 tratamientos posibles, con lo que constaría en total de 18x5 = 90 botes
o unidades experimentales.

-280-
10. Análisis de la varianza

El objetivo en una experiencia de este tipo sería el analizar cuáles de los tres
factores tienen una influencia significativa sobre el grado de corrosión del bote al
cabo de, por ejemplo, un mes de almacenamiento.

En aquellos factores cuyo efecto sea significativo, se deseará además, precisar la


naturaleza del mismo, determinando, qué variantes difieren significativamente entre sí

* Resumen:

- X : variable a estudiar o respuesta (grado de corrosión en el ejemplo).


- Factores: posibles causas controlables que pueden ser fuente de variabilidad
en la respuesta (tipo de hojalata, pH, temperatura, etc.).
- Variantes o niveles: valores que pueden tomar los factores.
- Tratamiento: combinación de niveles
- Unidad experimental: Unidad física sobre la que se aplica un tratamiento
(bote, parcela, animal de ensayo etc.)
- Repeticiones: número de veces que se aplica un mismo tratamiento (sobre
diferentes unidades experimentales) en una misma experiencia, o número de
veces que se repite la experiencia bajo las mismas condiciones.

Los métodos del Análisis de la Varianza, asumen la existencia de un modelo


probabilístico que explica los resultados observados en función de un conjunto de
parámetros desconocidos relativos a los efectos de los diferentes factores en estudio
y de una perturbación aleatoria.

La técnica de análisis consiste, en general, en descomponer la variabilidad total


del conjunto de las observaciones expresada por la suma de cuadrados global Σ(Xijk -
X)2 con N -1 grados de libertad, en un conjunto de términos independientes, con sus
correspondientes grados de libertad, relativos a los diferentes factores en estudio y al
error experimental. La comparación de cada uno de estos términos con el
correspondiente a la perturbación aleatoria residual (ó error), permite contrastar la
significación de los factores estudiados.

Inicialmente desarrollaremos la teoría básica del Análisis de la Varianza en el


caso más sencillo de un solo factor controlado, dejando para más adelante la
generalización al caso de varios factores.

10.1.2. Modelo teórico. Hipótesis del modelo

Consideremos, por ejemplo, que se desean comparar I variantes distintas de un


determinado proceso industrial. De cada variante se hacen J pruebas cuyos
resultados podemos considerar como una muestra aleatoria simple extraída de la
población de posibles resultados que podrían obtenerse con dicha variante.

-281-
10. Análisis de la varianza

Variante 1 i I

Población N(μ1,σ) N(μi,σ) N(μI,σ)

Muestra (X11……X1J) (X21……X2J) (XI1……XIJ)

Como veremos a continuación, nuestras hipótesis sobre el modelo implican que


cada una de estas poblaciones tiene una distribución N(μi,σ), y la hipótesis nula a
contrastar es H0: μ1 = μ2 …= μI.

Figura 10. 1. Distribución de las poblaciones

Vemos por tanto que el problema que tenemos no es más que la generalización a
I medias del problema de comparación de dos medias visto en un tema anterior.

Sea I el número de niveles del factor y J el número de observaciones para cada


una de las variantes (supondremos que dicho número es el mismo para todas las
variantes, en cuyo caso el modelo se denomina EQUILIBRADO).

Sea Xij la j-ava observación (j = 1...J) correspondiente a la i-ava variante del factor
(i = 1...I). Siendo μi = Ε(Xij) el valor medio poblacional correspondiente a dicha
variante, se tendrá:

Xij = μi + εij (1)

-282-
10. Análisis de la varianza

εi

μi x ij
Figura 10. 2. Error experimental

donde εjj es una perturbación aleatoria que origina las diferencias existentes entre las
observaciones de una misma variante o tratamiento; además Ε(εij) =0

Con respecto a los residuos εij se harán, además, las siguientes hipótesis:

a) Homocedasticidad: σ2ij = σ2 (εij) = σ2 ∀ i, j no dependiendo por tanto de la


variante i considerada.
Esta hipótesis hace necesaria la comprobación previa, mediante el test de
Bartlett u otros similares, de la homogeneidad de las varianzas en los diferentes
grupos o variantes.

b) Incorrelación: Cov (εij,εi’j’) = 0 si i≠i' y/o j≠j'; es decir, todos los residuos están
mutuamente incorrelacionados.

c) Normalidad: los IxJ residuos εij tienen una distribución conjunta normal
r
multivariante ε ≡ N(0,σ2 I)

Las hipótesis b) y c) implican la independencia de los residuos.

El modelo teórico anterior puede formularse de una forma alternativa que resulta
aconsejable por su más fácil generalización al caso de varios factores.

Sea μ = Σμi /I el promedio de los valores medios de las diferentes variantes αi=μi -
μ es la diferencia entre la media de la variante i y el promedio general; αi mide por lo
tanto el efecto específico (positivo, negativo o nulo) de la variante i del factor.

Evidentemente, se verifica Σαi = Σ(μi - μ) = Σμi - Iμ = 0

Como μi = μ + αi, el modelo teórico puede formularse como sigue

Xij = μ + αi + εI
Con Σαi = 0

-283-
10. Análisis de la varianza

εij

Figura 10. 3. Descomposición de un valor observado

Donde:

Xij = j-ava observación de la variante i del factor


μ = promedio general
αi = efecto específico de la variante i del factor
εij = residuos N (0,σ) e independientes entre sí.

10.1.3. Hipótesis nula

La hipótesis nula a contrastar es que el factor no influye sobre la respuesta, es decir,


que todos los niveles tienen la misma media

Ho : μ1 = μ2 = μ3 … = μI = μ
H1 : ∃ μi ≠ μj

Estas hipótesis son equivalentes a contrastar

H0 : ∀αi = 0
H1 : ∃ αi ≠ 0 ya que sustituyendo μi por μ + αi

Ho : μ + α1 = μ + α2 = μ + α3 = … = μ + αI = μ
α1 = α2 = α3 = …. = αI = 0

∀ αi = 0 Se debe cumplir que ∑ α i = 0


i

-284-
10. Análisis de la varianza

10.1.4. Ecuación fundamental

Llamando

Σij X ij
X .. = media general de todas las observaciones
IJ

Σ j X ij
Xi. = media de la variante i
J

La ECUACIÓN FUNDAMENTAL del Análisis de la varianza muestra la


descomposición de la variabilidad total de la variable respuesta estudiada.

∑ ij ( X ij − X ..)2 = J ∑ i ( X i . − X ..)2 + ∑ ij ( X ij − X i .)2

SCT SCF SCR

• Σ(Xij – X..)2 se le denomina Suma de Cuadrados Total (SCT) pues mide la


variabilidad total del conjunto de las I x J observaciones.

• JΣ (Xi·-X..)2 se denomina Suma de Cuadrados debida al factor(SCF) pues


mide la magnitud de las desviaciones de la media de cada variante a la media
general. Mide la parte de la variabilidad total debida o explicada por el factor.

• Σ(Xij-Xi.)2 se denomina Suma de Cuadrados Residual pues se basa en las


desviaciones de cada observación respecto a la media de la variante
respectiva. Mide la parte de variabilidad total existente en las observaciones
no explicadas por el factor, es decir, la debida a causas aleatorias (error
experimental, otros factores no estudiados, etc.).

10.1.5. Test F

Si a las sumas de cuadrados anteriores (SCF y SCR) las dividimos por sus grados de
libertad correspondientes (I-1) e I(J-1) respectivamente) obtenemos los cuadrados
medios CMF y CMR.

Se demuestra que si la hipótesis nula es cierta ∀ α i = 0

-285-
10. Análisis de la varianza

CMF
≡ F( I −1 ),I ( J −1 )
CMR

La hipótesis nula ∀α i = 0 se contrastará, por tanto, calculando a partir de las


observaciones el estadístico CMF/CMR = Fc y rechazándola si este es mayor que el
valor en tablas de F( αI −1 ),I ( J −1 ) para la probabilidad de error de 1ª especie α
considerado. Esta regla es equivalente a rechazar H0 si el p-valor correspondiente al
Fc calculado es menor que α.

Rechazar H0 equivale a aceptar con un nivel de significación α, que el factor


influye en la respuesta estudiada.

10.1.6. Comparación de medias. Test L.S.D. (diferencia mínima


significativa)

Si el test F pone de manifiesto la existencia de un efecto significativo del factor, y éste


es cualitativo, resulta procedente estudiar entre qué variantes del factor son
significativas las diferencias αi - αi’. La forma de operar consiste en general, en
calcular una "diferencia mínima significativa" (DMS) tal que dos variantes i, j difieren
significativamente si |Xi.-Xj.| > DMS.

En el test de Tuckey se propone como L.S.D. ó DMS

CMR
DMS = QIα,I ( J −1 )
J

I = nº de niveles del factor (en general nº de medias a comparar).


J = nº de observaciones en cada variante (en general, nº de datos con que se
ha calculado cada una de las medias a comparar).

Nota: En la determinación de la significación del efecto de un factor (o su


equivalente, en la determinación de la significación de la diferencia entre dos
medias), debemos hacer notar:

a) Que el hecho de que las diferencias sean significativas no implica que las
diferencias sean necesariamente importantes. El análisis de la varianza, si la
variabilidad residual es pequeña, puede dar como significativas diferencias
que en la práctica carezcan de importancia.

-286-
10. Análisis de la varianza

b) Si el análisis no da como significativas determinadas diferencias no quiere


decir que éstas no existan sino que, simplemente, el test no tiene suficiente
potencia para detectarlas. Este hecho tiene especial importancia cuando
intentamos interpretar el por qué algunas veces, a pesar de obtener en la
práctica diferencias importantes entre las medias, éstas no llegan a ser
significativas. Lo que habría que hacer en este caso es aumentar el tamaño
de la experiencia o reducir el error experimental (disminuir el CMR),
aumentando la homogeneidad del material experimental o utilizando un
diseño más adecuado.

Los resultados obtenidos se reflejan en el siguiente

CUADRO RESUMEN DEL ANÁLISIS DE LA VARIANZA

Grados
Origen de Suma de Cuadrado
de F calculada F tablas
la varianza cuadrados medio
libertad
SCF
FACTOR SCF I-1 CMF =
I −1
CMF F( αI −1 ),I ( J −1 )
SCR CMR
CMR =
ERROR SCR I(J-1) I( J − 1 )

TOTAL SCT IJ-1

EJEMPLO:

Se desea estudiar la influencia de la materia prima sobre la resistencia de unas


piezas de plástico. Para ello se realizaron experiencias utilizando cuatro materias
primas diferentes. Con cada materia prima se fabricaron cinco piezas midiéndose
finalmente la resistencia en cada una de las veinte piezas fabricadas. Los resultados
fueron:

MAT PRIMA 1 MAT PRIMA 2 MAT PRIMA 3 MAT PRIMA 4


6,0 6,2 5,9 5,0
6,2 6,1 6,0 5,1
6,5 5,9 6,0 4,2
6,8 6,0 6,2 4,6
6,0 6,0 5,8 4,5

-287-
10. Análisis de la varianza

Cuadro resumen del Análisis de la Varianza


-----------------------------------------------------------------------------
Fuente SC gl CM F calc p-Valor
-----------------------------------------------------------------------------
Factor 7,922 3 2,64067 36,17 0,0000
Residual 1,168 16 0,073
-----------------------------------------------------------------------------
Total 9,09 19

Dado que el p-Valor es menor que 0,01, existen diferencias estadísticamente


significativas al nivel del 99% de confianza entre las medias de las cuatro materias
primas. Esta afirmación es equivalente a decir que la “materia prima” utilizada influye
sobre la resistencia de las piezas de plástico con un nivel de significación del 99%.

En el apartado siguiente analizaremos cuál o cuáles de las variantes de la materia


prima son diferentes en cuanto a su resistencia promedio.

Tests de rangos

Repeticiones Media Grupos diferentes


--------------------------------------------------------------------------------
M.P. 4 5 4,68 X
M.P. 3 5 5,98 X
M.P. 2 5 6,04 X
M.P. 1 5 6,30 X

Observamos que solo la cuarta materia prima da lugar a una resistencia media
estadísticamente diferente a las demás siendo menor en valor que el resto

10.2. ANÁLISIS DE LA VARIANZA (II). DOS FACTORES CONTROLADOS

10.2.1. Introducción. Planes factoriales

Apoyándonos en los conceptos y terminología expuestos en el apartado anterior,


vamos a desarrollar este apartado de forma esquemática. Solamente desarrollaremos
en profundidad aquellos conceptos que sean nuevos y propios del presente capitulo.

PLANES FACTORIALES. Constituyen un diseño especial para el estudio


simultáneo de dos o más factores en el que todos los niveles de todos los factores se
combinan entre sí. Los utilizaremos en este tema como diseño base para desarrollar
las técnicas del Análisis de la Varianza para dos factores.

-288-
10. Análisis de la varianza

10.2.2. Anova para dos factores con repeticiones

Utilizaremos como diseño base para el estudio de este apartado, el siguiente diseño
factorial

FACTOR B
FACTOR
B1 B2 Bj BJ
A
A1 =⎬n =⎬n = =
A2 = = = =
A3 = = = =
=⎬ n
Ai = = =
Xijk.

AI = = = =

10.2.3. Concepto de Interacción

Se dice que hay interacción entre dos factores si el efecto conjunto de la variante i de
uno de ellos con la j del otro, no es igual a la suma de los efectos simples
respectivos. (Efectos no aditivos).

También se dice que existe interacción entre dos factores cuando el efecto de uno
de ellos depende del nivel que consideremos en el otro.

De manera similar a la anterior, se dice que no existe interacción entre dos


factores cuando el incremento en la respuesta (+ ó -) al pasar de un nivel a otro de
uno de los factores, es el mismo en cualquiera de los niveles que podamos
considerar del otro factor.

Vamos a considerar algunos ejemplos representativos.


a) Consideremos el ejemplo de la corrosión de los botes de hojalata en el que
contemplamos dos factores: Factor tipo de hojalata (hojalata A y hojalata B) y
Factor pH (pH1, PH2 y pH3)

-289-
10. Análisis de la varianza

Figura 10. 4. Gráfico de interacciones


En este primer caso, cualquiera que sea el pH, la hojalata A presenta mayor
corrosión que la hojalata B y, además, LA DIFERENCIA ENTRE UNA Y OTRA
HOJALATA ES LA MISMA PARA CUALQUIER pH.

En el caso de la Figura 10.4, influyen los dos factores (hojalata A mayor corrosión
que la B, y a mayor pH menor corrosión) pero no hay interacción entre ellos.

Figura 10. 5. Hay interacción

En el caso de la Figura 10.5, el efecto del factor hojalata depende del valor del pH
que consideremos. Así, a pH bajo presenta menor corrosión la hojalata B, a pH
intermedio el grado de corrosión es el mismo y a pH alto presenta menor corrosión la
hojalata B. Obsérvese que en este caso no tiene sentido preguntarse qué hojalata es
más resistente si no se especifica cuál va a ser el pH a emplear en la conserva.

-290-
10. Análisis de la varianza

b) Consideremos ahora la calidad organoléptica de tres zumos de naranja


(natural, pasteurizado, esterilizado) a través del tiempo (recién preparado, a
los 5 días, a los 15 días) conservados a temperatura constante.

Figura 10. 6. Gráfico de interacciones

Obtenga el lector sus propias conclusiones

¿Hay interacción?
¿Por qué?
¿Qué zumo es mejor?
¿Se comportan igual los tres zumos?
¿Influye el tiempo de conservación en la calidad? ¿Cómo?

10.2.4. Modelo y supuestos teóricos

El modelo teórico completo es

X ijk = μ + α i + β j + ( αβ )ij + εijk donde

Xijk = valor de la K.ésima observación en el tratamiento formado por la variante


i del primer factor con la variante j del segundo.
μ = promedio general
αi = efecto específico de la variante i del 1er factor
βj = efecto específico de la variante j del 2º factor
(αβ)ij = efecto de la interacción entre los factores en sus niveles i, j,
respectivos.
εijk = residuo aleatorio

-291-
10. Análisis de la varianza

∑α
i
i =0 ∑β j
j =0 ∑( αβ )
i
ij =0 ∑ ( αβ )
j
ij =0

Supuestos:

Ε( ε ijk ) = 0
⎬ independientes e incorrelacionados
εijk ≡ N ( 0 ,σ )

10.2.5. Hipótesis Nulas

Las hipótesis nulas a contrastar son la ausencia de efecto sobre la respuesta de cada
uno de los factores así como la ausencia de interacción entre ellos

H0: ∀αi = 0 H1: ∀α i ≠ 0


∀β j = 0 ∀β j ≠ 0
∀( αβ )ij = 0 ∀( αβ )ij ≠ 0

10.2.6. Descomposición de las Sumas de Cuadrados. Test F

La variabilidad total de las observaciones se descompone de la siguiente forma


similar al ANOVA de un factor

∑ ( X ijk − X ...)2 = JN ∑ ( X − X ...)2 + IN ∑ ( X − X ...)2 + N ∑ ( X − X .. − X + X ...) + ∑ ( X


i .. . j. ij . . j. ijk
− X )2
ij .
ijk i j ij ijk

SCT SCF1 SCF2 SCint SCR


(IJN - 1) (I - 1) (J - 1) (I - 1)(J - 1) IJ(N - 1) ⇒ gl

La significación de cada factor se obtiene calculando el cociente

α
SCF GLF CMF > FGLF ,GLR significat ivo al nivel α
Fc = = α
SCR GLR CMR ≤ FGLF ,GLR No significa tivo

10.2.7. Comparación de Medias. Test L.S.D.

Si algún factor resulta significativo podrá determinarse entre que variantes hay
diferencias significativas comparando la diferencia de medias con la L.S.D. ó DMS

-292-
10. Análisis de la varianza

DMS = Qaα,glr CMR b

a = nº de medias a comparar entre si (nº de variantes del factor).


b = nº de datos con que se calculó cada una de las medias anteriores.

EJEMPLO:

En una experiencia para analizar la influencia de un nuevo catalizador en dos


métodos A y B de síntesis de un producto orgánico, se ensayaron 4 dosis de
catalizador. Con cada una de las 8 combinaciones - tratamientos - dosis x método se
realizaron tres experiencias.

Los resultados, expresados en gr. de producto obtenido con la misma cantidad de


materia prima en 1 hora, se recogen en la tabla siguiente:

Dosis de catalizador (mg.)


Método/Do
0’75 1 1’25 1’50
sis
68 91 90 105
A 60 75 98 95
62 86 94 99
60 72 64 48
B 45 71 75 55
66 60 70 50

Solución

El modelo es:

X ijk = μ + α i + β j + ( αβ )ij + ε ijk

∑α = 0 i

∑β = 0 j

∑ ( αβ ) = 0
i
ij

∑ ( αβ )
j
ij =0

εijk = N ( 0 , σ ) independientes.

-293-
10. Análisis de la varianza

Cuadro resumen del análisis de la varianza

O.V. SC GL CM Fc Ft
Total 7096’96 23
Catalizado
1535’13 3 511’71 12’39 > F30'16
'01
= 5'29 * *
r
Método 3432’04 1 3432’04 83’12 > F10'16
'01
= 8'53 * *
Interacción
CxM 1469’13 3 489’71 11’86 > F30'16
'01
= 5'29 * *

Error 660’66 16 41’29

Son significativos todos los efectos al 99 % (p < 0'01)

Interpretación de Resultados

Interaction Plot
101 metodo
A
91 B
rendimiento

81

71

61

51
0,75 1 1,25 1,50

dosis
a) La interacción es significativa, luego no existe una concentración de catalizador
óptima. La concentración de 1'50, que con el método A da el rendimiento promedio
máximo (99'67 gr), con el método B da el mínimo rendimiento promedio (51 gr).
Luego habrá que estudiar el efecto del catalizador en cada uno de los métodos.

-294-
10. Análisis de la varianza

b) No obstante, el método A presenta para cada concentración del catalizador, un


rendimiento mayor que el método B. Por ello sería conveniente la utilización del
catalizador sólo en el método A, y preferiblemente, a la dosis máxima.

10.2.8. Validación del modelo

Para validar el modelo del análisis de la varianza, debemos comprobar que se


cumplen la hipótesis que se hacen de los residuos. Es decir, que son normales, con
media cero, varianza igual para todas las poblaciones, y que los residuos son
independientes.

Por tal motivo debemos examinar los distintos gráficos de los residuos y, si no
observamos ningún comportamiento sistemático, quiere decir que podemos aceptar
la hipótesis del residuo y por lo tanto aceptar el modelo del análisis de la varianza.

10.2.9. Igualdad de las varianzas

Una forma sencilla para contrastar la igualdad de varianzas de las distintas


poblaciones es hacer el mismo análisis de la varianza pero dando como variable
dependiente el cuadrado del residuo del ANOVA con los datos originales.

Si con este ANOVA los factores no tienen significación, quiere decir que se
cumple la hipótesis nula de igualdad de las varianzas de todas las poblaciones.

Aplicando esta técnica al ejemplo anterior con dos factores, los resultados son:

Análisis de la Varianza paraRESIDUALS^2 - Sumas de Cuadrados de Tipo III


--------------------------------------------------------------------------------
Fuente Suma de cuadrados GL Cuadrado Medio Cociente-F P-Valor
--------------------------------------------------------------------------------
EFECTOS PRINCIPALES
A:Dosis 4517,83 3 1505,94 1,61 0,2261
B:Método 1040,17 1 1040,17 1,11 0,3071

INTERACCIONES
AB 6163,02 3 2054,34 2,20 0,1280

RESIDUOS 14953,9 16 934,616


--------------------------------------------------------------------------------
TOTAL (CORREGIDO) 26674,9 23
--------------------------------------------------------------------------------
Los cocientes F están basados en el error cuadrático medio residual.

-295-
10. Análisis de la varianza

Como todos los p-values son superiores a 0,05, no hay ningún efecto
significativo y eso quiere decir que las varianzas de todas las poblaciones son
iguales.

10.2.10. Estimación de los efectos

El efecto α i viene dado por


α i = μ i • - μ ••
Su estimación es:
ˆ i = xi • - x• •
α

El efecto de la interacción entre dos factores es:

( αβ )ij = μ ij - ( μ •• + α i + β j )

Y su estimación es,
^
ˆ )
ˆ i +β
( αβ )ij = xij - ( x•• + α j

Para el ejemplo anterior, la tabla de las medias es,

Tabla de Medias por mínimos cuadrados para Rendimiento


con 95,0 Intervalos de confianza
--------------------------------------------------------------------------------
Error Límite Límite
Nivel Frecuencia Media Estándar Inferior Superior
--------------------------------------------------------------------------------
Media Total 24 73,2917
Dosis
0,75 6 60,1667 2,62335 54,6054 65,7279
1 6 75,8333 2,62335 70,2721 81,3946
1,25 6 81,8333 2,62335 76,2721 87,3946
1,5 6 75,3333 2,62335 69,7721 80,8946
Método
A 12 85,25 1,85499 81,3176 89,1824
B 12 61,3333 1,85499 57,4009 65,2657
Dosis según Método
0,75 A 3 63,3333 3,70997 55,4685 71,1981
0,75 B 3 57,0 3,70997 49,1352 64,8648
1 A 3 84,0 3,70997 76,1352 91,8648
1 B 3 67,6667 3,70997 59,8019 75,5315
1,25 A 3 94,0 3,70997 86,1352 101,865
1,25 B 3 69,6667 3,70997 61,8019 77,5315
1,5 A 3 99,6667 3,70997 91,8019 107,531
1,5 B 3 51,0 3,70997 43,1352 58,8648
--------------------------------------------------------------------------------

Por ejemplo, la estimación del efecto α A , es,

-296-
10. Análisis de la varianza

ˆ A = x A - x• • = 85 ,25 - 73 ,29 = 11,96


α

Esto significa que cuando tomamos el método A, por término medio, con
respecto a la media general, la variable observada aumenta con 11,96.

El efecto de β̂ 1,25
ˆ
β 1 ,25 = x1 ,25 - x• • = 81,83 - 73 ,29 = 8 ,54

El efecto de la interacción es,

^
ˆ
ˆ A +β
( αβ )A ;1 ,25 = x A ;1 ,25 - ( x•• + α 1 ,25 ) = 94 ,0 - ( 73 ,29 + 11,96 + 8 ,54 ) = 0 ,21

10.2.11. Predicciones

Si por ejemplo hemos comprobado que la mejor combinación de los factores es el


nivel i para el factor A y el nivel j para el factor B, la predicción de la media de los
resultados con esa combinación de los factores,

^
ˆ ij = μ
μ ˆ +α ˆ + ( αβ )
ˆ i +β j ij

El error de predicción viene dado por el CMresidual , es decir, la varianza del


residuo.

En el ejemplo anterior, cuando el método sea el A y la dosis sea 1,25, la


predicción del valor medio es,

^
ˆ A ;1,25 = μ
μ ˆ +α ˆ
ˆ A +β 1 ,25 + ( αβ )A ;1 ,25 = 73 ,29 + 11,96 + 8 ,54 + 0 ,21 =94

Como la varianza residual es de CMresidual =41,29, un intervalo de


confianza para el valor medio con esas condiciones es,

41,29
94 ± 1,96· = 94 ± 7 ,27 = [ 86,73; 101,27 ]
3

Con un nivel de confianza del 95%, y donde 3 es el número de datos con los
que se ha calculado la media de 94.

-297-
10. Análisis de la varianza

10.3. PROBLEMAS Y CUESTIONES DE EXAMEN

10.3.1. Para evaluar la actuación que el gobierno está teniendo en el caso Bankia, se
ha realizado una encuesta a un total de 261 ciudadanos de ambos sexos en cinco
ciudades diferentes, donde cada ciudadano ha puntuado de 1 a 10 la actuación del
Gobierno. A los datos obtenidos se les ha aplicado un ANOVA de dos factores con
interacciones cuyos resultados más relevantes se muestran a continuación:

Analysis of Variance for PUNTUACION/100 - Type III Sums of Squares


--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-value(APROXIMADO)
--------------------------------------------------------------------------------
MAIN EFFECTS
A:CIUDAD 124,595 4 ---- ---- ----
B:SEXO 6,23191 1 ---- ---- ----

INTERACTIONS
AB 4,73289 4 ---- ---- ----

RESIDUAL 833,325 ---- 3,32002


--------------------------------------------------------------------------------
TOTAL 1061,3 260

Intervalos al 95% para las medias


5,8
PUNTUACIÓN

4,8

3,8

2,8

1,8
1 2 3 4 5
CIUDAD

-298-
10. Análisis de la varianza

Gráfico de interacciones
PUNTUACIÓN
6,2 SEXO
H
M
5,2

4,2

3,2

2,2
1 2 3 4 5
CIUDAD

1) Completar la tabla ANOVA


Analysis of Variance for PUNTUACION/100 - Type III Sums of Squares
--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:CIUDAD 124,595 4 31,1488 9,38 0,0000
B:SEXO 6,23191 1 6,23191 1,88 0,1719

INTERACTIONS
AB 4,73289 4 1,18322 0,36 0,8395

RESIDUAL 833,325 251 3,32002


--------------------------------------------------------------------------------
TOTAL 1061,3 260
--------------------------------------------------------------------------------

2) ¿Qué efectos son significativos con α=0,05

a) Sexo, ciudad e interacción

b) Sexo y ciudad

c) Solo sexo

d) Solo ciudad (p-valor <0,05)

3) ¿Qué ciudad o ciudades presentan diferencias significativas con α=0,05

a) 2, 3 y 4

b) 1 respecto de las demás

-299-
10. Análisis de la varianza

c) 5 respecto de las demás (único intervalo que no se solapa con el


resto)

d) 1 y 2

4) En qué ciudad o ciudades presentan diferencias significativas las


puntuaciones de ambos sexos

a) En la 5

b) En la 2,3 y 4

c) En la 1

d) En ninguna (ya que la interacción no es significativa por lo que las


medias son iguales en todas las ciudades. No son significativamente
diferentes)

10.3.2. Se ha recogido la valoración de un líder político en dos ciudades distintas 1 y


2 (Factor A), dividida cada una en tres barrios según su nivel adquisitivo (Alto,
Medio y Bajo) (Factor B). Parece que el método más indicado para ver si existe
influencia de estos dos factores sobre dicha valoración es un Análisis de la
Varianza:

a) Los resultados obtenidos con el Statgraphics han sido estos ¿qué conclusiones
obtenemos?

--------------------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio P-Value
--------------------------------------------------------------------------------
MAIN EFFECTS
A:Ciudad 60,8444 1 60,8444 21,37 0,0000
B:Nivel 84,6889 2 42,3444 14,87 0,0000
INTERACTIONS
AB 29,4889 2 14,7444 5,18 0,0076
RESIDUAL 239,2 84 2,84762
--------------------------------------------------------------------------------
TOTAL (CORRECTED) 414,222 89
--------------------------------------------------------------------------------

b) A la vista de las gráficas siguientes y, teniendo en cuenta las conclusiones


obtenidas en el apartado anterior, determinar cuál es la ciudad en la que se tiene una

-300-
10. Análisis de la varianza

valoración más alta del líder político y qué nivel adquisitivo tienen, justificando en qué
gráficas has obtenido dichas conclusiones y porqué.

Means and 95,0 Percent LSD Intervals


6,8

5,8
Valoración

4,8

3,8

2,8
A B M
Nivel

Means and 95,0 Percent LSD Intervals


5,8

5,3
Valoración

4,8

4,3

3,8

3,3
1 2
Ciudad

-301-
10. Análisis de la varianza

Interaction Plot
7,1 Nivel
A
B
6,1
Valoración

5,1

4,1

3,1
1 2
Ciudad

10.3.3. En una fábrica de botellas de plástico se quiere decidir qué producto resulta
más resistente. Para ello se supone que tanto el tipo de plástico utilizado como
materia prima, como el volumen de las botellas, pueden afectar a dicha
resistencia. Se estudiaron tres tipos de plástico, (A;B;C) y 4 volúmenes diferentes
(0,75; 1; 1,25 y 1,5), midiendo la resistencia de 3 botellas elegidas al azar para
cada posible combinación de tipo de plástico y volumen (se analizaron 36 botellas
en total).

a) Completar la tabla del ANOVA de dos factores que resultó de dicho


experimento (1 puntos):

Fuente SC Gl CM Fc
Plástico 2287,17 2 1143,585 42´929
Volúmen 1613,64 3 537,88 20´191
Plástico x Volúmen 2284,61 6 380,7683 14´294
Residual 639,33 24 26´639
Total 6824,75 35

b) En vista de la tabla anterior, ¿qué se puede decir de la significación de los


efectos de los factores estudiados? ¿Qué significado tiene en este caso
concreto de estudio la interacción? Tomar α = 0.05 (0,5 puntos)

Para el plástico: Tc=42´929 > F tablas


F 0 , 05
2 , 24 = 3´40 ⇒ P − valor < 0,05 ⇒ Efecto significativo
Para el volumen: Tc=20´191 > F tablas
F 0 , 05
3, 24 = 3´01 ⇒ P − valor < 0,05 ⇒ Efecto significativo

-302-
10. Análisis de la varianza

Para la interacción:Tc=14´294 > F tablas


F 0 , 01
6 , 24 = 2,51 ⇒ P − valor < 0,05 ⇒ Efecto significativo

El efecto significativo de la interacción puede interpretarse como que el efecto del


volumen no es el mismo en los tres tipos de plastic

A partir del gráfico de interacción, ¿qué combinación de tipo de plástico y volumen da


una botella más resistente? Si por motivos económicos el único tipo de plástico que
se puede utilizar es el C, ¿qué volumen de botella da una mayor resistencia?

Gráfico de interacción
106 Plástico
A A
96 B
Resistencia

C
86
B
76

66
C
56
0,75 1 1,25 1,5
Volúmen
Mejor combinación (mayor resistencia) : Plástico A y Volumen 1,5 litros
Para el plástico C el volumen que ofrece mayor resistencia es de 1 litro

10.3.4. Una cooperativa agrícola vende tres tipos de fitoreguladores (A, B y C) para
regular el crecimiento de trigo. Para determinar cuál es el más efectivo, se
seleccionan al azar 12 parcelas de trigo con características similares. En tres de
ellas se aplica el fitoregulador A, en otras tres parcelas el fitoregulador B y en otras
seis, el C. En todos los casos, la aplicación se realiza por medio de un atomizador
a una dosis de 10 mg/ha. Los resultados obtenidos, medidos como longitud media
(mm) de 10 plantas seleccionadas al azar al cabo de 3 semanas de aplicación
(variable “longitud”) son los indicados en la tabla. Los datos se analizan con
ANOVA utilizando Statgraphics, obteniéndose el gráfico que se muestra a
continuación.

-303-
10. Análisis de la varianza

Means and 95,0 Percent LSD Intervals


880
780
longitud
680
580
480
380
280
A B C
fitoregulador
fitoregulador A fitoregulador B fitoregulador C
615 844 711
373 365 312 739 711 695
648 809 663

Práctica 2:

- ¿Cuál de las siguientes afirmaciones es correcta? (2,5


puntos)
a) A la vista de la gráfica se deduce que el p-valor del test del ANOVA es superior
a 0,05.
b) A la vista de la gráfica se deduce que el p-valor del test del ANOVA es inferior a
0,05.
c) A partir de la gráfica no es posible deducir ninguna de las dos respuestas
anteriores.
d) Depende del nivel de significación del test, el cual no se puede deducir del
gráfico.

Solución: los intervalos LSD se han construido con un nivel de confianza 1- =95%,
de modo que =0,05. Dado que los intervalos LSD no se solapan significa que
alguna de las medias es significativamente distinta de las demás considerando
=0,05, por lo que se rechaza la hipótesis nula H0: mA=mB=mC. Consecuentemente,
p-valor< , de modo que la respuesta correcta es la b).

- Teniendo en cuenta que x A =350, x B = x C =750, ¿qué tipo de fitoregulador se


recomendaría para maximizar la longitud?
(2,5 puntos)

a) El de tipo B, ya que la longitud de su intervalo LSD es mayor que la de C lo cual


sugiere que tiene una mayor probabilidad de que se alcancen valores mayores de
longitud.
b) El de tipo C, ya que la longitud de su intervalo LSD es menor que el de B lo cual
sugiere que su desviación típica es menor.

-304-
10. Análisis de la varianza

c) El de tipo B ó C.
d) Cualquiera de los tres, ya que se acepta la hipótesis nula H0: mA=mB=mC.

Solución: la c) ya que se solapan sus intervalos LSD, por lo que debe aceptarse la
hipótesis de que mB=mC.

- Una de las hipótesis del ANOVA es que la población de datos de la variable longitud
se ajusta a un modelo Normal en cada uno de los tres fitoreguladores ensayados.
¿Cómo se podría verificar si esta hipótesis es admisible?
(2,5 puntos)

a) La hipótesis de normalidad es admisible dado que los intervalos LSD son


simétricos.
b) Habría que estudiar si los 12 datos de la tabla se ajustan bien a un modelo
Normal.
c) Habría que calcular los residuos del ANOVA y estudiar si éstos se ajustan bien a
un modelo Normal.
d) No hay suficientes datos para estudiar si el modelo Normal es admisible.

Solución: los intervalos LSD son siempre simétricos, por lo que la respuesta a) es
falsa. Dado que la media de A es significativamente menor que las otras dos,
tampoco es correcto utilizar directamente los 12 datos de la tabla, pues tenemos una
mezcla de dos poblaciones con distinta media. La respuesta correcta es la c), pues
hay técnicas que permiten estudiar si el modelo Normal es admisible aunque sólo
tengamos 12 datos.

10.3.5. Una industria química desea estudiar el efecto del tipo de catalizador y de la
concentración de un cierto aditivo denominado NCV en la calidad final del producto
elaborado. Para ello se ha diseñado un experimento ensayando tres catalizadores
diferentes: A, B y C (factor CAT) combinados con tres concentraciones de aditivo:
4, 5 y 6 (factor NCV). Cada uno de los nueve tratamientos se ensayó dos veces,
midiéndose en cada prueba un parámetro de calidad final (variable LAT). Tras la
realización del experimento y la recogida de datos se llevó a cabo un Análisis de la
Varianza cuya tabla resumen se muestra a continuación:

-305-
10. Análisis de la varianza

Analysis of Variance for LAT - Type III Sums of Squares


------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio
------------------------------------------------------------------
MAIN EFFECTS
A:CAT 77,7733 ___ ________ _____
B:NCV _______ ___ 41,4867 _____
INTERACTIONS
AB _______ ___ ________ _____
RESIDUAL 16,56 ___ ________
------------------------------------------------------------------
TOTAL (CORRECTED) 250,52 ___
------------------------------------------------------------------

a) Completa la tabla resumen del ANOVA, indicando qué efectos son


estadísticamente significativos (α=0,05). Justificando la respuesta, así como los
cálculos realizados. (3,5 puntos)

Analysis of Variance for LAT - Type III Sums of Squares


------------------------------------------------------------------
Source Sum of Squares Df Mean Square F-Ratio
------------------------------------------------------------------
MAIN EFFECTS
A:CAT 77,7733 2 38,8866 21,13
B:NCV 82,9734 2 41,4867 22,55
INTERACTIONS
AB 73,2133 4 18,303 9,95
RESIDUAL 16,56 9 1,84
------------------------------------------------------------------
TOTAL (CORRECTED) 250,52 17
------------------------------------------------------------------

Respuesta: Dado que se han realizado 18 pruebas experimentales, el número de


grados de libertad totales será 18 – 1 = 17. Como en los dos factores hay dos niveles,
los grados de libertad de cada factor serán 3 – 1 = 2. La interacción doble tendrá 2 · 2
= 4 grados de libertad, y los residuales se obtienen por diferencia: Dfres = 17 – 2 – 2 –
4=9
Cuadrado medioNCV = suma de cuadrados / gr. Lib
41,4867 = SC / 2 Æ SC = 82,9734
SCAB = SCtotal – SCCAT – SCNCV = 73,2133
Dividiendo las sumas de cuadrados por los grados de libertad se obtiene el cuadrado
medio. Dividiendo el cuadrado medio de un factor entre el cuadrado medio residual
se obtiene la F-ratio.
El F-ratio de CAT (21,13) y el F-ratio de NCV (22,5) superan el valor crítico (α=0,05)
de una F2;9 que vale 4,26. El F-ratio de la interacción (9,95) supera el valor crítico
(α=0,05) de una F4;9 que vale 3,63. Por tanto, el efecto simple de los dos factores y de
la interacción son estadísticamente significativos.

-306-
10. Análisis de la varianza

b) ¿Qué información aporta el siguiente gráfico? ¿Dicha información es coherente


con las conclusiones del apartado anterior? ¿Por qué? (2,5 puntos)

Means and 95,0 Percent LSD Intervals


13,3

11,3
LAT
9,3

7,3

5,3
A B C
ALG CAT

Respuesta: Este gráfico muestra los intervalos LSD (Least Significant Differences)
para el factor CAT, obtenidos con un nivel de confianza del 95%. A la vista del gráfico
se deduce que el valor medio de la variable LAT es significativamente distinto entre
los catalizadores A y el B, así como también entre B y C ya que sus intervalos LSD
no se solapan. Sin embargo, no hay diferencias significativas entre A y C porque sus
respectivos intervalos se solapan. Por tanto, se deduce que:

mB < (mA = mC)

La información deducida del gráfico es coherente con el hecho de que el factor CAT
resulta estadísticamente significativo, pues ello indica que al menos uno de los
catalizadores tendrá un valor medio significativamente distinto de los demás.

Soluciones
a) Los dos factores y la interacción son significativas (p-valor<0’05), lo que implica
que las ciudades y los distintos niveles adquisitivos valoran al político de diferente
manera.
La interacción significaría que los distintos niveles no valoran igual en las dos
ciudades.

b) Dado que la interacción es significativa no podemos mirar en los intervalos LSD ya


que nos dan los valores del factor sin tener en cuenta la relación con la otra variable.
Si miramos en la gráfica “Interaction Plot” vemos que la valoración más alta es en la
ciudad 1 con nivel adquisitivo Alto y Medio, que tienen idéntica valoración.
Si hubiéramos mirado en los LSD (que no es lo correcto aunque en este caso difieren
poco) sólo es la ciudad 1 con nivel alto.

-307-
10. Análisis de la varianza

-308-
11. Regresión lineal

11. REGRESIÓN LINEAL

Contenido
11.1. HIPÓTESIS DEL MODELO ...................................................................... 309
11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN...................... 311
11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES .............. 313
11.4. VALIDACIÓN DEL MODELO .................................................................... 318
11.5. INTERVALOS DE PREDICCIÓN .............................................................. 321
11.6. BONDAD DE AJUSTE .............................................................................. 323
11.7. PROBLEMAS Y CUESTIONES DE EXÁMENES ..................................... 325

11.1. HIPÓTESIS DEL MODELO

Supongamos que tenemos la variable aleatoria bidimensional (X,Y) donde X es la


altura de una persona, Y es su peso, y a partir de una muestra de n personas,
quisiéramos predecir el peso de una de ellas conociendo su altura. Para ello
aplicamos un modelo de la forma Y=g(X), siendo la más sencilla la recta, de manera
que a la nube de puntos (X,Y) queremos ajustar la mejor recta que pase por todos
ellos.

El modelo teórico a aplicar es:

Y = α + βX + ε

donde ε es una variable normal de media 0 y de varianza σ . X es un valor fijo, y


α , β son los parámetros que definen la recta, que se llama recta de regresión.

Como ε es aleatorio, también Y será aleatorio con una distribución normal de


media:

E(Y) = α + β X + E( ε ) = α + β

y varianza

D (Y) = D ( ε ) = σ
2 2 2

Téngase en cuenta que α + β X representan aquí una constante.

Si para una altura determinada el valor medio del peso fuera siempre el
mismo, no habría interés en ajustar una recta a los puntos, puesto que el conocer X
no aporta nada para predecir el valor de Y. Esto significaría que el coeficiente de
correlación es cero y la recta de regresión es paralela al eje de las X.
-309-
11. Regresión lineal

En caso contrario, el coeficiente de correlación es distinto de cero, y puede


ser interesante ajustar una recta a la nube de puntos (X,Y). Gráficamente es:

Figura 11. 1. Distribuciones condicionales.

Para una X fijada, el conjunto de puntos de Y forman una campana de Gauss.


Los valores medios de dichas campanas se encuentran sobre la recta α + β X y la
dispersión de cada campana es siempre la misma. A esta última propiedad se le
llama homocedásticidad.

La ecuación Y = α + β X + ε significa que, conocido X, podemos predecir un


valor de Y, excepto una cantidad residual ε , que llamamos error, la cual engloba la
influencia de todos los demás factores sobre la variable Y.

Los errores tienen que cumplir la condición de ser independientes. Esta


propiedad se expresa diciendo que los errores o residuos deben estar
incorrelacionados entre si.

Con todo ello las hipótesis del modelo

Y = α + βX + ε

son:

1) Para cada X, Y sigue una distribución normal de media α + βX y de


varianza σ 2 .

2) ε sigue una distribución normal de media 0 y varianza σ 2 .

-310-
11. Regresión lineal

3) Los residuos están incorrelacionados.

4) Los residuos no siguen un comportamiento sistemático.

5) Los residuos no tienen valores anómalos.

Si queremos reducir el error de predicción, podemos introducir otra variable X2


de forma que haya una mejor explicación de la variable Y. En otros casos,
directamente queremos conocer la relación entre una variable dependiente Y, y dos o
más variables independientes X1 y X2. El modelo a aplicar es:

Y = α + β1 X 1+ β 2 X 2 +ε

entonces se dice que el modelo es de regresión lineal múltiple.

Las hipótesis a añadir son:

6) Las variables X's son independientes entre si.

7) El número de datos es mayor que el número de variables X's más 1.

11.2. ESTIMACIÓN DE LOS COEFICIENTES DE REGRESIÓN

Para una nube de puntos (X,Y) como el de la figura siguiente

y
ei

Figura 11. 2. Recta de ajuste

la mejor recta de regresión es aquella que la suma de los cuadrados de los


segmentos verticales dibujados sea mínima. Dichos segmentos representan el error

-311-
11. Regresión lineal

entre el valor observado y un valor predicho. Esto es, conociendo un valor de X, el


valor predicho es:

Yˆ = α + βX

y el error es

ε = Y - Yˆ = y - α - βX

que por término medio tendrá un valor al cuadrado de:

E(y - α - βX )2

y debemos elegir los parámetros α y β de forma que

2
mínimo E(Y - α - β X )

Para ello hacemos

∂E ∂E
= 0; =0
∂α ∂β

y obtenemos los valores de α̂ y β̂ , a los cuales llamamos a y b, respectivamente.


Los valores que se obtienen son:

2
S xy
b= 2
S xx

y = a + bx

Donde,

n
S xy2 = ∑ ( xi − x )( yi − y )
i =1

n
S xx2 = ∑ ( xi − x ) 2
i =1

En regresión lineal múltiple, por ejemplo, para dos variables, el modelo es

Y = β0 + β1 X 1+ β 2 X 2 +ε

2
y la condición a cumplir es mÍn E(Y - β 0 - β 1 X 1 - β 2 X 2 ) , y obtenemos unos valores
de b0 ,b1 ,b2 , en función de los datos muestrales.

-312-
11. Regresión lineal

11.3. CONTRASTES DE SIGNIFICACIÓN DE LOS COEFICIENTES

Se observa que a y b, las estimaciones de α y β , son funciones de los datos


muestrales ( x1 , y1 ),( x 2 , y 2 ),...( x n , y n ) , de manera que, para cada muestra de n
puntos extraída al azar, cambian los valores de a y b. En consecuencia, a y b son dos
variables aleatorias con sus medias y sus varianzas. Se demuestra que para el
estadístico a son:

E(a) = α

n
σ 2 ∑ xi2
2 i=1
D (a) = n
n( ∑ x - n x ) 2
i
2

i=1

y para el estadístico b son:

E(b) = β

2 σ2
D (b) = n

∑x -nx
i=1
2
i
2

siendo σ 2 la varianza residual, cuya estimación viene dada por:

∑e 2
i

σˆ 2 = i=1

n−2
Como σ 2 es desconocida, la sustituimos por σ̂ 2 , a y b siguen distribuciones t
de Student de n-2 grados de libertad. Es decir:

a - E(a)
= t n- 2
D(a)

-313-
11. Regresión lineal

b - E(b)
= t n- 2
D(b)

o bien:

a -α b-β
= t n- 2 ; = t n- 2
D(a) D(b)

las primeras hipótesis que se plantean es si α y β son nulas o por el contrario


tienen un valor significativamente distinto de cero.

Para contrastar H 0 ( α = 0) observamos la cantidad

a -0
D(a)

lo cual da un número. Si éste está dentro del campo de existencia de la t, al 95%,


decimos que no hay razón para rechazar que α = 0 .

Para contrastar H o ( β = 0) observamos la cantidad

b-0
D(b)

lo cual da otro número. Si éste se encuentra dentro del campo de existencia al 95%
de una t n-2 , decimos que no hay razón para rechazar que β = 0 .

b
En la práctica, el valor de se le llama t-value, y se calcula la probabilidad
D(b)
de que una t n-2 sea, en módulo, mayor que la t-value. Si dicha probabilidad es menor
que 0,05, rechazamos la hipótesis nula de que el coeficiente es cero.

Simple Regression - Peso vs. Altura


Dependent variable: Peso

Independent variable: Altura

Linear model: Y = a + b*X

-314-
11. Regresión lineal

Coefficients

Least Squares Standard T

Parameter Estimate Error Statistic P-Value

Intercept -78,486 19,6355 -3,99714 0,0002

Slope 0,833335 0,110693 7,52833 0,0000

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 2815,93 1 2815,93 56,68 0,0000

Residual 2782,35 56 49,6848

Total (Corr.) 5598,28 57

Correlation Coefficient = 0,709224

R-squared = 50,2999 percent

R-squared (adjusted for d.f.) = 49,4124 percent

Standard Error of Est. = 7,04874

Mean absolute error = 5,20749

Durbin-Watson statistic = 2,12033 (P=0,6706)

Lag 1 residual autocorrelation = -0,0660485

The StatAdvisor

The output shows the results of fitting a linear model to describe the relationship between Peso and
Altura. The equation of the fitted model is

Peso = -78,486 + 0,833335*Altura

Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship
between Peso and Altura at the 95,0% confidence level.

The R-Squared statistic indicates that the model as fitted explains 50,2999% of the variability in Peso.
The correlation coefficient equals 0,709224, indicating a moderately strong relationship between the
variables. The standard error of the estimate shows the standard deviation of the residuals to be
7,04874. This value can be used to construct prediction limits for new observations by selecting the
Forecasts option from the text menu.

-315-
11. Regresión lineal

The mean absolute error (MAE) of 5,20749 is the average value of the residuals. The Durbin-Watson
(DW) statistic tests the residuals to determine if there is any significant correlation based on the order in
which they occur in your data file. Since the P-value is greater than 0,05, there is no indication of serial
autocorrelation in the residuals at the 95,0% confidence level.

En regresión lineal múltiple se actúa con el mismo criterio, pero además se


suele hacer un contraste de hipótesis de que todos los coeficientes de regresión son
nulos, esto es:

H 0 ( β 1 = β 2 = 0)

frente que al menos uno de ellos es distinto de cero. Para esto aplicamos un
procedimiento semejante al análisis de la varianza. Se calcula el valor de σ 2 por dos
procedimientos que veremos a continuación, y que bajo el supuesto de la hipótesis
H 0 ( β 1 = β 2 = 0) , deben dar lo mismo, esto es, que el cociente:

ˆ 12
σ
≈1
ˆ 22
σ

Siempre el numerador va a ser mayor que el denominador, y en caso de que


ese cociente sea muy elevado, eso es indicio de que al menos un coeficiente de
regresión es distinto de cero.

Figura 11. 3. Valores predichos

∑( yˆ - y )
2
i
i=1
σˆ 12 =
1

-316-
11. Regresión lineal

∑( y - yˆ
2
i i )
i=1
σˆ 22 =
n-2

y el cociente de varianzas sigue una F de 1 y n-2 grados de libertad.

Multiple Regression - Peso


Dependent variable: Peso

Independent variables:

Altura

Edad

Sexo=2

Standard T

Parameter Estimate Error Statistic P-Value

CONSTANT -101,667 36,5018 -2,78526 0,0074

Altura 0,621629 0,144015 4,31641 0,0001

Edad 3,3533 1,18711 2,82477 0,0066

Sexo=2 -7,22088 3,53274 -2,04399 0,0458

Analysis of Variance

Source Sum of Squares Df Mean Square F-Ratio P-Value

Model 3434,97 3 1144,99 28,58 0,0000

Residual 2163,31 54 40,0613

Total (Corr.) 5598,28 57

R-squared = 61,3576 percent

R-squared (adjusted for d.f.) = 59,2108 percent

Standard Error of Est. = 6,3294

Mean absolute error = 4,85517

-317-
11. Regresión lineal

Durbin-Watson statistic = 2,1583 (P=0,7124)

Lag 1 residual autocorrelation = -0,081475

The StatAdvisor

The output shows the results of fitting a multiple linear regression model to describe the relationship
between Peso and 3 independent variables. The equation of the fitted model is

Peso = -101,667 + 0,621629*Altura + 3,3533*Edad - 7,22088*Sexo=2

Since the P-value in the ANOVA table is less than 0,05, there is a statistically significant relationship
between the variables at the 95,0% confidence level.

The R-Squared statistic indicates that the model as fitted explains 61,3576% of the variability in Peso.
The adjusted R-squared statistic, which is more suitable for comparing models with different numbers of
independent variables, is 59,2108%. The standard error of the estimate shows the standard deviation of
the residuals to be 6,3294. This value can be used to construct prediction limits for new observations by
selecting the Reports option from the text menu. The mean absolute error (MAE) of 4,85517 is the
average value of the residuals. The Durbin-Watson (DW) statistic tests the residuals to determine if there
is any significant correlation based on the order in which they occur in your data file. Since the P-value is
greater than 0,05, there is no indication of serial autocorrelation in the residuals at the 95,0% confidence
level.

In determining whether the model can be simplified, notice that the highest P-value on the independent
variables is 0,0458, belonging to Sexo=2. Since the P-value is less than 0,05, that term is statistically
significant at the 95,0% confidence level. Consequently, you probably don't want to remove any
variables from the model.

11.4. VALIDACIÓN DEL MODELO

Aparte de contrastar las hipótesis nulas de que los coeficientes de regresión son cero
o no, hay que comprobar las hipótesis del modelo acerca de los residuos. Esto es:

1) Son normales

2) Media cero.

3) Varianza constante.

4) Incorrelacionados.

5) No hay valores anómalos.

1) Normalidad

Para comprobar la normalidad de los residuos se realiza un gráfico probabilístico


normal, como el de la figura siguiente:

-318-
11. Regresión lineal

Normal Probability Plot

99,9

99

95
percentage

80

50

20

0,1
-13 -8 -3 2 7 12 17
RESIDUALS

Figura 11. 4. Test de ajuste a una normal.

Si los puntos están situados sobre una recta, decimos que los datos se
ajustan a una distribución normal.

2) Media cero

Se puede calcular el intervalo de confianza del residuo. Si el intervalo de confianza al


95% incluye al 0, decimos que la media es 0 con un nivel de significación del 5%.

3) Varianza constante

Para ello realizamos un gráfico de dispersión de ei frente a x. Por ejemplo, si el


gráfico fuera como el de la figura siguiente:

Figura 11. 5.Varianza no constante

-319-
11. Regresión lineal

se observa que a medida que aumenta X, aumenta la dispersión, lo que contradice la


hipótesis de homocedásticidad del modelo.

4) Autocorrelación

Por ejemplo, si el gráfico de e i frente a x es como el de la figura siguiente:

Figura 11. 6. Residuos en función de x

significa que los residuos están correlacionados, ya que primero son negativos, luego
positivos, negativos, etc.. Es decir, no hay independencia de los residuos.

Este caso particular corresponde a una situación en que la nube de puntos


(X,Y) tiene la forma de una parábola, pero se ha ajustado una recta, tal como en la
figura de abajo:

Figura 11. 7. Falta de ajuste

En general, las gráficas de residuos no tienen que mostrar ningún


-320-
11. Regresión lineal

comportamiento sistemático.

5) Valores anómalos

Se pueden determinar dibujando los residuos en función de x, y observando aquellos


puntos que sean muy extremos, tanto por arriba, como por abajo de la media.
También se pueden estandarizar los residuos, y observar aquellos cuyos valores
sean más de 3 en módulo.

11.5. INTERVALOS DE PREDICCIÓN

Una vez que el modelo ha pasado la etapa de validación, se puede emplear para
realizar predicciones de y0 , conociendo un valor de x0 . Se pueden efectuar dos tipos
de predicciones:

a) Dado un valor de x0 , ¿cuánto vale por término medio el valor de y0 ? Es


una predicción para la media de y0 .

b) Dado un valor de x0 , ¿cuánto vale el valor de y0 ? Es una predicción


para un valor puntual de y0 .

Para el segundo caso habrá una mayor imprecisión que para el primero,
puesto que resulta más difícil predecir un valor puntual, que una media, en donde los
valores altos y bajos se pueden compensar.

El intervalo de predicción para la media de y0 es:

⎛ 1 ( x )2 ⎞
a + b x0 + tαn2/2 σˆ 2 ⎜⎜ + x0 ⎟

⎝ n s xx ⎠

y para un valor puntual es:

⎛ 1 ( x )2 ⎞
a + bx0 + tαn2/2 σˆ 2 ⎜⎜ 1 + + x0 ⎟
⎝ n s xx ⎟⎠

donde

n
S xx = ∑ ( xi − x )
2

i=1

-321-
11. Regresión lineal

Gráficamente, los límites superior e inferior de dichos intervalos forman unas


curvas alrededor de la recta de regresión, tal como se presenta en la figura siguiente:

Plot of Fitted Model


Peso = -78,486 + 0,833335*Altura

85

75
Peso

65

55

45
150 160 170 180 190 200
Altura

Fi
gura 11. 8. Intervalos de predicción.

Las curvas mas interiores corresponden a la predicción de un valor medio de


Y, y las mas exteriores, a un valor puntual de Y.

Cuando X coincide con x , la amplitud de los intervalos es mínima, tal y como


se observa en la figura 11.8, y se corresponde con las fórmulas.

-322-
11. Regresión lineal

Figura 11. 9. Formulación de modelos de regresión

11.6. BONDAD DE AJUSTE

Para dos modelos de regresión que cumplan las hipótesis, )cuál de los dos es el
mejor? o bien para uno de ellos, )cuánto de bien se ajustan los datos al modelo?

Para determinar el grado de ajuste de los puntos se calcula el coeficiente de


determinación R 2 , el cual viene dado por:

suma de cuadrados residual


R = 1−
2
suma de cuadrados total

Cuánto más se ajuste a 100% el R 2 , mejor será el ajuste de los datos al


modelo.

-323-
11. Regresión lineal

Si introducimos otra variable al modelo, el valor de R 2 siempre aumenta, pero


puede ser que la aportación de la nueva variable no sea significativa. Por ello se
calcula el R 2 ajustado, el cual es:

2
= 1−
var.residual σ2
= 1− 2
R adjus.
var.total σY

el cual penaliza la introducción de nuevas variables, y en caso de no ser


significativas, disminuye el valor de R 2adju.

# Método del incremento de la suma de cuadrados

C Modelo 1 (más sencillo)

y = β 0 + β 1 x1 + ε

Suma de cuadrados:

SCT 1 = SCE1 + SCR1

C Modelo 2 (más completo)

y = β 0 + β 1 x1 + β 2 x 2 + ε

Suma de cuadrados

SCT 2 = SCE2 + SCR2

C Incremento de la suma de cuadrados Δ SCR = SCR 1 - SCR 2

C El modelo 2 es mejor que el 1 si:

Δ SCR
1 > F 1,α g.l. mod elo 2
SCR 2
g.l.modelo 2

-324-
11. Regresión lineal

11.7. PROBLEMAS Y CUESTIONES DE EXÁMENES

11.7.1.- Se quiere estudiar la relación existente entre la renta, en millones de euros,


para diferentes provincias españolas y el número de automóviles y motocicletas (en
miles de unidades) en las mismas. Para ello se tienen para cada provincia la
relación de automóviles y motocicletas así como su renta media.

Los resultados obtenidos mediante regresión se muestran a continuación.

Análisis de Regresión Múltiple

-----------------------------------------------------------------------------

Variable dependiente: RENTA_PROV

-----------------------------------------------------------------------------

Error Estadístico

Parámetro Estimación estándar T P-Valor

-----------------------------------------------------------------------------

CONSTANTE 6343.96 1127.17 5.62823 0.0000

AUTOMOVIL 0.610523 0.024924 24.4954 0.0000

MOTOS 0.110201 0.0565941 1.94722 0.0575

-----------------------------------------------------------------------------

Análisis de Varianza

-----------------------------------------------------------------------------

Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor

-----------------------------------------------------------------------------

Modelo 9.02343E10 2 4.51172E10 1537.11 0.0000

Residuo 1.37954E9 47 2.9352E7

-----------------------------------------------------------------------------

Total (Corr.) 9.16139E10 49

R-cuadrado = 98.4942 porcentaje

R-cuadrado (ajustado para g.l.) = 98.4301 porcentaje

Error estándar de est. = 5417.75

Error absoluto medio = 3469.87

Estadístico de Durbin-Watson = 2.29066 (P=0.1528)

Autocorrelación residual en Lag 1 = -0.153461

-325-
11. Regresión lineal

Con los resultados anteriores y un nivel de significación de un 5%

1. ¿Cuáles son las variables que presentan una influencia significativa sobre el nivel
de renta provincial? (2,5 puntos)

a) AUTOMOVIL y MOTOS
b) AUTOMOVIL
c) MOTOS
d) El modelo no es significativo

2. El coeficiente de determinación del modelo representado tiene un valor de: (2,5


puntos)

a) -0.153461
b) 98.4942
c) 6343.96
d) 1537.11

3. Empleando el modelo completo ¿ cuál es el valor esperado de la renta provincial


si AUTOMOVIL=1000 y MOTOS= B=500? (2,5 puntos)

a) 6343.96
b) 7505.533
c) 7009.5835
d) 55.1005

4. La estimación del parámetro AUTOMOVIL representa: (2,5 puntos)

a) Incremento medio en el valor esperado de la renta provincial por cada coche


que se matricula manteniendo constante el resto de variables independientes.
b) Incremento medio en el valor esperado de la renta provincial por cada mil
coches que se matriculan manteniendo constante el resto de variables
independientes.

-326-
11. Regresión lineal

c) Incremento en el valor esperado de la renta provincial por cada mil coches


que se matriculan manteniendo constante el resto de variables independientes
d) Incremento en el valor esperado de la renta provincial por cada coche que se
matricula sin matricularse ninguna moto.

11.7.2.- La relación que existe entre la potencia de un coche (horsepower) y su


consumo (mpg) y su país de procedencia se ha estudiado a través de un modelo de
regresión como el que se ve en la siguiente salida del statgraphics:

-----------------------------------------------------------------------------

Dependent variable: horsepower

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

CONSTANT 161,85 6,75849 23,9477 0,0000

mpg -2,56657 0,196964 -13,0306 0,0000

Pais 1,43398 2,909 0,492947 0,6228

-----------------------------------------------------------------------------

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 55446,7 2 27723,3 121,33 0,0000

Residual 33589,4 147 228,499

-----------------------------------------------------------------------------

Total (Corr.) 89036,1 149

R-squared = 62,2744 percent

R-squared (adjusted for d.f.) = 61,7611 percent

Standard Error of Est. = 15,1162

Mean absolute error = 11,615

Durbin-Watson statistic = 1,46866 (P=0,0005)

Lag 1 residual autocorrelation = 0,26547

-327-
11. Regresión lineal

1) ¿De qué términos depende de forma significativa para un valor de α=0,05 la


variable dependiente? Justifica la respuesta (0,50 puntos)

a) Contante, mpg, país

x b) Constante, mpg porque sus P-valores son menores q ue 0,05

c) País

d) La dependencia nos la da la R-squared.

2) ¿Cuánto vale el coeficiente de determinación? (0,50 puntos)

a) Lo obtenemos de la tabla del análisis de la varianza y nos lo da el p-value


indicándonos que como es menos que 0’05 el modelo es válido.

b) Lo obtenemos de la tabla del análisis de la varianza y se calcula como la raíz


cuadrada de la SCE/SCT y vale 15,1162

x c) Lo obtenemos de la tabla del análisis de la varianza y se calcula como la


SCE/SCT por 100 y vale 62,2744%

d) Nos lo da la tabla del análisis de la varianza y es el valor F-Ratio 121,33 que al ser
tan grande significa que el modelo es válido.

11.7.3.- Se estudia la relación entre la composición de un cemento tipo Portland y el


calor desprendido durante la fase de fraguado. Para ello se midió la cantidad de calor
desprendido en calorías por gramos de cemento junto con las variables que se
pensaba podían tener influencia sobre el calor desprendido A, B y C que representan
el contenido en porcentaje de tres productos.

Los resultados se obtenidos se muestran a continuación.

-328-
11. Regresión lineal

Análisis de Regresión Múltiple

-----------------------------------------------------------------------------

Variable dependiente: Calor

-----------------------------------------------------------------------------

Error Estadístico

Parámetro Estimación estándar T P-Valor

-----------------------------------------------------------------------------

CONSTANTE 48,1936 3,9133 12,3153 0,0000

A 1,69589 0,204582 8,28954 0,0000

B 0,656915 0,0442342 14,8508 0,0000

C 0,250018 0,184711 1,35356 0,2089

-----------------------------------------------------------------------------

Análisis de Varianza

-----------------------------------------------------------------------------

Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor

-----------------------------------------------------------------------------

Modelo 2667,65 3 889,217 166,34 0,0000

Residuo 48,1106 9 5,34562

-----------------------------------------------------------------------------

Total (Corr.) 2715,76 12

R-cuadrado = 98,2285 porcentaje

R-cuadrado (ajustado para g.l.) = 97,638 porcentaje

Error estándar de est. = 2,31206

Error absoluto medio = 1,57588

Estadístico de Durbin-Watson = 2,11016 (P=0,3638)

Autocorrelación residual en Lag 1 = -0,116306

-329-
11. Regresión lineal

Análisis de Regresión Múltiple

-----------------------------------------------------------------------------

Variable dependiente: Calor

-----------------------------------------------------------------------------

Error Estadístico

Parámetro Estimación estándar T P-Valor

-----------------------------------------------------------------------------

CONSTANTE 52,5773 2,28617 22,998 0,0000

A 1,46831 0,121301 12,1047 0,0000

B 0,66225 0,0458547 14,4424 0,0000

-----------------------------------------------------------------------------

Análisis de Varianza

-----------------------------------------------------------------------------

Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor

-----------------------------------------------------------------------------

Modelo 2657,86 2 1328,93 229,50 0,0000

Residuo 57,9045 10 5,79045

-----------------------------------------------------------------------------

Total (Corr.) 2715,76 12

R-cuadrado = 97,8678 porcentaje

R-cuadrado (ajustado para g.l.) = 97,4414 porcentaje

Error estándar de est. = 2,40634

Error absoluto medio = 1,90933

Estadístico de Durbin-Watson = 1,92164 (P=0,4717)

Autocorrelación residual en Lag 1 = -0,054504

-330-
11. Regresión lineal

A. El coeficiente de determinación del modelo matemático más adecuado tiene un


valor de: (0,25 puntos)

a. 2,40634

b. 97,638

c. 2,31206

d. 97,4414 Cuando se comparan modelos se usa el R-cuadrado


(ajustado para gl)

B. La ecuación matemática que se debería utilizar para predecir el valor del calor
desprendido en la fase de fraguado es: (0,25 puntos)

a. Calor=48,1936+0,656915B+1,69589A

b. Calor=52,5773+0,66225B+1,46831A (el coeficiente de C no es


significativo)

c. Calor=48,1936+0,250018C+0,656915B+1,69589A

d. Ninguno de los anteriores

C. La estimación del parámetro A representa: (0,25 puntos)

a. Decremento medio en el valor del calor por cada unidad que aumenta
el parámetro A

b. Incremento medio en el valor del calor por cada unidad que


aumenta el parámetro A manteniendo constante el resto de
variables independientes.

c. Incremento medio en el valor del calor por cada unidad que aumenta el
parámetro A

d. Ninguna de los anteriores

D. Qué valor obtendríamos del calor desprendido si A=11, B=56 y C=8 (0,25
puntos)

103,63563

a. 105,81471 (sustituyéndolas variables significativas en el modelo


segundo que es el apropiado)

-331-
11. Regresión lineal

b. 106,45871

c. 105,635774

11.7.4.- Para estudiar a qué se debe la variabilidad obtenida en función del tipo de
fitoregulador, se analiza en laboratorio la composición de cada un de ellos y se
encuentra que su composición es muy similar, pero difieren en la concentración de
una hormona de crecimiento vegetal denominada auxina (variable “conc”). El
fitoregulador A contiene 10 g/l de auxina, el de tipo B contiene 40 g/l y el de tipo C, 20
g/l. El efecto de la concentración sobre la longitud obtenida (datos de la tabla anterior)
se analiza con regresión lineal múltiple, obteniéndose los siguientes resultados:

Multiple Regression Analysis


-----------------------------------------------------------------------------

Dependent variable: longitud

-----------------------------------------------------------------------------

Standard T

Parameter Estimate Error Statistic P-Value

-----------------------------------------------------------------------------

CONSTANT -258,333 125,178 -2,06372 0,0691

conc 73,0 11,1942 6,52125 0,0001

conc^2 -1,21667 0,211749 -5,7458 0,0003

-----------------------------------------------------------------------------

Analysis of Variance

-----------------------------------------------------------------------------

Source Sum of Squares Df Mean Square F-Ratio P-Value

-----------------------------------------------------------------------------

Model 299756,0 2 149878,0 29,40 0,0001

Residual 45876,0 9 5097,33

-----------------------------------------------------------------------------

Total (Corr.) 345632,0 11

R-squared = 86,7269 percent

-332-
11. Regresión lineal

R-squared (adjusted for d.f.) = 83,7774 percent

Standard Error of Est. = 71,3956

Mean absolute error = 47,5

Teniendo en cuenta los resultados del modelo de regresión, ¿qué concentración de


auxina deberá tener el fitoregulador para maximizar la longitud, bajo las condiciones
del experimento? Considerar α=0,05. (2,5 puntos)

a) conc = 20

b) conc = 30

c) conc = 40

d) conc = 20 o bien conc = 40

e) ninguna de las anteriores

Solución: las dos variables del modelo son estadísticamente significativas ya que su p-
valor es menor a 0,05. La ecuación resultante será: Longitud = –258,333 + 73 conc –
1,217 conc2

Para determinar el máximo relativo de esta ecuación, hay que derivar e igualar a
cero:

d(long)/dc = 73 –2 · 1,217 conc = 0 Æ conc = 73/(2·1,217) = 30 g/l.

-333-
11. Regresión lineal

-334-
Anexo A

ANEXO A. Tablas de las principales distribuciones de probabilidad

DISTRIBUCIÓN DE POISSON .......................................................................................... 336


DISTRIBUCIÓN NORMAL TIPIFICADA ............................................................................ 339

DISTRIBUCIÓN χ 2n DE PEARSON .................................................................................. 340


DISTRIBUCIÓN t de Student ............................................................................................ 343
DISTRIBUCIÓN F de snedecor ......................................................................................... 346

-335-
Anexo A

DISTRIBUCIÓN DE POISSON
c
λi ⋅ e − λ
P( X ≤ c ) = ∑
i=0 i! 0 1 2 3 4 5 6 7 8 9 10

λ c=0 c=1 c=2 c=3 c=4 c=5 c=6 c=7 c=8


0,02 0,9802 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,04 0,9608 0,9992 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,06 0,9418 0,9983 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,08 0,9231 0,9970 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,10 0,9048 0,9953 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,15 0,8607 0,9898 0,9995 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
0,20 0,8187 0,9825 0,9989 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,25 0,7788 0,9735 0,9978 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000
0,30 0,7408 0,9631 0,9964 0,9997 1,0000 1,0000 1,0000 1,0000 1,0000
0,35 0,7047 0,9513 0,9945 0,9995 1,0000 1,0000 1,0000 1,0000 1,0000
0,40 0,6703 0,9384 0,9921 0,9992 0,9999 1,0000 1,0000 1,0000 1,0000
0,45 0,6376 0,9246 0,9891 0,9988 0,9999 1,0000 1,0000 1,0000 1,0000
0,50 0,6065 0,9098 0,9856 0,9982 0,9998 1,0000 1,0000 1,0000 1,0000
0,55 0,5769 0,8943 0,9815 0,9975 0,9997 1,0000 1,0000 1,0000 1,0000
0,60 0,5488 0,8781 0,9769 0,9966 0,9996 1,0000 1,0000 1,0000 1,0000
0,65 0,5220 0,8614 0,9717 0,9956 0,9994 0,9999 1,0000 1,0000 1,0000
0,70 0,4966 0,8442 0,9659 0,9942 0,9992 0,9999 1,0000 1,0000 1,0000
0,75 0,4724 0,8266 0,9595 0,9927 0,9989 0,9999 1,0000 1,0000 1,0000
0,80 0,4493 0,8088 0,9526 0,9909 0,9986 0,9998 1,0000 1,0000 1,0000
0,85 0,4274 0,7907 0,9451 0,9889 0,9982 0,9997 1,0000 1,0000 1,0000
0,90 0,4066 0,7725 0,9371 0,9865 0,9977 0,9997 1,0000 1,0000 1,0000
1,00 0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000 1,0000
1,10 0,3329 0,6990 0,9004 0,9743 0,9946 0,9990 0,9999 1,0000 1,0000
1,20 0,3012 0,6626 0,8795 0,9662 0,9923 0,9985 0,9997 1,0000 1,0000
1,30 0,2725 0,6268 0,8571 0,9569 0,9893 0,9978 0,9996 0,9999 1,0000
1,40 0,2466 0,5918 0,8335 0,9463 0,9857 0,9968 0,9994 0,9999 1,0000
1,50 0,2231 0,5578 0,8088 0,9344 0,9814 0,9955 0,9991 0,9998 1,0000
1,60 0,2019 0,5249 0,7834 0,9212 0,9763 0,9940 0,9987 0,9997 1,0000
1,70 0,1827 0,4932 0,7572 0,9068 0,9704 0,9920 0,9981 0,9996 0,9999
1,80 0,1653 0,4628 0,7306 0,8913 0,9636 0,9896 0,9974 0,9994 0,9999
1,90 0,1496 0,4337 0,7037 0,8747 0,9559 0,9868 0,9966 0,9992 0,9998
2,00 0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989 0,9998
2,10 0,1225 0,3796 0,6496 0,8386 0,9379 0,9796 0,9941 0,9985 0,9997
2,20 0,1108 0,3546 0,6227 0,8194 0,9275 0,9751 0,9925 0,9980 0,9995
2,30 0,1003 0,3309 0,5960 0,7993 0,9162 0,9700 0,9906 0,9974 0,9994
2,40 0,0907 0,3084 0,5697 0,7787 0,9041 0,9643 0,9884 0,9967 0,9991
2,50 0,0821 0,2873 0,5438 0,7576 0,8912 0,9580 0,9858 0,9958 0,9989
2,60 0,0743 0,2674 0,5184 0,7360 0,8774 0,9510 0,9828 0,9947 0,9985
2,70 0,0672 0,2487 0,4936 0,7141 0,8629 0,9433 0,9794 0,9934 0,9981
2,80 0,0608 0,2311 0,4695 0,6919 0,8477 0,9349 0,9756 0,9919 0,9976
2,90 0,0550 0,2146 0,4460 0,6696 0,8318 0,9258 0,9713 0,9901 0,9969
3,00 0,0498 0,1991 0,4232 0,6472 0,8153 0,9161 0,9665 0,9881 0,9962
3,10 0,0450 0,1847 0,4012 0,6248 0,7982 0,9057 0,9612 0,9858 0,9953
3,20 0,0408 0,1712 0,3799 0,6025 0,7806 0,8946 0,9554 0,9832 0,9943
3,30 0,0369 0,1586 0,3594 0,5803 0,7626 0,8829 0,9490 0,9802 0,9931
3,40 0,0334 0,1468 0,3397 0,5584 0,7442 0,8705 0,9421 0,9769 0,9917
3,50 0,0302 0,1359 0,3208 0,5366 0,7254 0,8576 0,9347 0,9733 0,9901
3,60 0,0273 0,1257 0,3027 0,5152 0,7064 0,8441 0,9267 0,9692 0,9883
3,70 0,0247 0,1162 0,2854 0,4942 0,6872 0,8301 0,9182 0,9648 0,9863
3,80 0,0224 0,1074 0,2689 0,4735 0,6678 0,8156 0,9091 0,9599 0,9840
3,90 0,0202 0,0992 0,2531 0,4532 0,6484 0,8006 0,8995 0,9546 0,9815
4,00 0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786
4,10 0,0166 0,0845 0,2238 0,4142 0,6093 0,7693 0,8786 0,9427 0,9755
4,20 0,0150 0,0780 0,2102 0,3954 0,5898 0,7531 0,8675 0,9361 0,9721
4,30 0,0136 0,0719 0,1974 0,3772 0,5704 0,7367 0,8558 0,9290 0,9683
4,40 0,0123 0,0663 0,1851 0,3594 0,5512 0,7199 0,8436 0,9214 0,9642
4,50 0,0111 0,0611 0,1736 0,3423 0,5321 0,7029 0,8311 0,9134 0,9597
4,60 0,0101 0,0563 0,1626 0,3257 0,5132 0,6858 0,8180 0,9049 0,9549
4,70 0,0091 0,0518 0,1523 0,3097 0,4946 0,6684 0,8046 0,8960 0,9497
4,80 0,0082 0,0477 0,1425 0,2942 0,4763 0,6510 0,7908 0,8867 0,9442
4,90 0,0074 0,0439 0,1333 0,2793 0,4582 0,6335 0,7767 0,8769 0,9382

-336-
Anexo A

DISTRIBUCIÓN DE POISSON
c
λi ⋅ e − λ
P( X ≤ c ) = ∑
i=0 i! 0 1 2 3 4 5 6 7 8 9 10

λ c=0 c=1 c=2 c=3 c=4 c=5 c=6 c=7 c=8


5,00 0,0067 0,0404 0,1247 0,2650 0,4405 0,6160 0,7622 0,8666 0,9319
5,10 0,0061 0,0372 0,1165 0,2513 0,4231 0,5984 0,7474 0,8560 0,9252
5,20 0,0055 0,0342 0,1088 0,2381 0,4061 0,5809 0,7324 0,8449 0,9181
5,30 0,0050 0,0314 0,1016 0,2254 0,3895 0,5635 0,7171 0,8335 0,9106
5,40 0,0045 0,0289 0,0948 0,2133 0,3733 0,5461 0,7017 0,8217 0,9027
5,50 0,0041 0,0266 0,0884 0,2017 0,3575 0,5289 0,6860 0,8095 0,8944
5,60 0,0037 0,0244 0,0824 0,1906 0,3422 0,5119 0,6703 0,7970 0,8857
5,70 0,0033 0,0224 0,0768 0,1800 0,3272 0,4950 0,6544 0,7841 0,8766
5,80 0,0030 0,0206 0,0715 0,1700 0,3127 0,4783 0,6384 0,7710 0,8672
5,90 0,0027 0,0189 0,0666 0,1604 0,2987 0,4619 0,6224 0,7576 0,8574
6,00 0,0025 0,0174 0,0620 0,1512 0,2851 0,4457 0,6063 0,7440 0,8472
6,10 0,0022 0,0159 0,0577 0,1425 0,2719 0,4298 0,5902 0,7301 0,8367
6,20 0,0020 0,0146 0,0536 0,1342 0,2592 0,4141 0,5742 0,7160 0,8259
6,30 0,0018 0,0134 0,0498 0,1264 0,2469 0,3988 0,5582 0,7017 0,8148
6,40 0,0017 0,0123 0,0463 0,1189 0,2351 0,3837 0,5423 0,6873 0,8033
6,50 0,0015 0,0113 0,0430 0,1118 0,2237 0,3690 0,5265 0,6728 0,7916
6,60 0,0014 0,0103 0,0400 0,1052 0,2127 0,3547 0,5108 0,6581 0,7796
6,70 0,0012 0,0095 0,0371 0,0988 0,2022 0,3406 0,4953 0,6433 0,7673
6,80 0,0011 0,0087 0,0344 0,0928 0,1920 0,3270 0,4799 0,6285 0,7548
6,90 0,0010 0,0080 0,0320 0,0871 0,1823 0,3137 0,4647 0,6136 0,7420
7,00 0,0009 0,0073 0,0296 0,0818 0,1730 0,3007 0,4497 0,5987 0,7291
7,20 0,0007 0,0061 0,0255 0,0719 0,1555 0,2759 0,4204 0,5689 0,7027
7,40 0,0006 0,0051 0,0219 0,0632 0,1395 0,2526 0,3920 0,5393 0,6757
7,60 0,0005 0,0043 0,0188 0,0554 0,1249 0,2307 0,3646 0,5100 0,6482
7,80 0,0004 0,0036 0,0161 0,0485 0,1117 0,2103 0,3384 0,4812 0,6204
8,00 0,0003 0,0030 0,0138 0,0424 0,0996 0,1912 0,3134 0,4530 0,5925
8,20 0,0003 0,0025 0,0118 0,0370 0,0887 0,1736 0,2896 0,4254 0,5647
8,40 0,0002 0,0021 0,0100 0,0323 0,0789 0,1573 0,2670 0,3987 0,5369
8,60 0,0002 0,0018 0,0086 0,0281 0,0701 0,1422 0,2457 0,3728 0,5094
8,80 0,0002 0,0015 0,0073 0,0244 0,0621 0,1284 0,2256 0,3478 0,4823
9,00 0,0001 0,0012 0,0062 0,0212 0,0550 0,1157 0,2068 0,3239 0,4557
9,20 0,0001 0,0010 0,0053 0,0184 0,0486 0,1041 0,1892 0,3010 0,4296
9,40 0,0001 0,0009 0,0045 0,0160 0,0429 0,0935 0,1727 0,2792 0,4042
9,60 0,0001 0,0007 0,0038 0,0138 0,0378 0,0838 0,1574 0,2584 0,3796
9,80 0,0001 0,0006 0,0033 0,0120 0,0333 0,0750 0,1433 0,2388 0,3558
10,0 0,0000 0,0005 0,0028 0,0103 0,0293 0,0671 0,1301 0,2202 0,3328
10,2 0,0000 0,0004 0,0023 0,0089 0,0257 0,0599 0,1180 0,2027 0,3108
10,4 0,0000 0,0003 0,0020 0,0077 0,0225 0,0534 0,1069 0,1863 0,2896
10,6 0,0000 0,0003 0,0017 0,0066 0,0197 0,0475 0,0966 0,1710 0,2694
10,8 0,0000 0,0002 0,0014 0,0057 0,0173 0,0423 0,0872 0,1566 0,2502
11,00 0,0000 0,0002 0,0012 0,0049 0,0151 0,0375 0,0786 0,1432 0,2320
11,20 0,0000 0,0002 0,0010 0,0042 0,0132 0,0333 0,0708 0,1307 0,2147
11,40 0,0000 0,0001 0,0009 0,0036 0,0115 0,0295 0,0636 0,1192 0,1984
11,60 0,0000 0,0001 0,0007 0,0031 0,0100 0,0261 0,0571 0,1085 0,1830
11,80 0,0000 0,0001 0,0006 0,0027 0,0087 0,0230 0,0512 0,0986 0,1686
12,00 0,0000 0,0001 0,0005 0,0023 0,0076 0,0203 0,0458 0,0895 0,1550
12,20 0,0000 0,0001 0,0004 0,0020 0,0066 0,0179 0,0410 0,0811 0,1424
12,40 0,0000 0,0001 0,0004 0,0017 0,0057 0,0158 0,0366 0,0734 0,1305
12,60 0,0000 0,0000 0,0003 0,0014 0,0050 0,0139 0,0326 0,0664 0,1195
12,80 0,0000 0,0000 0,0003 0,0012 0,0043 0,0122 0,0291 0,0599 0,1093
13,00 0,0000 0,0000 0,0002 0,0011 0,0037 0,0107 0,0259 0,0540 0,0998
13,20 0,0000 0,0000 0,0002 0,0009 0,0032 0,0094 0,0230 0,0487 0,0910
13,40 0,0000 0,0000 0,0002 0,0008 0,0028 0,0083 0,0204 0,0438 0,0828
13,60 0,0000 0,0000 0,0001 0,0007 0,0024 0,0072 0,0181 0,0393 0,0753
13,80 0,0000 0,0000 0,0001 0,0006 0,0021 0,0063 0,0161 0,0353 0,0684
14,00 0,0000 0,0000 0,0001 0,0005 0,0018 0,0055 0,0142 0,0316 0,0621
14,20 0,0000 0,0000 0,0001 0,0004 0,0016 0,0048 0,0126 0,0283 0,0562
14,40 0,0000 0,0000 0,0001 0,0003 0,0013 0,0042 0,0111 0,0253 0,0509
14,60 0,0000 0,0000 0,0001 0,0003 0,0012 0,0037 0,0098 0,0226 0,0460
14,80 0,0000 0,0000 0,0000 0,0002 0,0010 0,0032 0,0087 0,0202 0,0415
15,00 0,0000 0,0000 0,0000 0,0002 0,0009 0,0028 0,0076 0,0180 0,0374

-337-
Anexo A

c
λi ⋅ e− λ
DISTRIBUCIÓN DE POISSON P( X ≤ c ) = ∑
i!
i=1
1,00
0,95 28
26
0,90
24
0,85
0,80 22
0,75
0,70 20
19
0,65 18
0,60 17
0,55 16
15
0,50 14
13
0,45 12
11
0,40 10
9
7 8
0,35 6
5
0,30 4
3
0,25 2
1

Función de distribución P(X≤x)


c=
0,20
0,15
0,10
0,05
0,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Mª z

λ
-338-
Anexo A

DISTRIBUCIÓN NORMAL TIPIFICADA


α
z t2
1 -
2
φ( z ) = P( Z ≤ z ) = ∫ ⋅e dt
−∞ 2π
z 0 1 2 3 4 5 6 7 8 9 z 0 1 2 3 4 5 6 7 8 9
-3 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000 0.0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014 0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019 0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026 0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036 0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048 0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064 0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084 0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110 0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143 0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183 1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233 1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294 1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367 1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455 1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559 1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681 1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823 1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1057 0,1038 0,1020 0,1003 0,0985 1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170 1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379 2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611 2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867 2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
-0,7 0,2420 0,2389 0,2358 0,2327 0,2297 0,2266 0,2236 0,2207 0,2177 0,2148 2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451 2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776 2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121 2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483 2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859 2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247 2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
-0.0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641 3 0,9987 0,9990 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 1,0000
José Jabaloyes Vivas Vicente Chirivella González

-339-
Anexo A

x
t n / 2−1
DISTRIBUCIÓN χ 2n DE PEARSON P( χ n2 ≤ x ) = ∫ e − t / 2 n/2
dt
0
2 Γ (n / 2 )
1,00
n=1
0,95 n=2
0,90 n=3
n=4
0,85 n=5
n=6
0,80 n=7
n=8
0,75 n=9
n=10
0,70
n=12
0,65
n=14
0,60
n=16
0,55
n=18
0,50 n=20
0,45 n=22
n=24
0,40 n=26
n=28
0,35
n=30
0,30

0,25

Función de distribución P( χn2≤x)


0,20

0,15

0,10

0,05

0,00
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

-340- x
Anexo A

x
t n / 2 −1
DISTRIBUCIÓN χ2n DE PEARSON (Cont.) P(χn2 ≤ x ) = e− t / 2 dt

0
2n / 2 Γ(n / 2)
1,00

0,95

0,90

0,85 n=30
n=35
0,80 n=40
n=45
0,75
n=50
0,70 n=55
0,65 n=60
0,60 n=65

0,55 n=70
n=75
0,50 n=80
n=85
0,45
n=90
0,40 n=95

0,35 n=100
0,30

Función de distribución P( χn2≤x)


0,25

0,20

0,15

0,10

0,05

0,00
10 15 20 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 105 110 115 120 125 130 135 140
x
-341-
Anexo A

DISTRIBUCIÓN CHI-CUADRADO DE PEARSON

∞ n
−1



t
t2 α
P( X ≥ x ) = e 2
n
dt
x 2 2 Γ ( n2 )

χ2n (α)

n 0.9995 0.999 0.995 0.99 0.975 0.95 0.90 0.50 0.10 0.050 0.025 0.01 0.005 0.001 0.0005

1 0.000 0.000 0.000 0.000 0.001 0.004 0.016 0.455 2.706 3.842 5.024 6.635 7.879 10.827 12.115
2 0.001 0.002 0.010 0.020 0.051 0.103 0.211 1.386 4.605 5.992 7.378 9.210 10.597 13.815 15.201
3 0.015 0.024 0.072 0.115 0.216 0.352 0.584 2.366 6.251 7.815 9.348 11.345 12.838 16.266 17.731
4 0.064 0.091 0.207 0.297 0.484 0.711 1.064 3.357 7.779 9.488 11.143 13.277 14.860 18.466 19.998
5 0.158 0.210 0.412 0.554 0.831 1.146 1.610 4.352 9.236 11.071 12.833 15.086 16.750 20.515 22.106

6 0.299 0.381 0.676 0.872 1.237 1.635 2.204 5.348 10.645 12.592 14.449 16.812 18.548 22.457 24.102
7 0.485 0.599 0.989 1.239 1.690 2.167 2.833 6.346 12.017 14.067 16.013 18.475 20.278 24.321 26.018
8 0.710 0.857 1.344 1.647 2.180 2.733 3.490 7.344 13.362 15.507 17.535 20.090 21.955 26.124 27.867
9 0.972 1.152 1.735 2.088 2.700 3.325 4.168 8.343 14.684 16.919 19.023 21.666 23.589 27.877 29.667
10 1.265 1.479 2.156 2.558 3.247 3.940 4.865 9.342 15.987 18.307 20.483 23.209 25.188 29.588 31.419

11 1.587 1.834 2.603 3.054 3.816 4.575 5.578 10.341 17.275 19.675 21.920 24.725 26.757 31.264 33.138
12 1.935 2.214 3.074 3.571 4.404 5.226 6.304 11.340 18.549 21.026 23.337 26.217 28.300 32.909 34.821
13 2.305 2.617 3.565 4.107 5.009 5.892 7.042 12.340 19.812 22.362 24.736 27.688 29.819 34.527 36.477
14 2.697 3.041 4.075 4.660 5.629 6.571 7.790 13.339 21.064 23.685 26.119 29.141 31.319 36.124 38.109
15 3.107 3.483 4.601 5.229 6.262 7.261 8.547 14.339 22.307 24.996 27.488 30.578 32.802 37.698 39.717

16 3.536 3.942 5.142 5.812 6.908 7.962 9.312 15.339 23.542 26.296 28.845 32.000 34.267 39.252 41.308
17 3.980 4.416 5.697 6.408 7.564 8.672 10.085 16.338 24.769 27.587 30.191 33.409 35.718 40.791 42.881
18 4.439 4.905 6.265 7.015 8.231 9.390 10.865 17.338 25.989 28.869 31.526 34.805 37.156 42.312 44.434
19 4.913 5.407 6.844 7.633 8.907 10.117 11.651 18.338 27.204 30.144 32.852 36.191 38.582 43.819 45.974
20 5.398 5.921 7.434 8.260 9.591 10.851 12.443 19.337 28.412 31.410 34.170 37.566 39.997 45.314 47.498

21 5.895 6.447 8.034 8.897 10.283 11.591 13.240 20.337 29.615 32.671 35.479 38.932 41.401 46.796 49.010
22 6.404 6.983 8.643 9.543 10.982 12.338 14.042 21.337 30.813 33.925 36.781 40.289 42.796 48.268 50.510
23 6.924 7.529 9.260 10.196 11.689 13.091 14.848 22.337 32.007 35.173 38.076 41.638 44.181 49.728 51.999
24 7.453 8.085 9.886 10.856 12.401 13.848 15.659 23.337 33.196 36.415 39.364 42.980 45.558 51.179 53.478
25 7.991 8.649 10.520 11.524 13.120 14.611 16.473 24.337 34.382 37.653 40.647 44.314 46.928 52.619 54.948

26 8.537 9.222 11.160 12.198 13.844 15.379 17.292 25.337 35.563 38.885 41.923 45.642 48.290 54.051 56.407
27 9.093 9.803 11.808 12.879 14.573 16.151 18.114 26.336 36.741 40.113 43.195 46.963 49.645 55.475 57.856
28 9.656 10.391 12.461 13.565 15.308 16.928 18.939 27.336 37.916 41.337 44.461 48.278 50.994 56.892 59.299
29 10.227 10.986 13.121 14.256 16.047 17.708 19.768 28.336 39.088 42.557 45.722 49.588 52.336 58.301 60.734
30 10.804 11.588 13.787 14.954 16.791 18.493 20.599 29.336 40.256 43.773 46.979 50.892 53.672 59.702 62.160

40 16.906 17.917 20.707 22.164 24.433 26.509 29.051 39.335 51.805 55.759 59.342 63.691 66.766 73.403 76.096
50 23.461 24.674 27.991 29.707 32.357 34.764 37.689 49.335 63.167 67.505 71.420 76.154 79.490 86.660 89.560
60 30.339 31.738 35.534 37.485 40.482 43.188 46.459 59.335 74.397 79.082 83.298 88.379 91.952 99.608 102.69
7
70 37.467 39.036 43.275 45.442 48.758 51.739 55.329 69.335 85.527 90.531 95.023 100.43 104.22 112.32 115.58
80 44.792 46.520 51.172 53.540 57.153 60.392 64.278 79.334 96.578 101.88 106.62 112.32 116.32 124.84 128.26
90 52.277 54.156 59.196 61.754 65.647 69.126 73.291 89.334 107.56 113.15 118.14 124.11 128.29 137.20 140.78
100 59.895 61.918 67.328 70.065 74.222 77.929 82.358 99.334 118.49 124.34 129.56 135.81 140.17 149.45 153.16

José Jabaloyes Vivas


Vicente Chirivella González

-342-
Anexo A

x n+1 n+1
− Γ( )
DISTRIBUCIÓN t de Student P( X ≤ x ) = ∫
−∞
(1 + t 2 / n) 2 2
Γ(n / 2) nπ
dt

n
x 1 2 3 4 5 6 7 8 9 10 11 12 13 14 16 18 20 22 24 26 28 30
0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
0,1 0,5317 0,5353 0,5367 0,5374 0,5379 0,5382 0,5384 0,5386 0,5387 0,5388 0,5389 0,5390 0,5391 0,5391 0,5392 0,5393 0,5393 0,5394 0,5394 0,5394 0,5395 0,5395
0,2 0,5628 0,5700 0,5729 0,5744 0,5753 0,5760 0,5764 0,5768 0,5770 0,5773 0,5774 0,5776 0,5777 0,5778 0,5780 0,5781 0,5782 0,5783 0,5784 0,5785 0,5785 0,5786
0,3 0,5928 0,6038 0,6081 0,6104 0,6119 0,6129 0,6136 0,6141 0,6145 0,6148 0,6151 0,6153 0,6155 0,6157 0,6160 0,6162 0,6164 0,6165 0,6166 0,6167 0,6168 0,6169
0,4 0,6211 0,6361 0,6420 0,6452 0,6472 0,6485 0,6495 0,6502 0,6508 0,6512 0,6516 0,6519 0,6522 0,6524 0,6528 0,6531 0,6533 0,6535 0,6537 0,6538 0,6539 0,6540
0,5 0,6476 0,6667 0,6743 0,6783 0,6809 0,6826 0,6838 0,6847 0,6855 0,6861 0,6865 0,6869 0,6873 0,6876 0,6881 0,6884 0,6887 0,6890 0,6892 0,6894 0,6895 0,6896
0,6 0,6720 0,6953 0,7046 0,7096 0,7127 0,7148 0,7163 0,7174 0,7183 0,7191 0,7197 0,7202 0,7206 0,7210 0,7215 0,7220 0,7224 0,7227 0,7229 0,7231 0,7233 0,7235
0,7 0,6944 0,7218 0,7328 0,7387 0,7424 0,7449 0,7467 0,7481 0,7492 0,7501 0,7508 0,7514 0,7519 0,7523 0,7530 0,7536 0,7540 0,7544 0,7547 0,7549 0,7551 0,7553
0,8 0,7148 0,7462 0,7589 0,7657 0,7700 0,7729 0,7750 0,7766 0,7778 0,7788 0,7797 0,7804 0,7810 0,7815 0,7823 0,7829 0,7834 0,7839 0,7842 0,7845 0,7848 0,7850
0,9 0,7333 0,7684 0,7828 0,7905 0,7953 0,7986 0,8010 0,8028 0,8042 0,8054 0,8063 0,8071 0,8078 0,8083 0,8093 0,8100 0,8106 0,8111 0,8115 0,8118 0,8121 0,8124
1 0,7500 0,7887 0,8045 0,8130 0,8184 0,8220 0,8247 0,8267 0,8283 0,8296 0,8306 0,8315 0,8322 0,8329 0,8339 0,8347 0,8354 0,8359 0,8364 0,8367 0,8371 0,8373
1,1 0,7651 0,8070 0,8242 0,8335 0,8393 0,8433 0,8461 0,8483 0,8501 0,8514 0,8526 0,8535 0,8544 0,8551 0,8562 0,8571 0,8578 0,8584 0,8589 0,8593 0,8597 0,8600
1,2 0,7789 0,8235 0,8419 0,8518 0,8581 0,8623 0,8654 0,8678 0,8696 0,8711 0,8723 0,8734 0,8742 0,8750 0,8762 0,8772 0,8779 0,8785 0,8791 0,8795 0,8799 0,8802
1,3 0,7913 0,8384 0,8578 0,8683 0,8748 0,8793 0,8826 0,8851 0,8870 0,8886 0,8899 0,8910 0,8919 0,8927 0,8940 0,8950 0,8958 0,8965 0,8970 0,8975 0,8979 0,8982
1,4 0,8026 0,8518 0,8720 0,8829 0,8898 0,8945 0,8979 0,9005 0,9025 0,9041 0,9055 0,9066 0,9075 0,9084 0,9097 0,9107 0,9116 0,9123 0,9128 0,9133 0,9138 0,9141
1,5 0,8128 0,8638 0,8847 0,8960 0,9030 0,9079 0,9114 0,9140 0,9161 0,9177 0,9191 0,9203 0,9212 0,9221 0,9235 0,9245 0,9254 0,9261 0,9267 0,9272 0,9276 0,9280
1,6 0,8222 0,8746 0,8960 0,9076 0,9148 0,9196 0,9232 0,9259 0,9280 0,9297 0,9310 0,9322 0,9332 0,9340 0,9354 0,9365 0,9374 0,9381 0,9387 0,9392 0,9396 0,9400
1,7 0,8307 0,8844 0,9062 0,9178 0,9251 0,9300 0,9335 0,9362 0,9383 0,9400 0,9414 0,9426 0,9435 0,9444 0,9458 0,9468 0,9477 0,9484 0,9490 0,9495 0,9499 0,9503
1,8 0,8386 0,8932 0,9152 0,9269 0,9341 0,9390 0,9426 0,9452 0,9473 0,9490 0,9503 0,9515 0,9525 0,9533 0,9546 0,9557 0,9565 0,9572 0,9578 0,9583 0,9587 0,9590
1,9 0,8458 0,9011 0,9232 0,9349 0,9421 0,9469 0,9504 0,9530 0,9551 0,9567 0,9580 0,9591 0,9601 0,9609 0,9622 0,9632 0,9640 0,9647 0,9652 0,9657 0,9661 0,9665
2 0,8524 0,9082 0,9303 0,9419 0,9490 0,9538 0,9572 0,9597 0,9617 0,9633 0,9646 0,9657 0,9666 0,9674 0,9686 0,9696 0,9704 0,9710 0,9715 0,9720 0,9724 0,9727
2,1 0,8585 0,9147 0,9367 0,9482 0,9551 0,9598 0,9631 0,9655 0,9674 0,9690 0,9702 0,9712 0,9721 0,9728 0,9740 0,9750 0,9757 0,9763 0,9768 0,9772 0,9776 0,9779
2,2 0,8642 0,9206 0,9424 0,9537 0,9605 0,9649 0,9681 0,9705 0,9723 0,9738 0,9750 0,9759 0,9768 0,9774 0,9786 0,9794 0,9801 0,9807 0,9812 0,9816 0,9819 0,9822
2,3 0,8695 0,9259 0,9475 0,9585 0,9651 0,9694 0,9725 0,9748 0,9765 0,9779 0,9790 0,9799 0,9807 0,9813 0,9824 0,9832 0,9838 0,9843 0,9848 0,9851 0,9854 0,9857
2,4 0,8743 0,9308 0,9521 0,9628 0,9692 0,9734 0,9763 0,9784 0,9801 0,9813 0,9824 0,9832 0,9840 0,9846 0,9855 0,9863 0,9869 0,9874 0,9877 0,9881 0,9884 0,9886
2,5 0,8789 0,9352 0,9561 0,9666 0,9728 0,9767 0,9795 0,9815 0,9831 0,9843 0,9852 0,9860 0,9867 0,9873 0,9882 0,9888 0,9894 0,9898 0,9902 0,9905 0,9907 0,9909
2,6 0,8831 0,9392 0,9598 0,9700 0,9759 0,9797 0,9823 0,9842 0,9856 0,9868 0,9877 0,9884 0,9890 0,9895 0,9903 0,9910 0,9914 0,9918 0,9921 0,9924 0,9926 0,9928
2,7 0,8871 0,9429 0,9631 0,9730 0,9786 0,9822 0,9847 0,9865 0,9878 0,9888 0,9897 0,9903 0,9909 0,9914 0,9921 0,9927 0,9931 0,9935 0,9937 0,9940 0,9942 0,9944
2,8 0,8908 0,9463 0,9661 0,9756 0,9810 0,9844 0,9867 0,9884 0,9896 0,9906 0,9914 0,9920 0,9925 0,9929 0,9936 0,9941 0,9945 0,9948 0,9950 0,9952 0,9954 0,9956
2,9 0,8943 0,9494 0,9687 0,9779 0,9831 0,9863 0,9885 0,9901 0,9912 0,9921 0,9928 0,9933 0,9938 0,9942 0,9948 0,9952 0,9956 0,9958 0,9961 0,9963 0,9964 0,9965
3 0,8976 0,9523 0,9712 0,9800 0,9850 0,9880 0,9900 0,9915 0,9925 0,9933 0,9940 0,9945 0,9949 0,9952 0,9958 0,9962 0,9965 0,9967 0,9969 0,9971 0,9972 0,9973
3,1 0,9007 0,9549 0,9734 0,9819 0,9866 0,9894 0,9913 0,9927 0,9936 0,9944 0,9949 0,9954 0,9958 0,9961 0,9966 0,9969 0,9972 0,9974 0,9976 0,9977 0,9978 0,9979
3,2 0,9036 0,9573 0,9753 0,9835 0,9880 0,9907 0,9925 0,9937 0,9946 0,9953 0,9958 0,9962 0,9965 0,9968 0,9972 0,9975 0,9978 0,9979 0,9981 0,9982 0,9983 0,9984
3,3 0,9063 0,9596 0,9771 0,9850 0,9893 0,9918 0,9934 0,9946 0,9954 0,9960 0,9965 0,9968 0,9971 0,9974 0,9977 0,9980 0,9982 0,9984 0,9985 0,9986 0,9987 0,9988
3,4 0,9089 0,9617 0,9788 0,9864 0,9904 0,9928 0,9943 0,9953 0,9961 0,9966 0,9970 0,9974 0,9976 0,9978 0,9982 0,9984 0,9986 0,9987 0,9988 0,9989 0,9990 0,9990
3,5 0,9114 0,9636 0,9803 0,9876 0,9914 0,9936 0,9950 0,9960 0,9966 0,9971 0,9975 0,9978 0,9980 0,9982 0,9985 0,9987 0,9989 0,9990 0,9991 0,9992 0,9992 0,9993
3,6 0,9138 0,9654 0,9816 0,9886 0,9922 0,9943 0,9956 0,9965 0,9971 0,9976 0,9979 0,9982 0,9984 0,9986 0,9988 0,9990 0,9991 0,9992 0,9993 0,9993 0,9994 0,9994
3,7 0,9160 0,9670 0,9829 0,9896 0,9930 0,9950 0,9962 0,9970 0,9975 0,9979 0,9982 0,9985 0,9987 0,9988 0,9990 0,9992 0,9993 0,9994 0,9994 0,9995 0,9995 0,9996
3,8 0,9181 0,9686 0,9840 0,9904 0,9937 0,9955 0,9966 0,9974 0,9979 0,9983 0,9985 0,9987 0,9989 0,9990 0,9992 0,9993 0,9994 0,9995 0,9996 0,9996 0,9996 0,9997
3,9 0,9201 0,9701 0,9850 0,9912 0,9943 0,9960 0,9971 0,9977 0,9982 0,9985 0,9988 0,9989 0,9991 0,9992 0,9994 0,9995 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997
4 0,9220 0,9714 0,9860 0,9919 0,9948 0,9964 0,9974 0,9980 0,9984 0,9987 0,9990 0,9991 0,9992 0,9993 0,9995 0,9996 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998
4,1 0,9239 0,9727 0,9869 0,9926 0,9953 0,9968 0,9977 0,9983 0,9987 0,9989 0,9991 0,9993 0,9994 0,9995 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9999
4,2 0,9256 0,9739 0,9877 0,9932 0,9958 0,9972 0,9980 0,9985 0,9988 0,9991 0,9993 0,9994 0,9995 0,9996 0,9997 0,9997 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999
4,3 0,9273 0,9750 0,9884 0,9937 0,9961 0,9975 0,9982 0,9987 0,9990 0,9992 0,9994 0,9995 0,9996 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999
4,4 0,9289 0,9760 0,9891 0,9942 0,9965 0,9977 0,9984 0,9989 0,9991 0,9993 0,9995 0,9996 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
4,5 0,9304 0,9770 0,9898 0,9946 0,9968 0,9979 0,9986 0,9990 0,9993 0,9994 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000
4,6 0,9319 0,9779 0,9903 0,9950 0,9971 0,9982 0,9988 0,9991 0,9994 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000 1,0000
4,7 0,9333 0,9788 0,9909 0,9953 0,9973 0,9983 0,9989 0,9992 0,9994 0,9996 0,9997 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
4,8 0,9346 0,9796 0,9914 0,9957 0,9976 0,9985 0,9990 0,9993 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
4,9 0,9359 0,9804 0,9919 0,9960 0,9978 0,9986 0,9991 0,9994 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
5 0,9372 0,9811 0,9923 0,9963 0,9979 0,9988 0,9992 0,9995 0,9996 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000
5,1 0,9384 0,9818 0,9927 0,9965 0,9981 0,9989 0,9993 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999
5,2 0,9395 0,9825 0,9931 0,9967 0,9983 0,9990 0,9994 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 0,9999 1,0000
5,3 0,9406 0,9831 0,9934 0,9970 0,9984 0,9991 0,9994 0,9996 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999
5,4 0,9417 0,9837 0,9938 0,9972 0,9985 0,9992 0,9995 0,9997 0,9998 0,9998 0,9999 0,9999 0,9999 1,0000
5,5 0,9428 0,9842 0,9941 0,9973 0,9986 0,9992 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999 0,9999
5,6 0,9438 0,9848 0,9944 0,9975 0,9987 0,9993 0,9996 0,9997 0,9998 0,9999 0,9999 0,9999 1,0000
5,7 0,9447 0,9853 0,9946 0,9977 0,9988 0,9994 0,9996 0,9998 0,9999 0,9999 0,9999 1,0000
5,8 0,9457 0,9858 0,9949 0,9978 0,9989 0,9994 0,9997 0,9998 0,9999 0,9999 0,9999
5,9 0,9466 0,9862 0,9951 0,9979 0,9990 0,9995 0,9997 0,9998 0,9999 0,9999 0,9999
6 0,9474 0,9867 0,9954 0,9981 0,9991 0,9995 0,9997 0,9998 0,9999 0,9999 1,0000
6,1 0,9483 0,9871 0,9956 0,9982 0,9991 0,9996 0,9998 0,9999 0,9999 0,9999
6,2 0,9491 0,9875 0,9958 0,9983 0,9992 0,9996 0,9998 0,9999 0,9999 0,9999
6,3 0,9499 0,9879 0,9960 0,9984 0,9993 0,9996 0,9998 0,9999 0,9999 1,0000
6,4 0,9507 0,9882 0,9961 0,9985 0,9993 0,9997 0,9998 0,9999 0,9999
6,5 0,9514 0,9886 0,9963 0,9986 0,9994 0,9997 0,9998 0,9999 0,9999
6,6 0,9521 0,9889 0,9965 0,9986 0,9994 0,9997 0,9998 0,9999 1,0000
6,7 0,9528 0,9892 0,9966 0,9987 0,9994 0,9997 0,9999 0,9999
6,8 0,9535 0,9895 0,9967 0,9988 0,9995 0,9998 0,9999 0,9999
6,9 0,9542 0,9898 0,9969 0,9988 0,9995 0,9998 0,9999 0,9999
7 0,9548 0,9901 0,9970 0,9989 0,9995 0,9998 0,9999 0,9999
7,2 0,9561 0,9906 0,9972 0,9990 0,9996 0,9998 0,9999 1,0000
7,4 0,9572 0,9911 0,9974 0,9991 0,9996 0,9998 0,9999
7,6 0,9584 0,9916 0,9976 0,9992 0,9997 0,9999 0,9999
7,8 0,9594 0,9920 0,9978 0,9993 0,9997 0,9999 0,9999
8 0,9604 0,9924 0,9980 0,9993 0,9998 0,9999

-343-
Anexo A

Mª Teresa Carot Sánchez


x n +1 n +1
− Γ( )
DISTRIBUCIÓN t de Student P( X ≤ x ) = ∫
−∞
(1 + t 2 / n) 2 2
Γ (n / 2 ) n π
dt

n
x 35 40 45 50 55 60 65 70 75 80 85 90 95 100 110 120 ∞
0 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
0,05 0,5198 0,5198 0,5198 0,5198 0,5198 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199 0,5199
0,1 0,5395 0,5396 0,5396 0,5396 0,5396 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5397 0,5398
0,15 0,5592 0,5592 0,5593 0,5593 0,5593 0,5594 0,5594 0,5594 0,5594 0,5594 0,5594 0,5594 0,5595 0,5595 0,5595 0,5595 0,5596
0,2 0,5787 0,5788 0,5788 0,5789 0,5789 0,5789 0,5789 0,5790 0,5790 0,5790 0,5790 0,5790 0,5790 0,5791 0,5791 0,5791 0,5793
0,25 0,5980 0,5981 0,5981 0,5982 0,5982 0,5983 0,5983 0,5983 0,5984 0,5984 0,5984 0,5984 0,5984 0,5984 0,5985 0,5985 0,5987
0,3 0,6170 0,6171 0,6172 0,6173 0,6173 0,6174 0,6174 0,6175 0,6175 0,6175 0,6175 0,6176 0,6176 0,6176 0,6176 0,6177 0,6179
0,35 0,6358 0,6359 0,6360 0,6361 0,6362 0,6362 0,6363 0,6363 0,6363 0,6364 0,6364 0,6364 0,6364 0,6365 0,6365 0,6365 0,6368
0,4 0,6542 0,6544 0,6545 0,6546 0,6546 0,6547 0,6548 0,6548 0,6549 0,6549 0,6549 0,6549 0,6550 0,6550 0,6550 0,6551 0,6554
0,45 0,6723 0,6724 0,6726 0,6727 0,6728 0,6728 0,6729 0,6729 0,6730 0,6730 0,6731 0,6731 0,6731 0,6732 0,6732 0,6732 0,6736
0,5 0,6899 0,6901 0,6902 0,6904 0,6905 0,6905 0,6906 0,6907 0,6907 0,6908 0,6908 0,6909 0,6909 0,6909 0,6910 0,6910 0,6915
0,55 0,7071 0,7073 0,7075 0,7076 0,7077 0,7078 0,7079 0,7080 0,7080 0,7081 0,7081 0,7082 0,7082 0,7082 0,7083 0,7083 0,7088
0,6 0,7238 0,7241 0,7242 0,7244 0,7245 0,7246 0,7247 0,7248 0,7248 0,7249 0,7249 0,7250 0,7250 0,7251 0,7251 0,7252 0,7258
0,65 0,7400 0,7403 0,7405 0,7407 0,7408 0,7409 0,7410 0,7411 0,7412 0,7412 0,7413 0,7413 0,7414 0,7414 0,7415 0,7415 0,7422
0,7 0,7557 0,7560 0,7562 0,7564 0,7566 0,7567 0,7568 0,7569 0,7570 0,7570 0,7571 0,7571 0,7572 0,7572 0,7573 0,7574 0,7580
0,75 0,7709 0,7712 0,7714 0,7716 0,7718 0,7719 0,7720 0,7721 0,7722 0,7723 0,7723 0,7724 0,7724 0,7725 0,7726 0,7726 0,7734
0,8 0,7854 0,7858 0,7860 0,7863 0,7864 0,7866 0,7867 0,7868 0,7869 0,7870 0,7870 0,7871 0,7871 0,7872 0,7873 0,7874 0,7881
0,85 0,7994 0,7998 0,8001 0,8003 0,8005 0,8006 0,8008 0,8009 0,8010 0,8011 0,8011 0,8012 0,8013 0,8013 0,8014 0,8015 0,8023
0,9 0,8129 0,8132 0,8135 0,8138 0,8140 0,8141 0,8143 0,8144 0,8145 0,8146 0,8147 0,8147 0,8148 0,8149 0,8150 0,8150 0,8159
0,95 0,8257 0,8261 0,8264 0,8267 0,8269 0,8270 0,8272 0,8273 0,8274 0,8275 0,8276 0,8277 0,8277 0,8278 0,8279 0,8280 0,8289
1 0,8379 0,8383 0,8387 0,8389 0,8392 0,8393 0,8395 0,8396 0,8397 0,8398 0,8399 0,8400 0,8401 0,8401 0,8402 0,8403 0,8414
1,05 0,8495 0,8500 0,8503 0,8506 0,8508 0,8510 0,8512 0,8513 0,8515 0,8516 0,8517 0,8517 0,8518 0,8519 0,8520 0,8521 0,8531
1,1 0,8606 0,8610 0,8614 0,8617 0,8619 0,8621 0,8623 0,8624 0,8626 0,8627 0,8628 0,8629 0,8629 0,8630 0,8631 0,8632 0,8643
1,15 0,8710 0,8715 0,8719 0,8722 0,8724 0,8726 0,8728 0,8730 0,8731 0,8732 0,8733 0,8734 0,8735 0,8736 0,8737 0,8738 0,8749
1,2 0,8809 0,8814 0,8818 0,8821 0,8824 0,8826 0,8828 0,8829 0,8830 0,8832 0,8833 0,8834 0,8834 0,8835 0,8836 0,8837 0,8849
1,25 0,8902 0,8907 0,8911 0,8914 0,8917 0,8919 0,8921 0,8923 0,8924 0,8925 0,8926 0,8927 0,8928 0,8929 0,8930 0,8931 0,8944
1,3 0,8990 0,8995 0,8999 0,9002 0,9005 0,9007 0,9009 0,9011 0,9012 0,9013 0,9014 0,9015 0,9016 0,9017 0,9018 0,9020 0,9032
1,35 0,9072 0,9077 0,9081 0,9085 0,9087 0,9090 0,9092 0,9093 0,9095 0,9096 0,9097 0,9098 0,9099 0,9100 0,9101 0,9102 0,9115
1,4 0,9148 0,9154 0,9158 0,9162 0,9164 0,9167 0,9169 0,9170 0,9172 0,9173 0,9174 0,9175 0,9176 0,9177 0,9178 0,9180 0,9193
1,45 0,9220 0,9226 0,9230 0,9233 0,9236 0,9239 0,9241 0,9242 0,9244 0,9245 0,9246 0,9247 0,9248 0,9249 0,9250 0,9252 0,9265
1,5 0,9287 0,9293 0,9297 0,9300 0,9303 0,9306 0,9308 0,9309 0,9311 0,9312 0,9313 0,9314 0,9315 0,9316 0,9318 0,9319 0,9332
1,55 0,9349 0,9355 0,9359 0,9363 0,9366 0,9368 0,9370 0,9372 0,9373 0,9375 0,9376 0,9377 0,9378 0,9378 0,9380 0,9381 0,9394
1,6 0,9407 0,9413 0,9417 0,9421 0,9423 0,9426 0,9428 0,9429 0,9431 0,9432 0,9433 0,9434 0,9435 0,9436 0,9438 0,9439 0,9452
1,65 0,9461 0,9466 0,9470 0,9474 0,9477 0,9479 0,9481 0,9483 0,9484 0,9486 0,9487 0,9488 0,9489 0,9490 0,9491 0,9492 0,9505
1,7 0,9510 0,9516 0,9520 0,9523 0,9526 0,9528 0,9530 0,9532 0,9534 0,9535 0,9536 0,9537 0,9538 0,9539 0,9540 0,9541 0,9554
1,75 0,9556 0,9561 0,9565 0,9569 0,9572 0,9574 0,9576 0,9577 0,9579 0,9580 0,9581 0,9582 0,9583 0,9584 0,9585 0,9587 0,9599
1,8 0,9598 0,9603 0,9607 0,9611 0,9613 0,9616 0,9617 0,9619 0,9621 0,9622 0,9623 0,9624 0,9625 0,9626 0,9627 0,9628 0,9641
1,85 0,9636 0,9641 0,9646 0,9649 0,9652 0,9654 0,9656 0,9657 0,9659 0,9660 0,9661 0,9662 0,9663 0,9664 0,9665 0,9666 0,9678
1,9 0,9672 0,9677 0,9681 0,9684 0,9687 0,9689 0,9691 0,9692 0,9694 0,9695 0,9696 0,9697 0,9698 0,9698 0,9700 0,9701 0,9713
1,95 0,9704 0,9709 0,9713 0,9716 0,9719 0,9721 0,9723 0,9724 0,9725 0,9727 0,9728 0,9729 0,9729 0,9730 0,9731 0,9732 0,9744
2 0,9733 0,9738 0,9742 0,9745 0,9748 0,9750 0,9752 0,9753 0,9754 0,9756 0,9757 0,9757 0,9758 0,9759 0,9760 0,9761 0,9772
2,05 0,9760 0,9765 0,9769 0,9772 0,9774 0,9776 0,9778 0,9779 0,9781 0,9782 0,9783 0,9784 0,9784 0,9785 0,9786 0,9787 0,9798
2,1 0,9785 0,9790 0,9793 0,9796 0,9798 0,9800 0,9802 0,9803 0,9805 0,9806 0,9807 0,9807 0,9808 0,9809 0,9810 0,9811 0,9821
2,15 0,9807 0,9812 0,9815 0,9818 0,9820 0,9822 0,9824 0,9825 0,9826 0,9827 0,9828 0,9829 0,9830 0,9830 0,9831 0,9832 0,9842
2,2 0,9827 0,9832 0,9835 0,9838 0,9840 0,9842 0,9843 0,9844 0,9846 0,9847 0,9847 0,9848 0,9849 0,9849 0,9851 0,9851 0,9861
2,25 0,9846 0,9850 0,9853 0,9856 0,9858 0,9859 0,9861 0,9862 0,9863 0,9864 0,9865 0,9866 0,9866 0,9867 0,9868 0,9869 0,9878
2,3 0,9862 0,9866 0,9869 0,9872 0,9874 0,9875 0,9877 0,9878 0,9879 0,9880 0,9881 0,9881 0,9882 0,9882 0,9883 0,9884 0,9893
2,35 0,9877 0,9881 0,9884 0,9886 0,9888 0,9890 0,9891 0,9892 0,9893 0,9894 0,9895 0,9895 0,9896 0,9896 0,9897 0,9898 0,9906
2,4 0,9891 0,9894 0,9897 0,9899 0,9901 0,9902 0,9904 0,9905 0,9906 0,9906 0,9907 0,9908 0,9908 0,9909 0,9910 0,9910 0,9918
2,45 0,9903 0,9906 0,9909 0,9911 0,9913 0,9914 0,9915 0,9916 0,9917 0,9918 0,9918 0,9919 0,9919 0,9920 0,9921 0,9921 0,9929
2,5 0,9914 0,9917 0,9919 0,9921 0,9923 0,9924 0,9925 0,9926 0,9927 0,9928 0,9928 0,9929 0,9929 0,9930 0,9931 0,9931 0,9938
2,55 0,9923 0,9926 0,9929 0,9931 0,9932 0,9933 0,9934 0,9935 0,9936 0,9937 0,9937 0,9938 0,9938 0,9939 0,9939 0,9940 0,9946
2,6 0,9932 0,9935 0,9937 0,9939 0,9940 0,9941 0,9942 0,9943 0,9944 0,9945 0,9945 0,9946 0,9946 0,9946 0,9947 0,9948 0,9953
2,65 0,9940 0,9943 0,9945 0,9946 0,9948 0,9949 0,9950 0,9950 0,9951 0,9952 0,9952 0,9952 0,9953 0,9953 0,9954 0,9954 0,9960
2,7 0,9947 0,9949 0,9951 0,9953 0,9954 0,9955 0,9956 0,9957 0,9957 0,9958 0,9958 0,9959 0,9959 0,9959 0,9960 0,9960 0,9965
2,75 0,9953 0,9955 0,9957 0,9959 0,9960 0,9961 0,9961 0,9962 0,9963 0,9963 0,9964 0,9964 0,9964 0,9965 0,9965 0,9966 0,9970
2,8 0,9959 0,9961 0,9962 0,9964 0,9965 0,9966 0,9966 0,9967 0,9968 0,9968 0,9968 0,9969 0,9969 0,9969 0,9970 0,9970 0,9974
2,85 0,9964 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9971 0,9972 0,9972 0,9973 0,9973 0,9973 0,9973 0,9974 0,9974 0,9978
2,9 0,9968 0,9970 0,9971 0,9972 0,9973 0,9974 0,9975 0,9975 0,9976 0,9976 0,9976 0,9977 0,9977 0,9977 0,9977 0,9978 0,9981
2,95 0,9972 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9978 0,9979 0,9979 0,9979 0,9980 0,9980 0,9980 0,9981 0,9981 0,9984
3 0,9975 0,9977 0,9978 0,9979 0,9980 0,9980 0,9981 0,9981 0,9982 0,9982 0,9982 0,9983 0,9983 0,9983 0,9983 0,9984 0,9987
3,05 0,9978 0,9980 0,9981 0,9982 0,9982 0,9983 0,9983 0,9984 0,9984 0,9984 0,9985 0,9985 0,9985 0,9985 0,9986 0,9986 0,9989
3,1 0,9981 0,9982 0,9983 0,9984 0,9985 0,9985 0,9986 0,9986 0,9986 0,9987 0,9987 0,9987 0,9987 0,9987 0,9988 0,9988 0,9990
3,15 0,9983 0,9985 0,9985 0,9986 0,9987 0,9987 0,9988 0,9988 0,9988 0,9989 0,9989 0,9989 0,9989 0,9989 0,9989 0,9990 0,9992
3,2 0,9985 0,9987 0,9987 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990 0,9990 0,9990 0,9991 0,9991 0,9991 0,9991 0,9991 0,9993
3,25 0,9987 0,9988 0,9989 0,9990 0,9990 0,9991 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9992 0,9992 0,9993 0,9994
3,3 0,9989 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9993 0,9993 0,9993 0,9993 0,9993 0,9993 0,9993 0,9994 0,9995
3,35 0,9990 0,9991 0,9992 0,9992 0,9993 0,9993 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9996
3,4 0,9992 0,9992 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9995 0,9997
3,45 0,9993 0,9993 0,9994 0,9994 0,9995 0,9995 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,5 0,9994 0,9994 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9998
3,55 0,9994 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,6 0,9995 0,9996 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998
3,65 0,9996 0,9996 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999
3,7 0,9996 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999
3,75 0,9997 0,9997 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999
3,8 0,9997 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 0,9998 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 1,0000
4 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

-344-
Anexo A

Mª Teresa Carot Sánchez

DISTRIBUCIÓN t de Student


t 2 − n2+1 Γ( n2+1 ) α
P( X ≥ x ) = (1 + ) dt
n Γ( n2 ) nπ
x

tn(α)

Probabilidad de una cola


n 0.0005 0.001 0.005 0.01 0.025 0.05 0.1 0.2 0.25 0.3 0.4 0.45 0.475
1 636.578 318.289 63.656 31.821 12.706 6.314 3.078 1.376 1.000 0.727 0.325 0.158 0.079
2 31.600 22.328 9.925 6.965 4.303 2.920 1.886 1.061 0.816 0.617 0.289 0.142 0.071
3 12.924 10.214 5.841 4.541 3.182 2.353 1.638 0.978 0.765 0.584 0.277 0.137 0.068
4 8.610 7.173 4.604 3.747 2.776 2.132 1.533 0.941 0.741 0.569 0.271 0.134 0.067
5 6.869 5.894 4.032 3.365 2.571 2.015 1.476 0.920 0.727 0.559 0.267 0.132 0.066
6 5.959 5.208 3.707 3.143 2.447 1.943 1.440 0.906 0.718 0.553 0.265 0.131 0.065
7 5.408 4.785 3.499 2.998 2.365 1.895 1.415 0.896 0.711 0.549 0.263 0.130 0.065
8 5.041 4.501 3.355 2.896 2.306 1.860 1.397 0.889 0.706 0.546 0.262 0.130 0.065
9 4.781 4.297 3.250 2.821 2.262 1.833 1.383 0.883 0.703 0.543 0.261 0.129 0.064
10 4.587 4.144 3.169 2.764 2.228 1.812 1.372 0.879 0.700 0.542 0.260 0.129 0.064
11 4.437 4.025 3.106 2.718 2.201 1.796 1.363 0.876 0.697 0.540 0.260 0.129 0.064
12 4.318 3.930 3.055 2.681 2.179 1.782 1.356 0.873 0.695 0.539 0.259 0.128 0.064
13 4.221 3.852 3.012 2.650 2.160 1.771 1.350 0.870 0.694 0.538 0.259 0.128