Documentos de Académico
Documentos de Profesional
Documentos de Cultura
1
UNIDAD
DIDÁCTICA
INTRODUCCIÓN AL
ANÁLISIS DE DATOS
OBJETIVOS DE LA UNIDAD
1. Introducción
2. Variables y datos. Tipos de datos
2.1. Clasificación de los datos según su representatividad
2.2. Clasificación de los datos según su naturaleza
2.3. Clasificación de los datos según la escala de medida
www.udima.es 9
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
OBJETIVOS DE LA UNIDAD
La estadística descriptiva engloba una serie de técnicas de estructuración y de representación grá-
fica que permiten ordenar y presentar adecuadamente la información contenida en un conjunto de datos.
La extrapolación de esta información para convertirla en regla aplicable a todos los datos que puedan
obtenerse en circunstancias similares es el objetivo de la inferencia estadística. Entre las dos se sitúa el
cálculo de probabilidades como lenguaje formal que permitirá tal extrapolación.
• Saber distinguir los distintos tipos de variables y datos según la escala de medida, natura-
leza y representatividad.
• Saber construir tablas de frecuencias univariantes y bivariantes.
• Construir distribuciones marginales y condicionadas a partir de una distribución conjunta
de frecuencias.
• Conocer el concepto de independencia de dos variables.
• Saber interpretar la información contenida en distintos tipos de representaciones gráficas.
• Conocer qué se entiende por análisis exploratorio de datos.
10 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
1. INTRODUCCIÓN
En estadística, la materia prima son los datos y el producto final es el conjunto de conclusio-
nes sobre el fenómeno de interés. Una variable es la característica de interés que se quiere estudiar y
que toma valores diferentes en cada individuo. En general, las variables se representarán por las letras
mayúsculas X, Y, Z, etc. Una variable puede tomar valores diferentes incluso en un mismo individuo si
se cambian las condiciones en las que se toma la medida. Un dato es el valor observado de una variable
en un momento dado en un individuo. Típicamente, un dato será un número (o una etiqueta en el caso
de variables nominales) con un contexto, siendo ese contexto el que hace que ese número sea informa-
tivo. Por ejemplo, una variable puede ser la temperatura en un aula. Un dato sería la temperatura en el aula
en este momento. Una variable podría ser las notas de la asignatura de Estadística durante este curso. Un
dato sería la nota particular de Luis García. Una variable sería el tiempo que uno tarda en conectarse a
Internet desde que se pincha con el ratón en el icono correspondiente. Un dato sería lo que uno tarda en
conectarse ahora. Una variable sería el peso. Mi peso sería un dato.
Según su representatividad, los datos pueden conformar toda la población o ser parte de una muestra.
La población es el conjunto de todos los individuos de los que se quiere estudiar una característica.
www.udima.es 11
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Estos individuos pueden ser objetos, personas o las repeticiones de un experimento concreto. Una
muestra es un subconjunto representativo de la población. Supóngase que se quiere estudiar la variable
X = Tiempo de conexión a Internet desde que pincho en el icono. Una vez que se ha definido un contexto,
las características del computador y de la conexión, la población sería el conjunto infinito de los datos
que se obtendría al realizar la conexión todas las veces posibles. Una muestra sería el tiempo concreto
de conexión en 50 ocasiones, en las condiciones en las que he definido este experimento. Si se quiere
estudiar la variable X = Altura de los estudiantes de informática en la Comunidad de Madrid, la pobla-
ción estaría formada por las alturas de todos los estudiantes de informática de la Comunidad de Madrid
y una muestra sería la estatura de, por ejemplo, un subconjunto de 600 alumnos tomados de todas las
universidades de la comunidad en las que pueden cursarse estos estudios.
Los datos cuantitativos son números que expresan cantidades. Representan, por tanto, caracte-
res que pueden medirse. A su vez se dividen en continuos, si pueden tomar cualquier valor dentro de un
intervalo real, y discretos, si sus valores forman un conjunto numerable, finito o infinito. Generalmente,
estos últimos se corresponden con contar el número de veces que ocurre un suceso. Por ejemplo, si se
miden el peso, la altura, el voltaje, el tiempo, la longitud, la velocidad, etc., se obtendrán datos cuantita-
tivos continuos. Si se miden el número de hermanos, las páginas de un libro, los clientes, el número de
aprobados, etc., se obtendrán datos cuantitativos discretos.
Los datos cualitativos son meras etiquetas o códigos que representan atributos. No se refieren a
características cuantificables, sino a cualidades de los individuos. Por ejemplo, profesión, estado civil,
marca preferida de refresco, tipo de procesador, etc.
Se mide una propiedad en una persona o cosa cuando se le asigna un número para representar dicha
propiedad. Mediante este proceso se pasa de tener una muestra de personas o cosas a tener un conjunto
de números con cierta información. En estadística se diferenciarán cuatro escalas de medida con las que
obtener datos: nominal, ordinal, de intervalo y de razón.
Las medidas tomadas en una escala nominal clasifican las unidades en categorías, nada más. Carac-
terísticas como el color de pelo, sexo o nacionalidad se miden con este tipo de escala. Se podrían asig-
nar números a las categorías pero sería irrelevante qué números se usen, no tendrían ningún significado,
serían meras etiquetas. Tampoco tendría sentido realizar operaciones con estos números, solamente se
podrá decir si dos individuos u observaciones pertenecen o no a la misma categoría. Por ejemplo, se mide
en una escala nominal el estado civil de una persona, que podría ser: casado, soltero, viudo, divorciado.
Las marcas de los coches vendidos en un determinado mes, el tipo de carburante, etc. La escala nominal
mide, por tanto, caracteres cualitativos.
En las medidas tomadas en una escala ordinal, el orden de los números es importante, da algo más
de información. Por ejemplo, si se sabe que en la final de 4 × 200 metros libres de los Campeonatos
Europeos de Natación el resultado fue:
1.º Italia.
2.º Gran Bretaña.
12 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
3.º Grecia
4.º Francia
5.º Rusia
6.º Polonia.
7.º Alemania.
El orden es importante, ya que Italia fue la mejor y Grecia fue mejor que Rusia. Lo único con sig-
nificado es el ranking, el orden de los resultados. No se puede decir que Grecia fue tres veces peor que
Italia o Rusia cinco veces peor que Italia, o que la diferencia de calidad entre los equipos de Italia y Gre-
cia es la misma que entre los de Rusia y Alemania. Solo se puede decir qué equipo es mejor que otro, sin
cuantificar esa relación. Se mide con una escala ordinal cuando se recogen valoraciones de satisfacción
de clientes: desde el 7 (muy satisfecho) hasta el 1 (nada satisfecho). También en las encuestas en las que
los alumnos valoran la actuación de un profesor: desde 5 (muy de acuerdo) hasta el 1 (nada de acuerdo).
La escala de Mohs, que recoge la dureza de los minerales, es también una escala ordinal. Esta escala va
desde el 10 [diamante (más duro)] hasta el 1 [talco (menos duro)].
Las escalas nominal y ordinal están asociadas con caracteres cualitativos. Estos caracteres represen-
tan cualidades de los individuos o cosas.
La escala de intervalo/razón es la más usada y familiar. Las medidas se toman en una escala de
la misma unidad, como la altura en centímetros, la temperatura en grados Celsius o el tiempo de reac-
ción en segundos. Las operaciones aritméticas con este tipo de medida sí tienen sentido. Por ejemplo, un
gusano de 4 centimetros, mide 2 centímetros más que uno de 2 centímetros.
Existe una diferencia más sutil entre las escalas de intervalo y de razón. El 0 en la escala de razón
tiene sentido, significa ausencia de la característica. Así, la longitud se mide en una escala de razón, ya
que se puede decir que el primer gusano mide el doble que el segundo, y 0 centímetros significa ausen-
cia de longitud. Sin embargo, la temperatura se mide en una escala de intervalo, ya que 0 grados no sig-
nifica ni frío ni calor, sino que es el punto en el que el agua pasa a estado sólido.
Se distinguirán las medidas tomadas en una escala nominal, ordinal e intervalo/razón y se hablará
indistintamente de variables o de datos cuantitativos, cualitativos, nominales, ordinales o de intervalo/
razón.
Se necesita tener una idea general de cómo es el conjunto de datos para poder identificar patrones
que guíen posteriores análisis. Una primera forma de resumir la información es mediante una tabla que
diga qué valores diferentes se han observado y cuántos datos hay de cada valor (repeticiones). Esta tabla
recibe el nombre de tabla de frecuencias o tabla de distribución de frecuencias (tabla 1). En ocasiones,
www.udima.es 13
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
también uno se referirá a ella como tabla estadística. Supóngase que se dispone de un total de n obser-
vaciones divididas en k valores o modalidades diferentes. Algunas definiciones serían:
• Se llama frecuencia absoluta del valor observado Ci (o modalidad Ci) al número total de
individuos que presentan dicho carácter. Se denota por ni.
• Se llama frecuencia relativa del valor observado Ci al cociente ƒi = ni /n.
Se verifica:
k k
n= Σ ni Σ ƒi = 1
i=1 i=1
Cuando los valores o modalidades observadas pueden ordenarse de menor a mayor, se define la
frecuencia acumulada (absoluta o relativa) del valor Ci a su frecuencia sumada a las frecuencias de las
modalidades anteriores. Se representará por Ni la frecuencia acumulada absoluta y Fi la relativa:
i i
Ni = Σ nj Fi = Σ ƒj
j=1 j=1
Frecuencias Frecuencias
Frecuencias Frecuencias
Valores absolutas relativas
absolutas relativas
acumuladas acumuladas
C1 ................................ n1 N1 = n1 ƒ1 = n1 /n F1 = ƒ1
C2 ................................ n2 N2 = n1 + n2 ƒ2 = n2 /n F2 = ƒ1 + ƒ2
… … … … …
Ci ................................ ni Ni = n1 + … + ni ƒi = ni /n Fi = ƒ1 + … + ƒi
… … … … …
Ck ................................ nk Nk = n ƒk = nk /n Fk = 1
Totales ..................... n 1
EJEMPLO 1
Se estudia la variable X = Número de cilindros de los coches de los trabajadores de una empresa. Es una varia-
ble cuantitativa medida en una escala de intervalo/razón. Se tiene una muestra de esta variable medida en
92 coches. Su tabla de frecuencias es la siguiente:
.../...
14 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
Tabla 2
Número
ni Ni fi Fi
cilindros
Totales ............ 92 1
Se observa que un 53 % de los coches tienen 4 cilindros y un 34 % tienen 6 cilindros, que son las modalida-
des más frecuentes. Solamente un 5 % tiene un número impar de cilindros (3 o 5), siendo estas modalidades
las menos frecuentes. Los coches con 8 cilindros representan un 8 % del total.
La tabla descrita anteriormente pierde su utilidad de resumir información de manera clara y concisa
cuando se tienen variables cuantitativas con muchos valores diferentes. Se tendrían tablas con muchas
filas con frecuencias muy pequeñas. Esto sucederá tanto con variables continuas como con variables
discretas que tengan muchos valores distintos. En este caso, se construye la tabla agrupando el rango
de valores en intervalos y se determina el número de datos del conjunto que se encuentra en cada uno
de ellos.
• Cada intervalo se llama clase. La clase i vendrá representada por su extremo superior e infe-
rior. La unión de todos los intervalos debe recubrir todos los valores de la variable, y las
clases no deben solaparse:
(Li-1, Li ]
• Se llama amplitud de la clase i, li, a la diferencia entre sus extremos. Se supondrá que esta
longitud es constante.
li = Li – Li-1
• Se denomina marca de clase al punto medio del intervalo y será el valor que represente a
todos los datos contenidos en ese intervalo. Se representará por x'i .
El número de clases en que se divide el rango de un conjunto de datos se representará por k. Este
número suele determinarse en función del tamaño muestral n. Algunos proponen el entero más próximo
a √ n. Otra regla conocida es la regla de Sturges, en la que el número de clases es el entero más próximo
a 1 + 3,3 log10 n. Generalmente, se utilizarán entre 5 y 20 clases de la misma longitud.
La tabla de frecuencias para este tipo de datos divididos en clases quedaría de la siguiente
forma:
www.udima.es 15
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Frecuencias Frecuencias
Clases Marca de clase
absolutas relativas
… … … …
… … … …
Totales ...................... n 1
EJEMPLO 2
Se estudia la variable X = Nota obtenida en la convocatoria de febrero en una asignatura determinada en una
muestra de 100 alumnos. Los datos originales serían: 6,33; 7,17; 2; 5,33; 8,33; etc. hasta 100 datos. Se conside-
ran 10 clases que surgen naturalmente al considerar este tipo de datos, formando la siguiente tabla:
Tabla 4
Frecuencias Frecuencias
Clases Marca de clase
absolutas relativas
Se ve que la clase con más observaciones es la (5, 6], con 25 datos que representan un 25 % del total. Un 58 %
de los alumnos tienen notas entre (4, 7]. Han aprobado un 54 % de los alumnos y ninguno ha obtenido cali-
ficaciones entre 9 y 10.
16 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Cuando de cada individuo se observan dos o más variables, se obtiene un conjunto de datos multi-
variantes. En concreto, con dos características por individuo se tendría un conjunto de datos bivariantes.
Por ejemplo, se recogen las notas en matemáticas y literatura de una muestra de alumnos de bachille-
rato. Se tendría entonces un conjunto de datos de la forma (3, 6), (5, 7) etc., donde la primera nota es la
de matemáticas y la segunda la de literatura. De esta forma, el primer alumno de la muestra ha obtenido
un 3 en matemáticas y un 6 en literatura, y así sucesivamente.
Sea una muestra de tamaño n descrita por las variables X e Y, o, de forma equivalente, sea un con-
junto de datos bivariantes (x1, y1), (x2, y2) … (xn, yn). Se designará por a1, a2,…, ak y por b1, b2,…, bp,
los k y p valores distintos que pueden tomar X e Y respectivamente. Si alguna de estas variables fuese
continua o tomara demasiados valores distintos, estos valores representarán las correspondientes marcas
de clase una vez que se hayan agrupado los datos en clases.
Existen varias formas de estudiar las repeticiones en una serie de datos bivariantes o bidimensionales:
Se representará por nij el número de elementos de la muestra que presentan el valor (ai, bj), es decir,
la frecuencia absoluta del valor (ai, bj). Si se representa esta distribución conjunta en una tabla de doble
entrada, cada dimensión de la tabla se corresponderá con una variable y cada celda de la tabla tendrá
el número de individuos que tengan los valores correspondientes según la fila y la columna en que se
encuentren. Este valor será la frecuencia conjunta.
X|Y b1 b2 … bj … bp
… … … … … … …
… … … … … … …
www.udima.es 17
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Esta tabla puede definirse también utilizando las frecuencias relativas. Las relaciones que se verifi-
can en estas tablas de doble entrada son las siguientes:
nij k p k p
ƒij =
n
Σ Σ nij = n Σ Σ ƒij = 1
i=1 i=1 i=1 i=1
Si ambas variables son cualitativas (nominales u ordinales), la tabla X|Y recibe el nombre de tabla
de contingencia.
EJEMPLO 3
En una muestra de 90 estudiantes, se recogen las variables X = Número de horas semanales de estudio de una asigna-
tura e Y = Calificación final en esa asignatura. La variable Y, en lugar de medirla en una escala de intervalo/razón,
se va a medir en una escala ordinal con las categorías o modalidades: suspenso (S), aprobado (A), notable (N)
y sobresaliente (B). El conjunto de datos original sería: (3, S), (4, N), (2, A) …, una por cada estudiante de la
muestra. Se puede disponer toda la información de la muestra en una tabla de distribución conjunta (absoluta):
Tabla 6
X|Y S A N B
1 19 0 0 0
2 10 16 1 0
3 6 13 4 0
4 5 3 3 1
5 0 3 2 4
El estudio de la distribución marginal de cualquiera de las variables solamente tiene sentido par-
tiendo de las tablas de distribución conjunta descritas en el epígrafe anterior. A partir de ellas se quiere
estudiar qué ocurre si uno se olvida de una de las variables y se centra en la otra. La tabla siguiente ilus-
tra la distribución marginal para las dos variables X e Y.
X|Y b1 b2 … bj … bp Marginal X
p
a1 n11 n12 … n1j … n1p n1● = Σ n1j
j=1
p
a2 n21 n22 … n2j … n2p n2● = Σ n2j
j=1
.../...
18 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
X|Y b1 b2 … bj … bp Marginal X
.../...
… … … … … … … …
p
ai ni1 ni2 … nij … nip ni● = Σ nij
j=1
… … … … … … … …
p
ak nk1 nk2 … nkj … nkp nk● = Σ nkj
j=1
k k k k k p
Marginal Y n●1 = Σ ni1 n●2 = Σ ni2 n●j = Σ nij n●p = Σ nip n= ΣΣ nij
i=1 i=1 i=1 i=1 i=1 i=1
p
ni• = Σ nij Representa la frecuencia absoluta asociada al resultado ai.
j=1
p ni•
ƒi• = Σ ƒij =
n
Representa su frecuencia relativa.
j=1
k
n•j = Σ nij Representa la frecuencia absoluta del resultado bj.
i=1
k n•j
ƒ•j = Σ ƒij =
n
Representa su frecuencia relativa.
i=1
EJEMPLO 4
Tabla 8
X|Y S A N B Marginal X
1 19 0 0 0 19
2 10 16 1 0 27
3 6 13 4 0 23
4 5 3 3 1 12
5 0 3 2 4 9
Marginal Y 40 35 10 5 90
.../...
www.udima.es 19
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
Lo que significa que si se estudia por separado la variable X = Número de horas semanales de estudio de una
asignatura, en su distribución marginal de frecuencias se observa que de 90 estudiantes encuestados, 19 estu-
diaron 1 hora/semana, 27 estudiaron 2 horas/semana y así sucesivamente. Del mismo modo, si se estudia la
variable Y = Calificación final en esa asignatura, 40 alumnos suspendieron, 35 sacaron aprobado, etc.
Si se fija el valor de una de las variables, ¿cómo se distribuye la otra? Supóngase, por ejemplo, que en la tabla
anterior se fija X = 4, restringiendo el estudio a los alumnos que estudiaron 4 horas/semana. ¿Cuál es la dis-
tribución de la Y ahora? Se tendrían un total de 12 alumnos que estudiaron 4 horas/semana, de los cuales 5
suspendieron, 3 aprobaron, 3 sacaron notable y 1 sobresaliente.
A este proceso de fijar el valor de una de las variables se le denomina condicionar y equivale a res-
tringir el estudio descriptivo a un subconjunto de la muestra o población inicial. Así, la distribución de
X condicionada, por ejemplo, por el valor Y = bj tendría la siguiente estructura:
Frecuencias Frecuencias
X|Y = bj
absolutas relativas
n1j
j
a1 n1j ƒ1 =
n•j
n2j
j
a2 n2j ƒ2 =
n•j
… …
nij
j
ai nij ƒi =
n•j
… …
nkj
j
ak nkj ƒk =
n•j
nij
ƒi = ƒi | j =
j
n•j
nij
ƒj = ƒj|i =
i
ni•
20 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 5
En el ejemplo de las horas de estudio y las notas, se construye la tabla de frecuencias para la distribución
de Y|X = 4:
Tabla 10
Frecuencias Frecuencias
Y|X = 4
absolutas relativas
S ....................... 5 0,42
A ....................... 3 0,25
N ...................... 3 0,25
B ....................... 1 0,08
Totales ........... 12 1
Se verifica que:
3.2.3. Independencia
Se dirá que el carácter o variable X es independiente del carácter Y si todas las distribuciones con-
dicionadas X |Y = bj son idénticas independientemente del valor de Y. Es decir, para cualquier i:
ni• n•j
nij = para todo i, j.
n
Además de las tablas ya descritas, las distribuciones de frecuencia pueden estructurarse en gráfi-
cos. Sin duda es la forma más eficaz y rápida, si se dispone de las herramientas adecuadas, de resumir la
información de un conjunto de datos. Hay muchas formas de realizar representaciones gráficas. En este
epígrafe se van a considerar las más habituales.
www.udima.es 21
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Es la representación gráfica de una tabla de frecuencias en la que los datos están sin agrupar. Con-
siste en dibujar un rectángulo por cada valor de la variable, con área proporcional a su frecuencia. Es
útil para variables cualitativas (nominales y ordinales) o cuantitativas discretas con pocos valores dife-
rentes. El diagrama de barras de la figura 1 muestra la distribución de las ventas de turismos por marcas
en España en mayo del 2006. También se muestra en la figura 2 el diagrama de barras correspondiente
a la tabla de frecuencias de los cilindros de los coches (ejemplo 1).
Otros
BMW
Fiat
Toyota
Volkswagen
Opel
Peugeot
Seat
Ford
Renault
Citröen
50
40
30
20
10
0
3 4 5 6 8
1 2 3 4 5
22 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Se utiliza también cuando la variable tiene pocos valores diferentes. Se construye dividiendo un cír-
culo en sectores con áreas proporcionales a la frecuencia de cada valor, de forma que la suma del área de
todos los sectores es el área del círculo. La figura 3 muestra dos diagramas de tarta o sectores.
8,64 %
9,14 %
2,17 %
9,63 % 10,14 % 10,24 %
Un histograma es la representación gráfica de una tabla de frecuencias en las que los datos han sido
agrupados en intervalos o clases. Se utiliza pues para variables cuantitativas que toman muchos valores
diferentes. Cada rectángulo corresponde a una clase y su área es proporcional a la frecuencia de dicha clase.
• Concentraciones. Aquellos rectángulos de mayor altura en los que hay mayor proporción
de datos y en torno a los que se disponen otros de frecuencia inferior o decreciente.
• Huecos. Podrían ser un indicio de que se mezclan datos de poblaciones diferentes.
• Valores atípicos. En la unidad didáctica siguiente se verá una regla para detectarlos. En
general, un dato será atípico si se separa del patrón general de los datos, tanto si es muy
grande como muy pequeño.
• Asimetrías. Indican hacia dónde tienden a desplazarse los datos cuando uno se aleja de las
zonas de concentración. Por ejemplo, cuando la cola de la distribución de los datos apunta
hacia la derecha, se dice que la asimetría es positiva.
Es aconsejable hacer varios histogramas cambiando el número de clases para comprobar que las
características que se observan no se deben a un agrupamiento casual de los datos.
www.udima.es 23
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 6
30
25
20
15
10
0
5 11 17 23 29 35 41 47 53 59 65
El polígono de frecuencias es la línea poligonal que resulta de unir los puntos medios de la parte superior
de los rectángulos en el histograma. En ocasiones, sobre todo con tamaños muestrales grandes, el polígono
de frecuencias puede ayudar a que nos hagamos una idea más clara de cómo son los datos. La figura 5 mues-
tra el polígono de frecuencias para los datos de los precios de los coches.
El polígono de frecuencias acumuladas se define a partir de la tabla de frecuencias para una variable con-
tinua cuyos valores han sido agrupados en clases. Es la línea que resulta de unir los pares de valores (Li+1,
F(Li+1)), es decir, los extremos superiores de las clases y la frecuencia acumulada hasta ese valor.
30
25
20
15
10
0
5 11 17 23 29 35 41 47 53 59 65
.../...
24 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
1 2 3 4 5 6 7 8 9 10
Este tipo de diagrama fue descrito por Tukey y es utilizado para representar distribuciones de varia-
bles cuantitativas. Además, en la misma representación gráfica se visualizan los valores que se estudian.
Los pasos para construirlo se ilustran con un ejemplo:
EJEMPLO 7
Sea una muestra de la variable X = Peso en kilogramos en un grupo de 60 estudiantes: 54, 60, 62, 53, etc.
• Se redondean los datos a dos o tres cifras, expresando los valores con números enteros. Pueden expre-
sarse en otras unidades (dividiendo o multiplicando) para que al redondear puedan obtenerse cifras
de decenas o centenas repetidas. En el ejemplo, como se tienen datos de dos cifras, se dejan como
están.
• Se ordenan los datos de menor a mayor:
44, 45, 46, 46, 47, 48, 49, 50, 50, 50, 52, 52, 52, 52, 53, 53, 53, 54, 54, 54, 55, 55, 55, 55, 56, 56, 56, 57, 60, 60,
60, 60, 60, 61, 61, 62, 62, 63, 64, 64, 64, 65, 65, 65, 66, 67, 68, 68, 68, 70, 70, 70, 70, 71, 72, 72, 74, 75, 80, 93.
• Se separan por la izquierda uno o más dígitos de cada dato, según sea el número de filas que se quiera
obtener, normalmente no más de 12 o 15. Cada uno de estos valores se escribe uno debajo del otro,
trazando una línea a la derecha de los números escritos. Estas cifras constituyen el tallo. En el ejem-
plo, se tomará la primera cifra.
• Para cada dato original se busca el dígito del tronco y a la derecha de la línea se escriben las cifras que
habían quedado, cifras que forman las hojas.
.../...
www.udima.es 25
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
4 4 5 6 6 7 8 9
5 0 0 0 2 2 2 2 3 3 3 4 4 4 5 5 5 5 6 6 6 7
6 0 0 0 0 0 1 1 2 2 3 4 4 4 5 5 5 6 7 8 8 8
7 0 0 0 0 1 2 2 4 5
8 0
9 3
El resultado es, básicamente, un histograma tumbado con longitud de las clases igual a 10 en el que,
además de mostrarse la forma de la distribución, se pueden visualizar los datos.
EJEMPLO 8
Sea la variable X = Peso, recogida en la muestra de coches del ejemplo 1. La figura 8 muestra el diagrama
de tallo y hojas que se obtiene con un software estadístico convencional. Los datos originales eran en libras:
1695, 1845, 1965, 2045, 2055, 2240, 2270, 2285, 2295, 2297, etc. En la representación se observa que se han
redondeado los números perdiendo las cifras de centenas y unidades. Así, el dato 1695 se redondea a 1600
y se representan la primera cifra en el primer tronco como 1| y la hoja como 6. Los números que figuran en
la columna de la izquierda representan las frecuencias absolutas acumuladas hasta la clase que contiene la
mediana que se señala con un paréntesis. Este tipo de diagrama es muy útil para el cálculo de algunas medi-
das características que se estudiarán en la siguiente unidad didáctica.
1 1|6
3 1|89
5 2|00
14 2|222223333
23 2|444444555
31 2|66667777
45 2|88888889999999
(7) 3|0000001
41 3|2222333
34 3|4444444555555
21 3|66667777777
10 3|89999
5 4|00011
26 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
• Detectar variables de interés en el estudio. Sentó las bases del análisis exploratorio de
datos en su libro del mismo nombre, publi-
• Detectar valores anómalos o atípicos. cado en 1977 por Addisson Wesley.
También acuñó términos relacionados con
• Comprobar hipótesis acerca de los datos. la Informática: bit (binary digit) y computer
software.
• Diseñar modelos que describan los datos.
Todo lo visto en esta unidad didáctica son técnicas utilizadas en AED. Véase otro tipo de gráfico
que se utiliza cuando se quieren estudiar dos o más variables medidas sobre el mismo individuo para
hacerse una idea de qué tipo de relación existe entre ellas, si existe alguna. Se estudiarán más técnicas
del AED en próximas unidades didácticas.
El diagrama de dispersión ayuda a ver la relación que puede existir entre dos variables X e Y. Es
simplemente una gráfica en la que en el eje horizontal se representan los valores de la primera variable y
en el eje vertical los valores de la segunda. Se tendrán tantos puntos como tamaño de la muestra.
EJEMPLO 9
En una muestra de 130 personas se recogen los valores de las variables X = Temperatura (en grados fahren-
heit) e Y = Pulsaciones por minuto. Se representan estos 130 pares de datos en un diagrama de dispersión en
la figura 9.
.../...
www.udima.es 27
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
Aparentemente, la nube de puntos que resulta no permite ver ningún tipo de relación que destaque entre
estas dos variables. Sí se puede ver que hay un dato que parece situarse más a la derecha que el resto, se
podría estudiar para ver si es un dato atípico.
97
87
77
67
57
96 97 98 99 100 101
EJEMPLO 10
Se tiene en un fichero información referente a las variables X = Millas por galón de gasolina en ciudad (el equi-
valente americano al kilómetro por litro de gasolina europeo), Y = Millas por galón en autopista y Z = Potencia
en la muestra de coches del ejemplo 1. Se puede hacer una matriz de diagramas de dispersión que represen-
tará este diagrama para todos los pares de variables del fichero. Este tipo de matriz puede verse en la figura
10. Se observa rápidamente que los valores de las variables X e Y están prácticamente dispuestos a lo largo
de una línea recta, sugiriendo un tipo de relación lineal entre ambas variables. Además, un valor alto en X
implica también un valor alto en Y (gráfico 1). Por otra parte, la relación entre las variables Z e Y no parece
ser lineal a juzgar por el perfil curvo que parecen dibujar los datos (gráfico 2).
Horsepower
28 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
Clasifica cada una de las siguientes variables recogidas como cuantitativa discreta, cuantitativa con-
tinua, cualitativa nominal u ordinal.
Enunciado 2
Completar los datos que faltan en la siguiente tabla de frecuencias y comentar la distribución:
www.udima.es 29
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Tabla 11
Valores ni Ni fi Fi
10 ............................ 2 ‒ ‒ ‒
20 ............................ ‒ 12 ‒ ‒
30 ............................ 8 ‒ ‒ ‒
40 ............................ 6 ‒ ‒ ‒
50 ............................ ‒ 34 ‒ ‒
60 ............................ 4 ‒ ‒ ‒
70 ............................ 3 ‒ ‒ ‒
Totales ................... ‒ ‒ ‒ ‒
Enunciado 3
Tabla 12
X|Y 1 4 6 8
[0, 2) ........................ 14 8 10 6
[2, 4) ........................ 7 4 5 3
[4, 6) ........................ 21 12 15 9
Enunciado 4
Tabla 13
Chica ....................................................................... 5 17 22
Chico ....................................................................... 14 16 30
Total ........................................................................ 19 33 52
30 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
c) ¿Qué proporción de estudiantes son chicos y fumadores? ¿Qué son el resto de los estudiantes?
d) Calcula la distribución marginal de frecuencias relativas de la variable Y = Sexo.
e) Calcula la distribución marginal de frecuencias absolutas de la variable X = Condición de
fumar.
f) Calcula la distribución de frecuencias relativas de la variable Y = Sexo condicionada a que
son alumnos fumadores.
Enunciado 5
Construir un diagrama de tallo-hojas con los siguientes datos de la variable X = Nivel de ácido en
las lluvias, medido por su ph en 26 días.
4,57; 5,62; 4,12; 5,29; 4,64; 4,31; 4,30; 4,39; 4,45; 5,67; 4,39; 4,52; 4,26; 4,26; 4,40; 5,78; 4,73;
4;56; 5,08; 4,41; 4,12; 5,51; 4,82; 4,63; 4,29; 4,60.
www.udima.es 31
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Solución 1
Solución 2
Tabla 14
Valores ni Ni fi Fi
Totales .................. 41 1
Solución 3
X ni Y Ni
32 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Distribuciones condicionadas:
Se estudia ahora la independencia de las variables X e Y. Es fácil comprobar que en toda la tabla de
frecuencias bivariantes se verifica:
ni• n•j
nij =
n
X|Y 1 4 6 8 Marginal X
[0, 2) 14 8 10 6 38
[2, 4) 7 4 5 3 19
[4, 6) 21 12 15 9 57
Marginal Y 42 24 30 18 114
Por ejemplo:
38 × 42 38 × 24 19 × 42 57 × 42 57 × 18
14 = ,8= , …, 7 = , …, 21 = , …, 9 =
114 114 114 114 114
Solución 4
www.udima.es 33
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
c) Son chicos y fumadores 14 estudiantes de 52, un 27 %. El resto de los estudiantes son chi-
cos no fumadores (30 %), chicas fumadoras (10 %) y chicas no fumadoras (33 %).
d) Distribución marginal de frecuencias relativas de la variable Y = Sexo:
Sexo fi
Total ................................................... 1
Condición de fumador ni
Fuma .................................................. 19
No fuma ............................................. 33
Total ................................................... 52
Sexo|Fumadores fi
Total ........................................... 1
Solución 5
Una posibilidad para representar el diagrama de tallo-hojas es redondear los datos perdiendo la cifra
de las centésimas: 4,5; 5,6; 4,1; 5,2; etc. La hoja será el segundo dígito y el tronco el primero. Esta forma
de redondear los datos daría lugar a un diagrama de solamente dos tallos:
4 11222333344455566678
5 025667
34 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Este diagrama es poco informativo. Una técnica para extender este tipo de diagramas es dividir cada
fila en dos o cinco partes iguales. Si se eligen cinco partes iguales, se utilizan las siguientes etiquetas:
4* 11
T 2223333
F 444555
S 6667
● 8
5* 0
T 2
F 5
S 667
E
JERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
www.udima.es 35
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Tabla 21
Frecuencia
Límite Límite Punto Frecuencia Frecuencia
Clase Frecuencia relativa
inferior superior medio relativa acumulada
acumulada
Figura 11
12
10
0
0 5 10 15 20 25
5. Asociad a cada diagrama de dispersión (véase figura 12) una frase que describa correcta-
mente lo que observamos:
a) Hay una relación positiva entre ambas variables, cuando la X aumenta también aumenta
la Y. Además, dicha relación podría aproximarse por una línea recta.
b) La nube de puntos no revela ninguna relación entre la X y la Y pero sí parece haber
un valor atípico para ambas variables.
c) Parece que existen dos grupos de valores claramente definidos. En cada grupo no
parece que exista relación entre las variables.
d) No parece existir relación entre las variable X e Y.
36 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Figura 12
13 53
9 52
5 51
1 50
‒ 3 49
0 2 4 6 8 27 29 31 33 35 37 39
60 29
57 26
54 23
51 20
48 17
45 14
42 11
14 17 20 23 26 29 32 21 25 29 33 37
REFERENCIAS BIBLIOGRÁFICAS
Básica
En la red
www.udima.es 37
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Avanzada
MONTGOMERY, D. C. y RUNGER, G. C.: Applied Statistics and Probability for Engineers, 3.ª ed., New York: John Wiley
and Sons, 2003.
TUKEY, J. W.: Exploratory Data Analysis, Addisson Wesley, 1977
38 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
2
UNIDAD
DIDÁCTICA MEDIDAS
CARACTERÍSTICAS DE
UNA DISTRIBUCIÓN
DE FRECUENCIAS
OBJETIVOS DE LA UNIDAD
1. Introducción
2. Medidas de posición
2.1. Media aritmética
2.1.1. Propiedades de la media
2.2. Mediana
2.2.1. Mediana para variables discretas
2.2.2. Mediana para variables continuas
2.2.3. Propiedad importante de la mediana
2.3. Comparación entre media y mediana
2.4. Moda
3. Medidas de dispersión
3.1. Varianza y desviación típica
3.1.1. Propiedades de la varianza
3.2. Cuantiles
3.2.1. Cuartiles
3.2.2. Percentiles
3.3. Relación entre características de tendencia central y de dispersión. Valores atípicos
4. Medidas de forma
4.1. Momentos
4.1.1. Momento de orden r centrado en el origen
4.1.2. Momento de orden r centrado en la media
4.2. Medidas de asimetría
4.3. Medidas de apuntamiento o curtosis
www.udima.es 39
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
5. Medidas de relación
5.1. Momentos de una variable estadística bidimensional
5.1.1. Momento de orden (r, h) centrado en el origen
5.1.2. Momento de orden (r, h) centrado en la media
5.2. Covarianza y coeficiente de correlación lineal
40 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
En esta unidad didáctica se continúa con el propósito general de extraer y sintetizar toda la informa-
ción contenida en un conjunto de datos con el fin de describir sus características más relevantes. Ahora
se buscan cantidades que resuman alguna característica de los datos en un solo número, por eso se lla-
man medidas características. Los objetivos de esta unidad didáctica son:
www.udima.es 41
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
1. INTRODUCCIÓN
Cuando se tiene un conjunto de datos homogéneo de una variable cuantitativa es conveniente comple-
tar la información proporcionada por las tablas de frecuencias y los gráficos con ciertas medidas resumen.
Ya en las representaciones gráficas pueden verse cuáles son los valores que concentran mayor frecuencia
y cómo se dispersan o colocan el resto de valores respecto de ellos. Esto origina un tipo de información
específica recogida en estas medidas resumen. Estas medidas características pueden ser: medidas de posi-
ción o tendencia central, medidas de dispersión, medidas o características de forma y medidas de relación.
2. MEDIDAS DE POSICIÓN
También se denominan medidas de tendencia central y tienen como objetivo indicar el valor alre-
dedor del cual tienden a concentrarse los datos. Alrededor del valor indicado por la medida de centrali-
zación, los datos pueden disponerse de múltiples formas.
Sea X la variable de interés y sean x1, x2,..., xn las n observaciones que se tienen de dicha variable.
Se define la media aritmética o simplemente media como:
n
Σ xi
i=1
–x =
n
En el caso de que la variable sea discreta y existan valores repetidos, la media puede calcularse
sumando cada valor observado por su frecuencia relativa de aparición. Si se denota por x1, x2,..., xk cada
uno de los valores distintos de la variable X, por n1, n2,..., nk , el número de veces que se ha observado cada
uno de estos valores y por ƒ1, …, ƒk , la frecuencia relativa de aparición, la media se puede calcular como:
k
Σ xi ni
i=1
–x =
Σ xi ƒi =
n
i=1
Si los datos están agrupados en clases, la media se calcula suponiendo que todos los datos que apa-
recen en una clase son idénticos al centro de la clase, es decir, a la marca de clase x'i. Si la frecuencia
relativa de esa clase es ƒi, la media se define como:
k
Σ x'i ni
i=1
–x =
Σ x'i ƒi =
n
i=1
42 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 1
Se da la siguiente tabla de frecuencias para una variable X continua agrupada en cinco intervalos o clases.
Tabla 1
x‒ = 22,5 × 0,3 + 27,5 × 0,4 + 32,5 × 0,2 + 37,5 × 0,046 + 42,5 × 0,054 = 28,27
La media puede interpretarse como el centro de gravedad de los datos. Supóngase que un histograma fuese
un objeto con masa. Entonces, la media aritmética estará localizada en aquel punto del eje X que deja al his-
tograma en equilibrio (figura 1).
www.udima.es 43
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
• La media aritmética equilibra las desviaciones positivas y negativas de los datos respecto
de su valor, es decir, la media de las desviaciones a la media es 0:
n
Σ (xi – –x )
k
i=1
n
=0 y Σ ƒi (xi – –x ) = 0
i=1
Por tanto, la media actúa como centro de gravedad de los datos, como ya se ha dicho.
k
g (a) = Σ ƒi (xi – a)2
i=1
aX + b = aX + b
2.2. MEDIANA
La mediana de un conjunto de observaciones es el valor tal que, cuando las observaciones están
ordenadas de menor a mayor, deja a ambos lados el mismo número de datos. Es aquel valor que divide
en dos partes iguales la distribución de frecuencias.
Para datos sin agrupar, una vez que están ordenados, la mediana es el dato central si el número de
datos es impar. Es el dato que ocupa la posición:
n+1
2
Si el número de datos es par, la mediana es la media de los dos valores que ocupan la posición cen-
tral, es decir, la media de los valores que ocupan las posiciones:
n n
y +1
2 2
EJEMPLO 2
Se tienen los datos ordenados x1, x2, x3, x4, x5. La mediana es el dato x3 que ocupa la posición central. Si se
tienen los datos x1, x2, x3, x4, la mediana será:
x2 + x3
2
.../...
44 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
De forma más general se puede decir que, en función del polígono de frecuencias relativas acumuladas, la
mediana es la solución de la ecuación:
1
F (x) =
2
EJEMPLO 3
Sea X = Número de piezas defectuosas en un circuito. La tabla 2 recoge el número de circuitos con un determi-
nado número de piezas defectuosas para un total de 100 circuitos.
Tabla 2
X ni Ni Fi
1 ............................ 2 2 0,02
2 ............................ 9 11 0,11
3 ............................ 14 25 0,25
4 ............................ 20 45 0,45
5 ............................ 18 63 0,63
6 ............................ 15 78 0,78
7 ............................ 9 87 0,87
8 ............................ 6 93 0,93
9 ............................ 4 97 0,97
10 ............................ 2 99 0,99
11 ............................ 1 100 1
Se toma como mediana aquel xi cuya frecuencia absoluta acumulada sea igual o inmediatamente superior
a n/2. En este caso, Me = 5.
www.udima.es 45
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
tiene una única solución que, en general, aparece entre dos extremos de clase. La clase i, con extremos
Li y Li+1, se llama clase mediana (o intervalo mediano) si:
1
F (Li) < < F (Li+1)
2
Para determinar la mediana hay que interpolar linealmente en el polígono de frecuencias relativas
acumuladas en la clase o intervalo mediano. Por tanto, la clase mediana será aquella con frecuencia acu-
mulada igual o inmediatamente superior a:
n
2
Siendo:
Se tiene:
n
– Ni
2
Me = L i + Ci+1
ni+1
EJEMPLO 4
Se supone la distribución de salarios en euros del personal de una determinada factoría dada en la tabla 3.
Tabla 3
Clase ni Ni Fi
n
n = 12300, = 6150
2
Por lo que el intervalo mediano es [750, 1000). Interpolando en el polígono de frecuencias relativas acumu-
ladas o, de forma equivalente, usando la fórmula anterior, se obtiene Me = 760,71.
La mediana es una medida robusta frente a valores atípicos y es idónea para tratar la información de un
conjunto de datos ordinales.
46 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
k
g (a) = Σ ƒi | xi – a|
i=1
Como la media utiliza todos los datos para su cálculo, su valor puede verse afectado de manera des-
proporcionada por los valores extremos, si existe alguno. Es muy sensible a observaciones atípicas, y un
error en la toma de datos o un valor anormal puede modificarla totalmente. Esta sensibilidad ante datos
atípicos la presentan todas las medidas características basadas en sumas, pues un término muy grande
en relación a los demás dominará la suma total. La mediana tiene solamente en cuenta el orden de los
datos y no su magnitud. Por tanto, no se ve alterada si una pequeña parte de las observaciones contiene
errores de medida o de transcripción. Así, si un conjunto de datos contiene algunos valores extremos, la
mediana puede ser una característica más fiable que la media, aunque siempre es recomendable calcular
ambas medidas. Diferirán mucho cuando la distribución de los datos sea muy asimétrica, lo que puede
sugerir heterogeneidad en los datos. En distribuciones asimétricas, la media está más desplazada hacia
la cola de la distribución que la mediana.
2.4. MODA
La moda (Mo) es el valor que tiene frecuencia máxima en el conjunto de datos (es el más repetido,
el más frecuente). Este concepto de valor más repetido solo tendrá sentido en un contexto discreto. En
un contexto continuo, con datos agrupados en intervalos o clases, se hablará de intervalo o clase modal
y de marca modal.
EJEMPLO 5
.../...
www.udima.es 47
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
25
20
15
10
0
1500 2000 2500 3000 3500 4000 4500
3. MEDIDAS DE DISPERSIÓN
La dispersión media de los datos respecto de una medida de tendencia central define las caracte-
rísticas de dispersión. Esta clase de características está relacionada con el concepto de distancia, que ha
aparecido en las propiedades de media y mediana. Dependiendo de la distancia que se utilice, se tienen
diferentes medidas de dispersión.
Las medidas de tendencia central ya vistas no proporcionan ninguna idea de la variabilidad de las
observaciones en el conjunto. Por ejemplo, si se tienen los siguientes conjuntos de cuatro datos:
En ambos casos, –x = Me = 50 y, sin embargo, los dos conjuntos de datos son muy distintos, pues en
el primer caso, las observaciones están mucho más dispersas (espaciadas) que en el segundo. Las medidas
de dispersión van a mostrar cómo se separan, en promedio, los datos respecto de sus valores centrales.
La varianza se define como la distancia euclidea media entre los valores del conjunto de datos y su
media aritmética. Para datos sin agrupar, se tendrá:
n
Σ (xi – –x )2
i=1
σ̂ 2 =
n
Para datos distintos x1,. .., xk con frecuencias relativas ƒ1, ..., ƒk, se tiene:
k
σ̂ 2 = Σ ƒi (xi – –x )2
i=1
48 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
k
σ̂ 2 = Σ ƒi (x'i – –x )2
i=1
La unidad de medida de la varianza es la de la media al cuadrado. Por ello, suele utilizarse la raíz
cuadrada positiva de la varianza que se conoce con el nombre de desviación típica:
n
Σ (xi – –x )2
i=1
σ̂ =
n
La desviación típica sigue siendo una medida con dimensión que, por tanto, no servirá cuando se
quiera comparar distribuciones o conjuntos de datos en función de su dispersión. Para ello se define el
coeficiente de variación:
σ̂
CV =
| –x |
EJEMPLO 6
Se recoge la variable X = Precio en una muestra de zumos en un supermercado. Se obtiene un precio medio
de 0,25 euros, con una desviación típica de 0,01 euros. Por otro lado, en una muestra de pisos en venta, el
precio medio resulta ser 300.000 euros, con una desviación típica de 6.000 euros. ¿Cuál de las dos variables
está más dispersa, el precio de los zumos o el de los pisos?
El coeficiente de variación para el precio de los zumos es 0,04 y para el precio de los pisos 0,02. Por lo tanto,
el precio de los pisos está menos disperso.
3.2. CUANTILES
Son medidas de dispersión basadas en el orden. Los cuantiles dividen la serie ordenada de datos
en partes iguales: la mediana en dos partes iguales, los cuartiles en cuatro partes iguales, los deciles en
diez partes iguales y los percentiles en cien partes iguales. El percentil es el concepto más amplio, pues
ofrece la partición más fina de la serie ordenada.
www.udima.es 49
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
3.2.1. Cuartiles
Son tres valores Q1, Q2 y Q3, que dividen la serie ordenada de datos en cuatro partes iguales. A la
izquierda de Q1 queda el 25 % de las observaciones, a la izquierda de Q2 el 50 %, por tanto Q2 = Me, y a
la izquierda de Q3 queda el 75% de las observaciones.
• Si se tienen datos explícitos x1, x2, …, xn y x(1) ≤ x(2) ≤ … ≤ x(n) representa la serie ordenada
de menor a mayor, el cuartil de orden i, i = 1, 2, 3 se representa por Qi y es el valor:
{
i (n + 1)
x(j) si j=
4
Qi =
x(j) + x(j+1) i (n + 1)
si j< <j+1
2 4
• Cuando los datos están agrupados y x1, x2, …, xk son valores distintos, modalidades o marcas
de clase con sus correspondientes frecuencias acumuladas F1, F2, … Fk se define el cuantil
Qi , i = 1, 2, 3 como la solución a la ecuación funcional:
i
F (x) = , i = 1, 2, 3
4
3.2.2. Percentiles
Son 99 valores que dividen la serie ordenada de datos en 100 partes iguales.
• Si se tienen datos explícitos x1, x2, …, xn y x(1) ≤ x(2) ≤ … ≤ x(n) representa la serie ordenada
de menor a mayor, el percentil de orden i, i = 1, …, 99 se representa por Pi y es el valor:
{
i (n + 1)
x(j) si j=
100
Pi =
x(j) + x(j+1) i (n + 1)
si j< <j+1
2 100
• Cuando los datos están agrupados y x1, x2, …, xk son valores distintos, modalidades o mar-
cas de clase con sus correspondientes frecuencias acumuladas F1, F2, … Fk , se define el
percentil Pi , i = 1, …, 99 como la solución a la ecuación funcional:
i
F (x) = , i = 1, …, 99
100
50 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Cuando se tienen datos implícitos, agrupados en intervalos, se debe utilizar el polígono de frecuen-
cias acumuladas para encontrar el cuantil deseado, interpolando en el intervalo correspondiente [Li, Li+1).
Esto es equivalente a usar la siguiente fórmula:
n
r – Ni
k
C r = Li + Ci+1
k
ni+1
Siendo r el orden del cuantil y k, las partes distintas en que dicho cuantil divide la distribución.
Así, en los cuartiles, k = 4 y r = 1, 2, 3. En los deciles, k = 10 y r = 1, …, 9. En los percentiles, k = 100 y
r = 1, …, 99. Si [Li, Li+1) es el intervalo en el que la frecuencia acumulada contiene el valor:
n
r
k
C 1 = Me = Q2 = D5 = P50
2
C 1 = Q1 = P25
4
C 3 = Q3 = P75
4
EJEMPLO 7
Se tiene la siguiente tabla de distribución de salarios (en miles de euros) para los empleados de una empresa.
Se pide calcular el salario medio, mediana, moda, Q1, Q3, D4 y P88.
Se tienen datos implícitos agrupados en intervalos. La media se calcula como:
Tabla 4
Clase Marca ni Ni Fi
.../...
www.udima.es 51
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
El salario medio es 31.844,26 euros. El intervalo mediano es [30, 35), ya que es el que tiene frecuencia rela-
tiva acumulada inmediatamente superior a 0,5. Para calcular la mediana exactamente se interpola en el polí-
gono de frecuencias acumuladas que se muestra en la figura 3. Se obtiene Me = 32,13, es decir, 32.130 euros.
Para calcular Q1, se interpola en el intervalo o clase que contiene la frecuencia acumulada:
n 671
= = 167,75
4 4
que es el [25, 30). Se obtiene Q1 = 27,25. Se puede usar también la fórmula general de cuantiles, con r = 1,
k = 4, Li = 25, Ni = 100, ni+1 = 150 y Ci+1 = 5.
Para calcular Q3, se interpola en el intervalo [35, 40) que es el que contiene la frecuencia absoluta acumulada de:
n 671
r =3 = 503,25
k 4
Se obtiene Q3 = 36,479.
1
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
20 25 30 35 40 45
n 671
r =4 = 268,4
k 100
n 671
r = 88 = 590,48
k 100
3.3. R
ELACIÓN ENTRE CARACTERÍSTICAS DE TENDENCIA CENTRAL Y DE DIS-
PERSIÓN. VALORES ATÍPICOS
La información proporcionada por una característica de tendencia central puede ser engañosa si no
viene acompañada de una medida de dispersión. Si se utiliza la desigualdad de Tchebychev, se tiene la
siguiente información:
52 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
• El 75 % de los datos se encuentran entre la media y dos desviaciones típicas, es decir, en el
intervalo (x– – 2σ̂, –x + 2σ̂).
• El 89 % de los datos se encuentran entre la media y tres desviaciones típicas, es decir, en el
intervalo (x– – 3σ̂, –x + 3σ̂).
1
• En general, en el intervalo (x– – kσ̂, –x + kσ̂) se encuentra, como mínimo el: 100 � 1 – � %
de las observaciones. k2
A partir de estas relaciones se establecen criterios para definir datos atípicos basados en la media y
en la desviación típica. Un valor atípico es una observación que es numéricamente distante del resto de
los datos. Los valores atípicos pueden ser indicativos de datos que pertenecen a una población diferente
del resto de la muestra:
• Criterio fuerte (basado en media y desviación típica). Se dirá que un valor x* de un con-
junto de datos es:
www.udima.es 53
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
k
Σ ni x ir
i=1
ar = Σ ƒi x ir =
i=1 n
Por ejemplo, a1 = –x .
k
Σ ni (x i – –x ) r
i=1
mr = Σ ƒi (x i – –x )r =
i=1 n
Se verifica que m1 = 0 y m2 = σ̂ 2. Además, m2 = a2 – a21. Se llega así a una fórmula más cómoda para
calcular la varianza cuando se tienen todos los datos:
n
Σ xi2 – nx– 2
i=1
σ̂ 2 =
n
Cuando al trazar una vertical por la media en el histograma de una variable, esta vertical se trans-
forma en eje de simetría, decimos que la distribución es simétrica. En caso contrario, se dirá que la dis-
tribución es asimétrica. En la figura 4 se muestran tres distribuciones: la primera, más a la izquierda,
presenta asimetría positiva, la central es simétrica y la de la derecha presenta asimetría negativa.
54 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
0,4
0,3
0,2
0,1
0
– 5 – 3 – 1 1 3 5
m3 Σ (x i – –x )3
i=1
γ1 = =
σ̂ 3 nσ̂ 3
Este coeficiente compara el grado de apuntamiento de una distribución (lo picuda que es) con el de
la curva normal. Se define el coeficiente de apuntamiento o curtosis como:
m4 Σ (x i – –x )4
i=1
γ2 = –3= –3
σ̂ 4 nσ̂ 4
www.udima.es 55
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
dice que es mesocúrtica, si es más apuntada o picuda que la normal, se dice que es leptocúrtica, y si lo
es menos, se dice que es platicúrtica (véase figura 5). Con lo que:
• Si γ2 = 0, la distribución es mesocúrtica.
• Si γ2 > 0, la distribución es leptocúrtica.
• Si γ2 < 0, la distribución es platicúrtica.
5. MEDIDAS DE RELACIÓN
Se definen dos tipos de momentos asociados a la distribución conjunta de dos variables estadísticas.
• Sean (x1, y1), (x2, y2), …, (xn , yn) un conjunto de datos bidimensionales que definen la va-
riable estadística bidimensional (X, Y). Se define el momento de orden (r, h) centrado en el
origen, arh, como:
n
Σ xir y hi
i=1
arh =
n
• Para datos tabulados, con modalidades o clases {x1, …, xk}, {y1, …, yp} y distribución de
frecuencias relativas conjunta {ƒij}i=1, …, k; j=1, …, p:
k p
arh = Σ Σ xir y hj ƒij
i=1 j=1
56 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
• Sean (x1, y1), (x2, y2), …, (xn , yn) un conjunto de datos bidimensionales que definen la va-
riable estadística bidimensional (X, Y). Se define el momento de orden (r, h) centrado en la
media, mrh , como:
n
Σ (x i – –x ) r (yi – –y ) h
i=1
mrh =
n
• Para datos tabulados, con modalidades o clases {x1, …, xk}, {y1, …, yp} y distribución de
frecuencias relativas conjunta {ƒij}i=1, …, k; j=1, …, p:
k p
mrh = Σ Σ (x i – –x ) r (yj – –y ) h ƒij
i=1 j=1
Se verifica que m10 = m01 = 0. Se tiene la siguiente relación entre momentos conjuntos y momen-
tos marginales:
n n
Σ (x i – –x ) (yi – –y ) Σ x i yi
i=1 i=1
Cov (X, Y) = = – –x –y
n n
• Si Cov (X, Y) > 0, hay mayor tendencia a encontrar valores altos (o bajos) de X con valores
altos (o bajos) de Y.
• Si Cov (X, Y) < 0, la variación conjunta de ambas variables será en sentido inverso: a valo-
res altos (o bajos) de una de las variables se corresponden valores bajos (o altos) de la otra.
• Si Cov (X, Y) = 0, no existe relación lineal entre X e Y.
Cuanto mayor sea el valor de la covarianza mayor será la relación lineal. Sin embargo, como su
valor depende de las unidades de medida, un valor alto puede deberse a las unidades más que al grado de
www.udima.es 57
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Cov (X, Y)
ρ=
σ̂ X σ̂ Y
L.A. Jacques Quételet (1796-1874). Fue un
Se verifica que – 1 ≤ ρ ≤ 1. Así: astrónomo y naturalista belga, también ma-
temático, sociólogo y estadístico.
Es reconocido como uno de los padres de la
• Un valor ρ = – 1indica una relación inversa- estadística moderna. Aplicó los métodos es-
mente proporcional perfecta entre X e Y. Los tadísticos a las ciencias sociales y fue criti-
cado por ello.
pares de dato (xi, yi) se encuentran sobre una Quételet es también célebre por desarrollar
recta de pendiente negativa. la noción de «hombre promedio» (l'homme
moyen) y por su aplicación de la estadística
• Un valor – 1 < ρ < 0 indica una relación lineal a la criminología.
Dado un conjunto de datos, se llama resumen de las cinco cifras a los tres cuartiles junto con el
máximo y el mínimo de los datos, es decir, {mínimo, Q1, Q2, Q3, máximo}. La representación gráfica de
este resumen de las cinco cifras se hace a través del diagrama de caja o box-plot.
Su construcción se muestra en la figura 6. Sobre la recta real se coloca una caja en la que el extremo
izquierdo coincide con Q1 y el extremo derecho con Q3. Dentro de la caja se coloca Q2. Esta caja encierra
el 50 % de los datos que ocupan la posición central. El ancho de la caja representa el rango intercuartí-
lico o RI. A continuación, se marcan dos zonas: la barrera interna y la barrera externa. Una vez estable-
cidas las barreras, se marcan las observaciones que caen más allá de ellas, con símbolos diferentes según
la zona. Las observaciones que caen en ambas zonas son datos atípicos. Las que caen más allá de las
barreras externas son datos atípicos extremos. A continuación se dibujan unos segmentos que salen de
ambos lados de la caja hasta la observación más alejada pero que se encuentre dentro de las barreras. Si
no hubiese ningún dato atípico, los segmentos llegarían hasta los valores máximos y mínimos.
Por ejemplo, en el diagrama de caja que se muestra en la figura 7 hay tres datos atípicos, uno de ellos
extremo. La media viene marcada con el símbolo +. Como Me = Q2 < –x , la distribución presenta asime-
tría positiva. Al haber asimetría positiva, los datos atípicos deben interpretarse con cuidado, ya que, en
este caso, su presencia es compatible con la asimetría que presenta la distribución.
58 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
3 × RI 3 × RI
RI
1,5 × RI 1,5 × RI
Q1 Q2 Q3 X
En el diagrama de caja hay que fijarse en el rango intercuartílico, en el rango de los datos sin contar
los datos atípicos, en la asimetría y en los datos atípicos.
0 20 40 60 80
7. TRANSFORMACIONES DE DATOS
Muchas de las técnicas estadísticas que se aplican en conjuntos de datos requieren que su distribu-
ción sea unimodal y simétrica. Aunque esta restricción pueda parecer muy severa, este tipo de distribu-
ciones es frecuente con datos reales. En este epígrafe se verán algunos ejemplos de transformaciones
sobre los datos originales que producen simetría.
www.udima.es 59
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Las transformaciones que se utilizan cuando los datos presentan asimetría positiva son del tipo √ x, log x,
xc,con c < 1. Estas transformaciones reducen mucho los valores altos y menos los valores pequeños. De
este conjunto de transformaciones las más frecuentes son x1/2, log x y x–1. La figura 8 muestra una distri-
bución con asimetría positiva y las figuras 9 y 10, el efecto de dos de estas transformaciones.
400
300
200
100
0 2 4 6 8 10 12
150
120
90
60
30
0
‒ 1 ‒ 0,5 0 0,5 1 1,5 2
60 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
300
250
200
150
100
50
0
‒ 0,1 0,9 1,9 2,9 3,9
Las transformaciones que se utilizan cuando los datos presentan asimetría negativa son del tipo xc
con c > 1. La figura 11 muestra un histograma con este tipo de asimetría y la figura 12 el cambio que
sufre con este tipo de transformación.
25
20
15
10
0
0,38 0,48 0,58 0,68 0,78 0,88 0,98
www.udima.es 61
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
30
25
20
15
10
0
0 0,3 0,6 0,9 1,2
62 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
ACTIVIDADES DE REPASO
Enunciado 1
Se recuerda la siguiente información del importe en euros de las últimas 200 facturas emitidas por
una empresa, agrupadas en seis intervalos o clases de la misma longitud.
• El primer intervalo tiene 75 como extremo superior, frecuencia relativa de 0,075 y una
amplitud de seis unidades.
• Hasta el segundo intervalo se acumulan 41 facturas.
• El tercer intervalo tiene frecuencia absoluta de 42 facturas, el cuarto, de 69, y el quinto, de 36.
Enunciado 2
Se estudia la variable X = Desgaste (en milímetros) que sufren los neumáticos en los coches de Fór-
mula 1 tras 10 sesiones de entrenamiento. Se obtienen los resultados de la siguiente tabla:
Tabla 5
Clase ni
Total ....................... 51
www.udima.es 63
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Enunciado 3
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89; 2,41; 1,50
Enunciado 4
Comentar el siguiente diagrama de caja. Se representan las unidades vendidas mensualmente por
una factoría en los últimos 12 años y medio. La media se representa por el signo +.
190 210 230 250 270
Enunciado 5
Tabla 6
X 3 5 2 8 6 9 3 4
64 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el estudiante puede hacer, por su cuenta, una serie de ejer-
cicios voluntarios, como los siguientes:
1. Asocia a cada diagrama de dispersión una de las frases siguientes sobre el valor del coefi-
ciente de correlación.
60 37
57
33
54
51 29
48
25
45
42 21
14 17 20 23 26 29 32 42 45 48 51 54 57 60
Tabla 7
www.udima.es 65
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
REFERENCIAS BIBLIOGRÁFICAS
Básica
En la red
Avanzada
MONTGOMERY, D. C. y RUNGER, G. C.: Applied Statistics and Probability for Engineers, 3.ª ed.. New York: John Wiley
and Sons, 2003.
TUKEY, J. W.: Exploratory Data Analysis, Addisson Wesley, 1977.
66 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
3
UNIDAD
DIDÁCTICA
CÁLCULO DE
PROBABILIDADES
OBJETIVOS DE LA UNIDAD
1. Introducción
2. Interpretaciones de la probabilidad
2.1. Interpretación frecuentista
2.2. Interpretación clásica
2.3. Interpretación subjetiva
4. Cuantificación de la probabilidad
4.1. Regla de Laplace (probabilidad clásica)
4.2. Ruleta de la fortuna (probabilidad subjetiva)
5. Probabilidad condicionada
6. Teorema de la probabilidad compuesta
7. Independencia de sucesos
7.1. Fiabilidad de un sistema
www.udima.es 67
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
68 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
El cálculo de probabilidades estudia el concepto de probabilidad como medida de incertidumbre.
En situaciones donde se pueden obtener varios resultados posibles, la teoría de la probabilidad propor-
ciona métodos para cuantificar esa variabilidad en el resultado del experimento. Se describen tres inter-
pretaciones de la misma, adecuadas según sea el contexto y las hipótesis de trabajo: clásica, frecuentista
y la probabilidad como grado de confianza. Se ilustran los axiomas que verifican la probabilidad, que
se cumplen bajo cualquier interpretación de la misma y su uso. Se dan reglas prácticas de asignación de
probabilidades y reglas para actualizar una probabilidad determinada en situaciones en las que se dis-
pone de información adicional. Para ello se introduce la probabilidad condicionada, que conducirá hacia
el teorema de Bayes, una potente herramienta de inversión de probabilidades.
www.udima.es 69
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
1. INTRODUCCIÓN
Cuando se estudia una muestra de una población, el problema central es inferir las propiedades de
esta a partir de la muestra. Para ello se necesita un modelo de la población, una representación simbólica
de su comportamiento que permita esta generalización. La construcción de estos modelos es el objeto del
cálculo de probabilidades. Hay que conocer bien las leyes básicas de la probabilidad para utilizar adecua-
damente la metodología estadística. La estadística indica cómo utilizar la información en aquellos casos
en los que hay incertidumbre. Se utilizarán modelos probabilísticos cuando no se encuentren modelos
matemáticos que sirvan para determinar concretamente un fenómeno. Se denomina fenómeno aleatorio
o experimento aleatorio a aquel que puede dar lugar a varios resultados, sin que se sepa con certeza cuál
de estos va a ser observado. A continuación se introducen las tres interpretaciones de la probabilidad.
2. INTERPRETACIONES DE LA PROBABILIDAD
EJEMPLO 1
Se quiere determinar la proporción de errores en la ejecución de un programa. Se observa, cada vez que se
ejecuta el programa, el número de errores que aparecen. Si se aumenta el número de ejecuciones, la frecuencia
relativa de errores cometidos con respecto al número de ejecuciones se aproximará cada vez más a la verdadera
proporción de errores. En la tabla 1 se muestran los resultados para valores de ejecución n entre 20 y 1.500.
Tabla 1
20 1 0,05
60 2 0,033
100 6 0,01
320 8 0,025
500 9 0,018
840 16 0,019
1.500 31 0,026
70 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 2
La frecuencia relativa de que al tirar una moneda salga cara tiende a 0,5 al aumentar el número de tiradas.
• «Un número elevado de veces» no está determinado, no puede interpretarse como un límite
en el sentido del análisis matemático.
• «Bajo las mismas condiciones» no está bien especificado.
• El sistema observado puede variar con el tiempo y con él la frecuencia relativa.
Esta definición solamente se aplica a fenómenos que se repiten muchas veces. Entonces, ¿cómo se
calcularía la probabilidad de que el lanzamiento de un nuevo videojuego tenga éxito, de que roben una
valiosa joya, de que se produzca un accidente en una central nuclear, etc.? ¿Qué pasa con estos fenóme-
nos que solo ocurren una vez, en los que no se puede generar una población homogénea en la que cal-
cular la frecuencia relativa?
EJEMPLO 3
Si se lanza un dado una vez, hay 6 posibles resultados que son mutuamente excluyentes (no puede aparecer más
de un resultado a la vez) e igualmente verosímiles (sus frecuencias son prácticamente las mismas si se supone
que el dado no está trucado y que el experimento se lleva a cabo un número suficientemente grande de veces).
Puede entonces pensarse que la probabilidad de obtener un 5 es la proporción de resultados que den 5
respecto al número total de resultados, es decir, 1/6.
EJEMPLO 4
En el lanzamiento de 2 dados, la probabilidad de que la suma de los resultados sea 7 es 1/6, ya que hay 36
resultados posibles y 6 tienen el atributo de sumar 7: (1, 6), (2, 5), (3, 4), (4, 3), (5, 2) y (6, 1).
www.udima.es 71
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Se asocia la probabilidad con el observador del sistema en vez de con el sistema bajo observación.
Surge para los fenómenos que no se prestan a repetición y cuando no es posible hablar de un experimento
llevado a cabo bajo condiciones similares.
Muchas personas hacen afirmaciones que de algún modo implican probabilidad. Por ejemplo, cuando
un corredor de bolsa asesora a un cliente sobre la posibilidad de que determinadas acciones suban, está
sugiriendo alguna idea de la probabilidad de ocurrencia del alza de esa acción.
El principal inconveniente de esta interpretación es que, como cada individuo asigna un número a
que suceda un hecho determinado, es muy difícil poner en común a varios analistas. Además, el hecho
de que esté basado en un juicio personal proporciona inconsistencia a la definición.
72 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Se llama espacio muestral al conjunto de todos los posibles resultados de un experimento aleato-
rio. Se denotará como Ω. Puede ser finito, infinito numerable o infinito no numerable.
EJEMPLO 5
EJEMPLO 6
3.1.2. Suceso
Se llama suceso o evento a cualquier subconjunto de Ω. Un suceso es elemental si está formado por
un solo elemento y compuesto si es unión de sucesos elementales. Ω es el suceso seguro y Ø el suceso
imposible o nulo o vacío (nunca ocurre).
EJEMPLO 7
En el lanzamiento de un dado, Ω = {1, 2, 3, 4, 5, 6} y el suceso «obtener par» será el conjunto {2, 4, 6}. El sub-
conjunto {1} es un suceso elemental.
Dados dos sucesos, A y B, de un espacio muestral Ω, se definen las siguientes operaciones con sucesos:
www.udima.es 73
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
–
• A \ B: diferencia de sucesos. Ocurre siempre que ocurre A y no B: A \ B = A ∩ B.
• A ∆ B: diferencia simétrica de sucesos: A ∆ B = (A \ B) ∪ (B \ A).
El lenguaje de los sucesos es el mismo que el de conjuntos, con lo que las definiciones anteriores se
pueden representar gráficamente mediante diagramas de Venn, como se ilustra en la figura 1.
Ω Ω Ω Ω
‒
B A B A A
B
A A
‒
A⊂B A∪B A∩B A
Ω Ω Ω
A A A
B B B
La clase de los sucesos asociados a un experimento aleatorio verifica las siguientes propiedades para
las operaciones de unión (∪) e intersección (∩):
• Conmutativa y asociativa.
• Cada operación es distributiva respecto de la otra.
• Existe elemento neutro para la unión (Ø) y para la intersección (Ω).
– – –
• Existe para cada suceso A otro suceso A, tal que A ∩ A = Ø y A ∪ A = Ω.
Esto quiere decir que la clase de los sucesos asociados a un experimento aleatorio tiene estructura
de álgebra de Boole. Por lo tanto, se verifican las propiedades:
• Idempotencia: A ∪ A = A, A ∩ A = A.
– – – –
• Leyes de Morgan: A ∪ B = A ∩ B, A ∩ B = A ∪ B.
Un sistema completo de sucesos o partición del espacio muestral es el conjunto de sucesos {Ai}i ∈N
tales que ∞ ∪
i=1 Ai = Ω y son disjuntos dos a dos, es decir, Ai ∩ Aj = Ø para todo i ≠ j.
74 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 8
Una probabilidad en (Ω, � (Ω)) es una función P definida sobre la σ-álgebra, sobre la recta real ℝ.
P: � (Ω) → ℝ
A → P (A)
∞ ∞
P � ∪ Ai � = i=1
i=1
Σ P (Ai)
Estos tres axiomas son razonables para las interpretaciones ya vistas de la probabilidad. Esta defini-
ción muestra las características de las proporciones, o frecuencia relativa, que son un número entre 0 y 1.
Además, dado que cuando se realiza un experimento siempre ocurre un resultado, la probabilidad de Ω
es 1, y si no hay ningún resultado común entre dos sucesos A y B, la probabilidad de que ocurra A o B es
la proporción de veces que ocurre A, más la proporción de veces que ocurre B.
1. P (Ø) = 0.
2. P (A) ≤ 1 para todo A.
–
3. P (A) = 1 – P (A).
4. Propiedad monótona: si A ⊂ B, entonces P (A) ≤ P (B).
5. Regla de adición de probabilidades: P (A ∪ B) = P (A) + P (B) – P (A ∩ B) para cualquiera
A, B.
www.udima.es 75
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
6. Generalización de la anterior:
n n
∪
n
P � Ai � = Σ P (Ai) – Σ P (Ai ∩ Aj) +
i=1 i=1 i<j
n
+ Σ P (Ai ∩ Aj ∩ Ak) + … + (– 1)n+1 P (A1 ∩ A2 ∩ … ∩ An)
i<j<k
7. Propiedad subaditiva:
P � ∪ An � ≤ Σn P (An)
n
8.
P � ∩ An � ≥ 1 ‒ Σn P (An)
–
n
EJEMPLO 9
Una computadora biprocesador de una gran empresa funciona si cualquiera de sus dos procesadores, A y B,
funciona. Sabiendo que la probabilidad de que el procesador A funcione es 0,85, la de B es 0,9 y la de que
ambos funcionen simultáneamente es 0,76, calcular la probabilidad de que la computadora funcione.
4. CUANTIFICACIÓN DE LA PROBABILIDAD
76 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Para contar este número de casos favorables y casos posibles se utiliza el análisis combinatorio.
La regla de Laplace solamente debe usarse en contextos en los que esté asegurada la equiprobabi-
lidad de los sucesos.
Se introduce un experimento de referencia que actúa como «regla» y que se usa para cuantificar las
creencias de un individuo llamado decisor. Así, el decisor puede expresar sus creencias respecto a pro-
posiciones sobre el experimento de referencia.
Se considera una ruleta de la fortuna (equilibrada), aunque se puede hacer con cualquier disposi-
tivo de azar como urnas, bolas de colores, etc. Se comparan los sucesos a cuantificar con sectores en la
ruleta de la fortuna, de tal forma que si, por ejemplo, el decisor piensa que es igualmente probable que
ocurra un suceso A con que la aguja de la ruleta caiga en un sector de área x %, se asignaría a ese suceso
una probabilidad de x/100 (por ejemplo, si fuera el 20 %, P (A) = 0,2). Cuando existen varios sucesos
a cuantificar, como las probabilidades se calculan de manera independiente, hay que comprobar que la
suma es 1 y, en caso contrario, hacer una pequeña modificación.
5. PROBABILIDAD CONDICIONADA
P (A ∩ B)
P (A|B) = siendo P (B) > 0
P (B)
EJEMPLO 10
Considérese el lanzamiento de una moneda equilibrada dos veces. Sea A el suceso «obtener cara en la pri-
mera tirada» y B el suceso «obtener cara en la segunda tirada».
‒ ‒ ‒ ‒
A ∩ B está definida en el espacio muestral {(A, B), (A, B ), (A, B), (A, B )} y tiene probabilidad 1/4.
‒
B | A está definida en el espacio muestral {(A, B), (A, B )} y tiene probabilidad 1/2.
EJEMPLO 11
Se lanzan 2 dados, uno azul y otro rojo. Sabiendo que el dado rojo es un 1 o un 2, calcular la probabilidad
de que el resultado de alguno de los dados sea par.
.../...
www.udima.es 77
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
A = «Alguno es par»
B = «El dado rojo es 1 o 2»
El espacio muestral para este experimento aleatorio es el conjunto de todos los pares (i, j) donde i, j ∈{1, 2, …, 6},
siendo la primera posición para el resultado del dado azul y la segunda para el rojo. Así, Ω = {(i, j): i, j = 1, 2,
…, 6} y tiene 36 posibles resultados, de los cuales 9 son favorables al suceso A ∩ B y 12 al suceso B, ya que:
A ∩ B = {(2, 1), (4, 1), (6, 1), (1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)}
B = {(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)}
P (A ∩ B) 9/36 9
P (A|B) = = =
P (B) 12/36 12
También se puede calcular esta probabilidad directamente observando el espacio muestral en el que está
definido A|B:
Ω' = {(1, 1), (2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (1, 2), (2, 2), (3, 2), (4, 2), (5, 2), (6, 2)}
Hay 12 resultados posibles de los que 9 son favorables a A|B (los destacados en negrita), con lo que:
9
P (A|B) =
12
P (A ∩ B ∩ C)
P (A|B ∩ C) = , P (B ∩ C) > 0
P (B ∩ C)
P (A ∩ B ∩ C)
P (A ∩ B|C) = , P (C) > 0
P (C)
P (A ∩ B) = P (A) P (B|A)
P (A ∩ B) = P (B) P (A|B)
78 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
al ser A1 ⊃ A1 ∩ A2 ⊃ … ⊃ A1 ∩ … ∩ An–1.
Este teorema también se conoce como teorema del producto o regla de multiplicación.
EJEMPLO 12
Se desea calcular la probabilidad de que un trabajo se procese inmediatamente cuando se requiere. Este
suceso es la intersección de los dos sucesos siguientes:
Calcular la probabilidad de que un trabajo presentado se procese de inmediato, sabiendo que la probabili-
dad de que el computador esté funcionando en un momento determinado es 0,9 y que la probabilidad de
que el trabajo se procese de inmediato si el computador está funcionando es 0,05.
Del enunciado se tiene que P (A) = 0,9 y P (B|A) = 0,05, y hay que obtener P (A ∩ B):
7. INDEPENDENCIA DE SUCESOS
EJEMPLO 13
.../...
www.udima.es 79
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
• Con reemplazamiento.
• Sin reemplazamiento.
Comprobar si son independientes los sucesos A = «Primera bola es blanca» y B = «Segunda bola es blanca».
• Con reemplazamiento
4
P (A) = = P (B)
6
4 4
P (A ∩ B) = P (A) P (B|A) = ×
6 6
• Sin reemplazamiento.
4
P (A) =
6
‒ ‒
P (B) = P ({nb} o {bb}) = P ((A ∩ B) ∪ (A ∩ B)) = P (A ∩ B) + P (A ∩ B) =
‒ ‒ 2 4 4 3 2 4
= P (A) P (B|A) + P (A) P (B|A) = × + × = =
6 5 6 5 3 6
4 3
P (A ∩ B) = P (A) P (B|A) = ×
6 5
Como se puede observar, la diferencia entre extraer las bolas con reemplazamiento y sin reemplazamiento
está en la noción de independencia.
EJEMPLO 14
Considérese una máquina formada por 4 componentes conectados en serie de manera que la máquina fun-
ciona solo si funcionan todos ellos. Si los 4 componentes operan de forma independiente y la probabilidad
de que un componente funcione después de 100 horas es 0,95, calcular la fiabilidad del sistema después de
100 horas.
.../...
80 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
Ci = «Componente i funciona», i = 1, 2, 3, 4
P (sistema funcione) = P (C1 ∩ C2 ∩ C3 ∩ C4) = P (C1) P (C2) P (C3) P (C4) = 0,954 = 0,8145
Se observa que aunque la fiabilidad de cada componente es alta, la de la máquina no lo es tanto al reque-
rir el funcionamiento de todos los componentes. Para resolver esto, se pueden disponer varios sistemas en
paralelo de manera que el sistema funcione si al menos uno de esos sistemas funciona.
EJEMPLO 15
Si los 3 componentes funcionan independientemente y la probabilidad de que uno cualquiera de ellos esté
funcionando es 0,95, obtener la probabilidad de que el sistema funcione:
Sea A el suceso que representa que funciona el componente A, análogo para B y C. La fiabilidad del sistema es:
Donde:
‒ ‒ ‒ ‒ ‒ ‒ ‒ ‒ ‒
P (sistema no funcione) = P ((A ∩ B ) ∪ C ) = P (A ∩ B ) + P (C ) ‒ P (A ∩ B ∩ C ) =
‒ ‒ ‒ ‒ ‒ ‒
= P (A) P (B ) + P (C ) ‒ P (A) P (B ) P (C ) = 0,052 + 0,05 ‒ 0,052 = 0,05237
Y por tanto, la probabilidad de que el sistema funcione es 1 ‒ 0,05237 = 0,9476, como ya se había calculado.
En la resolución de este ejemplo se ha utilizado que si A, B y C son independientes mutuamente, también
‒ ‒ ‒
lo son sus complementarios A, B y C .
www.udima.es 81
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Sea (B1, …, Bn) un sistema completo de sucesos (disjuntos y tales que ∪ ni=1 Bi = Ω), de modo que
P (Bi) > 0 para todo i = 1, …, n. Dado cualquier suceso A:
n
P (A) = Σ P (A|Bi) P (Bi)
i=1
EJEMPLO 16
Hay 2 cajas que contienen chips grandes y chips pequeños. La primera caja contiene 60 chips grandes y 40
pequeños, y la segunda, 10 grandes y 20 pequeños. Se selecciona una caja al azar y se extrae un chip de la
misma. Determinar la probabilidad de que el chip sea grande.
Se definen los sucesos
B1
B2
A
60 1 10 1 3 1 7
P (A) = P (A ∩ B1) + P (A ∩ B2) = P (A|B1) P (B1) + P (A|B2) P (B2) = × + × = + =
100 2 30 2 10 6 15
9. TEOREMA DE BAYES
82 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Sea (B1, … Bn) un sistema completo de sucesos de modo que P (Bi) > 0 para todo i = 1, …, n. Dado
cualquier suceso A tal que P (A) > 0:
Para entender el mecanismo del teorema de Bayes, supóngase que se realiza un experimento en dos fases:
• En la primera, los sucesos posibles B1, …, Bn son mutuamente excluyentes (disjuntos dos
a dos) con probabilidades conocidas y tales que Σ P (Bi) = 1.
• En la segunda, los resultados posibles Aj dependen de la primera y lo que es conocido son
las probabilidades condicionadas P (Aj|Bi) de obtener cada posible resultado Aj cuando apa-
rece en la primera fase Bi.
texto, las probabilidades P (B1), …, P (Bn) se conocen con Bayes fue el primero en utilizar la probabili-
dad inductivamente y en establecer una base
el nombre de probabilidades a priori, mientras que las pro- matemática para la inferencia probabilística
babilidades P (Bj|A) se denominan probabilidades a poste- (la manera de calcular, a partir de la frecuen-
cia con la que un acontecimiento ha ocurrido,
riori, ya que se determinan una vez obtenida la evidencia la probabilidad de que ocurra en el futuro).
muestral. Esta evidencia permite calcular las probabilida- Laplace aceptó sus conclusiones en 1781.
des P (A|Bj), llamadas verosimilitudes.
EJEMPLO 17
En el ejemplo anterior, supóngase que se sabe que el chip extraído ha sido grande. Calcular la probabilidad
de que proceda de la primera caja.
Hay que calcular la probabilidad P (B1|A). Aplicando el teorema de Bayes:
EJEMPLO 18
Una universidad compra sus equipos informáticos a 3 proveedores diferentes. Supóngase que el 20 % de
los equipos fueron comprados al proveedor 1, el 30 % al proveedor 2 y el 50 % al proveedor 3. Además, se
.../...
www.udima.es 83
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
sabe que antes del primer año fallan el 1 % de los equipos del proveedor 1, el 2 % de los del proveedor 2 y el
3 % de los del proveedor 3. Se selecciona al azar un computador y se observa que falla antes del primer año.
Determinar la probabilidad de que este haya sido comprado al proveedor 2.
Se consideran los siguientes sucesos:
P (A|B2) P (B2)
P (B2|A) = = 0,26
Σ3j =1 P (A|Bj) P (Bj)
10. A
NEXO: MÉTODOS DE CONTEO PARA DETERMINACIÓN DE PROBABI-
LIDADES
En muchos casos, como en algunos juegos de azar, se trabaja con espacios muestrales finitos en los
que los sucesos elementales son equiprobables. Como ya se ha visto, en estos casos se utiliza la regla
de Laplace para determinar la probabilidad de sucesos compuestos, y, por tanto, se necesita determinar
cuántas situaciones se consideran favorables y cuántas posibles. Para ello se utiliza el análisis combina-
torio, el cual se estudia con más profundidad en el manual de Matemática discreta.
• Población. Es una colección finita o infinita de elementos, que va a ser el conjunto de refe-
rencia sobre el que van a recaer las observaciones.
• Muestra de tamaño r. Es un subconjunto de la población con r elementos.
• Muestreo. Es la toma de la muestra. Se utilizará el muestreo aleatorio, es decir, se supone que
la muestra se selecciona mediante un experimento aleatorio. Existen dos tipos de muestreo:
– Sin reemplazamiento.
– Con reemplazamiento.
84 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Para contar el número de veces que pueden ocurrir todos los sucesos que se pueden observar se uti-
liza el principio fundamental del conteo o regla de multiplicación que se expresa de la siguiente forma:
dados k conjuntos A1, A2, …, Ak cada uno con un número de elementos n1, n2, …, nk respectivamente,
se pueden formar n1 · n2 · … nk ordenaciones de la forma (x1, …, xk) donde x1 es un elemento de A1,
…, xk es un elemento de Ak.
EJEMPLO 19
Se quiere clasificar un colectivo de personas según su sexo (hombre, mujer), estado civil (soltero, casado,
viudo) e idioma (considérense 10 básicos). Determinar el número de clases que se obtendrán:
2 · 3 · 10 = 60 clases
Este principio establece que todos los posibles resultados en una situación determinada se pueden encon-
trar multiplicando el número de formas en las que puede suceder cada suceso y es la base para desarrollar
otros conceptos como variaciones y combinaciones que se presentan a continuación.
Para determinar todas las muestras diferentes de tamaño r que se pueden seleccionar sin reempla-
zamiento de una población de tamaño n y en la que los objetos están ordenados (importa el orden en el
que están colocados) se utilizan las variaciones.
Utilizando el principio fundamental de conteo se obtiene cuántos grupos hay. Para la primera posi-
ción se puede seleccionar cualquiera de los n elementos, para la segunda, como ya se ha extraído un ele-
mento de la población y el muestreo es sin reemplazamiento, se tienen n – 1 opciones, para la tercera,
n – 2, etc. Siguiendo con este razonamiento, para la última posición ya se han utilizado r – 1 elementos,
quedando n – (r – 1) = n – r + 1 elementos entre los que se seleccionará este último. Así:
n!
Vn,r = n (n – 1) … (n – r + 1) =
(n – r)!
Pn = Vn,n = n!
www.udima.es 85
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 20
Con las letras distintas de la palabra probabilidad, formar palabras de 3 letras diferentes (aunque carezcan
de significado). ¿Cuántas de ellas empiezan por P? ¿Cuántas empiezan por P y acaban en D?
En total se pueden formar V8,3 = 8 · 7 · 6 = 336 palabras, de las cuales empiezan por P V7,2 = 7 · 6 = 42 y las que
empiezan por P y acaban en D son V6,1 = 6.
Variaciones con repetición de n elementos tomados de r en r son los diferentes grupos de r ele-
mentos que se pueden formar con los n elementos, en los que pueden aparecer elementos repetidos, de
forma que dos grupos son distintos si tienen algún elemento distinto o si están en distinto orden. Es decir,
son las variaciones ordinarias, pero admitiendo la posibilidad de que se repitan elementos en un mismo
grupo. Se denotan con VRn,r.
Ahora se tienen n opciones en cada una de las extracciones por ser con reemplazamiento. Así:
VRn,r = nr
Una aplicación inmediata de las variaciones con repetición es a los problemas de ocupación de r
bolas en n celdas, considerando las bolas como distinguibles. Representan las formas posibles de meter
las r bolas en las n celdas.
EJEMPLO 21
VR3,14 = 314
Cuando el muestreo se realiza sin reemplazamiento y no importa el orden de los elementos dentro
del grupo, se obtienen las combinaciones.
86 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Vn,r n! n
Cn,r = = = � �,r≤n
r! (n – r)! r! r
Estos números se llaman números combinatorios o coeficientes binomiales. Algunas de sus pro-
piedades son las siguientes:
n n n n
• � �=� � y de ahí � � = � � = 1
r n–r n 0
n
• � �=n
1
n n–1 n–1
• � �=� �+� �
r r–1 r
EJEMPLO 22
10 10!
C10,3 = � 3 � = =6
7! · 3!
4 4!
C4,2 = � 2 � = =6
2! · 2!
Por tanto, el número de maneras en que ambos pueden ocurrir es 120 · 6 = 720.
www.udima.es 87
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Al ser un muestreo con reemplazamiento, serán necesarios r reemplazamientos, con lo que se puede
considerar como una selección sin reemplazamiento, en la que se tiene en cuenta el orden de los elemen-
tos, de r elementos de una población con n + r – 1 elementos. Así:
n+r–1
CRn,r = � �
r
Las combinaciones con repetición se utilizan en los problemas de ocupación de r bolas en n celdas,
cuando las bolas son indistinguibles.
EJEMPLO 23
10
CR6,5 = � 5 �
10.5. PARTICIONES
Las permutaciones con repetición de r elementos distintos tales que el primero aparece n1
veces,…, el r-ésimo nr veces, con n1 + n2 + … + nr = n, son los diferentes grupos que se pueden formar
con los r elementos distintos de forma que en cada grupo cada elemento aparezca n1, …, nr veces res-
pectivamente y esto en un orden determinado. Se denotan con PR nn1, …, nr.
Esto equivale a determinar el número de particiones distintas de tamaño r en las que se pueden divi-
dir los n elementos de forma que el primer grupo tenga tamaño n1, …, el r-ésimo grupo tamaño nr . Se
puede demostrar que:
n!
PR nn1, …, nr =
n1! n2! … nr!
88 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 24
Se reparten las 40 cartas de una baraja entre 4 jugadores. Calcular la probabilidad de que cada jugador tenga
un as.
• Casos posibles:
40!
PR40
10,10,10,10 =
(10!)4
• Casos favorables:
Si le toca un as a cada jugador, las 36 cartas restantes se pueden repartir en 4 grupos de 9 cartas de
PR369,9,9,9 formas.
Y las formas de repartir los 4 ases entre los 4 jugadores son P4 = 4! , con lo que los casos favorables son:
4! · PR36
9,9,9,9
4! · PR36
9,9,9,9
PR40
10,10,10,10
www.udima.es 89
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
ACTIVIDADES DE REPASO
Enunciado 1
Una urna contiene r bolas rojas y b blancas. Se extrae una bola al azar y se observa el color. Se
devuelve la bola a la urna, introduciéndose además k bolas adicionales del mismo color. Se extrae alea-
toriamente una segunda bola, se observa el color y se devuelve a la urna junto con k bolas adicionales
del mismo color. Cada vez que se extrae una bola se repite el proceso. Si se extraen 4 bolas, ¿cuál es la
probabilidad de que las tres primeras sean rojas y la cuarta blanca?
Enunciado 2
En el lanzamiento de 2 dados, se ha observado que la suma total de los dos números ha sido impar.
Determinar la probabilidad de que dicha suma sea menor que 8.
Enunciado 3
Un centro de cálculo dispone de 3 grandes procesadores que atienden trabajos de distintos tipos de
los alumnos del centro. De los trabajos que llegan, 2/5 son para el procesador A, 2/5 para el B y 1/5 para
el C. Además, se reserva parte del tiempo para tareas de mantenimiento y uso por parte del personal del
centro, de manera que el procesador A solo está disponible para los alumnos el 50 % del tiempo, y el B
y el C solo están disponibles el 75 %. Calcular la probabilidad de que:
90 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Enunciado 4
Un sistema contiene 3 componentes A, B y C que se pueden conectar según las dos configuracio-
nes de la figura 4.
Figura 4. Configuraciones
A
A B
C
C
Enunciado 5
En el jardinero del señor Rodríguez no se puede confiar. La probabilidad de que olvide regar el
rosal durante la ausencia del señor Rodríguez es 2/3. El rosal está delicado. Si se riega, tiene la misma
probabilidad de progresar que de secarse; pero si no se riega, la probabilidad de progresar es solamente
0,25. Después de su regreso, el señor Rodríguez se encuentra con el rosal seco. ¿Cuál es la probabilidad
de que el jardinero no lo haya regado?
E
JERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
1. En una clase hay N alumnos. Calcular la probabilidad de que al menos dos cumplen años
el mismo día. Indicar las hipótesis realizadas para resolver el problema. ¿Cuál es el número
mínimo de alumnos a los que debe preguntar para que la probabilidad de encontrar uno con
su mismo cumpleaños sea, al menos, 0,5?
2. Buscar un ejemplo que muestre que P (A ∩ B ∩ C ) = P (A) P (B) P (C ) no implica que los
tres sucesos A, B y C sean independientes dos a dos.
www.udima.es 91
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
3. Un concursante debe elegir entre 3 puertas, detrás de una de las cuales se encuentra el pre-
mio. Hecha la elección y antes de abrir la puerta, el presentador le muestra que en una de
las puertas no escogidas no está el premio y le da la posibilidad de reconsiderar su elección.
¿Qué debe hacer el concursante?
4. Un cierto dispositivo formado por seis válvulas tiene la configuración de la figura 5.
Figura 5. Dispositivo
1 4
3
A B
5 6
REFERENCIAS BIBLIOGRÁFICAS
Básica
92 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
MENDENHALL, W. y SINCICH, T.: Probabilidad y estadística para ingeniería y ciencias, 4.ª ed, Prentice Hall, 1997.
MEYER, P. L.: Probabilidad y aplicaciones estadísticas, Addison-Wesley Iberoamericana, 1992.
PEÑA, D.: Fundamentos de estadística, Alianza Editorial, 2001.
RÍOS, S.: Ejercicios de estadística, 3.ª ed., ICE ediciones, 1977.
En la red
Avanzada
www.udima.es 93
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
4
UNIDAD
DIDÁCTICA
VARIABLES ALEATORIAS
OBJETIVOS DE LA UNIDAD
5. Desigualdad de Tchebychev
www.udima.es 95
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
96 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
En esta unidad didáctica se estudia el concepto básico de variable aleatoria, así como diversas fun-
ciones fundamentales en su desarrollo. Es un concepto clave, y de su buena comprensión dependerá poder
trabajar con modelos probabilísticos apropiados del mundo real. Las medidas características que se estu-
diaron en la unidad didáctica 2 relacionadas con un conjunto de datos se extienden a medidas caracterís-
ticas de variables aleatorias al final de esta unidad didáctica.
www.udima.es 97
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Dado un fenómeno o experimento aleatorio como, por ejemplo, el lanzamiento de una moneda, inte-
resa conocer si es cara o cruz. Para facilitar el tratamiento matemático del resultado del experimento se
asociará a cada resultado posible un número real. Así, por ejemplo, si sale cara se representa con un 1, y
si sale cruz, con un 0. Esta es la versión más sencilla de variable aleatoria, una función que asocia a cada
resultado posible del espacio muestral un número real.
EJEMPLO 1
En el experimento de lanzar 1 moneda, el espacio muestral (conjunto de resultados posibles) es Ω = {c, x}.
En este contexto y si la moneda no está trucada:
1 1
P (c) = y P (x) =
2 2
Asociar a cada resultado del experimento un número real es el primer paso para definir una variable alea-
toria, por ejemplo:
X: Ω → ℝ
c → 1
x → 0
EJEMPLO 2
En el lanzamiento de 2 monedas interesa conocer el número de caras en una tirada. Se asocia a cada
resultado posible del experimento un número que represente dicho número de caras, definiendo la
aplicación:
X: Ω → ℝ
cc → 2
cx → 1
xc → 1
xx → 0
Sea Ω un espacio muestral sobre el que está definida una función de probabilidad. Una variable
aleatoria X es una función con valores en ℝ definida sobre Ω. Transforma los resultados de Ω en pun-
tos de ℝ, es decir, en cantidades numéricas. Es aleatoria porque involucra la probabilidad de los resul-
tados de Ω.
98 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 3
En el experimento del ejemplo 2, Ω = {cc, cx, xc, xx}. La probabilidad de cada uno de estos resultados, al ser
las tiradas independientes, es 1/4. La variable aleatoria X definida es tal que:
En general, se definirá la variable aleatoria asignando a cada resultado del experimento un número,
de forma que:
La variable aleatoria estará definida cuando se hayan especificado sus posibles valores con sus res-
pectivas probabilidades.
EJEMPLO 4
La variable aleatoria del ejemplo 2 toma los valores 0, 1 y 2, según sea el número de caras obtenidas al lan-
zar las dos monedas. La probabilidad, que en un principio estaba definida sobre el espacio muestral Ω, se
traslada, inducida por la variable aleatoria X, a una probabilidad sobre los valores 0, 1 y 2:
1
P (X = 0) = P ({xx}) =
4
1 1 1
P (X = 1) = P ({cx, xc}) = + =
4 4 2
1
P (X = 2) = P ({cc}) =
4
Tabla 1. Correspondencia entre los resultados del experimento y la variable aleatoria del ejemplo 2
Valor de Número de
Resultado Probabilidad
la variable aleatoria ocurrencias
{xx} 0 1 1/4
{cx, xc} 1 2 1/2
{cc} 2 1 1/4
www.udima.es 99
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Las variables aleatorias poseen intrínsecamente la naturaleza discreta o continua del espacio mues-
tral asociado. Se tienen:
La variable aleatoria discreta reparte o distribuye su masa o probabilidad en una cantidad discreta
de puntos. Se denotará por p (x) = P (X = x) la probabilidad de que X tome el valor x. Al considerar
los valores de una variable aleatoria, la función que asigna una probabilidad a cada realización x de X
recibe el nombre de función de probabilidad. Esta función de probabilidad también se llama función
de masa o cuantía. Claramente, si el valor x concreto no es uno de los valores de X, entonces su proba-
bilidad será 0, p (x) = 0.
Se llama soporte de una variable aleatoria discreta al conjunto de puntos que tienen probabilidad
distinta de 0 y a cada uno de esos puntos se los llama puntos de masa.
EJEMPLO 5
La variable aleatoria X = Número de caras que se obtienen al lanzar dos monedas tiene como soporte el conjunto
{0, 1, 2} y su función de probabilidad es (véase ejemplo 4):
1
p (0) = P (X = 0) =
4 .../...
100 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
1
p (1) = P (X = 1) =
2
1
p (2) = P (X = 2) =
4
p (x)
0,50
0,25
0 1 2 X
Otra forma equivalente de caracterizar la distribución de una variable aleatoria es mediante la fun-
ción de distribución. La función de distribución de la variable aleatoria X, definida en cada punto x0, da
la probabilidad de que X tome un valor menor o igual que x0:
Si la variable aleatoria toma los valores (ordenados) x1, x2, …, xn, la función de distribución viene
dada por:
Por tanto, la función de distribución tiene saltos en los puntos que tienen probabilidad distinta de 0
del espacio muestral. Estos saltos tienen como magnitud la probabilidad en dicho punto. La función es
constante en los puntos situados entre dos puntos de salto.
www.udima.es 101
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
• 0 ≤ F (x) ≤ 1, ∀x.
• Es monótona no decreciente: si xi ≤ xj ⇒ F (xi) ≤ F (xj).
• F (– ∞) = lim x→–∞ F (x) = 0 y F (+ ∞) = 1.
• Es continua por la derecha: lim h→0 F (x + h) = F (x), h > 0.
• P (X > x) = 1 – P (X ≤ x) = 1 – F (x).
• P (X = x) = F (x) – F (x – 1), si X toma valores enteros.
• P (xi ≤ X ≤ xj) = F (xj) – F (xi – 1), si X toma valores enteros.
EJEMPLO 6
0 si x<0
F (x) =
{ 1
4
3
4
1
si
si
si
0≤x<1
1≤x<2
x≥2
F (x)
0,75
0,50
0,25
0 1 2 X
102 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Una variable aleatoria continua toma valores en un conjunto infinito no numerable de puntos. En
este caso no es posible asignar una probabilidad a cada uno de los infinitos valores posibles que puede
tomar, por lo que se habla de probabilidad de intervalos en lugar de probabilidad de puntos. De hecho, la
probabilidad de que una variable aleatoria continua tome un valor concreto y específico es 0. Por ejem-
plo, si se mide el tiempo de ejecución de determinado programa de forma repetida con un cronómetro
de precisión hasta las milésimas, ¿cuál es la probabilidad de obtener exactamente una duración de 3,332
minutos? Tal vez no se obtenga nunca, por muchas mediciones que se efectúen. Sin embargo, sí se obten-
drán medidas que oscilen entre 3 y 3,5 segundos, es decir, en el intervalo [3; 3,5] o en el intervalo [3, 4].
Las variables aleatorias continuas se caracterizan mediante su función de densidad y/o su función
de distribución:
0,8
0,6
0,4
0,2
0
‒ 3,2 ‒ 1,2 0,8 2,8 4,8
• ƒ (x) ≥ 0.
∞
• �–∞ ƒ (x) dx = 1, es decir, el área bajo la curva es igual a 1.
www.udima.es 103
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
ƒ (x)
ƒ (x)
x0 a b
∆x ∆x
Para una base lo suficientemente pequeña, ∆x, la probabilidad del intervalo �x0 – , x0 + �
2 2
se puede aproximar por el área del rectángulo de altura ƒ (x0) (véase figura 5):
ƒ (x)
x0 x
x0 ‒ ∆x/2 x0 + ∆x/2
104 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
En resumen, la función de densidad ƒ (x) representa una aproximación muy útil para calcular pro-
babilidades partiendo de un histograma de forma:
Para una variable aleatoria X se define la función de distribución F (x) como en el caso discreto.
Es la probabilidad de que X tome un valor menor o igual que un x específico:
x
F (x) = P (X ≤ x) =� ƒ (t) dt
–∞
Es el área bajo la curva representada por la función de densidad ƒ (x) situada a la izquierda de la
x
recta X = x. Como P (X = x) = �x ƒ (t) dt = 0, se tiene:
b a b
• P (a < X < b) = F (b) – F (a) = �–∞ ƒ (t) dt – �–∞ ƒ (t) dt = �a ƒ (t) dt.
• F es continua.
• Si ƒes continua en x, entonces F es derivable en x y F ' (x) = ƒ (x).
En general, la función de distribución F (x) de una variable aleatoria continua X se caracteriza por:
• 0 ≤ F (x) ≤ 1, ∀x.
• Si x1 ≤ x2 ⇒ F (x1) ≤ F (x2), es decir, es monótona no decreciente.
• F (– ∞) = 0 y F (∞) = 1.
• F es continua.
• P (X ≥ x) = 1 – F (x).
• P (X = x) = 0.
b
• P (a ≤ X ≤ b) = �a ƒ (x) dx = F (b) – F (a).
• F' (x) = ƒ (x) si ƒ es continua en x.
www.udima.es 105
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 7
Se tiene la función:
λe –λx
ƒ (x) = { 0
si x>0
en otro caso
Donde λ > 0. Comprobar que ƒ (x) define una función de densidad, obtener la correspondiente función de
distribución F (x) y calcular P (2 < X < 6) y P (X ≤ 8).
Es función de densidad, ya que:
• ƒ ≥ 0.
∞ ∞ ∞
• �–∞ ƒ (x) dx = �0 λe‒λx dx = ‒ e‒λx � 0 = 1 (en la resolución de la integral se ha omitido el corchete izquierdo).
x x x
∀x > 0, F (x) = �–∞ ƒ (t) dt = �0 λe‒λt dt = ‒ e‒λx � 0 = 1 ‒ e‒λx
x
∀x ≤ 0, F (x) = �–∞ 0 dt = 0
Por tanto:
1 ‒ e–λx si x>0
F (x) = { 0 si x≤0
F (x) es una función continua y ƒ (x) es la derivada de F (x) ∀x ∈ ℝ\{0}, ya que en x = 0 la función F no es
derivable (ƒ es discontinua en x = 0).
Para la distribución de una variable aleatoria se definen medidas características igual que se hizo
anteriormente para una distribución de frecuencias. Estas medidas características se suelen representar
con letras griegas para diferenciarlas de las que se calculan sobre un conjunto de datos o muestra, que se
representan con letras romanas y que se estudiaron en la unidad didáctica 2.
4.1.1. Media
La media, esperanza matemática o valor esperado de una variable aleatoria X es el promedio o valor
medio de X y se obtiene, por tanto, promediando (multiplicando) cada posible valor por su probabilidad:
106 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 8
Tabla 2
Ganancia en
Probabilidad
miles de euros
7 0,03
10 0,12
12 0,15
18 0,30
25 0,25
29 0,15
Participando en el concurso, la empresa obtendría un beneficio medio de 19,21 (unos 19.200 €).
EJEMPLO 9
∞
∞ ∞ e‒λx 1
E (X) =� x ƒ (x) dx = � x λe‒λx dx = ‒ � =
–∞ 0 λ 0 λ
Observaciones:
• La esperanza no tiene por qué ser uno de los valores posibles de la variable aleatoria X.
• La esperanza es un número fijo, no es una función de X. Puede no existir si la correspon-
diente suma o integral no converge a un valor finito.
www.udima.es 107
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Σx
4.1.2. Mediana
1
P (X ≤ Me) = si X es continua
2
1 1
F (Me) ≥ y F (Me–) ≤ si X es discreta Christian Huygens (La Haya, 1629-1695).
2 2 Fue un matemático, físico y astrónomo fran-
cés nacido en el seno de una importante
familia holandesa.
En el caso discreto, es el menor valor que satisface Fue uno de los pioneros en el estudio de la pro-
babilidad, publicando el libro De Ratiociniis in
Ludo Aleae (sobre los cálculos en los juegos
1
F (x) ≥ de azar) en 1656.
2 En dicha obra introdujo el concepto de es-
peranza matemática y resolvió algunos de
los problemas propuestos por Pascal, Femat
En las figuras 6 y 7 se puede ver cómo obtener la me- y De Méré.
diana gráficamente a partir del dibujo de la función de dis- Resolvió numerosos problemas geométricos
como la rectificación de la cisoide y la deter-
tribución. La figura 7, en concreto, refleja el caso en el que minación de la curvatura de la cicloide.
la mediana no es única.
EJEMPLO 10
4x3 si 0≤x≤1
ƒ (x) = { 0 en el resto
.../...
108 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
Me 1 1
F (Me) = � 4x3 dx = (Me)4 = ⇒ Me =
⁴ 2
0 2 √
F (x) F (x)
1 1
0,5 0,5
Me x Me x
F (x) F (x)
1 1
0,5 0,5
{
Me x Me x
4.1.3. Moda
Para una variable aleatoria X, se define la moda Mo como aquel valor de X más probable. Es decir,
es el valor que maximiza la función de probabilidad si X es discreta y del valor que maximiza la función
de densidad si X es continua. En este último caso debería verificar que ƒ' (x) = 0 y ƒ'' (x) < 0. Si la moda
no es única, la distribución correspondiente se llama plurimodal o multimodal.
www.udima.es 109
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Σx
V (X) = σ2 =
{ �
–∞
(x – μ)2 p (x)
+∞
(x – μ)2 ƒ (x) dx
si X es discreta
si X es continua
La varianza es una medida de dispersión alrededor de la media. La figura 8 muestra dos funciones
de densidad para el caso de variables aleatorias continuas con distinta varianza. La más alta tiene menor
varianza que la otra; es decir, está menos dispersa alrededor de la media que, en ambos casos, es 0.
0,4
0,3
0,2
0,1
0
‒ 15 ‒ 10 ‒ 5 0 5 10 15
Propiedades:
• V (X) ≥ 0.
• Si a y b son dos números reales, V (aX + b) = a2 V (X).
• Para cualquier variable aleatoria X, V (X ) = E (X 2) – E (X)2.
• V (X) = 0 ⇔ ∃ c constante tal que P (X = c) = 1.
σ
CV =
| μ|
110 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Expresa la magnitud de la dispersión de una variable aleatoria con respecto a su media. Se utiliza
para comparar dos distribuciones de probabilidad cuando la escala de medición difiere de manera apre-
ciable entre estas.
4.2.2. Cuantiles
• Percentiles. Son los puntos que dividen la distribución en 100 intervalos, cada uno con pro-
babilidad 0,01.
• Deciles. Son 9 puntos que dividen la distribución en 10 partes iguales, cada una con una
probabilidad de 0,1.
• Cuartiles. Son 3 puntos que dividen la distribución en 4 partes iguales, cada una con pro-
babilidad 0,25.
4.2.3. Recorrido
El recorrido es la diferencia entre el máximo y el mínimo de los valores que puede tomar una varia-
ble aleatoria. El recorrido o rango intercuartílico es la diferencia entre el tercer y primer cuartil, es
decir, x0,75 – x0,25. Representa la zona central de la distribución en la que se encuentra el 50 % de la pro-
babilidad. Este rango es la medida absoluta de dispersión más utilizada.
También se puede utilizar el recorrido o rango interdecílico, que es la diferencia entre el noveno
y el primer decil, es decir, x0,9 – x0,1. Representa la zona central en la que se encuentra el 80 % de la
probabilidad.
Los momentos de una variable aleatoria son valores esperados de ciertas funciones de X. Forman
una colección de medidas descriptivas que se pueden utilizar para caracterizar la distribución de X.
También llamado momento de orden k alrededor del cero o centrado, se define como:
Σx
ak = E (X k) =
{ �
–∞
x k p (x)
+∞
x k ƒ (x) dx
si X es discreta
si X es continua
www.udima.es 111
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Σx
μk = E [(X – μ)k] =
{ �
–∞
(x – μ)k p (x)
+∞
(x – μ)k ƒ (x) dx
si X es discreta
si X es continua
Observaciones:
• α1 = μ.
• μ2 = V (X).
• α0 = μ0 = 1, μ1 = 0, μ2 = α2 – α21.
Si la distribución de X es simétrica respecto a μ, todos los μk con k impar serán 0. Sin embargo, si
la distribución es asimétrica, los μk se harán cada vez mayores cuanto más grande sea la asimetría. Se
utiliza como medida de la asimetría de una distribución el tercer momento central estandarizado, que se
denomina coeficiente de asimetría de Fisher o primer factor de forma:
μ3
γ1 =
σ3
• Si γ1 = 0, la distribución es simétrica.
• Si γ1 > 0, la distribución presenta asimetría positiva o desviada a la derecha.
• Si γ1 < 0, la distribución presenta asimetría negativa o desviada a la izquierda.
μ4
γ2 = –3
σ4
112 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Si X es una variable aleatoria con media o esperanza μ y desviación típica σ, la variable aleatoria:
X–μ
Y=
σ
5. DESIGUALDAD DE TCHEBYCHEV
Conociendo la media y la desviación típica de una variable aleatoria se puede calcular la proporción
de la distribución que está entre μ ± kσ, siendo k > 0. Por ejemplo, para cualquier variable aleatoria, el
intervalo μ ± 3σ contiene al menos el 89 % de la distribución y el intervalo μ ± 4σ el 94 %.
EJEMPLO 11
La variable aleatoria X = Número de personas que acuden diariamente a cierto local tiene distribución conocida,
media μ = 200 y desviación típica σ = 10. ¿Cuántas sillas habrá que preparar para tener una probabilidad de
0,75 o más de que todos los asistentes puedan sentarse?
Se resuelve mediante la desigualdad de Tchebychev. Se quiere una probabilidad de al menos 0,75 de que la
distancia entre X y su media sea menor o igual que un valor t. Ese valor t sumado a la media será el número
de sillas que se busca.
100
P (| X ‒ 200 | ≤ t) ≥ 1 = 0,75 ⇒ t = 20
t2
www.udima.es 113
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
Enunciado 2
Enunciado 3
0≤x≤1
ƒ (x) =
{ 2x
0
si
en el resto
Enunciado 4
Sea la variable aleatoria discreta con soporte el conjunto {0, 1, 2, 3, 4} y función de probabilidad:
1
p (x) = ∀ x ∈ {0, 1, 2, 3, 4}
5
114 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Enunciado 5
www.udima.es 115
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Solución 1
Solución 2
Solución 3
2
Se obtiene E (X) = .
3
Solución 4
Solución 5
3
La cota inferior para dicha probabilidad es .
4
E
JERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
116 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
2. Sea la función:
3
ƒ (x) =
{ 2
0
x2 si –1≤x≤1
en otro caso
5e–5x si x > 0
ƒ (x) = { 0 si x ≤ 0
Calcular la mediana.
Tabla 3
Valores de X p (x)
1 0,4
3 0,1
4 0,2
5 0,3
5. Un jugador lanza 3 monedas equilibradas (la probabilidad de que salga cara y cruz es 0,5,
respectivamente). Gana 5 euros por cada cara que salga y pierde 1 euro por cada cruz. Se
define la variable aleatoria X = Ganancia del jugador. Calcular la función de probabilidad
de X y su esperanza.
REFERENCIAS BIBLIOGRÁFICAS
Básica
www.udima.es 117
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
En la red
Avanzada
CUADRAS, C. M:. Problemas de probabilidades y estadística, Barcelona: Promociones y Publicaciones Universitarias, 1991.
QUESADA V. y GARCÍA A.: Lecciones de cálculo de probabilidades, Díaz de Santos, 1988.
118 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
5
UNIDAD
DIDÁCTICA
VARIABLES ALEATORIAS
DISCRETAS Y CONTINUAS
OBJETIVOS DE LA UNIDAD
2. Distribución de Bernoulli
2.1. Medidas características
3. Distribución binomial
3.1. Medidas características
4. Distribución geométrica
4.1. Medidas características
6. Distribución de Poisson
6.1. Medidas características
6.2. Aproximaciones
7. Distribución uniforme
7.1. Medidas características
www.udima.es 119
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
9. Distribución gamma
9.1. Medidas características
9.2. Distribución de Erlang
9.3. Distribución exponencial
120 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
En esta unidad didáctica se presentan algunos ejemplos estándar de variables aleatorias discretas
y continuas, relacionadas de diversas formas dependiendo de su especificidad. Dentro de las variables
aleatorias discretas se verán las siguientes distribuciones: uniforme discreta, Bernoulli, binomial, geomé-
trica, binomial negativa y de Poisson. Dentro de las continuas se analizarán las distribuciones uniforme,
normal, gamma (con la distribución exponencial como un caso particular importante) y beta. Servirán
como modelos para situaciones reales, según sea el grado de complejidad y sofisticación de las mismas.
Es importante entender bien sus características para poder identificar qué situaciones se adaptan a cada
una, reconocer sus parámetros y calcular probabilidades de sucesos concretos. Tras conocer en detalle
cada una de ellas, se estudiará en qué condiciones se admiten aproximaciones a la distribución normal,
cuya importancia se verá reflejada y quedará justificada en los contenidos de las unidades didácticas rela-
cionadas con la inferencia estadística.
• Conocer a nivel conceptual y operativo las distribuciones discretas y continuas más impor-
tantes, motivadas a través de ejemplos.
• Conocer qué tipo de aproximaciones existen entre estas distribuciones.
• Desarrollar la habilidad de asociar un modelo determinado de los estudiados a una situa-
ción real concreta.
• Entender cuándo pueden obtenerse aproximaciones a la distribución normal.
www.udima.es 121
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Se dice que una variable aleatoria X tiene una distribución uniforme sobre n puntos x1, …, xn ∈ ℝ
si su función de probabilidad es:
1
P (X = xi) = p (xi) = , i = 1, 2, …, n
n
{
0 si x < x(1)
1
si x(1) ≤ x < x(2)
n
… … …
F (x) =
k
si x(k) ≤ x < x(k+1), k = 2, …, n – 1
n
… … …
1 si x ≥ x(n)
• Media:
n 1
E (X) = Σ xi
i=1 n
= x–
• Varianza:
1 n 1 n
V (X) =
n
Σ (xi – x– )2 =
i=1 n
Σ xi2 – x– 2
i=1
• Momentos:
n 1 1 n
αk = E (X k) = Σ xi k
i=1 n
=
n
Σ xi k,
i=1
k = 1, 2, …
1 n
μk = E [(X – x– )k ] =
n
Σ (xi – x– )k ,
i=1
k = 1, 2, …
122 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
2. DISTRIBUCIÓN DE BERNOULLI
El espacio muestral es, por tanto, Ω = {exito, fracaso} = {E, F}. Además, supóngase que cada vez
que se realiza el experimento, P (E) = p y P (F) = 1 – p. A este experimento se le asocia la variable alea-
toria de Bernoulli:
X=
{ 1 si sale éxito
0 si sale fracaso
{
1 – p = q si x = 0 científico suizo, fue el primero de los Bernoulli
en graduarse en una universidad y dedicarse
p (x) = P (X = x) = p si x = 1 al estudio de las matemáticas.
Se graduó en teología y después recibió en-
0 en el resto señanza en matemáticas y astronomía en
contra de los deseos de sus padres.
{
0 si x < 0 En él aparecen los números de Bernoulli,
muchos ejemplos sobre la probabilidad de
F (x) = q si 0 ≤ x < 1 ganar en juegos de azar y la ley de los gran-
des números.
1=p+q si x ≥ 1
• Media:
E (X) = 1 ∙ p + 0 ∙ q = p
• Varianza:
V (X) = E (X 2) – E (X)2 = p – p2 = p (1 – p) = pq
• Momentos:
αk = E (X k) = 1k ∙ p + 0 k ∙ q = p, k = 1, 2, …
www.udima.es 123
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Como se puede observar, tanto la media como la varianza dependen de p. La varianza V (X) será
máxima cuando p = 1/2. En este caso existe la mayor incertidumbre respecto al resultado y la mayor
variabilidad: aparecerá a largo plazo igual número de ceros que de unos.
• Binomial.
• Geométrica.
• Binomial negativa.
3. DISTRIBUCIÓN BINOMIAL
n! n
PRnk,n–k = = � �
k! (n – k)! r
Así, se dice que la variable aleatoria X tiene una distribución binomial de parámetros n ∈ℕ, p ∈[0, 1]
(X ~ B (n, p)), si su función de probabilidad es:
n
P (X = k) = � � pk qn–k, k = 0, 1, 2, …, n
k
Observaciones:
X + Y ~ B (n1 + n2, p)
124 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
n n
Σ � k � p k qn–k = (p + q)n = 1n = 1
k=0
n
F (x) = P (X ≤ x) = Σ P (X = i) = Σ� � p i qn–i
i≤ x i≤ x i
Esta fórmula, aunque hay tablas para F (x) y P (X = i), no es manejable. Sin embargo, tiene una clara
representación gráfica, como se puede observar en la figura 1.
F (x)
0 1 2 … n x
• Media:
n n
E (X) = Σ x�
x
� p x q n–x = np
x=0
• Varianza:
www.udima.es 125
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 1
La longitud de las ráfagas de fotos tomadas por una cámara réflex digital es de 7 fotografías. La probabili-
dad de que una de esas fotos tenga muy poco ruido con poca luz ambiente es de 0,25.
a) ¿Cuál es la probabilidad de que al disparar una ráfaga se obtengan exactamente 5 fotos con muy poco
ruido?
b) Si se disparan dos ráfagas consecutivas, ¿cuál es la probabilidad de no obtener ninguna foto con muy
poco ruido?
c) Si se disparan dos ráfagas consecutivas, ¿cuál es la probabilidad de obtener al menos una ráfaga entera
con muy poco ruido?
que tiene una distribución binomial con n = 7 y p = 0,25, es decir, X ~ B (7, p = 0,25).
7
P (X = 5) = � 5 � 0,255 (1 ‒ 0,25)2 = 21 · 0,00097 · 0,5625 = 0,011458
b) Si se disparan dos ráfagas consecutivas, se obtienen 14 fotos. Ahora se considera la variable aleatoria:
que, por la reproductividad de la binomial, tiene una distribución B (14; 0,25) y la probabilidad bus-
cada es:
14
P (Y = 0) = � 0 � 0,250 (1 ‒ 0,25)14 = 0,7514 = 0,017817
Y ' = Número de ráfagas enteras con muy poco ruido, de las dos ráfagas
cuya distribución es una binomial B (2, p') donde p' es la probabilidad de obtener una ráfaga entera
con muy poco ruido, que se obtiene a partir de la variable aleatoria X como la probabilidad de que
todas las fotos de la ráfaga tengan muy poco ruido, es decir:
7
p' = P (X = 7) = � 7 � 0,257 0,750 = 0,000061
2
P (Y' ≥ 1) = 1 ‒ P (Y' = 0) = 1 ‒ � 0 � p'0 (1 ‒ p')2 = 1 ‒ (1 ‒ p')2 ≅ 0,000122
126 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
4. DISTRIBUCIÓN GEOMÉTRICA
P (X = x) = (1 – p)x–1 p, x = 1, 2, …
En general, para un experimento aleatorio en el que A es un suceso del espacio muestral corres-
pondiente, con P (A) = p, se realizan diversas pruebas independientes de ese experimento hasta que se
obtiene el suceso A. La probabilidad de que aparezca el suceso A por primera vez en la prueba número
x es la misma que la del suceso expresado por:
Ac Ac … Ac A
{
x–1
y será:
(1 – p) x–1 p
La variable aleatoria que cuenta el número de pruebas necesarias hasta que aparece por primera vez
el suceso A se llamará geométrica.
∞ ∞ 1
Σ P (X = x) = p Σ (1 – p) x–1 = p =1
x=1 x=1 1 – (1 – p)
k (1 – p)k – 1
F (x) = P (X ≤ x) = Σ p (1 – p)i–1 = p = 1 – qk
i =1 1–p–1
y cero en el resto. Se ha utilizado la fórmula de la suma de un número finito de términos de una progre-
sión geométrica de razón r, que es:
a n r – a1
r–1
www.udima.es 127
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
• Media:
∞ ∞ 1 1 1
E (X) = Σ x pq x–1 = p Σ x qx–1 = p =p =
x=1 x=1 (1 – q)2 p2 p
∞ q
S (q) = Σ qx =
x=1 1–q
∞ q 1
S' (q) = Σ xq x–1 = � � =
x=1 1–q (1 – q)2
• Varianza:
q
V (X) =
p2
P (X = x) = (1 – p) x p, x = 0, 1, 2, …
Esta variable se conoce con el nombre de geométrica generalizada de parámetro p. En este caso:
• Media:
q
E (X) =
p
• Varianza:
q
V (X) =
p2
EJEMPLO 2
Un polluelo de gaviota que quiere aprender a volar realiza intentos hasta que lo consigue. La probabilidad
de conseguirlo en cada uno de esos intentos es p = 0,4. Suponiendo que dichos intentos son independientes,
calcular la probabilidad de que necesite más de 4 intentos para volar por primera vez.
.../...
128 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
La variable aleatoria X = Número del intento en el que el polluelo vuela por primera vez sigue una distribución
geométrica de parámetro p = 0,4. La función de probabilidad es:
P (X = k) = q k‒1 p, k = 1, 2, 3, …
P (X > 4) = 1 ‒ P (X ≤ 4) = 1 ‒ P (X = 1) ‒ P (X = 2) ‒ P (X = 3) ‒ P (X = 4) =
4
=1‒ Σ qk‒1 p = 1 ‒ p (1 + q + q2 + q3) = 0,1296
k=1
que se distribuye según una geométrica generalizada de parámetro p = 0,4, y su función de probabilidad es:
P (X' = k) = q k p, k = 0, 1, 2, …
3
P (X' ≥ 4) = 1 ‒ P (X' < 4) = 1 ‒ Σ qk p = 1 ‒ p (1 + q + q2 + q3)
k=0
Es el caso en el que se observa una secuencia de pruebas independientes, con probabilidad de éxito
en cada una de ellas igual a p, pero en lugar de fijar el número total n de ensayos y contar el número de
éxitos (como se hace en la distribución binomial), se continúa con el número de pruebas hasta que han
ocurrido exactamente n éxitos. Se define entonces la variable aleatoria
que toma valores x = 0, 1, 2, … La variable aleatoria tomará el valor x en sucesos del tipo
FF … FF EE … EE
{
{
x n
cuya probabilidad es, por independencia, qx pn. Pero, ¿cuántos sucesos de este tipo hay? Todos lo que
surjan al dejar fijo el último éxito y combinar los x fracasos y los n – 1 éxitos restantes. Es decir, se repar-
ten n + x – 1 sitios para los x fracasos, ya que el resto son éxitos.
n+x–1
Formas de colocar x fracasos en n + x – 1 sitios: � �
x
n+x–1
Formas de colocar n – 1 éxitos en n + x – 1 sitios: � �
n–1
www.udima.es 129
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Evidentemente, ambos números combinatorios son iguales (véanse las propiedades de estos núme-
ros en la unidad didáctica 3) y la función de probabilidad es:
n+x–1
P (X = x) = � � qx pn, x = 0, 1, 2, 3, …
x
Se dice entonces que la variable aleatoria X tiene una distribución binomial negativa (X ~ BN (n, p)
si su función de probabilidad es la anterior.
• Media:
nq
E (X) =
p
• Varianza:
nq
V (X) =
p2
EJEMPLO 3
Para tratar a un paciente de una afección pulmonar han de ser operados, en operaciones independientes, sus
5 lóbulos pulmonares. La técnica a utilizar es tal que si todo va bien, lo que ocurre con probabilidad de 4/11,
el lóbulo queda definitivamente sano, pero si no es así, se deberá esperar el tiempo suficiente para inten-
tarlo posteriormente de nuevo. Se practicará la cirugía hasta que 4 de sus 5 lóbulos funcionen correctamente.
a) ¿Cuál es el valor esperado de intervenciones que se espera que deba padecer el paciente?
b) ¿Cuál es la probabilidad de que se necesiten 10 intervenciones?
4
X = Número de operaciones fallidas antes de que 4 lóbulos funcionen ~ BN � 4, �
11
130 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
Así, el número medio de intervenciones que se espera que padecerá el paciente es:
7
4
nq 11
E (Y) = E (X + 4) = E (X) + 4 = +4= = 7 + 4 = 11
p 4
11
7 6 4 4
4+6‒1
P (Y = 10) = P (X = 6) = � �� � � � ≅ 0,097539
6 11 11
6. DISTRIBUCIÓN DE POISSON
La variable aleatoria que cuenta el número de sucesos independientes que suceden a velocidad cons-
tante en un intervalo de longitud fija se llama variable aleatoria de Poisson. Es pues una variable alea-
toria discreta que toma valores en ℕ = {0, 1, 2, 3, …}. Se define como:
λk
P (X = k) = e–λ, k = 0, 1, 2, … y λ > 0
k!
www.udima.es 131
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Se dice que la variable aleatoria X tiene una distribución de Poisson de parámetro λ (X ~ � (λ))
donde λ representa el número medio de sucesos en ese intervalo de longitud fija. Por tanto, hay que tener
cuidado con las unidades en las que viene medido λ.
EJEMPLO 4
Supóngase que se define la variable aleatoria X = Número de trabajos que se procesan por día en un centro de
cálculo y se tiene el dato de que de media llegan 5 trabajos por hora. Entonces, si el centro de cálculo está
abierto un total de 12 horas:
∞ λk ∞ λk
Σ e–λ = e–λ Σ = e–λ eλ = 1
k=0 k! k=0 k!
x e–λ λi
F (x) = P (X ≤ x) = Σ
i=0 i!
• Media:
∞ λx ∞ λx–1 ∞ λy
E (X) = Σ x e–λ = λe–λ Σ = λe–λ Σ = λe–λ eλ = λ
x=0 x! x=1 (x – 1)! y=0 y!
V (X) = E (X) = λ
132 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 5
En un centro de cálculo las máquinas se averían siguiendo una distribución de Poisson de media 3 averías
por semana.
30
P (X = 0) = e ‒3 = e‒3 = 0,04978
0!
6.2. APROXIMACIONES
B (n, p) � (λ)
n→∞, p→0, np→λ
www.udima.es 133
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 6
Cierta enfermedad tiene una probabilidad muy baja de ocurrir, p = 1/100.000. Calcular la probabilidad de
que en una determinada ciudad de 400.000 habitantes haya más de 3 personas con dicha enfermedad. ¿Cuál
es el número esperado de personas enfermas?
Si se considera la variable aleatoria X, que contabiliza el número de personas de entre las 400.000 que padece
la enfermedad:
X ~ B (n = 400.000, p = 0,00001)
Como se dan las condiciones anteriormente descritas, se puede aproximar a una variable de Poisson,
X ~ � (np = λ = 4). Por tanto:
3 4x 4 42 43
P (X > 3) = 1 – P (X ≤ 3) = 1 – Σ e‒4 = 1 ‒ e‒4 � 1 + + + � = 0,556
x=0 x! 1! 2! 3!
7. DISTRIBUCIÓN UNIFORME
Una variable aleatoria X se distribuye según una distribución uniforme o rectangular en el inter-
valo [a, b] con ‒ ∞ < a < b < ∞, si su función de densidad está dada por:
{
1
si a≤x≤b
ƒ (x) = b‒a
0 en el resto
• ƒ ≥ 0 ∀x ∈ ℝ al ser a < b
∞ b 1 1
• � ƒ (x) dx = � dx = (b – a) = 1
–∞ a b–a b–a
{
0 si x<a
x–a
F (x) = si a≤x≤b
b‒a
1 si x>b
134 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
• Media:
∞ b x 1 x2 b 1 b2 – a2 a+b
E (X) = � x ƒ (x) dx = � dx = � = =
–∞ a b–a b–a 2 a b–a 2 2
b x2 1 x3 b 1 b3 – a3 b2 + ba + a2
E (X 2) =� dx = � = =
a b–a b–a 3 a b–a 3 3
Con lo que:
b2 + ba + a2 b2 + 2ba + a2 (b – a)2
σ2 = V (X) = E (X 2) – E (X)2 = – =
3 4 12
X ∈ U [a, b] ⇒ mX + n ∈ U [ma + n, mb + n]
Una variable aleatoria X tiene una distribución normal Desarrolló importantes contribuciones en pro-
babilidad, estadística y trigonometría.
con parámetros μ ∈ ℝ y σ > 0 (X ~ N (μ, σ)) si su función Entre sus obras destaca The Doctrine of
de densidad es la siguiente: Chances, en la que presenta conceptos fun-
damentales para el desarrollo del cálculo de
probabilidades como el concepto de eventos
1(x–μ)2 estadísticamente independientes, la distribu-
1 2 σ2
ción normal y el teorema central del límite.
ƒ (x) = e , x ∈ ℝ
σ √ 2π
www.udima.es 135
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
0,6
0,5 σ = 0,7
0,4
ƒ (x)
0,3
σ=1
0,2
0,1 σ=2
0
μ
‒ 10 ‒ 6 ‒ 2 2 6 10
x
1(x–μ)2
x 1 2 σ2
F (x) = � e dx
–∞ σ √ 2π
Esta función existe pero no se puede poner en función de las conocidas. Se transforma en una dis-
tribución N (0, 1) haciendo el cambio (x – μ)/σ = y:
x–μ y2
1 σ 2
F (x) = � e dy
√ 2π –∞
136 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
que es la función de distribución de una N (0, 1) en (x – μ)/σ, que está tabulada. Si Z ~ N (0, 1) (habi-
tualmente se utiliza Z para denotar una distribución N (0, 1)) se tiene:
x–μ
P (X ≤ x) = P � Z ≤ �
σ
Es decir:
x–μ
FN(μ,σ) (x) = FN(0,1) � �
σ
• Media:
E (X) = μ
• Varianza:
V (X) = σ2
Así:
X–μ
X ∈ N (μ, σ) ⇔ ∈ N (0, l )
σ
EJEMPLO 7
Dada una variable aleatoria X ~ N (μ, σ), se calcula la probabilidad de un intervalo (a, b) de la siguiente
forma:
www.udima.es 137
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 8
P (μ ‒ σ ≤ X ≤ μ + σ) = P (‒ 1 ≤ Z ≤ 1) = 0,6826
P (μ ‒ 2σ ≤ X ≤ μ + 2σ) = P (‒ 2 ≤ Z ≤ 2) = 0,9544
P (μ ‒ 3σ ≤ X ≤ μ + 3σ) = P (‒ 3 ≤ Z ≤ 3) = 0,9974
Estas probabilidades indican que existe gran concentración de valores alrededor de la media.
Así, basta estudiar la N (0, 1), cuya función de densidad es:
1
1 ‒
2
z2
ƒ (z) = e ∀z ∈ℝ
√ 2π
La función de distribución es:
z2
1 z ‒
2
F (z) = � e dz
√ 2π –∞
• Tablas de colas:
z2
2 ∞ ‒
2
P (|Z| ≥ z1) = P (‒ ∞ < Z ≤ ‒ z1) + P (z1 ≤ Z < ∞) = � e dz
z1
√ 2π
• Tablas de áreas acumuladas:
Conocida una tabla, se pueden construir las otras. En las tablas suelen aparecer en las columnas décimas y
en las filas centésimas, que forman la abscisa positiva de la N (0, 1).
EJEMPLO 9
P (Z ≤ ‒ z ) = P (Z ≥ z) = 1 ‒ P (Z ≤ z) = 1 ‒ F (z)
P (Z ≥ z) = 1 ‒ F (z)
.../...
138 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
P (Z ≥ ‒ z) = P (Z ≤ z) = F (z)
P (‒ z ≤ Z ≤ z) = F (z) ‒ F (‒ z) = F (z) ‒ (1 ‒ F (z)) = 2F (z) ‒ 1
EJEMPLO 10
Un tubo electrónico tiene una distribución normal de vida de 280 horas de media y desviación típica σ. ¿Cuál
debe ser el valor máximo que debe alcanzar σ si se quiere que el tubo tenga una probabilidad 0,8 de vivir
entre 240 y 320 horas?
Se define la variable aleatoria:
40
2P �Z ≤ � ‒ 1 = 0,8
σ
40 40
se busca σ tal que P �Z ≤ � = Fz � � = 0,9 .
σ σ
En la tabla de la N (0, 1) se debe buscar el valor z0,9, que verifica Fz (z0,9) = 0,9. Utilizando la tabla 1 situada
al final de la unidad didáctica, que contiene la función de distribución, e interpolando linealmente entre los
valores z0,8997 = 1,28 y z0,9015 = 1,29, se obtiene z0,9 = 1,2816, y
40
= 1,2816 ⇒ σ = 31,21098
σ
X ‒ np
X ∈ B (n, p) ⇒ Z ∈ N (0, 1)
√ npq
n→∞
www.udima.es 139
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 11
Como la distribución normal es continua, ¿cómo se pueden calcular probabilidades discretas? Se utiliza la
corrección de continuidad, que tiene en cuenta que el número n equivale al intervalo continuo (n ‒ 0,5; n + 0,5).
Así, X ∈ B (n, p) se aproxima a Y ∈ N (np, √ npq) significa en la práctica:
P (a ≤ X ≤ b) ≅ P (a ‒ 0,5 ≤ Y ≤ b + 0,5)
Además:
P (X ≤ b) ≅ P (Y ≤ b + 0,5)
P (X ≥ a) ≅ P (Y ≥ a ‒ 0,5)
P (X = a) ≅ P (a ‒ 0,5 ≤ Y ≤ a + 0,5)
np = λ < 5
B (n, p) � (λ)
n → ∞ (n ≥ 30)
np > 5 p → 0 (p < 0,1)
λ>5
n ≥ 30, p < 0,1
μ = λ, σ = √ λ
μ = np, σ = √ npq
N (μ, σ)
EJEMPLO 12
Un vivero prepara pedidos de la planta actinida (kiwi). Se necesita planta macho y planta hembra para la
fructificación. El vivero estima que el 6 % de las plantas son machos. Si se realiza un pedido de 100 plantas:
X = Número de plantas macho que hay entre las 100 plantas ~ B (100; 0,06)
140 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
9,5 ‒ 6
P (X ≥ 10) ≅ P (Y ≥ 9,5) = P � Z ≥ � = P (Z ≥ 1,47) =
√ 5,64
= 1 ‒ P (Z ≤ 1,47) = 1 ‒ 0,9292 = 0,0708
• Si X es discreta:
P (X = x, X ∈T) P (X = x)
P (X = x|X ∈ T) = = si x ∈ T
P (X ∈T) Σt∈T∩Dx p (t)
• Si X es continua:
ƒ (x)
si x ∈ T
�T ƒ (y) dy
www.udima.es 141
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 13
En una población el cociente intelectual sigue una distribución normal de media 100 y de varianza 256. Se
considera que un estudiante de informática terminará la carrera si su cociente intelectual es superior a 110.
Por otra parte, se clasifica a una persona como muy inteligente si su cociente es superior a 132. Calcular la
proporción de «muy inteligentes» entre los ingenieros en informática.
9. DISTRIBUCIÓN GAMMA
Se dice que una variable aleatoria X sigue una distribución gamma de parámetros λ, p > 0
(⇔ X ∈ γ (λ, p)) si su función de densidad es de la forma:
λp
ƒ (x) = x p–1 e –λx si x > 0
Γ (p)
Se puede demostrar que esta función es continua, que converge para p > 0 y que converge unifor-
memente respecto a p. Además, tiene las siguientes propiedades:
• Γ (1) = 1.
• Γ (p) = (p – 1) Γ (p – 1).
• Γ (p) = (p – 1)! si p ∈ ℕ.
1
• Γ� � =√π
2
∞ Γ (p)
• �0 x p–1 e–λx dx = , siendo λ = b + ic con b > 0.
λp
142 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
1
x= (p – 1)
λ
λ = 1, p = 1
0,8
0,6
ƒ (x)
0,4 λ = 1, p = 1,5
0,2
λ = 0,5, p = 1,5
0
0 4 8 12 16
x
X + Y ~ γ (λ, p1 + p2)
λp x
F (x) = � t p–1 e–λt dt, 0 < x < ∞
Γ (p) 0
• Media:
p
E (X) =
λ
www.udima.es 143
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
• Varianza:
p
V (X) =
λ2
Esta distribución se utilizó por primera vez en problemas de tráfico en líneas telefónicas.
Existe una asociación entre los modelos de Poisson y Erlang. Si el número de sucesos aleatorios
independientes que ocurren en un lapso específico es una variable de Poisson con frecuencia constante
de ocurrencia igual a λ, entonces, dado p ∈ ℕ, el tiempo de espera hasta que ocurre el p-ésimo suceso de
Poisson tiene una distribución de Erlang de parámetros λ y p.
Se tiene que la distribución de Erlang γ (λ, p) es el modelo para el tiempo de espera hasta que ocurre el
p-ésimo evento de Poisson, y la distribución de Poisson � (λx) es el modelo para el número de sucesos inde-
pendientes que ocurren en un tiempo x, encontrándose este distribuido de acuerdo con el modelo de Erlang.
Algunos ejemplos de modelos que siguen una distribución gamma son los siguientes:
• Tiempo aleatorio de fallo de un sistema que falla solo si de manera exacta los componentes
fallan y el fallo de cada componente ocurre a una frecuencia constante λ por unidad de tiempo.
• Problemas de líneas de espera para representar el intervalo total para completar una re-
paración si esta se realiza en subestaciones de manera independiente y con una frecuencia
constante λ.
• Si se considera una pieza metálica que se encuentra sometida a cierta fuerza, de manera que
se romperá después de aplicar un número específico de ciclos de fuerza, donde los ciclos
ocurren de manera independiente y a una frecuencia promedio; el tiempo que debe transcu-
rrir antes de que el material se rompa se distribuye según una gamma.
Es también un caso particular de la distribución gamma y es muy importante por sus múltiples usos
y aplicaciones.
Una variable aleatoria X sigue una distribución exponencial de parámetros λ > 0 (⇔ X ∈ Exp (λ))
si su función de densidad es:
λe–λx
ƒ (x) = { 0
si
en el resto
x>0
144 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Como se puede observar, la distribución exponencial es una distribución gamma con p = 1, es decir,
Exp (λ) ≡ γ (λ, p = 1). La función de distribución es F (x) = 1 – e–λx si x > 0 (0 en el resto).
• Media:
1
E (X) =
λ
• Varianza:
1
V (X) =
λ2
P (T > t) = P (0 sucesos en (0, t)) = e–λt ⇒ F (t) = 1 – e–λt ⇒ ƒ (t) = F' (t) = λe–λt
Así, que una unidad falle en un lapso específico no depende del tiempo que la unidad haya estado
en operación, sino solo depende de la duración del lapso. Esto es, dada X ~ Exp (λ):
P (X ≥ x + h| X ≥ x) = P (X ≥ h)
EJEMPLO 14
El número de personas necesarias para la visita turística a una cueva es 25. Si el número de personas que
solicita dicho servicio sigue una distribución de Poisson de media 90 personas por hora y el último grupo
partió a las 7, ¿a qué hora se espera que salga el siguiente? Si alguien llega a las 7:25 y con él hay 24 perso-
nas, ¿cuál es la probabilidad de que la visita tarde más de 2 minutos en empezar?
90 3
X = Número de personas que llegan por minuto ~ � � λ = = = 1,5 �
60 2
Se observa que Y sigue una distribución de Erlang de parámetros λ = 1,5 y p = 25, ya que es el tiempo de
espera hasta que ocurre el suceso 25 de Poisson. Su esperanza es:
p 25
E (Y) = = = 16,6 minutos
λ 1,5
Con lo que se espera que el siguiente grupo salga entre las 7:16 y 7:17 horas.
.../...
www.udima.es 145
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
que sigue una distribución exponencial de parámetro λ = 1,5, ya que representa el tiempo que tarda en llegar
una nueva persona, es decir, el tiempo hasta la ocurrencia del siguiente suceso de Poisson. Así, la probabi-
lidad de que la visita tarde más de 2 minutos en empezar es:
La distribución beta juega un gran papel en la estadística bayesiana que se comentará en unidades
didácticas posteriores. Se utiliza para representar variables ficticias cuyos valores se encuentran restrin-
gidos a un intervalo de longitud finita. Otros ejemplos de su uso son:
Una variable aleatoria X sigue una distribución beta de parámetros p, q > 0 (X ∈ Beta (p, q)) si su
función de densidad es:
1
ƒ (x) = x p–1 (1 – x)q–1 si 0 < x < 1
β (p, q)
1
β (p, q) = � x p–1 (1 – x) q–1 dx con p, q > 0
0
• β (1, 1) = 1.
1 1
• β� , � = π.
2 2
146 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
p =2, q = 5 p =2,5, q = 1
2,5
2
p=q=2
1,5
ƒ (x)
0,5
0
0 0,2 0,4 0,6 0,8 1
x
• Media:
p
E (X) =
p+q
• Varianza:
pq
V (X) =
(p + q)2 (p + q + 1)
www.udima.es 147
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
x2
1 z
P (Z ≤ z) = FZ (Z) = � e 2
dx
√ 2π –∞
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
0.0 .5000 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5319 .5359
0.1 .5398 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5714 .5753
0.2 .5793 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6103 .6141
0.3 .6179 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6480 .6517
0.4 .6554 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6844 .6879
0.5 .6915 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7190 .7224
0.6 .7257 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7517 .7549
0.7 .7580 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7823 .7852
0.8 .7881 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8106 .8133
0.9 .8159 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8365 .8389
1.0 .8413 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8599 .8621
1.1 .8643 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8810 .8830
1.2 .8849 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .8997 .9015
1.3 .9032 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9162 .9177
1.4 .9192 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9306 .9319
1.5 .9332 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9429 .9441
1.6 .9452 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9535 .9545
1.7 .9554 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9625 .9633
1.8 .9641 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .9699 .9706
1.9 .9713 .9719 .9726 .9732 .9738 .9744 .9750 .9756 .9762 .9767
2.0 .9772 .9778 .9783 .9788 .9793 .9798 .9803 .9808 .9812 .9817
2.1 .9821 .9826 .9830 .9834 .9838 .9842 .9846 .9850 .9854 .9857
2.2 .9861 .9864 .9868 .9871 .9875 .9878 .9881 .9884 .9887 .9890
2.3 .9893 .9896 .9898 .9901 .9904 .9906 .9909 .9911 .9913 .9916
2.4 .9918 .9920 .9922 .9925 .9927 .9929 .9931 .9932 .9934 .9936
.../...
148 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
z .00 .01 .02 .03 .04 .05 .06 .07 .08 .09
.../...
2.5 .9938 .9940 .9941 .9943 .9945 .9946 .9948 .9949 .9951 .9952
2.6 .9953 .9955 .9956 .9957 .9959 .9960 .9961 .9962 .9963 .9964
2.7 .9965 .9966 .9967 .9968 .9969 .9970 .9971 .9972 .9973 .9974
2.8 .9974 .9975 .9976 .9977 .9977 .9978 .9979 .9979 .9980 .9981
2.9 .9981 .9982 .9982 .9983 .9984 .9984 .9985 .9985 .9986 .9986
3.0 .9987 .9987 .9987 .9988 .9988 .9989 .9989 .9989 .9990 .9990
3.1 .9990 .9991 .9991 .9991 .9992 .9992 .9992 .9992 .9993 .9993
3.2 .9993 .9993 .9994 .9994 .9994 .9994 .9994 .9995 .9995 .9995
3.3 .9995 .9995 .9995 .9996 .9996 .9996 .9996 .9996 .9996 .9997
3.4 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9997 .9998
3.5 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998 .9998
3.6 .9998 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999 .9999
3.8 .9999 .9999 .9999 .9999 .9999 .9999 .9999 1.000 1.000 1.000
4.0 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000 1.000
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
El número de averías de un robot industrial sigue una distribución de Poisson con tasa 0,025 ave-
rías/hora. Si la reparación es prácticamente inmediata por sustitución de componentes:
Sabiendo que en ninguno de los 600 turnos del año pasado se superaron las 2 averías:
Enunciado 2
Una urna contiene un gran número de bolas, el 50 % son rojas, el 30 % son negras y el resto azules.
Se extraen 10 bolas de la urna. Calcular:
www.udima.es 149
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Enunciado 3
El número de quejas de clientes que llegan a una empresa sigue una distribución de Poisson con λ = 6
quejas por mes. Para el próximo año el gerente pide revisar una de cada 5 quejas, determinando que
serán la 5.ª, 10.ª, 15.ª, etc.
a) ¿Cuál es la probabilidad de que el gerente tenga que revisar más de 20 quejas el próximo
año?
b) Si se denomina T al tiempo (en meses) entre llegadas de las quejas que debe revisar el gerente,
¿cuál será la esperanza matemática y la varianza de T? ¿Cuál es la distribución de T?
Enunciado 4
El número de accidentes con víctimas en la «operación retorno» es una variable aleatoria con dis-
tribución de Poisson de media 16 accidentes. Se desea evaluar la probabilidad de que en la próxima ope-
ración retorno haya más de 22 accidentes.
Enunciado 5
La puntuación que saca una persona, elegida al azar, en cierto test de inteligencia, es una variable
aleatoria que se distribuye según una distribución normal N (5, 2) Además, se sabe que el test no da pun-
tuaciones negativas. Los psicólogos califican de «excepcional» la inteligencia de un individuo cuya pun-
tuación en el test ha sido superior a 6,5. Una empresa cazatalentos suele elegir al azar entre individuos
con una puntuación superior a 5. Si durante un proceso de selección ha escogido a 4 individuos, ¿cuál es
la probabilidad de que más de uno posea una inteligencia excepcional?
150 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Solución 1
a) 0,0163.
b) 0,01639.
c) 0,00049.
Solución 2
a) 0,0547.
b) 0,0473.
c) 0,064.
Solución 3
Solución 4
b) 0,0521.
Solución 5
E
JERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
1. Una población de 20 animales insectívoros se introduce en una zona donde el 14 % de los
insectos que le sirven de alimento son venenosos. Cada animal devora al día 5 insectos.
Calcular la probabilidad de que al cabo de una semana sobrevivan como mínimo la mitad
de la población, suponiendo independencia.
www.udima.es 151
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
2. 6 personas se dedican a desvalijar casas en una ciudad. Estiman que en esta época del año el
65 % de las casas están vacías, facilitando sus operaciones. Si cada uno se encarga de subir
a una casa cada día:
3. Un grupo de 80 buzos se sumerge en el mar con el fin de recuperar los tesoros de un barco
hundido, que está ahora a 100 metros de profundidad. Se sabe que la distancia que recorre
un buzo cualquiera hacia el fondo del mar sigue una distribución exponencial de media 40
metros. Contando con que algunos buzos abandonarán la misión en caso de no resistir la
presión soportada, se ha estimado que para recoger el tesoro bastará con que por lo menos
el 15 % de ellos lleguen hasta la profundidad del barco. Se pide:
4. El peso en gramos de las ciruelas suministradas por un almacén a una frutería sigue una dis-
tribución N (175, 10). Las ciruelas cuyo peso es inferior a 150 gramos o superior a 195 gra-
mos no aparecen expuestas al público. ¿Cuál es la probabilidad de que una ciruela expuesta
al público pese entre 172 gramos y 181 gramos?
5. Una empresa recibe voltímetros de dos proveedores diferentes, B1 y B2. El 75 % de los voltí-
metros se compra a B1 y el resto a B2. Se considera que un voltímetro es defectuoso cuando
su medición ofrece un error de al menos 2 voltios. Se sabe que la diferencia entre el vol-
taje real y el observado en los voltímetros de B1 se comporta de acuerdo a una distribución
N (0, 2), mientras que para B2 sigue una uniforme en el intervalo (− 3, 3), donde todos los
parámetros están expresados en voltios. Determinar la probabilidad de que un voltímetro
que se acaba de recibir no sea defectuoso.
REFERENCIAS BIBLIOGRÁFICAS
Básica
152 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
En la red
Avanzada
CUADRAS, C.M.: Problemas de probabilidades y estadística, Barcelona: Promociones y publicaciones universitarias, 1991.
QUESADA V., GARCÍA A.: Lecciones de cálculo de probabilidades, Díaz de Santos, 1988.
www.udima.es 153
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
6
UNIDAD
DIDÁCTICA
VARIABLES ALEATORIAS
MULTIDIMENSIONALES
OBJETIVOS DE LA UNIDAD
2. Distribuciones marginales
2.1. Caso discreto
2.2. Caso continuo
3. Distribuciones condicionadas
3.1. Caso discreto
3.2. Caso continuo
4. Independencia
5. Momentos
5.1. Momentos respecto del origen
5.2. Momentos respecto de la media
6. Teorema de Bayes
7. Distribución normal bivariante
www.udima.es 155
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
OBJETIVOS DE LA UNIDAD
En esta unidad didáctica se extiende la definición de variable aleatoria al caso bidimensional, así
como todas las funciones necesarias para su estudio. Se analiza, además de la distribución conjunta, las
distribuciones marginales y condicionadas, junto con la extensión a variables aleatorias bidimensiona-
les de otros conceptos que ya se vieron en la unidad didáctica 2, para distribuciones de frecuencias bidi-
mensionales como la independencia, los momentos, etc. Se finaliza con la generalización del teorema
de Bayes, en el caso de que los sucesos en cuestión se expresen a través de variables aleatorias y con la
descripción de la distribución normal bivariante.
156 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Sean X e Y dos variables aleatorias discretas. La función de probabilidad, de masa o cuantía con-
junta de (X, Y), es una función tal que:
EJEMPLO 1
Sea (X, Y) la variable aleatoria bidimensional discreta cuya función de probabilidad conjunta viene dada por:
Tabla 1
Y|X 0 1 2 3
1 0 3/8 3/8 0
3 1/8 0 0 1/8
3
P (X = 2, Y = 1) = p (2, 1) =
8
1
P (X = 0, Y = 3) = p (0, 3) =
8
1
P (X = 3, Y = 3) = p (3, 3) =
8
www.udima.es 157
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
yj yj
yj‒1 yj‒1
xi‒1 xi xi‒1 xi
EJEMPLO 2
Se tiene:
0 si x < 0 o y < 1 o (0 ≤ x < 1, 1 ≤ y < 3)
{
1
si 0 ≤ x < 1, y ≥ 3
8
3
si 1 ≤ x < 2, 1 ≤ y < 3
8
3 1 4
F (x, y) = + = si 1 ≤ x < 2, y ≥ 3
8 8 8
6
si 2 ≤ x, 1 ≤ y < 3
8
7
si 2 ≤ x < 3, y ≥ 3
8
1 si x ≥ 2, y ≥ 3
158 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Sea (X, Y) con X e Y variables aleatorias continuas. Se dice que ƒ es la función de densidad con-
junta de (X, Y) si verifica:
∂2 F (x, y) ∂2 F (x, y)
ƒ (x, y) = =
∂x ∂y ∂y ∂x
• P (X = x, Y = y) = 0.
• F (x, y) = P (X < x, Y < y) = P (X ≤ x, Y < y) = P (X < x, Y ≤ y).
EJEMPLO 3
Sea (X, Y) el vector aleatorio continuo con función de densidad conjunta dada por:
x+y si 0 ≤ x ≤ 1, 0 ≤ y ≤ 1
ƒ (x, y) = { 0 en caso contrario
Demostrar que es función de densidad y calcular la función de distribución asociada. Calcular la probabi-
lidad conjunta
1 3
P � X≤ ,Y≤ �
2 4
.../...
www.udima.es 159
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
Para ver que es función de densidad se comprueba que:
x y
F (x, y) = �0 �0 ƒ (u, v) dv du
• Si 0 ≤ x, y < 1,
x y xy
F (x, y) = �0 �0 (u + v) dv du = (x + y)
2
• Si 0 ≤ x < 1, y ≥ 1,
x 1 1
F (x, y) = �0 �0 (u + v) dv du = x (x + 1)
2
• …
Con lo que:
0 si x<0 o y<0
{
xy
(x + y) si 0 ≤ x, y < 1
2
1
F (x, y) = x (x + 1) si 0 ≤ x < 1, y ≥ 1
2
1
y (y + 1) si x ≥ 1, 0 ≤ y < 1
2
1 si x ≥ 1, y ≥ 1
Para calcular la probabilidad pedida, se utiliza la forma de la función de distribución para 0 ≤ x, y < 1:
1 3 1 3 1 1 3 1 3 15
P �X ≤ ,Y≤ � =F � , � = · · · � + � =
2 4 2 4 2 2 4 2 4 64
2. DISTRIBUCIONES MARGINALES
Dado (X, Y) vector aleatorio discreto con función de probabilidad conjunta p (x, y), se define la fun-
ción marginal de probabilidad o masa de X como:
PX (x) = Σy p (x, y)
160 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
PY (y) = Σx p (x, y)
EJEMPLO 4
Determinar las funciones marginales de probabilidad de las variables aleatorias X e Y del ejemplo 1.
Se va a completar la tabla dada en el ejemplo 1 con sendas distribuciones marginales. Se obtienen sumando
por filas y por columnas en la tabla de la distribución conjunta y se representan en los márgenes de la tabla,
de ahí el nombre de marginales.
Y|X 0 1 2 3 pY
Por tanto, a partir de las distribuciones marginales se tiene que la variable aleatoria X toma cuatro valores
distintos {0, 1, 2, 3} con probabilidades respectivas de
1 3 3 1
, , y
8 8 8 8
6 2
y la variable aleatoria Y toma dos valores distintos {1, 3} con probabilidades y respectivamente.
8 8
Dado (X, Y) vector aleatorio discreto con funciones de probabilidad marginales pX (x) y pY (y) respectiva-
mente, se define la función de distribución marginal de X como:
FX (x) = Σ
xi ≤x
pX (xi)
FY (y) = Σ
yj ≤y
pY (yj)
Con la distribución marginal se estudia la variable correspondiente de forma aislada, con independencia de
las otras. Así, FY (y) representará la función de distribución de la característica Y en todos los individuos de
la población, con independencia de la otra característica X.
Dado (X, Y) vector aleatorio continuo con función de densidad conjunta ƒ (x, y), se define la fun-
ción de densidad marginal de X como:
∞
ƒX (x) = � ƒ (x, y) dy
‒∞
www.udima.es 161
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
∞
ƒY (y) = � ƒ (x, y) dx
‒∞
x x ∞
FX (x) = � ƒX (t) dt = � � ƒ (t, y) dy dt
‒∞ ‒∞ ‒∞
y y ∞
FY (y) = � ƒY (t) dt = � � ƒ (x, t) dx dt
‒∞ ‒∞ ‒∞
EJEMPLO 5
Se tiene la siguiente función de densidad conjunta cuyo soporte viene representado en la figura 2. Calcular
las funciones de densidad marginales y la función de distribución marginal de X.
2 si 0<x<y<1
ƒ (x, y) = { 0 en otro caso
y=x
1
Se tiene que:
1
ƒX (x) = �x 2 dy = 2 (1 ‒ x) si 0<x<1
y
ƒY (y) = �0 2 dx = 2y si 0<y<1
x
FX (x) = �0 2 (1 ‒ t) dt = x (2 ‒ x) si 0<x<1
162 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
3. DISTRIBUCIONES CONDICIONADAS
Se define la distribución condicionada de una variable aleatoria X a un valor fijo igual a y de otra
variable aleatoria Y, como la distribución univariante de X en los elementos de la población que tienen
como valor de Y el valor fijado. Por ejemplo, la distribución de la variable X = Gasto familiar en ocio,
condicionada al valor 3 de la variable Y = Número de hijos, representa la distribución del gasto familiar
en los elementos de la población con número de hijos igual a 3.
p (x, y0)
p (x|y0) = , siempre que pY (y0) ≠ 0.
pY (y0)
Si (X, Y) es variable aleatoria continua con función de densidad conjunta ƒ (x, y), la función de den-
sidad condicionada de X será, siendo y0 un valor fijo de Y:
ƒ (x, y0)
ƒ (x|y0) =
ƒY (y0)
ƒy (y) es la función de densidad (marginal) de Y, de forma que ƒY (y0) > 0. Si fuera ƒY (y0) = 0, se
supondrá que ƒ (x|y0) = 0 ∀x.
Tanto para el caso discreto como continuo, se definen de forma análoga p (y|x0) y ƒ (y|x0).
Observaciones
www.udima.es 163
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
∞
ƒX (x) = � ƒ (x|y) ƒ (y) dy
‒∞
EJEMPLO 6
A partir de la distribución discreta de la tabla 1 (ejemplo 1), calcular las distribuciones condicionadas
P (Y|X = 0) = p (y|0) y P (X|Y = 1) = p (x|1).
Se tiene:
P (Y = 1, X = 0) 0
P (Y|X = 0) =
{ P (X = 0)
P (Y = 0, X = 0)
P (X = 0)
=
=
1/8
1/8
1/8
=0
=1
si
si
Y=1
Y=3
P (X = 0, Y = 1) 0
{
= =0 si X=0
P (Y = 1) 6/8
P (X = 1, Y = 1) 3/8 1
= = si X=1
P (Y = 1) 6/8 2
P (X|Y = 1) =
P (X = 2, Y = 1) 3/8 1
= = si X=2
P (Y = 1) 6/8 2
P (X = 3, Y = 1) 0
= =0 si X=3
P (Y = 1) 6/8
EJEMPLO 7
A partir de la función de densidad conjunta del ejemplo 5, calcular las funciones de densidad condicionadas:
ƒ (x, y) 2 1
∀ y ∈ (0, 1) ƒ (x|y) = = =
ƒY (y) 2y y
ƒ (x, y) 2 1
∀ x ∈ (0, 1) ƒ (y|x) = = =
ƒX (x) 2 (1 ‒ x) 1‒x
164 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
4. INDEPENDENCIA
Sean X e Y variables aleatorias con funciones de densidad marginales ƒX (x) y ƒY (y). Se dirá que X
e Y son independientes, si y solo si:
Propiedades:
• Las variables aleatorias X e Y son independientes si y solo si las funciones de densidad con-
dicionadas son iguales a las marginales. El conocimiento de una de las variables no aporta
información sobre los valores de la otra:
EJEMPLO 8
Supóngase que en una población se estudian tres variables X = Peso, Y = Estatura y Z = Cociente intelectual.
Las variables Y y Z son independientes si la distribución de estaturas en personas con Z = 80 es la misma
que en personas con z = 100 o cualquier otro valor y, en todo caso, es igual a la distribución marginal de esa
variable, es decir, ƒ (y| z) = ƒ (y). Sin embargo, si las variables aleatorias Y y X no son independientes, la dis-
tribución de estaturas dependerá del peso y será distinta en personas con X = 50 kilogramos ƒ (Y|X = 50), y
en personas con X = 70 kilogramos ƒ (Y|X = 70). Estas distribuciones concretas también serán distintas de la
distribución marginal de estaturas, ƒ (y), que será una media ponderada de todas ellas.
www.udima.es 165
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
5. MOMENTOS
Dadas X e Y dos variables aleatorias y g (X, Y) una función de ellas, se define la esperanza matemá-
tica de la variable aleatoria g (X, Y) como:
∞ ∞
E [g (X, Y)] = � � g (x, y) ƒ (x, y) dy dx si X e Y son continuas
‒∞ ‒∞
Dada (X, Y) variable aleatoria bidimensional, se llama momento respecto del origen de orden (k, h) a:
αkh = E (X k Y h) = � 2 x k y h ƒ (x, y) dy dx
ℝ
Casos particulares:
En general, αk0 = ak y α0h = αh, donde los momentos de la derecha del signo igual están calculados
a partir de las distribuciones marginales.
Se llama momento central o respecto de la media de orden (k, h) de la variable aleatoria (X, Y) a:
Casos particulares:
• μ20 = E [(X – E (X))2] = V (X) = σ2X, que es la varianza de X y se denomina varianza margi-
nal de X.
• μ02 = E [(Y – E (Y))2] = V (Y) = σ2Y, que es la varianza marginal de Y.
• μ11 = E [(X – E (X)) (Y – E (Y))] ≡ covarianza entre las variables aleatorias X e Y. También
se denota por cov (X, Y) = σ12 = σXY .
166 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Propiedades:
Observación. Como la covarianza entre dos variables aleatorias varía con las unidades de medida, se
define una medida adimensional de la relación lineal entre X e Y. Es el coeficiente de correlación lineal ρ.
Cov (X, Y)
ρ=
σX σY
Se demuestra que – 1 ≤ ρ ≤ 1.
Como consecuencia de las dos últimas propiedades, se tiene que si X e Y son independientes, entonces:
Sin embargo, el que dos variables sean incorreladas, es decir, que su covarianza sea 0 no implica
que sean independientes, ya que podrían manifestar entre ellas otro tipo de relación distinta de la lineal.
6. TEOREMA DE BAYES
ƒ (y| x) p (x)
p (x|y) =
ƒ (y)
Si X es una variable aleatoria continua e Y |X es una variable aleatoria discreta, entonces Y es varia-
ble aleatoria discreta con función de probabilidad:
P (Y = y) = � p (y| x) ƒ (x) dx
x
www.udima.es 167
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
p (y |x) ƒ (x)
ƒ (x| y) =
p (y)
El teorema de Bayes permite responder a las siguientes preguntas: si se conoce la distribución con-
junta de dos variables y se ha observado el valor y de una de ellas, ¿cuál es el valor más probable de la
otra? Dado y, ¿cuál es la distribución de la variable desconocida X ?
Se presentan a continuación las distintas versiones del teorema de Bayes según sea la naturaleza
discreta o continua de las variables aleatorias implicadas:
• X e Y variables discretas:
p (y| x) p (x)
p (x| y) =
Σx p (y| x) p (x)
• X e Y variables continuas:
ƒ (y| x) ƒ (x)
ƒ (x |y) =
� ƒ (y| x) ƒ (x) dx
• X discreta e Y continua:
ƒ (y| x) p (x)
p (x| y) =
Σx ƒ (y| x) p (x)
• X continua e Y discreta:
p (y| x) ƒ (x)
ƒ (x| y) =
� p (y| x) ƒ (x) dx
EJEMPLO 9
Sean las variables aleatorias discretas N y X. Se sabe que dado N = n, la variable X|N = n se distribuye como
binomial (n, p), es decir:
n
P (X = k|N = n) = � k � pk (1 ‒ p)n‒k k = 0, 1, 2, …, n
λn
P (N = n) = e‒λ
n!
168 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
n λn
� � pk (1 ‒ p)n‒k e‒λ
P (X = k|N = n) P (N = n) k n!
P (N = n|X = k) = = =
P (X = k) n λn
Σ∞n=k � � pk (1 ‒ p)n‒k e‒λ
k
n!
n λn
� � p k (1 ‒ p)n‒k e‒λ
k n! (λq)n‒k e‒λq
= =
λk pk (n ‒ k)!
e‒λp
k!
Se dice que (X, Y) tiene una distribución normal bivariante si su función de densidad conjunta viene
dada por:
donde μ1 = E (X), μ2 = E (Y), σ21 = V (X), σ22 = V (Y) y ρ es el coeficiente de correlación entre X e Y. Se
dice que μ es el vector de medias y C la matriz de varianzas y covarianzas.
μ1 σ21 σ12
μ= � � , C = � �
μ2 σ12 σ21
Propiedades:
Karl Friedrich Gauss (1777-1855). Mate-
• Las distribuciones marginales y condiciona- mático, físico y astrónomo alemán. Con-
das también son normales: tribuyó significativamente en numerosos
campos: teoría de números, análisis mate-
mático, geometría diferencial, geodesia, mag-
− Marginal de X ~ 𝒩 (μ1, σ1). netismo y óptica, entre otros. Realizó su tesis
doctoral (1799) sobre el teorema fundamental
− Marginal de Y ~ 𝒩 (μ2, σ2). del álgebra, el cual demostró. En 1801 publicó
la obra Disquisiciones aritméticas, en la que
− Condicionada recoge numerosos hallazgos. Su interés por
el cálculo de órbitas planetarias y por la teoría
ρσ1 de errores de observación le llevó a populari-
X|Y ~ 𝒩(μ1 + (y – μ2), σ21 (1 – ρ2)) zar el uso de la distribución normal.
σ2
www.udima.es 169
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
− Condicionada
ρσ2
Y|X ~ 𝒩(μ2 + (x – μ1), σ22 (1 – ρ2))
σ1
• Si (X, Y) se distribuye como una normal bivariante y son incorreladas, es decir, ρ = 0, enton-
ces X e Y son independientes.
• Cualquier combinación lineal de variables aleatorias normales también tiene distribución
normal, es decir, si (X, Y) ~ N (μ, C), entonces:
0,15
0,1
0,05
0
‒ 3 ‒ 3
‒ 2 ‒ 2
‒ 1 ‒ 1
0 0
y 1 1 x
2 2
3 3
170 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
Una urna contiene 3 bolas numeradas del 1 al 3. Se sacan al azar 2 bolas sin reemplazamiento y
teniendo en cuenta el orden se define: X = Número de la primera bola elegida e Y = Máximo de los
números de las 2 bolas elegidas. Calcular la función de probabilidad de la variable aleatoria bidimen-
sional (X, Y) y su función de distribución.
Enunciado 2
Dada la variable aleatoria bidimensional discreta (X, Y ) con función de probabilidad conjunta:
1
P (X = x, Y = y) = si 1 ≤ y ≤ x ≤ 3
6
Enunciado 3
ƒ (x, y) =
{ x+y
8.000
0
si 0 < x, y < 20
en otro caso
www.udima.es 171
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Enunciado 4
0 ≤ x ≤ 1, 0 ≤ y ≤ 1
ƒ (x, y) = { x+y
0
si
en otro caso
Enunciado 5
El número de clientes que entra diariamente en un establecimiento sigue una distribución de Poisson
con parámetro λ = 20. La probabilidad de que uno cualquiera de estos clientes haga una compra es
p = 0,2. Si ayer se realizaron un total de 3 ventas, ¿cuál es la probabilidad de que entraran menos de
5 personas en el establecimiento? Ayuda: utilizar el resultado del ejemplo 8.
172 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Solución 1
Solución 2
Solución 3
Solución 4
5
La probabilidad pedida es: .
24
Solución 5
E
JERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
1. Se lanzan 3 monedas en las que la probabilidad de obtener cara es 0,5, 0,4 y 0,3, respec-
tivamente. Se definen las variables aleatorias X = Número de caras en las dos primeras e
Y = Número de cruces en las dos últimas. Construir la función de probabilidad conjunta de
la variable bidimensional (X, Y).
2. Se lanzan las 3 monedas del ejercicio anterior y se definen las variables aleatorias X= Número
de cruces en las dos primeras e Y = Número de caras en la última. Construir la función de
probabilidad conjunta de la variable bidimensional (X, Y ). ¿Son X e Y independientes?
3. Dada la función de densidad conjunta:
www.udima.es 173
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
2 2 1
μ= � � , C = � �
3 1 6
2X – Y
Encontrar la distribución de la variable Z = .
3
REFERENCIAS BIBLIOGRÁFICAS
Básica
En la red
Avanzada
CUADRAS, C. M.: Problemas de probabilidades y estadística, Barcelona: Promociones y publicaciones universitarias, 1991.
EVERITT, B. S. y DUNN, G.: Applied Multivariate Data Analysis, Londres: Arnold, Londres, 2001.
174 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
7
UNIDAD
DIDÁCTICA
INTRODUCCIÓN A LA
INFERENCIA ESTADÍSTICA
OBJETIVOS DE LA UNIDAD
1. Introducción
2. Muestreo
3. Tipos de muestreo
www.udima.es 175
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
176 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
La inferencia estadística utiliza el lenguaje de la probabilidad para sacar conclusiones de los datos y
acompañar esas conclusiones por una declaración formal de la confianza que se tiene de que sean correc-
tas. Así, se comienza ubicando la inferencia dentro del ciclo general de la estadística. La estadística des-
criptiva y el cálculo de probabilidades, ya estudiados, servirán en el objetivo de construir métodos que
permitan realizar inferencias inductivas de la población partiendo de la muestra. Tales inferencias se for-
mularán sujetas a un grado de confianza que se podrá controlar. La primera etapa del ciclo estadístico es
la selección de la muestra de la población de interés. El éxito del análisis final que se realice dependerá
en gran medida del cuidado que se haya puesto en la selección de la muestra y en lo representativa que
sea esta de la población. La herramienta de inferencia que se usará será la muestra aleatoria simple. Es
esencial entender la distribución muestral para comprender los conceptos de inferencia. El estudio de las
propiedades de la media muestral y su comportamiento asintótico lleva a la desigualdad de Tchebychev
y al teorema central del límite, resultado fundamental para el desarrollo de unidades didácticas posterio-
res. Por último, se introducirán las distribuciones relacionadas con la distribución normal.
www.udima.es 177
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
1. INTRODUCCIÓN
definir el modelo probabilístico que ha generado los datos. Es uno los principales fundadores de la gené-
tica de poblaciones, sentando las bases de
Por lo tanto, la inferencia estadística comprende una colec- esta disciplina.
ción de técnicas que permiten formular inferencias inductivas En 1925 publicó una de sus obras más importan-
y que proporcionan una medida del riesgo de estas inferencias. tes: Statistical Methods for Research Workers,
un libro de referencia en el diseño de expe-
rimentos, en el que introdujo el análisis de la
La figura 1 representa el ciclo de la estadística. Inte- varianza y el método de máxima verosimilitud.
resa estudiar una característica determinada en todos los Descubrió varias distribuciones.
individuos de una población. Ya que el estudio de todos y
cada uno de sus elementos es inviable, se selecciona una
muestra de la misma. A través de los estadísticos descripti-
vos se resume de manera concisa mucha de la información
contenida en la muestra. Con esta información se construye un modelo matemático que refleje el com-
portamiento de la población. Este modelo, una vez validado, permitirá hacer suposiciones y predicciones
sobre el conjunto de la población. Estas predicciones estarán sometidas a un error que el analista siempre
podrá controlar. Por lo tanto, la inferencia estadística permite generalizar la información contenida en
una muestra a la población de la que se extrajo, controlando el error que se comete con tal generalización.
Muestreo
Población Muestra
Predicciones,
Estadística
inferencias
descriptiva
0,4
0,3
Medidas
0,2
resumen
0,1
0
‒ 5 ‒ 3 ‒ 1 1 3 5
Inferencia estadística
Modelo de la población
178 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
− Métodos clásicos.
− Métodos bayesianos.
− Métodos paramétricos.
− Métodos no paramétricos.
Solamente utilizan la información contenida en la muestra (objetiva). Además, los parámetros son
fijos (constantes) y desconocidos y la única información de ellos es la que proporcionan los datos (la
muestra).
Se supone que los datos provienen de un modelo para la población con distribución PX parcialmente
conocida. Se sabe que es de una determinada forma, pero sus parámetros o alguno de ellos son desco-
nocidos y es lo que se intenta determinar. Posteriormente, el modelo elegido se somete a cierta crítica.
2. MUESTREO
www.udima.es 179
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Se llama población al conjunto de elementos de los que se va a estudiar una característica X. Nor-
malmente no se puede utilizar toda la población, por ejemplo si:
• El estudio es destructivo, estudiar una característica implica la destrucción del objeto (vida
media en bombillas, resistencias, etc.).
• Los elementos existen en concepto pero no en la realidad: poblaciones de piezas defectuo-
sas que producirán una máquina.
• Es inviable económicamente el estudio de la población.
• La población se considera constituida por un número infinito de posibles resultados de la
característica: por ejemplo, cuando la característica es una medición física, como el nivel
de concentración de un contaminante, demanda de un producto, tiempo de espera en una
unidad de servicio... Estudiar toda la población no solo llevaría mucho tiempo, sino que
incluso las propiedades de la población podrían haber cambiado con el mismo.
Es importante que la muestra escogida sea representativa de la población. Por ejemplo, se sabe que
la altura media de los hombres es mayor que la de las mujeres. Por tanto, si en una muestra de 500 estu-
diantes hay 400 hombres y 100 mujeres, existirá un sesgo de selección. Para conseguir que la muestra
garantice la representatividad de la población se pueden utilizar diversos procedimientos de muestreo,
que se comentan a continuación.
3. TIPOS DE MUESTREO
Este tipo de muestreo se utiliza cuando todos los elementos de la población son «homogéneos» res-
pecto de la característica a estudiar, todos los elementos son indistinguibles desde el punto de vista de
esta característica.
• Cada elemento de la población tiene la misma probabilidad de ser elegido para formar parte
de la muestra.
• Las observaciones se realizan con reemplazamiento, de forma que la composición de la
población es idéntica en todas las extracciones.
Se utiliza cuando la característica en estudio asume distintos valores promedio en diferentes subpo-
blaciones. Se divide la población en estratos o clases y se escoge una muestra aleatoria simple en cada
uno que garantice una presencia adecuada de cada estrato. Los estratos no se solapan y conforman la
180 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
población completa, de modo que cada unidad de muestreo pertenece exactamente a un estrato. Existen
dos criterios para dividir el tamaño total de la muestra n entre los estratos ni:
para que la muestra total mantenga la misma proporción de elementos de cada estrato que tiene
la población, siendo N el tamaño de la población y Ni , el tamaño del estrato i en la población.
• Proporcionalmente a la variabilidad dentro del estrato. Se toma para la muestra total menos
elementos de aquellos estratos donde la característica tiene menor dispersión.
Se utiliza cuando los elementos de la población están ordenados en listas. Supóngase que el tamaño
de la población es N y se quiere una muestra de tamaño n. Sea K el entero más próximo a N/n. Se elige
al azar un número de entre los K primeros, por ejemplo n1 . Se toman los elementos que se encuentran
en las posiciones n1, n1 + K, n1 + 2K, …, n1 + (n – 1) K.
En este caso la población también se divide en clases, pero cada clase es tan heterogénea como la
población y las clases son homogéneas entre sí. Por ejemplo, si se quiere seleccionar una muestra de vivien-
das en un distrito de una ciudad, se puede utilizar como conglomerados los edificios o bloques de vivien-
das. Una vez seleccionados los bloques dentro de un distrito, se puede bien seleccionar todas las viviendas
dentro del bloque o bien tomar por ejemplo una muestra aleatoria simple en cada bloque seleccionado.
En adelante se considerará el muestreo aleatorio simple en una población infinita, por lo que se tra-
bajará con una muestra aleatoria simple X1, …, Xn.
Se parte de una variable aleatoria X que representará la característica que se desea estudiar en una
población. Por ejemplo, puede ser el tiempo de procesamiento, el número de errores en compilación, tiempo
de ejecución de un algoritmo, porcentaje de memoria utilizado, tiempo de reaparición de un virus, etc.
www.udima.es 181
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Si X es discreta, tendrá asociada una función de probabilidad P (X = k), mientras que si X es continua,
tendrá asociada una función de densidad ƒ (x).
Se considera una muestra aleatoria simple de la variable aleatoria X, X1, …, Xn, donde Xi repre-
senta la variable aleatoria X en el sujeto o elemento i-ésimo de la muestra. La muestra aleatoria simple
X1, …, Xn es la herramienta básica de la inferencia estadística y representa los distintos valores que pue-
den tomar todos los subconjuntos posibles de n elementos de la población.
Formalmente, una muestra aleatoria simple de tamaño n de una variable aleatoria X de media μ y
varianza σ2 y es una colección de variables aleatorias X1, …, Xn , de forma que:
Por tanto, una muestra aleatoria simple es un conjunto de n variables aleatorias independientes e
idénticamente distribuidas.
La distribución conjunta de esa muestra aleatoria simple, utilizando la independencia de las varia-
bles, será:
EJEMPLO 1
Calcular la distribución conjunta de una muestra aleatoria simple X1, …, Xn de una variable aleatoria X ~ � (λ).
λxi λΣ xi
n
P (X1 = x1, …, Xn = xn) = � e‒λ = e‒nλ
i=1 xi! �ni=1 xi!
Se observa que todas las muestras de igual tamaño que tengan el mismo valor de Σ xi y � xi! tienen la misma
probabilidad de ocurrir.
EJEMPLO 2
38
P (X1 = 3, X2 = 0, X3 = 2, X4 = 3) = P (X1 = 3) P (X2 = 0) P (X3 = 2) P (X4 = 3) = e‒12 = 0,0002799
3! 0! 2! 3!
182 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 3
Calcular la distribución conjunta de una muestra aleatoria simple X1, …, Xn de una variable aleatoria
X ~ N (μ, σ).
1
1 –
2σ2
Σni=1 (xi ‒ μ)2
ƒ (x1, …, xn) = e
(σ √ 2π)n
• La media muestral:
– X1 + … + Xn
X=
n
• La varianza muestral:
1 n –
m2 =
n
Σ (Xi – X )2
i=1
• La cuasivarianza muestral:
1 n –
S2 =
n–1
Σ (Xi – X )2
i=1
Σx
μ = E (X) = � xdF (x) =
{ ‒∞
x P (X = x)
∞
� x ƒ (x) dx
si X es discreta
si X es continua
• La varianza poblacional:
www.udima.es 183
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Supóngase que las variables aleatorias X1, …, Xn constituyen una muestra aleatoria simple de una
variable aleatoria X con media μ y varianza σ2. Se define la media muestral de X1, …, Xn como la varia-
ble aleatoria (porque cambia según la muestra observada):
– X1 + … + Xn
X=
n
– Σni=1 E (Xi) nμ
E (X ) = = =μ
n n
Es decir:
– σ2
P (|X – μ| ≤ k) ≥ 1 –
nk2
184 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 4
Supóngase que se quiere seleccionar una muestra de una variable aleatoria cuya media es desconocida y de la
que se sabe que la desviación típica σ es 2. Determinar el tamaño muestral para que la diferencia entre la media
‒
muestral X y la media poblacional μ en valor absoluto sea menor que 1, con probabilidad de al menos 0,99.
Utilizando la desigualdad de Tchebychev, se obtiene:
‒ σ2 4
�
P �| X ‒ μ| ≤ 1 � ≥ 1 ‒ =1‒ ≥ 0,99
k nk2 n
de donde:
4
≤ 0,01 y n ≥ 400
n
En la figura 2 se observa cómo decrece la varianza de la media muestral con el tamaño de la mues-
tra n, para un valor concreto σ = 10. A partir de n mayor que 30 o 40, la disminución es menor, con lo
–
que se puede admitir que para hacer inferencias respecto a μ a partir de X , basta considerar un tamaño
muestral entre 30 y 40, ya que con un n mayor podría resultar más costoso y el comportamiento es prác-
ticamente el mismo.
√ V (X‒ )
10
10 20 30 40 50 60 70 80 90 100 n
www.udima.es 185
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Se presenta a continuación una de las leyes de los grandes números, que, junto al teorema central
del límite que se estudia en el próximo epígrafe, representa uno de los resultados más importantes en
probabilidades y estadística.
Sea X1, …, Xn una muestra aleatoria simple de una variable aleatoria con media μ y varianza σ2.
– – P
Entonces la media muestral X n converge en probabilidad a μ (Xn → μ), es decir:
–
∀ ∈ > 0 lim P (|X n – μ | < ∈) = 1
n→∞
–
Intuitivamente este resultado dice que la distribución de la media muestral X n se concentra cada vez
más alrededor de la media poblacional μ cuando n → ∞. Así, para una muestra lo suficientemente grande,
su media aritmética se aproxima bastante bien a la media poblacional (estimación puntual).
A continuación se muestra que siempre que se seleccione una muestra aleatoria simple de tamaño
–
n de cualquier distribución con media μ y varianza σ2, la media muestral X n tendrá una distribución
aproximadamente normal,
σ
N � μ, �
√n
Este resultado fue establecido para una muestra aleatoria simple de una distribución de Bernoulli
por Abraham De Moivre a principios del siglo XVIII. A principios de la década de 1920-1930, Linde-
berg y Lévy lo demostraron independientemente para una distribución arbitraria. Por último, Liapunov
generaliza el resultado para variables aleatorias independientes no distribuidas necesariemante de forma
idéntica. Como anécdota decir que Alan Turing, uno de los protagonistas en la historia y evolución de
los computadores digitales, estudió también y demostró la tendencia límite de varias distribuciones hacia
la distribución normal. En este sentido, redescubrió el teorema central del límite.
Sea {Xn}n∈ℕ una sucesión de variables aleatorias cada una con función de distribución F continua
∀ x ∈ ℝ. Se dice que {Xn}n∈ℕ converge en distribución a X (Xn →
d
X ) si:
186 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
La interpretación de este teorema es la siguiente: si se selecciona una muestra aleatoria simple grande
de cualquier distribución con media μ y varianza σ2 < ∞, la media muestral tiene una distribución de
media μ y varianza σ2/n (visto en el epígrafe 5), que tiende hacia una distribución normal. Es decir, la
–
variable aleatoria X n – μ / σ /√ n tiene como límite una distribución normal tipificada. La figura 3 mues-
tra en qué consistiría una demostración visual del teorema central del límite. En ella se observa cómo los
histogramas de las distribuciones muestrales de la media tienden a una distribución normal conforme se
aumentan los tamaños muestrales n1, n2, …, nk . En la práctica se realizará la aproximación descrita por
el teorema central del límite cuando n ≥ 30.
n1 50
n1 40
30
⫶ 20
10
n1 0
n ‒ 2 3 8 13 18 23 28
n2
n2 40
30
⫶ 20
C n2 10
0
R ‒ 0,1 0,4 0,9 1,4 1,9 2,4
E ⫶
C
E
nk 160
120
nk 80
⫶ 40
nk 0
‒ 3,4 ‒ 2,4 ‒ 1,4 ‒ 0,4 0,6 1,6 2,6
Como aplicación se tiene el siguiente teorema, que fue la primera versión del teorema central del
límite, dada por De Moivre para el caso particular de p = 0,5 y generalizada por Laplace al caso de p
arbitrario.
www.udima.es 187
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Sean X1, …, Xn variables aleatorias independientes e idénticamente distribuidas según una distribu-
ción de Bernoulli de parámetro p. Entonces:
n
Σ
d
Xi → N (np, √ npq)
i=1
Así, se está aproximando una distribución binomial, que es suma de variables aleatorias indepen-
dientes de Bernoulli, con una distribución N (np, √ npq), cuando n es grande, como ya se ha visto en la
unidad didáctica 5.
EJEMPLO 5
La duración de un determinado componente eléctrico es una variable aleatoria con distribución no especi-
ficada, de la que lo único que se conoce es que la desviación típica σ es 2 horas. Calcular la probabilidad de
que la media muestral se encuentre a no más de media hora del valor medio de la población, si se tiene una
muestra de la duración de 35 componentes.
Sea X la variable aleatoria que representa la duración del componente eléctrico. Se pide la probabilidad
‒
P (| X ‒ μ| < 0,5). Como el tamaño muestral es n = 35 ≥ 30, se puede utilizar la aproximación dada por el teo-
rema central del límite. Se tiene que:
‒ σ 2
X ~ N �μ, � ≡ N �μ, � ≡ (μ; 0,338)
√n √ 35
De esta forma la probabilidad pedida es:
‒
‒ ‒ 0,5 X ‒μ 0,5
P (|X ‒ μ| < 0,5) = P (‒ 0,5 < X ‒ μ < 0,5) = P ‒ < < =
� 0,338 σ 0,338 �
√n
= P (– 1.479 < Z < 1,749) = P (Z < 1,749) – P (Z < – 1,479) =
= P (Z < 1,479) – (1 – P (Z < – 1,479) = 2P (Z < 1,479) – 1 = 0,8584
‒ σ2 4
P (|X – μ| < 0,5) ≥ 1 – =1– = 0,5428
nk2 35 (0,5)2
EJEMPLO 6
.../...
188 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
Si se considera Xi = 1 sí se solucionó el error, lo que sucede con probabilidad p. Se sabe que el número de errores
converge cuando n es grande a una distribución normal. Por el teorema central del límite, la variable aleatoria
Σ 200
i=1 Xi tendrá aproximadamente una distribución normal con media np y varianza npq, siendo p la propor-
ción de éxitos que, en este caso, es 0,4. Así:
Obsérvese que se ha utilizado para calcular la probabilidad pedida la corrección de continuidad dada en la
unidad didáctica 5.
con n ∈ ℕ.
n
1 2
� �
n x
2 –1 –
ƒ (x) = x2 e 2, x>0
n
Γ � �
2
www.udima.es 189
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Observación. La distribución χ2n es reproductiva respecto de n, es decir, dadas dos variables alea-
torias X, Y independientes con X ~ χ2n1, Y ~ χ2n2, entonces:
X + Y ~ χ2n1+n2
La figura 4 muestra la representación gráfica de esta distribución para distintos grados de libertad.
Como se puede observar, es asimétrica y se hace más achatada y menos asimétrica a medida que aumen-
tan los grados de libertad.
0,3
n=2
0,2
n=4
ƒ (x)
0,1 n=8
0
0 5 10 15 20 25 30
x
• Media:
E (X) = n
• Varianza:
V (X) = 2n
William Sealy Gosset (1876-1937). Mate-
mático británico.
Trabajaba en la destilería Guinness en Du-
8.2. DISTRIBUCIÓN t DE STUDENT blín, donde aplicaba sus conocimientos es-
tadísticos tanto a la destilería como al cultivo
de la cebada.
Dadas las variables aleatorias X ~ χ2n y Z ~ N (0, 1), Publicaba bajo el seudónimo de Student, ya
ambas independientes, la variable aleatoria: que Guinness prohibió a sus empleados publi-
car cualquier clase de artículos.
Su mayor logro fue la distribución t de Student.
Z Sus estudios fueron la base para definir los
T= residuos estudentizados que, aunque fue-
X ron introducidos por otros autores, llevan su
nombre.
n
190 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
tiene una distribución t de Student con n grados de libertad (los mismos que los de la χ2 que interviene
en su definición). Su función de densidad es:
n+1
Γ � � –
n+1
2 t2 2
ƒ (t) = �1 + � , ∀ t ∈ℝ
n n
Γ � � √ πn
2
0,4 n = 10
n=4
0,3
0,2
ƒ (x)
0,1
n=2
0
– 8 – 4 0 4 8
x
N (0, 1)
4
t3
3
ƒ (x)
0
– 8 – 4 0 4 8
x
www.udima.es 191
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
• Media:
E (T) = 0
• Varianza:
n
V (T) = si n > 2
n–2
Sean X, Y dos variables aleatorias independientes, X ~ χ2n e Y ~ χ2m, entonces la variable aleatoria:
X/n
F=
Y/m
n m
n+m
Γ � � n2 m2 n–2 n+m
2 –
ƒ (t) = si x > 0
2 2
x (m + nx)
n m
Γ � � Γ � �
2 2
La figura 7 muestra la representación gráfica de esta distribución para distintos valores de los pará-
metros. Es asimétrica y con forma parecida a la χ2n. La asimetría disminuye a medida que n y m aumentan.
1,5
1,2
n = 30, m = 40
0,9
ƒ (x)
0,6
0,3 n = 10, m = 10
n = 4, m = 5
0
0 1 2 3 4 5
x
192 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
• Media:
m
E (F) = si m>2
m–2
• Varianza:
m2 (2m + 2n – 4)
V (F) = si m>4
n (m – 2)2 (m – 4)
tribución t de Student con n grados de libertad. Por ejemplo, En 1934 publicó su libro más conocido:
cálculo e interpretación del análisis de
para 11 grados de libertad, el valor que deja a la derecha un varianza y covarianza.
área de 0,05 es 1,796, es decir, t11;0,05 = 1,796.
1
Fn,m,α =
Fm,n,1–α
Obsérvese que se intercambian los grados de libertad entre sí. Por ejemplo:
1 1
F7,5;0,975 = = = 0,1892
F5,7;0,025 5,285
www.udima.es 193
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
P (X ≥ χ2n,α) = α
α
χ2n,α
α= 0,995 0,990 0,975 0,950 0,900 0,100 0,050 0,025 0,010 0,005
n=1 0,000039 0,000157 0,00098 0,00393 0,01579 2,706 3,841 5,024 6,635 7,879
2 0,010 0,020 0,051 0,103 0,211 4,605 5,991 7,378 9,210 10,597
3 0,072 0,115 0,216 0,352 0,584 6,251 7,815 9,348 11,345 12,838
4 0,207 0,297 0,484 0,711 1,064 7,779 9,488 11,143 13,277 14,860
5 0,412 0,554 0,831 1,145 1,610 9,236 11,070 12,832 15,086 16,750
6 0,676 0,872 1,237 1,635 2,204 10,645 12,592 14,449 16,812 18,548
7 0,989 1,239 1,690 2,167 2,833 12,017 14,067 16,013 18,475 20,278
8 1,344 1,646 2,180 2,733 3,490 13,362 15,507 17,535 20,090 21,955
9 1,735 2,088 2,700 3,325 4,168 14,684 16,919 19,023 21,666 23,589
10 2,156 2,558 3,247 3,940 4,865 15,987 18,307 20,483 23,209 25,188
11 2,603 3,054 3,816 4,575 5,578 17,275 19,675 21,920 24,725 26,757
12 3,074 3,571 4,404 5,226 6,304 18,549 21,026 23,337 26,217 28,299
13 3,565 4,107 5,009 5,892 7,042 19,812 22,362 24,736 27,688 29,819
14 4,075 4,660 5,629 6,571 7,790 21,064 23,685 26,119 29,141 31,319
15 4,601 5,229 6,262 7,261 8,547 22,307 24,996 27,488 30,578 32,801
16 5,142 5,812 6,908 7,962 9,312 23,542 26,296 28,845 32,000 34,267
17 5,697 6,408 7,564 8,672 10,085 24,769 27,587 30,191 33,409 35,719
18 6,265 7,015 8,231 9,390 10,865 25,989 28,869 31,526 34,805 37,156
19 6,844 7,633 8,906 10,11 711,651 27,204 30,144 32,852 36,191 38,582
20 7,434 8,260 9,591 10,85 112,443 28,412 31,410 34,170 37,566 39,997
21 8,034 8,897 10,283 11,59 113,240 29,615 32,671 35,479 38,932 41,401
22 8,643 9,542 10,982 12,338 14,041 30,813 33,924 36,781 40,289 42,796
23 9,260 10,196 11,689 13,091 14,848 32,007 35,172 38,076 41,638 44,181
24 9,886 10,856 12,401 13,848 15,659 33,196 36,415 39,364 42,980 45,559
25 10,520 11,524 13,120 14,611 16,473 34,382 37,652 40,646 44,314 46,928
26 11,160 12,198 13,844 15,379 17,292 35,563 38,885 41,923 45,642 48,290
27 11,808 12,879 14,573 16,151 18,114 36,741 40,113 43,195 46,963 49,645
28 12,461 13,565 15,308 16,928 18,939 37,916 41,337 44,461 48,278 50,993
29 13,121 14,256 16,047 17,708 19,768 39,087 42,557 45,722 49,588 52,336
30 13,787 14,953 16,791 18,493 20,59 40,256 43,773 46,979 50,892 53,672
40 20,707 22,164 24,433 26,509 29,051 51,805 55,759 59,342 63,691 66,766
50 27,991 29,707 32,357 34,764 37,689 63,167 67,505 71,420 76,154 79,490
60 35,535 37,485 40,482 43,188 46,459 74,397 79,082 83,298 88,379 91,952
70 43,275 45,442 48,758 51,739 55,329 85,527 90,531 95,023 100,425 104,215
80 51,172 53,540 57,153 60,391 64,278 96,578 101,879 106,629 112,329 116,321
90 59,196 61,754 65,647 69,126 73,291 107,565 113,145 118,136 124,116 128,299
100 67,328 70,065 74,222 77,929 82,358 118,498 124,342 129,561 135,807 140,169
194 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
P (T ≥ tn,α) = α
α
tn,α
α= 0,100 0,050 0,030 0,025 0,020 0,015 0,010 0,005 0,0010 0,0005
n=1 3,078 6,314 10,579 12,706 15,894 21,205 31,821 63,656 318,289 636,578
2 1,886 2,920 3,896 4,303 4,849 5,643 6,965 9,925 22,328 31,600
3 1,638 2,353 2,951 3,182 3,482 3,896 4,541 5,841 10,214 12,924
4 1,533 2,132 2,601 2,776 2,999 3,298 3,747 4,604 7,173 8,610
5 1,476 2,015 2,422 2,571 2,757 3,003 3,365 4,032 5,894 6,869
6 1,440 1,943 2,313 2,447 2,612 2,829 3,143 3,707 5,208 5,959
7 1,415 1,895 2,241 2,365 2,517 2,715 2,998 3,499 4,785 5,408
8 1,397 1,860 2,189 2,306 2,449 2,634 2,896 3,355 4,501 5,041
9 1,383 1,833 2,150 2,262 2,398 2,574 2,821 3,250 4,297 4,781
10 1,372 1,812 2,120 2,228 2,359 2,527 2,764 3,169 4,144 4,587
11 1,363 1,796 2,096 2,201 2,328 2,491 2,718 3,106 4,025 4,437
12 1,356 1,782 2,076 2,179 2,303 2,461 2,681 3,055 3,930 4,318
13 1,350 1,771 2,060 2,160 2,282 2,436 2,650 3,012 3,852 4,221
14 1,345 1,761 2,046 2,145 2,264 2,415 2,624 2,977 3,787 4,140
15 1,341 1,753 2,034 2,131 2,249 2,397 2,602 2,947 3,733 4,073
16 1,337 1,746 2,024 2,120 2,235 2,382 2,583 2,921 3,686 4,015
17 1,333 1,740 2,015 2,110 2,224 2,368 2,567 2,898 3,646 3,965
18 1,330 1,734 2,007 2,101 2,214 2,356 2,552 2,878 3,610 3,922
19 1,328 1,729 2,000 2,093 2,205 2,346 2,539 2,861 3,579 3,883
20 1,325 1,725 1,994 2,086 2,197 2,336 2,528 2,845 3,552 3,850
21 1,323 1,721 1,988 2,080 2,189 2,328 2,518 2,831 3,527 3,819
22 1,321 1,717 1,983 2,074 2,183 2,320 2,508 2,819 3,505 3,792
23 1,319 1,714 1,978 2,069 2,177 2,313 2,500 2,807 3,485 3,768
24 1,318 1,711 1,974 2,064 2,172 2,307 2,492 2,797 3,467 3,745
25 1,316 1,708 1,970 2,060 2,167 2,301 2,485 2,787 3,450 3,725
26 1,315 1,706 1,967 2,056 2,162 2,296 2,479 2,779 3,435 3,707
27 1,314 1,703 1,963 2,052 2,158 2,291 2,473 2,771 3,421 3,689
28 1,313 1,701 1,960 2,048 2,154 2,286 2,467 2,763 3,408 3,674
29 1,311 1,699 1,957 2,045 2,150 2,282 2,462 2,756 3,396 3,660
30 1,310 1,697 1,955 2,042 2,147 2,278 2,457 2,750 3,385 3,646
31 1,309 1,696 1,952 2,040 2,144 2,275 2,453 2,744 3,375 3,633
32 1,309 1,694 1,950 2,037 2,141 2,271 2,449 2,738 3,365 3,622
33 1,308 1,692 1,948 2,035 2,138 2,268 2,445 2,733 3,356 3,611
34 1,307 1,691 1,946 2,032 2,136 2,265 2,441 2,728 3,348 3,601
35 1,306 1,690 1,944 2,030 2,133 2,262 2,438 2,724 3,340 3,591
.../...
www.udima.es 195
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
α= 0,100 0,050 0,030 0,025 0,020 0,015 0,010 0,005 0,0010 0,0005
.../...
n = 36 1,306 1,688 1,942 2,028 2,131 2,260 2,434 2,719 3,333 3,582
37 1,305 1,687 1,940 2,026 2,129 2,257 2,431 2,715 3,326 3,574
38 1,304 1,686 1,939 2,024 2,127 2,255 2,429 2,712 3,319 3,566
39 1,304 1,685 1,937 2,023 2,125 2,252 2,426 2,708 3,313 3,558
40 1,303 1,684 1,936 2,021 2,123 2,250 2,423 2,704 3,307 3,551
45 1,301 1,679 1,929 2,014 2,115 2,241 2,412 2,690 3,281 3,520
50 1,299 1,676 1,924 2,009 2,109 2,234 2,403 2,678 3,261 3,496
55 1,297 1,673 1,920 2,004 2,104 2,228 2,396 2,668 3,245 3,476
60 1,296 1,671 1,917 2,000 2,099 2,223 2,390 2,660 3,232 3,460
120 1,289 1,658 1,899 1,980 2,076 2,196 2,358 2,617 3,160 3,373
∞ 1,282 1,645 1,881 1,960 2,054 2,170 2,326 2,576 3,091 3,291
Tabla 3. Valores de las probabilidades de la cola derecha en la distribución F de Fisher-Snedecor con n y m grados de libertad
P (F ≥ Fn,m,α) = α
α
Fn,m,α
n= 1 2 3 4 5 6 7 8 9 10 12 24 ∞
m=1 161,45 199,50 215,71 224,58 230,16 233,99 236,77 238,88 240,54 241,88 243,90 249,05 254,19
647,79 799,48 864,15 899,60 921,83 937,11 948,20 956,64 963,28 968,63 976,72 997,27 1.017,76
4.052,18 4.999,34 5.403,53 5.624,26 5.763,96 5.858,95 5.928,33 5.980,95 6.022,40 6.055,93 6.106,68 6.234,27 6.362,80
405.311,58 499.725,34 540.256,50 562.667,85 576.496,12 586.032,87 593.185,42 597.953,80 602.245,33 605.583,19 610.351,56 623.703,00 636.100,77
2 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,41 19,45 19,49
38,51 39,00 39,17 39,25 39,30 39,33 39,36 39,37 39,39 39,40 39,41 39,46 39,50
98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,42 99,46 99,50
998,38 998,84 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31 999,31
3 10,128 9,552 9,277 9,117 9,013 8,941 8,887 8,845 8,812 8,785 8,745 8,638 8,529
17,443 16,044 15,439 15,101 14,885 14,735 14,624 14,540 14,473 14,419 14,337 14,124 13,908
34,116 30,816 29,457 28,710 28,237 27,911 27,671 27,489 27,345 27,228 27,052 26,597 26,137
167,056 148,488 141,095 137,079 134,576 132,830 131,608 130,618 129,861 129,221 128,319 125,932 123,517
4 7,709 6,944 6,591 6,388 6,256 6,163 6,094 6,041 5,999 5,964 5,912 5,774 5,632
12,218 10,649 9,979 9,604 9,364 9,197 9,074 8,980 8,905 8,844 8,751 8,511 8,264
21,198 18,000 16,694 15,977 15,522 15,207 14,976 14,799 14,659 14,546 14,374 13,929 13,475
74,127 61,249 56,170 53,435 51,718 50,524 49,651 48,996 48,472 48,050 47,410 45,766 44,092
5 6,608 5,786 5,409 5,192 5,050 4,950 4,876 4,818 4,772 4,735 4,678 4,527 4,369
10,007 8,434 7,764 7,388 7,146 6,978 6,853 6,757 6,681 6,619 6,525 6,278 6,022
16,258 13,274 12,060 11,392 10,967 10,672 10,456 10,289 10,158 10,051 9,888 9,466 9,032
47,177 37,122 33,200 31,083 29,751 28,835 28,165 27,649 27,241 26,914 26,419 25,131 23,821
6 5,987 5,143 4,757 4,534 4,387 4,284 4,207 4,147 4,099 4,060 4,000 3,841 3,673
8,813 7,260 6,599 6,227 5,988 5,820 5,695 5,600 5,523 5,461 5,366 5,117 4,856
13,745 10,925 9,780 9,148 8,746 8,466 8,260 8,102 7,976 7,874 7,718 7,313 6,891
35,507 27,001 23,705 21,922 20,802 20,031 19,463 19,030 18,688 18,412 17,990 16,898 15,774
.../...
196 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
n= 1 2 3 4 5 6 7 8 9 10 12 24 ∞
.../...
m=7 5,591 4,737 4,347 4,120 3,972 3,866 3,787 3,726 3,677 3,637 3,575 3,410 3,234
8,073 6,542 5,890 5,523 5,285 5,119 4,995 4,899 4,823 4,761 4,666 4,415 4,149
12,246 9,547 8,451 7,847 7,460 7,191 6,993 6,840 6,719 6,620 6,469 6,074 5,660
29,246 21,690 18,772 17,197 16,207 15,520 15,018 14,634 14,330 14,083 13,708 12,733 11,722
8 5,318 4,459 4,066 3,838 3,688 3,581 3,500 3,438 3,388 3,347 3,284 3,115 2,932
7,571 6,059 5,416 5,053 4,817 4,652 4,529 4,433 4,357 4,295 4,200 3,947 3,677
11,259 8,649 7,591 7,006 6,632 6,371 6,178 6,029 5,911 5,814 5,667 5,279 4,869
25,415 18,494 15,829 14,392 13,484 12,858 12,398 12,045 11,767 11,540 11,194 10,295 9,358
9 5,117 4,256 3,863 3,633 3,482 3,374 3,293 3,230 3,179 3,137 3,073 2,900 2,712
7,209 5,715 5,078 4,718 4,484 4,320 4,197 4,102 4,026 3,964 3,868 3,614 3,340
10,562 8,022 6,992 6,422 6,057 5,802 5,613 5,467 5,351 5,257 5,111 4,729 4,321
22,857 16,387 13,901 12,560 11,714 11,129 10,697 10,368 10,106 9,894 9,570 8,724 7,836
10 4,965 4,103 3,708 3,478 3,326 3,217 3,135 3,072 3,020 2,978 2,913 2,737 2,543
6,937 5,456 4,826 4,468 4,236 4,072 3,950 3,855 3,779 3,717 3,621 3,365 3,087
10,044 7,559 6,552 5,994 5,636 5,386 5,200 5,057 4,942 4,849 4,706 4,327 3,920
21,038 14,905 12,553 11,283 10,481 9,926 9,517 9,204 8,956 8,754 8,446 7,638 6,785
11 4,844 3,982 3,587 3,357 3,204 3,095 3,012 2,948 2,896 2,854 2,788 2,609 2,410
6,724 5,256 4,630 4,275 4,044 3,881 3,759 3,664 3,588 3,526 3,430 3,173 2,890
9,646 7,206 6,217 5,668 5,316 5,069 4,886 4,744 4,632 4,539 4,397 4,021 3,613
1,987 13,812 11,561 10,346 9,579 9,047 8,655 8,355 8,116 7,923 7,625 6,848 6,020
12 4,747 3,885 3,490 3,259 3,106 2,996 2,913 2,849 2,796 2,753 2,687 2,505 2,302
6,554 5,096 4,474 4,121 3,891 3,728 3,607 3,512 3,436 3,374 3,277 3,019 2,733
9,330 6,927 5,953 5,412 5,064 4,821 4,640 4,499 4,388 4,296 4,155 3,780 3,372
18,645 12,973 10,805 9,633 8,892 8,378 8,001 7,711 7,480 7,292 7,005 6,249 5,441
13 4,667 3,806 3,411 3,179 3,025 2,915 2,832 2,767 2,714 2,671 2,604 2,420 2,212
6,414 4,965 4,347 3,996 3,767 3,604 3,483 3,388 3,312 3,250 3,153 2,893 2,603
9,074 6,701 5,739 5,205 4,862 4,620 4,441 4,302 4,191 4,100 3,960 3,587 3,176
17,815 12,313 10,209 9,073 8,355 7,856 7,489 7,206 6,982 6,799 6,519 5,782 4,988
14 4,600 3,739 3,344 3,112 2,958 2,848 2,764 2,699 2,646 2,602 2,534 2,349 2,136
6,298 4,857 4,242 3,892 3,663 3,501 3,380 3,285 3,209 3,147 3,050 2,789 2,495
8,862 6,515 5,564 5,035 4,695 4,456 4,278 4,140 4,030 3,939 3,800 3,427 3,015
17,142 11,779 9,730 8,622 7,922 7,436 7,078 6,802 6,583 6,404 6,130 5,407 4,625
16 4,494 3,634 3,239 3,007 2,852 2,741 2,657 2,591 2,538 2,494 2,425 2,235 2,016
6,115 4,687 4,077 3,729 3,502 3,341 3,219 3,125 3,049 2,986 2,889 2,625 2,324
8,531 6,226 5,292 4,773 4,437 4,202 4,026 3,890 3,780 3,691 3,553 3,181 2,764
16,120 10,970 9,006 7,944 7,272 6,805 6,460 6,195 5,984 5,812 5,547 4,846 4,080
18 4,414 3,555 3,160 2,928 2,773 2,661 2,577 2,510 2,456 2,412 2,342 2,150 1,923
5,978 4,560 3,954 3,608 3,382 3,221 3,100 3,005 2,929 2,866 2,769 2,503 2,195
8,285 6,013 5,092 4,579 4,248 4,015 3,841 3,705 3,597 3,508 3,371 2,999 2,577
15,380 10,390 8,487 7,460 6,808 6,355 6,021 5,763 5,557 5,390 5,132 4,447 3,690
20 4,351 3,493 3,098 2,866 2,711 2,599 2,514 2,447 2,393 2,348 2,278 2,082 1,850
5,871 4,461 3,859 3,515 3,289 3,128 3,007 2,913 2,837 2,774 2,676 2,408 2,094
8,096 5,849 4,938 4,431 4,103 3,871 3,699 3,564 3,457 3,368 3,231 2,859 2,433
14,819 9,953 8,098 7,096 6,461 6,019 5,692 5,440 5,239 5,075 4,823 4,149 3,398
22 4,301 3,443 3,049 2,817 2,661 2,549 2,464 2,397 2,342 2,297 2,226 2,028 1,790
5,786 4,383 3,783 3,440 3,215 3,055 2,934 2,839 2,763 2,700 2,602 2,332 2,012
7,945 5,719 4,817 4,313 3,988 3,758 3,587 3,453 3,346 3,258 3,121 2,749 2,317
14,381 9,612 7,796 6,814 6,191 5,758 5,437 5,190 4,993 4,832 4,583 3,919 3,171
.../...
www.udima.es 197
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
n= 1 2 3 4 5 6 7 8 9 10 12 24 ∞
.../...
m = 24 4,260 3,403 3,009 2,776 2,621 2,508 2,423 2,355 2,300 2,255 2,183 1,984 1,740
5,717 4,319 3,721 3,379 3,155 2,995 2,874 2,779 2,703 2,640 2,541 2,269 1,945
7,823 5,614 4,718 4,218 3,895 3,667 3,496 3,363 3,256 3,168 3,032 2,659 2,223
14,028 9,340 7,554 6,589 5,977 5,551 5,235 4,991 4,797 4,638 4,393 3,735 2,989
26 4,225 3,369 2,975 2,743 2,587 2,474 2,388 2,321 2,265 2,220 2,148 1,946 1,698
5,659 4,265 3,670 3,329 3,105 2,945 2,824 2,729 2,653 2,590 2,491 2,217 1,888
7,721 5,526 4,637 4,140 3,818 3,591 3,421 3,288 3,182 3,094 2,958 2,585 2,144
13,739 9,117 7,357 6,406 5,802 5,381 5,070 4,829 4,637 4,480 4,238 3,586 2,840
28 4,196 3,340 2,947 2,714 2,558 2,445 2,359 2,291 2,236 2,190 2,118 1,915 1,662
5,610 4,221 3,626 3,286 3,063 2,903 2,782 2,687 2,611 2,547 2,448 2,174 1,839
7,636 5,453 4,568 4,074 3,754 3,528 3,358 3,226 3,120 3,032 2,896 2,522 2,077
13,497 8,930 7,193 6,253 5,657 5,241 4,933 4,695 4,505 4,349 4,109 3,462 2,716
30 4,171 3,316 2,922 2,690 2,534 2,421 2,334 2,266 2,211 2,165 2,092 1,887 1,630
5,568 4,182 3,589 3,250 3,026 2,867 2,746 2,651 2,575 2,511 2,412 2,136 1,797
7,562 5,390 4,510 4,018 3,699 3,473 3,305 3,173 3,067 2,979 2,843 2,469 2,019
13,293 8,773 7,054 6,125 5,534 5,122 4,817 4,582 4,393 4,239 4,001 3,357 2,610
40 4,085 3,232 2,839 2,606 2,449 2,336 2,249 2,180 2,124 2,077 2,003 1,793 1,517
5,424 4,051 3,463 3,126 2,904 2,744 2,624 2,529 2,452 2,388 2,288 2,007 1,648
7,314 5,178 4,313 3,828 3,514 3,291 3,124 2,993 2,888 2,801 2,665 2,288 1,819
12,609 8,251 6,595 5,698 5,128 4,731 4,436 4,207 4,024 3,874 3,643 3,011 2,255
60 4,001 3,150 2,758 2,525 2,368 2,254 2,167 2,097 2,040 1,993 1,917 1,700 1,399
5,286 3,925 3,343 3,008 2,786 2,627 2,507 2,412 2,334 2,270 2,169 1,882 1,495
7,077 4,977 4,126 3,649 3,339 3,119 2,953 2,823 2,718 2,632 2,496 2,115 1,617
11,973 7,768 6,171 5,307 4,757 4,372 4,086 3,865 3,687 3,542 3,315 2,694 1,915
120 3,920 3,072 2,680 2,447 2,290 2,175 2,087 2,016 1,959 1,910 1,834 1,608 1,267
5,152 3,805 3,227 2,894 2,674 2,515 2,395 2,299 2,222 2,157 2,055 1,760 1,327
6,851 4,787 3,949 3,480 3,174 2,956 2,792 2,663 2,559 2,472 2,336 1,950 1,401
11,380 7,321 5,781 4,947 4,416 4,044 3,767 3,552 3,379 3,237 3,016 2,402 1,574
∞ 3,842 2,996 2,605 2,372 2,214 2,099 2,010 1,939 1,880 1,831 1,752 1,517 1,000
5,024 3,689 3,116 2,786 2,567 2,408 2,288 2,192 2,114 2,048 1,945 1,640 1,000
6,635 4,605 3,782 3,319 3,017 2,802 2,640 2,511 2,408 2,321 2,185 1,791 1,000
10,828 6,909 5,422 4,617 4,103 3,743 3,475 3,266 3,098 2,959 2,743 2,133 1,000
198 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
En una bolsa hay 1 bola blanca y 2 negras. Se hacen extracciones con reemplazamiento. Se define
la variable aleatoria X tal que X = 0 si la bola que sale es blanca y X = 1 si es negra. ¿Cuál es la distribu-
ción de una muestra aleatoria simple de tamaño 5? ¿Cuál es la distribución de la media aritmética? Cal-
cular la esperanza matemática y la varianza de la media aritmética.
Enunciado 2
Sea X1, …, Xn una muestra aleatoria simple de una población cuya distribución es normal con media μ
y varianza σ2 desconocidas. De los siguientes, ¿cuáles son estadísticos?
a) Σ Xi – μ.
b) σ X1 + σ X2.
c) Xi, i = 1, …, n.
d) X 21 + X 22 – eX3.
e) Xi /σ, i = 1, …, n.
–
f) Σ (Xi – X )2.
Enunciado 3
–
Sea X la media de una muestra aleatoria simple X1, …, Xn de una distribución N (μ, 10). Calcular n
–
para que P (μ – 5 < X < μ + 5) = 0,954.
www.udima.es 199
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Enunciado 4
a) n suficientemente grande.
b) n pequeño.
Enunciado 5
Una compañía de seguros desea saber el número medio de indemnizaciones que tendrá que pagar
durante un año. Para ello se observa un conjunto de informes de otros años, y se concluye que dicho
número medio oscila entre 6 y 7 indemnizaciones, con una probabilidad de al menos 0,96. Si para el
estudio no se ha utilizado más información que aquella que asegura que el número de indemnizaciones
pagadas en un año es una variable aleatoria con desviación típica 1, ¿cuántos informes ha debido utilizar
la compañía para la estimación de dicho número medio?
200 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Solución 1
2 2
La esperanza es y la varianza .
3 45
Solución 2
Solución 3
n = 16.
Solución 4
a) n = 16.
b) n ≥ 87.
Solución 5
n ≥ 100.
E
JERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
1. Una máquina empaqueta un cierto producto en dosis de peso X1, donde X1 está normalmente
distribuido con media 25 gramos, y desviación típica 0,4 gramos. El peso del paquete vacío
tiene también distribución normal con media 5 gramos y desviación típica 0,2 gramos. Si
se toma al azar una muestra de 100 paquetes, calcular la probabilidad de que el peso medio
de los 100 paquetes esté comprendido entre 29 y 31 gramos.
2. Se quiere estimar el sueldo medio de los trabajadores de diferentes fábricas. Para hacerlo,
la única información de la que se dispone es que la desviación típica de los sueldos es 12
euros. ¿Cuál debería ser el tamaño muestral para que, con una confianza del 90 %, la esti-
mación puntual del sueldo medio diario diste a lo más 3 euros del sueldo medio real?
3. Una empresa realiza un estudio entre sus empleados para conocer la cantidad media que gas-
tan estos en sus vacaciones de verano. Se sabe que la desviación típica de lo que gastan es
www.udima.es 201
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
6 euros diarios. Se ha realizado una encuesta sobre 400 empleados. ¿Cuál sería la confianza
que se puede depositar en la afirmación: «la cantidad media diaria que gasta un empleado
oscila entre 58 y 61 euros»?
4. Mediante el uso de algún paquete estadístico como Statgraphics, generar números aleato-
rios para las distribuciones binomial y exponencial y usarlos para «visualizar» el teorema
central del límite. Específicamente, para n = 10 y n = 50 generar 60 muestras de una distri-
bución binomial con p = 0,4. Repetir el procedimiento anterior generando ahora una distri-
bución exponencial con parámetro λ = 100.
5. En la producción de cierto material para soldar se sabe que la desviación típica de la tensión
de ruptura de este material es de 25 libras. ¿Cuál debe ser la tensión de ruptura promedio
del proceso si, a partir de una muestra aleatoria simple de 50 piezas, la probabilidad de que
la media muestral tenga un valor mayor de 250 libras es de 0,95?
REFERENCIAS BIBLIOGRÁFICAS
Básica
DEVORE, J. L.: Probabilidad y estadística para ingeniería y ciencias, 6.ª ed., Méjico: International Thomson Editores, 2005.
MILTON, J. S. y ARNOLD, J. C.: Probabilidad y estadística para ingeniería y ciencias, México: McGraw-Hill, 2004.
En la red
Avanzada
202 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
8
UNIDAD
DIDÁCTICA
ESTIMACIÓN
OBJETIVOS DE LA UNIDAD
1. Introducción
2. Estadísticos y estimadores
3. Propiedades de los estimadores
3.1. Estimador centrado o insesgado
3.2. Eficiencia
3.3. Consistencia
www.udima.es 203
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
204 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
En esta unidad didáctica se trata la estimación de parámetros: estimación puntual y estimación por
intervalos de confianza. Consiste en aproximar el valor de un parámetro desconocido por un valor con-
creto o por un intervalo calculado a partir de la muestra aleatoria simple obtenida de la población.
www.udima.es 205
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
1. INTRODUCCIÓN
Supóngase que se observa una muestra aleatoria simple de una variable aleatoria X que, se sabe,
sigue una distribución conocida, por ejemplo, poisson, normal o cualquiera de las ya estudiadas en la
unidad didáctica 5. Se sabe la forma de esa distribución pero se ignora el valor de alguno(s) o todos sus
parámetros. La pregunta fundamental que se plantea es: ¿cómo se puede utilizar la información muestral
para aproximar o estimar esos parámetros desconocidos de una distribución? La respuesta inmediata es
mediante la estimación, que consiste en asignar valores concretos a los parámetros desconocidos. Exis-
ten dos tipos principales de estimación:
2. ESTADÍSTICOS Y ESTIMADORES
Dada X1, X2, …, Xn muestra aleatoria simple de una variable aleatoria X, se llama estadístico a toda
función (medible) de los elementos de la muestra, es decir:
EJEMPLO 1
Dada (X1, …, Xn) una muestra aleatoria simple de una variable aleatoria X ~ 𝒩 (μ, σ) un estadístico sería:
n
S (X1, …, Xn) = X12 + … + Xn2 = Σ Xi2
i=1 .../...
206 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
EJEMPLO 2
Se estudia la variable aleatoria X = Número de trabajos enviados a una impresora en un día, suponiendo que
X ~ � (λ) . Si se observa el número de trabajos enviados en n días, se pueden tomar como estimadores de λ:
‒
λ̂ = X o λ̂ = min (Xi) o λ̂ = max (Xi)
EJEMPLO 3
Si X ~ 𝒩 (μ, 1) y se toma una muestra aleatoria simple (X1, …, Xn) , se pueden tomar como estimadores del
parámetro μ los estadísticos:
‒
μ̂ = X o μ̂ = Med (Xi)
ya que se sabe que, al ser la distribución normal simétrica, la media y la mediana coinciden.
En los últimos ejemplos se ha visto que para un mismo parámetro se pueden proponer diferentes
estimadores. A continuación se presentan las propiedades que serían deseables en los estimadores.
Se ven a continuación criterios para la comparación de estimadores y las propiedades que son desea-
bles para que un estadístico produzca buenas estimaciones.
Se dice que un estimador θ̂ es centrado o insesgado para estimar el parámetro θ si, para cualquier
tamaño muestral, su esperanza es igual al parámetro que se quiere estimar, es decir:
∀ n, E (θ̂) = θ
www.udima.es 207
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 4
‒
Ya se ha visto en la unidad didáctica anterior que el estadístico media muestral X es un estimador centrado
para estimar la media poblacional, ya que si (X1, …, Xn) es una muestra aleatoria simple de una variable
aleatoria X con E (X) = μ, se tiene:
‒
E (X ) = μ
EJEMPLO 5
Σni=1 (Xi ‒ X‒ )2
Comprobar que la varianza muestral m2 = no es un estimador centrado para la varianza σ2.
n
Σni=1 Xi2 ‒2
m2 = ‒X
n
y se calcula su esperanza:
Por tanto no es centrado. Para conseguir un estimador centrado de σ2, se define la cuasivarianza muestral:
Σni=1 (Xi ‒ X‒ )2 n
s2 = = m2
n‒1 n‒1
n n n‒1
E (s2) = E (m2) = σ2 = σ2
n‒1 n‒1 n
3.2. EFICIENCIA
1
Eficiencia =
V (θ̂)
Se dirá que θ̂1 es más eficiente o preciso que θ̂2, si para cualquier tamaño muestral se verifica:
La eficiencia es una propiedad ligada a la varianza y sirve para comparar estimadores centrados, ya
que siempre se preferirá el de menor varianza. Por ello se suele hablar de eficiencia de un estimador θ̂1
relativo a otro estimador θ̂2.
208 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Si los estimadores a comparar no son centrados, se utiliza un nuevo concepto, el error cuadrático
medio, que se define como:
Entre dos estimadores del mismo parámetro θ se prefiere el de menor error cuadrático medio.
EJEMPLO 6
‒
Sea (X1, …, Xn) una muestra aleatoria simple de una variable X ~ 𝒩 (μ, σ). Sean T1 = X y T2 = X1 dos estima-
dores del parámetro media μ. ¿Cuál de los dos es más consistente?
‒
Ya que E (X1) = E (X ) = μ, los dos estimadores son centrados. Se sabe, además, que:
‒ σ2
V (X ) =
n
y V (X1) = σ2, ya que se distribuye idénticamente a X. Suponiendo que n > 1, ya que representa un tamaño
‒
muestral, se tiene que X es preferible a X1 para estimar μ por ser más eficiente.
3.3. CONSISTENCIA
Cuando se disponga de muestras grandes y sea difícil encontrar un estimador centrado con alta efi-
ciencia, lo menos que se le exige a un estimador es que sea consistente, es decir, que su valor se aproxime
al valor del parámetro desconocido a medida que aumenta el tamaño muestral.
Si θ̂n es el estimador de θ para una muestra de tamaño n, este será consistente si converge en pro-
babilidad a θ:
p
θ̂n → θ
E (θ̂n) ⟶ θ V (θ̂n) ⟶ 0
n→∞ n→∞
EJEMPLO 7
‒
La media muestral X n es un estimador consistente para estimar μ, ya que:
‒
E (X n) = μ ⟶ μ
{ ‒
V (X n) =
σ2
⟶ 0
n n→∞
n→∞
.../...
www.udima.es 209
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
Además, en la unidad didáctica anterior se vio, por la ley de los grandes números, que:
‒ p
Xn → μ
4. M
ÉTODOS DE OBTENCIÓN DE ESTIMA-
DORES
EJEMPLO 8
Sea X una variable aleatoria con distribución γ (λ, p). Obtener estimadores de los parámetros λ y p por el
método de los momentos.
Primero se buscan relaciones funcionales entre los momentos respecto del origen de X y los parámetros a
estimar:
p
E (X) = α1 =
λ
p p 2
p (p + 1)
E (X2) = α2 = V (X) + E (X2) = +� � =
λ2 λ λ2
α1 α21
λ= y p=
α2 ‒ α21 α2 ‒ α21
.../...
210 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
A continuación se estiman los momentos poblacionales αi (véase definición en la unidad didáctica 4) por
medio de sus correspondientes momentos muestrales ai (véase definición en la unidad didáctica 2) y los esti-
madores serían:
α1 α21
λ̂ = y p̂ =
α2 ‒ α21 α2 ‒ α21
Σni=1 xi2
siendo a1 = x‒ y a2 = .
n
Por tanto, si se quiere estimar el parámetro k-dimensional (θ1, …, θk), el método de los momentos
consiste en:
• Encontrar relaciones funcionales, tantas como parámetros se quiera estimar, entre los momentos
con respecto del origen de la variable aleatoria de la que proviene la muestra y los parámetros.
{
θ1 = g1 (α1, …, αk)
⫶⫶
θk = g2 (α1, …, αk)
• Estimar dichos momentos, α1, α2, …, αk , por medio de los momentos muestrales a1, a2, …, ak ,
obteniendo los estimadores.
EJEMPLO 9
Dada X ~ 𝒩 (μ, σ), encontrar los estimadores para los parámetros μ y σ por el método de los momentos.
Se quiere estimar el parámetro bidimensional θ = (μ, σ). El sistema a resolver es:
E (X) = α1 = μ
{ E (X2) = α2 = σ2 + μ2
Despejando μ y σ2 se tiene:
μ̂ = a1 = x‒
{ σ̂2 = a2 ‒ x‒ 2 =
Σni=1 xi2
n
‒ x‒ 2 =
Σni=1 (xi ‒ x‒ )2
n
www.udima.es 211
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
• Son consistentes.
• En general, no son centrados ni con mínima varianza.
• Son relativamente sencillos de obtener.
• No utilizan toda la información contenida en la muestra, ya que solamente tienen en cuenta
los momentos de la población de la que se obtienen los datos.
Dada X variable aleatoria discreta con función de probabilidad Pθ (X) y una muestra aleatoria sim-
ple de X, (X1, …, Xn), se definía (unidad didáctica 7) la función de probabilidad conjunta de la muestra
como:
n
Pθ (X1 = x1, …, Xn = xn) = � Pθ (Xi = xi)
i=1
Esta puede verse como función de la muestra aleatoria simple y como función del parámetro.
La función de probabilidad o de densidad conjunta de la muestra aleatoria simple (X1, …, Xn), vista
como función de θ, se denomina función de verosimilitud L (θ). Es decir, para (x1, …, xn) fijo, se
tiene:
4.2.2. Metodología
El método de máxima verosimiltud selecciona como estimador del parámetro desconocido θ, aquel
valor que maximiza la probabilidad de la muestra aleatoria observada, es decir:
θ̂ = max L (θ)
θ
212 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
{
∂L (θ)
=0
∂θ1
⫶
∂L (θ)
=0
∂θk
Hay que comprobar que, efectivamente, el θ̂ así obtenido es un máximo de la función. Para ello se
comprueba que la matriz de segundas derivadas parciales o matriz Hessiana es definida negativa.
EJEMPLO 10
Supóngase que X ~ � (λ). Se toma una muestra aleatoria simple (X1, …, Xn). Encontrar el EMV del parámetro λ.
Lo primero que se hace es construir la función de verosimilitud. Dada (x1, …, xn), se tiene:
n n λx1 λΣx1
L (θ) = � Pθ (xi) = � e‒λ = e‒nλ
i=1 i=1 xi ! � xi !
n n
Ln L (θ) = ‒ nλ + � � xi� Ln λ ‒ Ln �� xi !�
i=1 i=1
∂LnL (θ) Σ n
i =1 Xi ‒
= 0 ⇒ λ̂ = =X
∂θ n
∂2LnL (θ) Σ Xi n
=‒ � =‒ ‒ <0
∂θ2 λ2 λ= λ̂ X
Esta última expresión es menor que 0, ya que los elementos de una muestra aleatoria simple que provienen
de una distribución de Poisson son todos positivos y, por tanto, su media es también positiva. Además, n es
también positivo al ser un tamaño muestral.
www.udima.es 213
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Si (X1, …, Xn) es una muestra aleatoria simple de X ~ 𝒩 (μ, σ), los estimadores que se obtienen
por el método de máxima verosimilitud de μ y de σ2 son:
–
– Σni=1 (Xi – X )2
μ̂ = X σ̂2 =
n
Teorema de Fisher: Si (X1, …, Xn) es una muestra aleatoria simple de X ~ 𝒩 (μ, σ), se verifica que:
–
• X y S 2 son independientes.
–
X –μ
• ~ 𝒩 (0, 1)
σ
√n
n (n – 1)
• m2 = S 2 ~ χ2n–1
σ2 σ2
En la estimación por intervalos de confianza, en lugar de dar un valor concreto aproximado para el
parámetro, se da una región o intervalo de la recta real en la que este puede encontrarse con cierto grado
de confianza. Se introduce el método con un ejemplo para posteriormente desarrollarlo teóricamente.
Sea X una variable aleatoria con distribución 𝒩 (μ, 1). Se toma una muestra aleatoria simple X1, …,
– –
Xn de X. Se sabe que el estimador puntual de μ es la media muestral, μ̂ = X , y, además, X ~ 𝒩 (μ, 1/√ n).
Se trata de encontrar dos estadísticos T1 (X1, …, Xn) y T2 (X1, …, Xn), de forma que, por ejemplo:
214 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
y, buscando en la tabla correspondiente, el intervalo que para la distribución 𝒩 (0, 1) encierra una pro-
babilidad de 0,95 es (− 1,96; 1,96):
Sustituyendo Z se tiene:
–
X –μ
P – 1,96 < < 1,96 = 0,95
� 1 �
√n
– 1 – 1
P � X – 1,96 < μ < X + 1,96 � = 0,95
√n √n
con lo que:
– 1
T1 (X1, …, Xn) = X – 1,96
√n
– 1
T2 (X1, …, Xn) = X + 1,96
√n
4,31; 5,33; 5,14; 5,68; 6,27; 4,9; 3,32; 4,11; 4,47; 5,71
se tiene que
–x = 4,924 y –x – 1,96 1
= 4,3 y –x + 1,96 1
= 5,54
√ 10 √ 10
Se dirá que (4,3; 5,54) es un intervalo al 95 % de confianza para el parámetro μ.
Se quieren encontrar dos estadísticos T1 (X1, …, Xn) y T2 (X1, …, Xn), tales que:
www.udima.es 215
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
y α pequeño. Si después de observar la muestra los valores de T1 (X1, …, Xn) y T2 (X1, …, Xn) son, res-
pectivamente, los números a y b, se dirá que (a, b) es un intervalo de confianza al (1 – α) 100 % para el
parámetro θ.
La expresión anterior no significa que la probabilidad de que el parámetro esté en el intervalo (a, b)
sea 1 – α. El parámetro es una constante y, como tal, estará o no en un intervalo determinado. Antes de
observar la muestra, se considera 1 – α como la probabilidad de que θ esté en el intervalo aleatorio (T1 (∙),
T2 (∙)). Después de observarla, θ o está o no está en el intervalo calculado, no tiene sentido hablar de pro-
babilidad y lo que se dice es que existe una confianza del (1 – α) 100 % de que θ esté en (a, b), interpre-
tándose esta frase de la siguiente forma:
En la práctica solamente se dispondrá de una muestra, con la que se podrá construir un solo inter-
valo. En este intervalo, no tiene sentido hablar de la probabilidad de que el parámetro esté contenido en
él, ya que dicho parámetro o está (probabilidad 1) o no está (probabilidad 0). Por ello, para expresar la
incertidumbre que se tiene sobre si el intervalo calculado contiene o no el valor del parámetro descono-
cido, se utilizará el nivel de confianza.
6.3. CONSTRUCCIÓN
Este método de construcción de intervalos, que ya ha sido ilustrado con un ejemplo, se llama método
de la variable pivote. Se trata de encontrar una variable aleatoria que sea función de la muestra y del pará-
metro desconocido, de la que se conozca su distribución y, además, esta no dependa del parámetro. En el
ejemplo del epígrafe 6.1. esta variable era:
–
X –μ
~ 𝒩 (0, 1)
1
√n
siendo μ el parámetro desconocido que se quiere estimar.
A esta variable se le llama variable pivote, ya que permite
pivotar o pasar de una expresión del tipo: Jerzy Neyman (1894-1981). Fue un mate-
mático y estadístico polaco-americano.
216 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Sea (X1, …, Xn) una muestra aleatoria simple de una variable aleatoria X ~ N (μ, σ), con µ descono-
cida y σ conocida. Se toma como variable pivote:
–
X –μ
~ 𝒩 (0, 1)
σ
√n
En la variable pivote lo único desconocido es el parámetro µ. Por tanto y siendo zα/2 el punto de la
distribución 𝒩 (0, 1) que deja a la derecha un área de α/2:
–
X –μ
P – zα/2 ≤ ≤ zα/2 =1–α
� σ �
√n
Pivotando en la expresión anterior se obtiene el intervalo al (1 – α) 100 % de confianza para μ:
– σ – σ
� X – zα/2 , X + zα/2 �
√n √n
– s – s
� X – tn–1,α/2 , X + tn–1,α/2 �
√n √n
www.udima.es 217
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 11
En una muestra aleatoria simple de n = 6 coches americanos se obtienen los siguientes valores para la varia-
ble X = Consumo, en kilómetro por litro:
6 6
Σ xi = 116,9 Σ xi2 = 2.282,41
i=1 i=1
para obtener:
y, por tanto, s = 0,98. Como el intervalo es al 95 % de confianza, 1 ‒ α = 0,95 ⇒ α = 0,05 y se necesita el per-
centil tn‒1,α/2 = t5;0,025 = 2,571. Sustituyendo en la fórmula del intervalo de confianza, se obtiene:
0,98 0,98
�19,483 ‒ 2,571 , 19,483 + 2,571 � = (18,445; 20,511)
√6 √6
Se supone ahora que se tiene una muestra aleatoria simple (X1, …, Xn) de una variable aleatoria
X ~ 𝒩 (μ, σ) de la que no se conoce µ. Se quiere construir un intervalo de confianza para la varianza σ2.
Se utiliza como variable pivote:
(n – 1) S 2
~ χ2n–1
σ2
Por tanto:
(n – 1) S 2
P � χ2n –1,1– (α/2) ≤ ≤ χ2n –1,α/2 � = 1 – α
σ2
(n – 1) S 2 (n – 1) S 2
� , �
χ2n –1,α/2 χ2n –1,1–(α/2)
218 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 12
Con la muestra aleatoria simple del consumo de los coches americanos del ejemplo 11, construir un inter-
valo de confianza al 90 % para la varianza del consumo, suponiendo que la variable X = Consumo, en kilóme-
tro por litro sigue una distribución normal.
Como s2 = 0,961 y 1 ‒ α = 0,90 ⇒ a = 0,1 y α/2 = 0,05, se necesitan los percentiles χ25;0,95 y χ25;0,05. Bus-
cando en la tabla correspondiente, se tiene χ25;0,95 = 1,145 y χ25;0,05 = 11,07. Sustituyendo en la fórmula del
intervalo:
5 · (0,961) 5 · (0,961)
� , � = (0,347; 3,354)
11,07 1,145
siendo este el intervalo al 90 % de confianza para la varianza del consumo de los coches. Esa varianza des-
conocida σ2 se encontrará en ese intervalo con un 90 % de confianza.
Se supone que se tienen dos poblaciones normales independientes X ~ 𝒩 (μ1, σ1) e Y ~ 𝒩 (μ2, σ2).
Se tiene una muestra aleatoria simple de cada una de ellas, de tamaños n1 y n2, respectivamente:
Si se supone que la varianza de las dos poblaciones normales X e Y es la misma, i.e. σ21 = σ22 = σ2, se
define el estimador de esta varianza común, s2p, como la media ponderada de las cuasivarianzas de cada
muestra s21 y s22 , esto es:
– –
(X – Y ) – (μ1 – μ2)
~ tn1+n2–2
1 1
sp +
n1 n2
www.udima.es 219
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
– – 1 1 – – 1 1
�(X – Y ) – tn1+n2–2,α/2 sp + , (X – Y ) + tn1+n2–2,α/2 sp + �
n1 n2 n1 n2
EJEMPLO 13
Se quieren comparar dos sistemas, A y B, de matriculación online en un curso a distancia. Para ello, se
toma una muestra aleatoria simple de la variable X = Tiempo de matriculación con el sistema A y de la variable
Y = Tiempo de matriculación con el sistema B, que se suponen independientes, distribuidas normalmente y con
la misma varianza. Calcular un intervalo de confianza al 98 % para la diferencia de tiempos medios entre
ambos sistemas de matriculación.
Tabla 1. Datos
Se realizan los cálculos de los estadísticos correspondientes, que se resumen en la siguiente tabla:
Tabla 2. Estadísticos
Sistema A Sistema B
Se calcula s2p:
5 ∙ (10,7) + 5 ∙ (9,06)
s2p = = 9,88
6+6–2
con lo que sp = 3,14. Como 1 – α = 0,98 ⇒ α = 0,02 y α/2 = 0,01, se necesita el percentil t10;0,01 = 2,764. Sustitu-
yendo en la fórmula del intervalo se tiene:
1 1 1 1
�(17,5 ‒ 19,33) ‒ (2,764) · (3,14) · + ; (17,5 ‒ 19,33) + (2,764) · (3,14) · + �
6 6 6 6
Por tanto, el intervalo de confianza al 98 % para la diferencia de tiempos medios es:
(‒ 6,84; 3, 18)
La diferencia de tiempos medios μ1 ‒ μ2 se encuentra en ese intervalo con una confianza del 98 %.
220 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Si las varianzas de ambas poblaciones no pueden suponerse iguales, se utiliza el siguiente intervalo
aproximado:
s21 s22
con A = yB= . Se comprueba que 0 ≤ ∆ ≤ máx (n1 – 1, n2 – 1).
n1 n2
EJEMPLO 14
Si se calcula el intervalo de confianza al 98 % para los datos del ejemplo 13 sin suponer varianzas iguales, se
tiene que ∆ es el entero más próximo a 0,068. Como ∆ = 0, los grados de libertad no se modifican y el inter-
valo queda:
De nuevo, se supone que se tienen dos poblaciones normales independientes X ~ 𝒩 (μ1, σ1) e
Y ~ 𝒩 (μ2, σ2). Se tiene una muestra aleatoria simple de cada una de ellas, de tamaños n1 y n2,
respectivamente:
Se quiere construir un intervalo de confianza para el parámetro razón de varianzas, es decir, θ = σ21/σ22.
Esta es una forma de comparar las dos poblaciones con base en sus varianzas.
www.udima.es 221
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
s21 s21
� Fn2–1,n1–1,1–α/2, Fn2–1,n1–1,α/2 �
s22 s22
EJEMPLO 15
Con los datos del ejemplo 13, construir un intervalo de confianza al 95 % para la razón de las varianzas del
tiempo de matriculación con ambos sistemas.
Como α = 0,05; α/2 = 0,025 se necesitan los percentiles:
1 1
F5,5;0,025 = 7,146 y F5,5;0,975 = = = 0,139
F5,5;0,025 7,146
1
Fn,m,α =
Fm,n,1‒a
El intervalo queda:
10,7 10,7
� · (0,139), · (7,146)�
9,06 9,06
con lo que la razón de varianzas se encuentra en el intervalo (0,16; 8,43) con un 95 % de confianza. Como el
valor 1 pertenece a este intervalo, se podría admitir, con un 95 % de confianza, que ambos sistemas de matri-
culación tienen la misma varianza en el tiempo de matriculación, ya que:
σ 21
σ 21 = σ 22 ⇔ =1
σ 22
Por el teorema central del límite se sabe que si X es una variable aleatoria de la que no se conoce
su distribución, con E (X) = μ y V (X) = σ2 < ∞, y (X1, …, Xn) es una muestra aleatoria de X, para n sufi-
cientemente grande:
– σ
X n ~ 𝒩 �μ, �
√n
222 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Por tanto, para muestras de tamaño suficientemente grande, el intervalo de confianza para la media,
al (1 – α) 100 % de confianza, será:
– s – s
�X – zα/2 , X + zα/2 �
√n √n
Este resultado se aplicará con n ≥ 30.
Si se quiere estimar la proporción p de elementos de una población que tienen un determinado atri-
buto, se obtiene una muestra aleatoria simple de una distribución de Bernoulli con parámetro p, es decir:
en la que cada Xi es igual a 1 o 0, según tenga o no, el elemento i, el atributo. En este caso, el estimador
puntual para esa proporción desconocida es:
Σni=1 Xi –
p̂ = =X
n
que se corresponde con la proporción muestral de elementos con el atributo. Por el teorema de De Moivre
el intervalo de confianza al (1 – α) 100 % será:
p̂ (1 – p̂ ) p̂ (1 – p̂ )
� p̂ – zα/2 , p̂ + zα/2 �
n n
EJEMPLO 16
Se observa que un nuevo dispositivo para acelerar el acceso a una red proporciona 73 conexiones con éxito
en menos de 0,022 segundos de un total de 115 intentos de conexión. Construir un intervalo de confianza al
90 % para la proporción p de conexiones sin error en ese tiempo.
En este caso, la proporción muestral de éxitos observados es:
73
p̂1 = = 0,635
115
Por tanto, con un 90 % de confianza se puede afirmar que la proporción de conexiones con éxito se encuen-
tra en el intervalo (0,561; 0,709).
www.udima.es 223
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
En este caso se tienen dos muestras de tamaños n1 y n2 de dos poblaciones independientes de Ber-
noulli, es decir:
donde
Σ xi Σ yi
p̂1 = y p̂2 =
n1 n2
son las proporciones en cada muestra de elementos con el atributo en estudio y q̂i = 1 – p̂i, i = 1,2.
EJEMPLO 17
Se quiere comparar el sistema de acceso del ejemplo 16 con otro protocolo que proporciona 72 accesos con
éxito de un total de 100 intentos. Construir un intervalo de confianza al 98 % para la diferencia entre las pro-
porciones de acceso con éxito mediante los dos protocolos.
Las proporciones muestrales de éxitos observadas son:
73
p̂1 = = 0,635 para el protocolo I
115
72
p̂2 = = 0,72 para el protocolo II
100
.../...
224 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
(– 0,23; 0,062)
Como este intervalo contiene el valor 0, se puede concluir que ambos sistemas tienen la misma proporción
de accesos con éxito y que las diferencias muestrales se deben al azar, ya que:
p1
p1 = p2 ⇔ =1
p2
www.udima.es 225
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
De una variable aleatoria con distribución gamma, X ~ γ (λ, p) se obtiene la siguiente muestra alea-
toria simple de tamaño n = 5.
Obtener estimaciones puntuales por medio del método de los momentos de los parámetros desco-
nocidos λ y p.
Enunciado 2
El número de errores que se registran en cierto proceso en una hora sigue una distribución de Poisson
de parámetro λ desconocido. En lugar de observar el número de errores en cada hora se ha observado el
tiempo (en horas) transcurrido entre errores consecutivos.
¿cuál es la estimación de λ?
226 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Enunciado 3
Para estudiar el desgaste que sufren sus neumáticos, los investigadores del equipo Renault de Formula 1
han medido la profundidad en milímetros del dibujo característico de los mismos tras diez sesiones de
entrenamiento en las que los neumáticos han llegado enteros. A la profundidad inicial del dibujo, que es
de 7 milímetros, se le resta la profundidad después de la prueba y se obtiene el desgaste. Los resultados
finales en milímetros han sido:
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89
Enunciado 4
Ante la inminente actualización de los servidores del centro de cálculo de una universidad, se estu-
dia la cantidad de megabits que utilizan los profesores y alumnos para almacenar sus correos. Para ello
se toma una muestra del espacio (en megabits) utilizado por 6 profesores y 6 alumnos, siendo los resul-
tados los indicados en la tabla 3:
Tabla 3
6
Profesores x‒ = 30,548 ∑ xi2 = 5.601,09
i=1
6
Alumnos y‒ = 29,605 ∑ yi2 = 5.271,04
i=1
Suponiendo que la cantidad de megabits usados se distribuye como una normal con desviación típica
igual en ambos colectivos (profesores y alumnos), construir un intervalo de confianza al 98 % para la
diferencia de espacio medio.
Enunciado 5
Un fabricante asegura a una compañía que le compra un producto de forma regular que el porcen-
taje de productos defectuosos no es mayor que el 5 %. La compañía decide comprobar la afirmación del
fabricante, seleccionando de su inventario 200 unidades del producto y probándolas. ¿Deberá sospechar
de la afirmación del fabricante si se descubren un total de 19 unidades defectuosas en la muestra?
www.udima.es 227
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Solución 1
Solución 2
Solución 3
a) El intervalo de confianza al 98 % para el desgaste medio µ es (1,835; 3). Como el valor 2,5
se encuentra en el intervalo calculado, con un 98 % de confianza se puede afirmar que ese
valor es posible para el desgaste promedio.
b) El intervalo de confianza al 98 % para la varianza σ2 es (0,177; 1,836).
Solución 4
Solución 5
El intervalo de confianza al 95 % para el parámetro p es (0,0941; 0,0958), por lo que el porcentaje
de defectuosos estaría entre el 9,41 % y el 9,58 %, siempre superior al 5 % que dice el fabricante.
EJERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
1. Sea (X1, …, Xn) una muestra aleatoria simple de una distribución X ~ Ɓ (m, p). Obtener esti-
madores de m y p por el método de los momentos.
2. Sea (X1, …, Xn) una muestra aleatoria simple de una variable aleatoria X con función de
densidad:
ƒθ (x) = θ (1 – x)θ–1, 0 ≤ x ≤ 1, θ ≥ 1
228 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
3. Se desea estimar el número de horas de uso continuo de cierto tipo de dispositivo electró-
nico. Para ello se monitorizan 10 dispositivos y se recoge el tiempo hasta que han necesi-
tado la primera reparación (en horas). Suponiendo normalidad, construir un intervalo de
confianza al 95 % para la duración media del dispositivo y para la varianza de la duración,
si los datos recogidos son:
15,8; 12,7; 13,2; 16,9; 10,6; 18,8; 11,1; 14,3; 17; 12,5
La máquina B en esos mismos días ha fabricado: 40; 51; 62; 55 y 64 piezas. Suponiendo
que las variables Número de piezas fabricadas por día por cada máquina siguen distri-
buciones normales, construir un intervalo de confianza al 95 % para la diferencia entre el
número medio de piezas fabricado por A y por B, suponiendo que ambas poblaciones poseen
la misma varianza. Construir también un intervalo de confianza al 95 % para la razón de
varianzas entre ambas poblaciones de piezas.
5. La industria tabacalera vigila de cerca todas las encuestas relacionadas con el hábito de
fumar. Una encuesta reveló que, de 785 individuos con estudios universitarios selecciona-
dos al azar, el 18,3 % fuma. Construir un intervalo de confianza al 99 % para el verdadero
porcentaje de fumadores entre las personas con estudios universitarios.
REFERENCIAS BIBLIOGRÁFICAS
Básica
En la red
Avanzada
CUADRAS, C. M.: Problemas de probabilidades y estadística, Barcelona: Promociones y Publicaciones Universitarias, 1991
EVERITT, B. S. y DUNN, G.: Applied Multivariate Data Analysis. Londres: Arnold, 2001.
www.udima.es 229
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
9
UNIDAD
DIDÁCTICA
CONTRASTES
DE HIPÓTESIS
OBJETIVOS DE LA UNIDAD
3. Región de rechazo
www.udima.es 231
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
232 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
En esta unidad didáctica se introducen los contrastes de hipótesis, una herramienta que, en inferencia,
permite determinar con qué grado de certeza apoya, la información contenida en la muestra, una deter-
minada hipótesis que se formula sobre los parámetros o sobre toda la distribución de la población de la
que se obtuvo la muestra. Se estudiarán dos tipos de contrastes: los paramétricos y los no paramétricos.
En los primeros, la hipótesis afecta a los parámetros de una distribución conocida y están íntimamente
ligados a los intervalos de confianza que se estudiaron en la unidad didáctica anterior. En los segundos,
la hipótesis se hace sobre la forma de la distribución de la que proceden los datos.
www.udima.es 233
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Con ellos tiene que decidir si existe evidencia para suponer que la nueva herramienta altera el tiempo
medio de compilación.
√6
y, por ejemplo:
–
X –5
P – 1,96 ≤ ≤ 1,96 = 0,95
� 0,1 �
√6
–
y, despejando X :
–
P (4,9216 ≤ X ≤ 5,0784) = 0,95
–
Según lo anterior, con una confianza del 95%, X se encuentra en el intervalo (4,9216; 5,0784). Pero
– –
la X de los datos recogidos no pertenece a ese intervalo (X = 4,84), con lo que ese valor de la media es
poco probable si no se ha alterado el tiempo de compilación y la muestra proviene de una N (5; 0,1). Por
lo tanto, se podría concluir que el tiempo de compilación sí se ha visto alterado.
2. CONCEPTOS BÁSICOS
Una hipótesis estadística es una suposición que determina total o parcialmente la distribución de
una o varias variables aleatorias. Se clasifican en:
234 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Además, si en el contraste se hace una conjetura sobre el valor de un parámetro, la hipótesis puede ser:
• Hipótesis simple. Aquella que especifica un solo valor para el parámetro que se contrasta.
Por ejemplo, θ = θ0.
Aunque los datos pueden hacer no rechazar H0, esta nunca se puede considerar probada o
demostrada, pues se tendrían que estudiar todos los elementos de la población. Así, no se
dirá «se acepta H0» sino «no se tiene evidencia suficiente para rechazar H0».
• Hipótesis compuesta. Aquella que especifica un conjunto de valores posibles para el pa-
rámetro que se contrasta. Por ejemplo, θ ≥ θ0, a ≤ θ ≤ b.
Si H0 es simple, es decir, del tipo θ = θ0, los casos más importantes para la hipótesis alternativa son:
• H1: θ ≠ θ0, el contraste se llama bilateral y se utiliza si no se sabe en qué dirección puede
ser falsa H0.
• H1: θ > θ0 o H1: θ < θ0; el contraste se llama unilateral.
Al incluir H1 en el contraste, más que probar H0, lo que se hace es elegir cuál es la hipótesis que más
se ve apoyada por la información muestral.
• Error de tipo II. Se comete cuando, siendo falsa H0, no se rechaza. La probabilidad de
cometer error de tipo II es:
Lo ideal sería diseñar contrastes que minimizaran a la vez ambos errores, pero esto no es posible
dado que uno aumenta cuando el otro disminuye. La única forma de disminuir los dos a la vez es aumen-
tando el tamaño muestral.
En ocasiones se considera más grave el error de tipo I. Entonces se selecciona con antelación la
máxima probabilidad α que puede permitirse de cometer este error y se diseña el contraste que minimiza,
para ese α, la probabilidad de cometer error de tipo II.
www.udima.es 235
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
El significado de cada decisión y de su error asociado puede verse en la figura 1, en la que se uti-
liza el símil del juicio de un criminal. En general, se considera más grave encerrar a un inocente (error
de tipo I) que liberar a un culpable (error de tipo II).
H0 = Es inocente
H1 = No es inocente
Los pasos que hay que seguir en la realización de un contraste, particularizando en contrastes para-
métricos, son los siguientes:
Hay que definir H0, la hipótesis a contrastar, y la hipótesis alternativa H1. En general, se formulará
H0 como hipótesis simple, del tipo θ = θ0. La hipótesis alternativa H1 será compuesta, del tipo θ ≠ θ0 en
un contraste bilateral, o bien θ > θ0 o θ < θ0 en contrastes unilaterales.
Definir una medida de discrepancia, d (θ̂, θ0), entre el valor del parámetro propuesto por H0, es decir,
θ0 y el estimador de ese parámetro obtenido a partir de la muestra, θ̂. Esta medida, que es una variable
aleatoria, debe tener distribución conocida en el caso de que H0 fuera cierta.
• Si el valor concreto d̂ tiene una probabilidad pequeña de ocurrir cuando H0 es cierta, los
datos muestrales no apoyan la hipótesis nula y esta será rechazada.
• Si el valor concreto d̂ tiene una probabilidad alta de ocurrir cuando H0 es cierta, los datos
muestrales apoyan la hipótesis nula y esta no será rechazada.
En general y mientras no se diga lo contrario, las medidas de discrepancia que se utilizarán serán las
variables pivote de la unidad didáctica anterior, en las que se sustituye el parámetro genérico de interés
θ (μ, σ2, μ1 – μ2, etc.) por el valor concreto θ0 propuesto por H0. Así, si H0 es cierta, la medida d tendrá
una distribución conocida. Solo faltará determinar los valores de d que llevarán a rechazar H0.
236 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
La región de rechazo o región crítica se define como el conjunto de valores de la medida de discre-
pancia d que llevan a rechazar la hipótesis nula H0.
A continuación se calcula el valor concreto d̂ (θ̂, θ0) a partir de los datos muestrales y se toma la
decisión correspondiente.
3. REGIÓN DE RECHAZO
El nivel de significación α sirve para definir la región de rechazo, es decir, el conjunto de valores
de la medida de discrepancia que llevarán a rechazar H0.
H0: θ = θ0
{ H1: θ > θ0
H0: θ = θ0
{ H1: θ < θ0
H0: θ = θ0
{ H1: θ ≠ θ0
www.udima.es 237
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Se eligen un dc1 y dc2, de forma que P (d < dc1, d > dc2 |H0 cierta) = α. La región de rechazo es
d < dc1, d > dc2 y la de no rechazo dc1 ≤ d ≤ dc2. Si la distribución de d es simétrica, esto equi-
vale a elegir un dc , de forma que P (|d| > dc |H0 cierta) = α y la región de rechazo es |d| > dc
y la de no rechazo – dc ≤ d ≤ dc.
• El resultado del contraste depende del valor de α. Puede que para unos valores se rechace
H0 y para otros no.
• El nivel de significación no indica con qué evidencia se rechaza H0.
Otra forma de tomar la decisión final, que no depende del valor de α fijado de antemano, es el p-valor.
Se define como la probabilidad de observar una divergencia peor o igual que la observada cuando H0
sea cierta, entendiéndose por peor que rechace la hipótesis nula con más evidencia. El p-valor se calcula
a partir del valor de d̂ y de la distribución de la medida de discrepancia, teniendo en cuenta también la
forma de la hipótesis alternativa.
H0: θ = θ0
{ H1: θ > θ0
El p-valor es p = P (d ≥ d̂ | H0 cierta).
• Caso 2. Contraste unilateral por la izquierda. Egon S. Pearson (1895-1980). Fue hijo de
Karl Pearson y también un brillante estadís-
H0: θ = θ0
{
tico inglés.
Junto con Neyman es el creador de la teoría
H1: θ < θ0 de contrastes de hipótesis.
Desarrolló teorías relacionadas con la teoría y
técnicas estadísticas, investigación operativa
El p-valor es p = P (d ≤ d̂ | H0 cierta). y la enseñanza de la estadística.
Fue miembro fundador del Club Británico de
• Caso 3. Contraste bilateral. Investigación Operativa en 1948.
Contribuyó en los progresos modernos de la
H0: θ = θ0
{ H1: θ ≠ θ0
estadística y fue un gran profesor.
Cuanto menor sea el p-valor, menor será la probabilidad de obtener una discrepancia como la obser-
vada y menor la credibilidad de H0. Se seguirá el siguiente criterio:
• Si p > 0,2, se dirá que no existe evidencia muestral para rechazar H0.
• Si 0,01 ≤ p ≤ 0,2, se dirá que el p-valor está en la región de duda. Se puede tomar un tamaño
muestral mayor para tener mayor evidencia al tomar la decisión o bien tomar la decisión
con esa muestra dependiendo de las consecuencias prácticas de la misma.
• Si p ≤ 0,1, se rechaza H0.
238 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
4. C
ONTRASTES DE HIPÓTESIS PARA PARÁMETROS DE UNA DISTRIBUCIÓN
NORMAL
Se supone que se tiene una muestra aleatoria simple X1, …, Xn procedente de una distribución
normal. Se desea contrastar si el valor del parámetro media o varianza es el propuesto por la hipó-
tesis nula.
H 0: μ = μ 0
{ H1: μ ≠ μ0
En el contraste unilateral por la derecha, con H1: μ > μ0, la región de no rechazo de H0 es (– ∞, tn–1,α)
y el p-valor es:
p-valor = P (d ≥ d̂ | d ~ tn–1)
Observación 2. Para poblaciones no normales, con tamaños muestrales n ≥ 30, se usa el teorema
central del límite. En contrastes bilaterales, no se rechaza H0 si:
–x – μ
0
d̂ = ∈ (– zα/2, zα/2)
s
√n
www.udima.es 239
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJEMPLO 1
Un virus se clasifica como agresivo si su tiempo medio de latencia es menor de 6 días. Se ha recogido una
muestra del tiempo de latencia de un virus en 9 ocasiones. Si se supone que la distribución de este tiempo es
normal, ¿se puede decir que es un virus agresivo? Utilizar un nivel de significación del 5 %.
H0: μ = 6
{ H1: μ < 6
Se calcula el valor de d:
x‒ – μ0 4,304 ‒ 6
d̂ = = = ‒ 2,7354
s 1,8601
√n √9
Como α = 0,05 y el contraste es unilateral por la izquierda, para calcular la región de rechazo se necesita el
punto ‒ t8,0,05 = ‒ 1,86. Esta región es (‒ ∞; ‒ 1,86). Como d̂ pertenece a este intervalo, con un nivel de signifi-
cación del 5 %, se rechaza la hipótesis nula y puede clasificarse el virus como agresivo. El p-valor es:
H0: σ2 = σ20
{ H1: σ2 ≠ σ20
(n – 1) S2
d= ~ χ2n–1
σ20
240 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Observación 3. En el caso de un contraste unilateral por la derecha, con H1: σ2 > σ20, la región de
rechazo sería (χ2n–1,α; ∞) y el p-valor:
Observación 4. En el caso de un contraste unilateral por la izquierda, con H1: σ2 < σ20, la región de
rechazo sería (0; χ2n–1,1–α) y el p-valor:
EJEMPLO 2
Continuando con el ejemplo 1, si la varianza del tiempo de latencia es igual a 1,7, el virus se califica como agre-
sivo de nivel II. ¿Pertenece el virus del ejemplo 1 a esta categoría? Utilizar un nivel de significación del 5 %.
Se pide realizar el contraste:
H0: σ2 = 1,7
{ H1: σ2 ≠ 1,7
(n – 1) s2 8 ∙ (3,46)
d̂ = = = 16,28
σ 20 1,7
Como d̂ ∈ (2,18; 17,735), no se rechaza la hipótesis nula con un nivel de significación de 0,05.
En este caso, se tienen sendas muestras de dos variables aleatorias normales e independientes. La
primera muestra es de tamaño n1 y la segunda de tamaño n2. Se quiere contrastar la hipótesis de que las
varianzas de ambas poblaciones son iguales, es decir:
σ21
H0:
σ22
σ21
σ22
=1
≠1
www.udima.es 241
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
s22
d= ~ Fn2–1,n1–1
s21
Observación 5. Si la hipótesis alternativa fuera H1: σ12 > σ22 , la región de rechazo sería (Fn2–1,n1–1,α; ∞)
y el p-valor:
p-valor = P (d ≥ d̂ | d ~ Fn2–1,n1–1)
Con esta misma región de rechazo, es frecuente usar el test con hipótesis:
H0: σ 12 ≤ σ 22
{ H1: σ 12 > σ 22
Observación 6. Si la hipótesis alternativa fuera H1: σ12 < σ22 , la región de rechazo sería (0; Fn2–1,n1–1,1–α)
y el p-valor:
p-valor = P (d ≤ d̂ | d ~ Fn2–1,n1–1)
EJEMPLO 3
Se tienen datos sobre el contenido de nicotina (en miligramos) en cigarrillos largos con y sin filtro. Supo-
niendo que la variable contenido de nicotina sigue una distribución normal en ambas clases de cigarrillos,
contrastar la hipótesis de que las varianzas para ambos son iguales con un nivel de significación de α = 0,1.
Los datos se muestran en la tabla 1:
Tabla 1
Con filtro ............................. 1,2 1,3 1,1 1,1 1 0,9 0,8 0,7
Sin filtro ............................... 1,6 1,5 1,6 1,8 1,7 1,7 1,5
.../...
242 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
s22
d̂ = = 0,303
s21
que, bajo H0, sigue una distribución F6,7. Como α = 0,1, la región de rechazo es (F6;7;0,95; F6;7;0,05), es decir,
1 1
F6;7;0,95 = = = 0,237; F6;7;0,05 = 3,866
F7;6;0,05 4,207
En este caso se tienen sendas muestras de dos variables aleatorias normales e independientes. La
primera muestra es de tamaño n1 y la segunda de tamaño n2. Se quiere contrastar la hipótesis de que las
medias de ambas poblaciones son iguales, es decir:
H0: μ1 = μ2 H0: μ1 ‒ μ2 = 0
{ H1: μ1 ≠ μ2
≡
{ H 1: μ 1 ‒ μ 2 ≠ 0
La medida de discrepancia, suponiendo varianzas desconocidas pero iguales, que bajo H0 sigue una
distribución tn1+n2‒2, es:
– –
(X – Y )
d= ~ tn1+n2–2
1 1
sp +
n1 n2
p-valor = 2 ∙ P (d ≥ d̂ | d ~ tn1+n2–2)
Observación 7. Si la hipótesis alternativa fuera H1: μ1 > μ2, la región de rechazo sería (tn1+n2–2,α; ∞).
El p-valor, en este caso, sería:
p-valor = P (d ≥ d̂ | d ~ tn1+n2–2)
www.udima.es 243
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Observación 8. Si la hipótesis alternativa fuera H1: μ1 < μ2, la región de rechazo sería (– ∞; – tn1+n2–2,α).
El p-valor, en este caso, sería:
p-valor = P (d ≤ d̂ |d ~ tn1+n2–2)
EJEMPLO 4
Con los datos del ejemplo 3 contrastar la hipótesis de igualdad de contenido medio en nicotina en ambos
tipos de cigarrillos, con un nivel de significación del 5 %.
Realizando cálculos se tiene:
La región de no rechazo es (‒t13;0,025; t13;0,025) = (‒2,16; 2,16). Como d̂ no se encuentra en ella, se rechaza la
hipótesis nula con un nivel de significación del 5 %.
En este caso se trata de contrastar la hipótesis de que la proporción de sujetos con una determinada
característica en la población es igual al valor p0. Las hipótesis serían:
H0: p = p0
{ H 1: p ≠ p 0
244 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
p̂ – p0
d= ~ N (0, 1)
p0 (1 – p0)
n
p-valor = 2 ∙ P (d ≥ d̂ |d ~ N (0, 1)
Observación 10. Si la hipótesis alternativa fuera H1: p > p0, la región de rechazo sería (zα, ∞) y
el p-valor:
Observación 11. Si la hipótesis alternativa fuera H1: p < p0, la región de rechazo sería (– ∞; zα) y
el p-valor:
EJEMPLO 5
En un estudio sobre la eficacia de los airbags, la Asociación Española de Fabricantes de Automóviles ana-
lizó 821 choques de automóviles medianos equipados con ellos. De estos choques, en 46 casos los conducto-
res necesitaron hospitalización. Contrastar si la proporción de conductores que necesitaron hospitalización
puede considerarse igual a 0,07. Utilizar un α = 0,01.
De los datos muestrales se obtiene que:
46
p̂ = x‒ = = 0,056029
821
H0: p = 0,07
{ H1: p ≠ 0,07
Se obtiene:
0,056029 ‒ 0,07
d̂ = = 1,56
0,07 * 0,93
821
La región de no rechazo es (‒z0,005; z0,005) = (‒ 2,575; 2,575). Como d̂ pertenece a ella, no se rechaza la hipóte-
sis nula con un nivel de significación del 1 %.
www.udima.es 245
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
H0: p1 = p2 H0: p1 ‒ p2 = 0
{ H1: p1 ≠ p2
≡
{ H1: p1 ‒ p2 ≠ 0
p̂1 – p̂2
d= ~ N (0, 1)
p̂0 q̂0 p̂0 q̂0
+
n1 n2
que, bajo H0, tiene la distribución señalada. El estimador p̂0 es una media ponderada de las correspon-
dientes proporciones muestrales p̂1 y p̂2:
n1 p̂1 + n2 p̂2
p̂0 =
n1 + n2
Observación 12. Si la hipótesis alternativa fuera H1: p1 > p2, la región de rechazo sería (zα, ∞) y
el p-valor:
Observación 13. Si la hipótesis alternativa fuera H1: p1 < p2, la región de rechazo sería (– ∞; – zα)
y el p-valor:
EJEMPLO 6
La proporción de unidades defectuosas en un lote de n1 = 100 unidades del proveedor A es 0,04, mientras
que en un lote del proveedor B de n2 = 150 unidades esa proporción es de 0,07. ¿Hay evidencia suficiente
para admitir diferencias entre los proveedores?
.../...
246 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
Se obtiene:
6. R
ELACIÓN ENTRE INTERVALOS DE CONFIANZA Y CONTRASTES DE
HIPÓTESIS PARAMÉTRICOS
Por ejemplo, para la media μ en una distribución normal con varianza σ2 desconocida se tiene (véase
tabla 2):
‒ S ‒ S
|X ‒ μ| ≤ tn‒1,α/2 |X ‒ μ 0 | ≤ tn‒1,α/2
√n √n
EJEMPLO 7
En el ejemplo 1 del virus, el intervalo de confianza al 95 % para el tiempo medio de latencia es:
‒ s ‒ s
�X ‒ tn‒1,α/2 , X + tn‒1,α/2 � = (2,87; 5,73)
√n √n
Por tanto, ese es el conjunto de valores para el parámetro μ que no rechazan la H0 para un nivel de signifi-
cación del 5 %. Por ello, como el valor 6 no se encuentra dentro de este intervalo de confianza, se rechaza la
hipótesis nula en un contraste bilateral con ese nivel de significación.
www.udima.es 247
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Hasta ahora se ha supuesto que la forma de la distribución de la población era conocida salvo pará-
metros. Con los contrastes no paramétricos se puede contrastar:
• Si una distribución propuesta es consistente con los datos, es decir, comprobar si los datos
proceden de una distribución dada. Esto se denomina efectuar un contraste de la bondad del
ajuste. Se estudiarán dos:
La idea es comparar las frecuencias observadas en la muestra con las esperadas si H0 es cierta, a
partir del modelo teórico que se contrasta (obtenido si H0 es cierta). Se rechaza H0 si existe una diferen-
cia suficiente entre ambos conjuntos de frecuencias.
La hipótesis alternativa no está determinada de forma explícita en muchos casos. Suele consistir en
la negación de la hipótesis nula.
Supóngase que la variable de estudio X es discreta y puede tomar los k valores x1, …, xk . Se toma
una muestra aleatoria simple de n elementos (n > k). Se quiere contrastar si esta muestra tiene la distri-
bución de la variable aleatoria de partida.
Se consideran las frecuencias absolutas observadas de cada valor de la muestra O1, …, Ok, tales
que Σi=1 Oi = n. Sean p1, …, pk las probabilidades teóricas de x1, …, xk , respectivamente, que asigna el
k
modelo teórico Σi=1 pi = 1. Sean E1 = np1, …, Ek = npk , las frecuencias esperadas (o teóricas) de acuerdo
k
248 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
La variable aleatoria:
k (Oi – Ei) 2
D2 = Σ
i=1 Ei
se distribuye cuando el modelo es correcto, según una χ2. Sus grados de libertad son:
D̂ 2 > χ2k–r–1,α
Observaciones:
• Realmente el test no contrasta qué distribución propiamente dicha siguen los datos, sino las
probabilidades que se asocian a cada intervalo. Por ello se recomienda k ≥ 5.
• Para muestras muy grandes se rechaza casi siempre la hipótesis.
EJEMPLO 8
Cierto tipo de linterna se vende con las cuatro pilas incluidas. De una muestra de 150 linternas se determinó
el número de pilas defectuosas en cada una, obteniendo los resultados de la tabla 3:
Tabla 3
Frecuencia ....................................................... 39 61 34 13 3
Contrastar si el número de pilas defectuosas de una linterna seleccionada al azar sigue una distribución bino-
mial, con un nivel de significación del 5 %.
Sea la variable aleatoria X = Número de pilas defectuosas entre las cuatro pilas de una linterna. Se debe contras-
tar la hipótesis nula:
.../...
www.udima.es 249
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
La probabilidad p de pila defectuosa se debe estimar utilizando los datos muestrales. El estimador de máxima
verosimilitud de p es:
Así:
4
P (X = x) = � � (0,3)x (1 ‒ 0,3)4‒x x = 0, 1, 2, 3, 4
x
(Oi – Ei) 2
xi Oi pi Ei = 150 pi
Ei
Se ve que la última clase tiene un valor para la frecuencia esperada inferior a 5, con lo que debe juntarse con
la clase anterior. Sin embargo, si se hace tal agrupación quedarían solo 4 clases. Como no es posible cumplir
todas las reglas, el resultado del test no va a ser muy fiable.
(Oi ‒ Ei)2
D̂ 2 = Σ n
i=1 = 3,93739
Ei
Si H0 es cierta, D̂ 2 ~ χ2k‒r‒1=5‒1‒1=3.
Como D̂ 2 = 3,93739 < χ23;0,05 = 7,815, no existe evidencia suficiente para rechazar H0.
Observación. Si se agrupan las dos últimas clases (valores 3 y 4), D̂2 = 2,017273 que es menor que χ23;0,05 = 5,991
se llega a la misma conclusión.
Para una variable aleatoria continua se agrupan los n datos en k clases (k ≥ 5), de forma que se cubra
todo el recorrido de la variable.
Se tienen O1, …, Ok frecuencias observadas de cada clase (el número de datos muestrales en cada
una). Conviene tener aproximadamente el mismo número de datos en cada clase y al menos 3 en cada una.
Se calculan las probabilidades p1, …, pk que asigna el modelo teórico a cada clase �Σki=1 pi� y las
frecuencias esperadas E1, …, Ek (Ei = npi). Si algún Ei < 5, se agrupan 2 clases contiguas en una, dismi-
nuyendo en 1 el número de clases, y por tanto los grados de libertad.
250 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
D̂ 2 > χ2k–r–1,α
EJEMPLO 9
En una inspección a una empresa se ha recogido una muestra de 200 facturas. La tabla 5 recoge la informa-
ción obtenida sobre el importe pagado en cada factura (en euros), siendo la media muestral 90 euros y la
desviación típica muestral 8 euros.
Tabla 5
Importe ........................................... [69; 75) [75; 81) [81; 87) [87; 93) [93; 99) [99; 105] > 105
Tabla 6
(Oi – Ei) 2
Clase i Oi pi Ei = npi
Ei
Para el cálculo de las probabilidades se ha utilizado la tabla de la función de distribución de la N (0, 1).
Si Z es una variable aleatoria con distribución N (0, 1) y F es su función de distribución, se obtienen de la
siguiente forma:
75 ‒ 90
p1 = P (X ≤ 75) = P �Z ≤ � = P (Z ≤ ‒ 1,875) = F (‒ 1,875) = P (Z ≥ 1,875) =
8
.../...
www.udima.es 251
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
k (Oi ‒ Ei)2
D2 =Σ ~ χ2k‒r‒1=7‒2‒1=4
i=1 Ei
Por interpolación lineal en la tabla correspondiente se obtiene p ≅ 0,00937, que es inferior a 0,01. Se concluye
que existe evidencia para rechazar H0, es decir, se rechaza que la muestra proceda de una distribución N (90; 8).
Este contraste solamente se puede utilizar para variables aleatorias continuas. Se basa en comparar
la función de distribución teórica (propuesta bajo H0 y la función de distribución empírica de la muestra
(la función de distribución acumulativa que se observa en la muestra ordenada). La hipótesis nula será:
x < x(1)
{
0, si
⫶
k
Fn (x) = , si x(k) ≤ x < x(k+1)
n
⫶
1, si x ≥ x(n)
252 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Su distribución está tabulada cuando H0 es cierta y es independiente del modelo propuesto por H0,
aunque existen tablas específicas para la distribución exponencial y la distribución normal cuando sus
parámetros son desconocidos. Estas tablas se evalúan solamente en función del tamaño muestral n y se
incluyen al final de esta unidad didáctica. Se rechaza H0 a un nivel de significación si:
D̂ n > Dn,α
Inconvenientes:
EJEMPLO 10
Ciertos componentes de aviones fueron sometidos a severas vibraciones hasta que mostraron daños estruc-
turales. Los tiempos observados hasta que se produce el daño (en minutos) han sido:
Contrastar si la muestra procede de una población exponencial de media 10 minutos. Utilizar un nivel de
significación del 1 % .
Dada la variable aleatoria X = Tiempo hasta que se produce daños (en minutos), se debe contrastar si sigue
una distribución exponencial de media μ = 10, es decir, de parámetro λ = 1/μ = 0,1. Así, la hipótesis nula es
H0: X ~ exp (0,1).
Se realiza el contraste de Kolmogorov-Smirnov. El contraste de la χ2 de Pearson no se puede utilizar porque
se tienen menos de 30 observaciones.
La función de distribución teórica es: F (x) = 1 ‒ e‒λx = 1 ‒ e‒0,1x
Se obtiene la tabla 7:
1
4,9 = 0,125 0,3874 0,2624 0,3874 0,3874
8
.../...
www.udima.es 253
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
El máximo de la última columna es 0,3874, con lo que D̂ 8 = 0 3874. Buscando en la tabla del test de Kolmogo-
rov-Smirnov para una distribución exponencial con media desconocida, se tiene que D8;0,01 = 0,419. Ya que
D̂ 8 < D8;0,01, no existe evidencia muestral para rechazar la distribución exponencial de media 10 minutos, con
un nivel de significación del 1 %.
254 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
APÉNDICE
Contraste de Kolmogorov-Smirnov
para una distribución exponencial con media desconocida
www.udima.es 255
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
10 0,263 0,277 0,295 0,325 0,380
11 0,251 0,264 0,283 0,311 0,365
12 0,241 0,254 0,271 0,298 0,351
13 0,232 0,245 0,261 0,287 0,338
14 0,224 0,237 0,252 0,277 0,326
15 0,217 0,229 0,244 0,269 0,315
16 0,211 0,222 0,236 0,261 0,306
17 0,204 0,215 0,229 0,253 0,297
18 0,199 0,210 0,223 0,246 0,289
19 0,193 0,204 0,218 0,239 0,283
20 0,188 0,199 0,212 0,234 0,278
25 0,170 0,180 0,191 0,210 0,247
30 0,155 0,164 0,174 0,192 0,226
> 30 0,86 0,91 0,96 1,06 1,25
√n √n √n √n √n
Contraste de Kolmogorov-Smirnov
para una distribución normal con media y varianza desconocida
256 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
El Ibex-35 es el índice de referencia de las bolsas españolas. Se ha recogido su valor en los últimos
11 meses y se quiere saber si se puede aceptar que su valor medio fue de 0,1171 en ese periodo de tiempo.
0,1376; 0,1293; 0,1215; 0,118; 0,1152; 0,1137; 0,1184; 0,1192; 0,1176; 0,1103; 0,1072
Suponiendo que la distribución del Ibex-35 es normal, responder a la cuestión mediante un con-
traste de hipótesis.
Enunciado 2
Se quieren comparar dos sistemas de localización GPS portátiles. Para ello, se ha medido el tiempo,
en milisegundo, que tardan en establecer conexión cada sistema en 10 ocasiones, obteniendo los siguien-
tes resultados:
Tabla 8
www.udima.es 257
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Suponiendo que en ambos sistemas la variable estudiada sigue una distribución normal:
a) ¿Puede afirmarse que la varianza del tiempo que tardan en conectarse es la misma para ambos
sistemas? Resolver mediante un contraste de hipótesis con un nivel de significación α = 0,1.
b) En un contraste bilateral de comparación de los tiempos medios de conexión de ambos siste-
mas, se ha obtenido una discrepancia observada de d̂ = – 0,638. Con base al p-valor, ¿puede
no rechazarse la igualdad de tiempos medios?
Enunciado 3
Se está investigando el consumo de biodiésel como combustible en coches. Para ello, se observa
que, de un total de 150 coches que visitaron una gasolinera determinada, 66 de ellas repostaron biodié-
sel. Con una confianza del 98 %, ¿puede afirmarse que la proporción real de personas que repostaron
biodiésel en esa gasolinera es mayor del 30 %?
Enunciado 4
El gerente de una planta industrial pretende determinar si el número de empleados que asisten al
consultorio médico de la planta se encuentra distribuido de manera uniforme en los 5 días laborables de
la semana. A partir de una muestra aleatoria de 4 semanas completas de trabajo, se observó el siguiente
número de consultas:
Tabla 9
49 35 32 39 45
Con α = 0,5 ¿existe alguna razón para creer que el número de empleados que asisten al consultorio
médico no se encuentra distribuido equitativamente durante los días de trabajo de la semana?
Enunciado 5
Se sospecha que el número de errores descubiertos en un programa está distribuido según una dis-
tribución de Poisson. Se ha observado el número de errores en periodos de una semana. Sobre un total
de 50 semanas se descubrieron 95 errores, con la siguiente distribución:
Tabla 10
0 14
1 11
2 9
3 6
4 5
≥5 5
258 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Solución 1
H0: μ = 0,1171
H1: μ ≠ 0,1171
Interpolando en la tabla de la t de Student se obtiene un p-valor de p = 0,589. Al ser mayor que 0,2,
no se debe rechazar H0.
Solución 2
H0: σ 21 = σ 22
{ H1: σ 21 ≠ σ 22
Solución 3
H0: p = 0,3
{ H1: p > 0,3
Se obtiene p̂ = 0,44 y d̂ = 3,7416. La región de rechazo es (2,055; ∞). Por tanto, se rechaza la hipó-
tesis nula y no se rechaza que la proporción sea mayor que 0,3.
Solución 4
No existe evidencia para rechazar que los datos provienen de una distribución uniforme en los 5
días de trabajo de la semana.
Solución 5
Se rechaza la hipótesis nula de que los datos provienen de una distribución de Poisson. El valor del
estadístico del contraste de la χ2 de Pearson es D̂ 2 = 10,863.
www.udima.es 259
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
Frecuencia ..................................... 3 15 47 76 68 74 46 39 15 17
2. Un ingeniero de control de calidad toma muestras diarias de 5 tractores que salen de una
línea de montaje y en 200 días consecutivos obtiene los siguientes datos sobre el número
de tractores que requieren algún ajuste adicional:
Número de
Número
tractores
de días
defectuosos
0 91
1 67
2 35
3 4
4 3
5 0
Se desea comprobar si esta muestra procede de una distribución binomial con p = 0,15. Usar
un nivel de significación del 1 %.
0,0023; 0,012; 0,0006; 0,0009; 0,0005; 0,00014; 0,003; 0,00023; 0,00046; 0,0009
Sabiendo que se puede suponer que la distribución de dicha concentración se ajusta a una
normal y fijando α = 0,05, ¿se puede afirmar que dicha partida contiene niveles arriesgados
de benzopireno para la salud? Calcular el nivel crítico (p-valor) y comentarlo.
260 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
4. Un edificio de oficinas tiene dos guardias de seguridad. Se ha obtenido una muestra del tiempo
que tarda cada uno de ellos en hacer su recorrido (en minutos), obteniendo los siguientes
resultados:
Guardia 1 .......... 15,8 12,7 13,2 16,9 10,6 18,8 11,1 14,3 17 12,5
Guardia 2 .......... 24,9 23,6 19,8 22,1 20,4 21,6 21,8 22,5
Suponiendo normalidad y utilizando un nivel de significación del 5 %, contrastar si los tiem-
pos de las rondas de los guardias poseen la misma varianza.
5. Para estudiar el desgaste que sufren sus neumáticos, los investigadores de un equipo de Fór-
mula 1 han medido la profundidad en milímetros del dibujo característico de los mismos
tras 10 sesiones de entrenamiento en las que los neumáticos han llegado sin destrozos. A la
profundidad inicial del dibujo, que es 7 milímetros, se le resta la profundidad después de la
prueba y se obtiene el desgaste. Los resultados finales en milímetros han sido:
2,45; 1,48; 2,64; 3,21; 1,59; 2,00; 2,80; 3,35; 2,77; 1,89
REFERENCIAS BIBLIOGRÁFICAS
Básica
En la red
Aula virtual de Bioestadística. Hay un apartado sobre conceptos generales en contrastes de hipótesis: _contraste/ contraste1.html
Rice Virtual Lab in Statistics: http://onlinestatbook.com/rvls.html
WISE: Web Interface For Statistical Education: http://wise.cgu.edu/index.html
Avanzada
CUADRAS, C. M.: Problemas de probabilidades y estadística, Barcelona: Promociones y Publicaciones Universitarias, 1991.
MONTGOMERY, D. C. y RUNGER, G. C.: Applied Statistics and Probability for Engineers, 3.ª ed., New York: John Wiley
and Sons, 2003.
www.udima.es 261
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
10
UNIDAD
DIDÁCTICA
MODELOS DE
REGRESIÓN LINEAL
OBJETIVOS DE LA UNIDAD
1. Introducción
2. Hipótesis del modelo de regresión lineal simple
3. Metodología
4. Estimación de los parámetros
4.1. Propiedades de los estimadores
4.1.1. Parámetro β1
4.1.2. Parámetro β0
4.1.3. Parámetro σ2
9. Predicciones
10. Introducción al modelo de regresión lineal múltiple
10.1. Ejemplo de aplicación de la regresión: música con regresión múltiple (Triola, 2000)
www.udima.es 263
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
264 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
OBJETIVOS DE LA UNIDAD
En esta unidad didáctica se introduce formalmente la construcción de un modelo estadístico, el
modelo de regresión lineal. El modelo de regresión lineal asume que la relación funcional que expresa
la dependencia entre la variable de respuesta (dependiente) y la variable explicativa (independiente) es
una recta, incluyendo además un término de error aleatorio. Las hipótesis en la formulación del modelo
son muy importantes, ya que de su cumplimiento dependen las propiedades de los estimadores utilizados
en las inferencias. Los errores aleatorios tendrán esperanza nula, serán independientes y su distribución
será normal con varianza constante. La estimación de los parámetros del modelo, coeficientes de la recta
de regresión y varianza de los errores, se realiza mediante el método de mínimos cuadrados y coincide
con los estimadores de máxima verosimilitud. A partir de las distribuciones de dichos estimadores se
obtendrán intervalos de confianza y se realizarán contrastes de hipótesis. Entre estos últimos destaca el
contraste para la pendiente de la recta de regresión y el contraste de regresión mediante la construcción
de la tabla de análisis de la varianza (ADEVA o ANOVA).
Para asegurar que el modelo representa fielmente la realidad, deben comprobarse las hipótesis de
partida, al menos de forma aproximada. Si no se dispone de varias observaciones de la variable depen-
diente por cada valor de la variable independiente, se deben comprobar las hipótesis a través del análisis
de los residuos, mediante técnicas numéricas o gráficas. Una vez validado el modelo, se estudia la pre-
dicción de nuevos valores.
Tras estudiar detalladamente el modelo de regresión lineal simple se introduce el modelo de regre-
sión lineal múltiple, haciendo hincapié sobre todo en su interpretación más que en la base teórica que
lo sustenta.
www.udima.es 265
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
1. INTRODUCCIÓN
Considérese una variable Y (variable de respuesta o dependiente) que se sospecha depende lineal-
mente de otra (u otras) representada por X (variable explicativa o independiente o predictora) y además
existen un conjunto de factores que influyen sobre la respuesta en pequeña cantidad, u (perturbación alea-
toria o error aleatorio). La variable de respuesta es una variable aleatoria cuyos valores se observan para
ciertos valores de la variable explicativa. Por tanto, la variable explicativa no se considera una variable
aleatoria, sino que representa una variable conocida al observar la variable de respuesta, es decir, es un
conjunto de valores fijos que representan los puntos donde se observa la variable de respuesta. La per-
turbación aleatoria es una variable aleatoria que recoge los factores no controlables que inciden en la
variable de respuesta.
266 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Yi = β0 + β1 xi + ui
Ŷi = β̂ 0 + β̂ 1 xi
EJEMPLO 1
Supóngase que se quiere determinar si el número de pasajeros de una compañía de transportes (Y) depende
linealmente del precio del billete (X). En este caso, la perturbación aleatoria u puede contener los efectos
debidos a los servicios proporcionados por la compañía, a la época del año, al historial de accidentes, etc.
La perturbación debe cumplir las siguientes hipótesis para ser aleatoria, es decir, no informativa:
E (ui) = 0
V (ui) = σ2
ui ~ N (0, σ)
E (Yi | xi) = β0 + β1 xi
www.udima.es 267
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
• La varianza es constante:
V (Yi) = σ2
Como se puede apreciar en la figura 1, estas hipótesis significan que para x fija, la distribución de Y
es normal con varianza constante σ2 y media que varía linealmente con x.
ƒ (y)
x
y = E (y/x)
Observaciones:
268 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
3. METODOLOGÍA
Supóngase que se tiene una muestra aleatoria simple de valores de Y para valores predeterminados
de X. El procedimiento a seguir para estimar el modelo de regresión lineal simple es el siguiente:
• Representar gráficamente los datos, dibujando los pares (X, Y), para tener una primera idea
intuitiva del tipo de relación. Si hay muchos puntos, conviene representar al menos los pun-
tos extremos y centrales. De esta forma se comprueba si la relación es lineal o no, es decir,
si la media de Y, para x fijo, varía linealmente con X.
− No. Las hipótesis básicas de partida se contrastarán mediante los residuos, ya que al
disponer de un solo dato para cada distribución condicionada no se pueden realizar
contrastes antes de obtener el modelo.
Yi = β0 + ui
ei = Yi – Ŷi
Los residuos representan la variabilidad no explicada en el ajuste que, según las hipótesis
de partida, deben ser normales, independientes y homocedásticos.
• Predicciones. Con el modelo estimado se realizan predicciones para valores no observados.
www.udima.es 269
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
∂ Σ ei2 ∂ Σ ei2
=0 =0
∂β0 ∂β1
Σi ei = 0 Σi ei xi = 0
Las ecuaciones normales de regresión imponen dos restricciones sobre los residuos.
Cov (X, Y)
β̂ 1 =
σ̂ X2
– –
β̂ 0 = Y – β̂ 1 X
– –
Esta última ecuación equivale a Y = β̂ 0 + β̂ 1 X , lo que indica que la recta de regresión pasa siempre
– –
por el punto formado por las medias muestrales (X , Y ).
– –
Ŷi = Y + β̂ 1 (xi – X )
270 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Σ xi yi ––
Cov (X, Y) = –X Y
n
Σ xi2 –
σ̂ X2 = –X2
n
Σ ei2
Ŝ R2 =
n–2
EJEMPLO 2
Tabla 1
Temperatura en °C ...... 17 18 19 20 21 22
Obtener la recta de regresión que permita predecir, a partir de la temperatura del procesador, el tiempo de
procesamiento.
Para conseguir predecir el tiempo de procesamiento a partir de la temperatura del procesador, se debe tomar
como variable dependiente Y = Tiempo de procesamiento y como variable independiente X = Temperatura del
procesador. A continuación, se realizan algunos cálculos a partir de los datos:
‒ Σ xi 117 Σ xi2 ‒2
X= = = 19,5 σ̂ X2 = ‒X = 2,9166
n 6 n
‒ Σ yi 248,48 Σ yi2 ‒2
Y = = = 41,4133 σ̂ Y2 = ‒Y = 19,6719
n 6 n
Σ xi yi ‒‒
Cov (X, Y) = ‒ X Y = 7,225
n
.../...
www.udima.es 271
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
‒ ‒
β̂ 0 = Y ‒ β̂ 1 X = 41,4133 ‒ 2,477 · 19,5 = ‒ 6,89
La figura 2 muestra la representación gráfica de los datos de este ejemplo y la recta de regresión obtenida.
51
48
45
Tiempo
42
39
36
17 18 19 20 21 22
Temperatura
4.1.1. Parámetro β1
• Estimador:
Cov (X, Y)
β̂ 1 =
σ̂ X2
272 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
• Esperanza:
E (β̂ 1) = β1
• Varianza:
σ2
V (β̂ 1) =
nσ̂ X2
• Distribución: normal.
4.1.2. Parámetro β0
• Estimador:
– –
β̂ 0 = Y – β̂ 1 X
• Esperanza:
E (β̂ 0) = β0
• Varianza:
–
σ2 X2
V (β̂ 0) = �1 + �
n σ̂ X2
• Distribución: normal.
4.1.3. Parámetro σ2
• Estimador:
Σ ei2
Ŝ R2 =
n–2
• Esperanza:
E (Ŝ R2 ) = σ2
• Varianza:
2σ4
V (Ŝ R2 ) =
n–2
• Distribución:
(n – 2) Ŝ R2
~ χ2n–2
σ2
www.udima.es 273
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Como ya se ha indicado, se pueden construir variables pivote a partir de la distribución de cada esti-
mador para obtener intervalos de confianza para los parámetros y realizar contrastes de hipótesis.
5.1. PARÁMETRO β1
β̂ 1 – β1
~ tn–2
Ŝ R2
nσ̂ X2
Por tanto:
β̂ 1 – β1
P – tn–2,α/2 ≤ ≤ tn–2,α/2 =1–α
� Ŝ R2 �
nσ̂ X2
ŜR ŜR
�β̂1 – tn–2,α/2 , β̂ 1 + tn–2,α/2 �
√ nσ̂ X2 √ nσ̂ X2
5.2. PARÁMETRO β0
β̂ 0 – β0
~ tn–2
Ŝ R2 –
X2
�1 + �
n σ̂ X2
– –
1 X2 1 X2
�β̂ 0 – tn–2,α/2 ŜR �1 + �, β̂ 0 + tn–2,α/2 ŜR �1 + ��
n σ̂ X2 n σ̂ X2
274 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
5.3. PARÁMETRO σ2
(n – 2) Ŝ R2
~ χ2n–2
σ2
Con lo que:
(n – 2) Ŝ R2
P �χ2n–2,1–α/2 ≤ ≤ χ2n–2,α/2� = 1 – α
σ2
(n – 2) Ŝ R2 (n – 2) Ŝ R2
� , �
χ2n–2,α/2 χ2n–2,1–α/2
EJEMPLO 3
Con los datos del ejemplo 2 construir un intervalo de confianza al 90 % para el parámetro β1.
El intervalo de confianza para β1 con α = 0,1 es:
ŜR ŜR
�β̂ 1 ‒ t4;0,05 , β̂ 1 + t4;0,05 �
√ nσ̂ X2 √ nσ̂ X2
De la tabla de la t de Student mostrada en la unidad didáctica 7 se obtiene el percentil 95, t4;0,05 = 2,132. Ade-
más, se necesita calcular la varianza residual ŜR2 .
A partir de los datos y de la recta de regresión obtenida en el ejemplo 2, se obtienen los valores de la tabla 2
y sustituyendo en la fórmula anterior, la varianza residual es ŜR2 = 2,6581 y su raíz ŜR = 1,63.
xi 17 18 19 20 21 22
Yi 36,76 37,86 38,5 41 45,11 49,25
Ŷi 35,219 37,696 40,173 42,65 45,127 47,604
(Yi ‒ Ŷi )2 2,374681 0,026896 2,798929 2,7225 0,000289 2,709316
Con los valores obtenidos y los calculados en el ejemplo 2, se tiene que el intervalo de confianza para β1, con
una confianza del 90 % es:
(1,64627; 3,30773)
www.udima.es 275
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Para realizar contrastes sobre los parámetros se usa como medida de discrepancia la variable pivote
correspondiente, particularizando en el valor del parámetro especificado en la hipótesis nula. El proce-
dimiento se muestra en el siguiente ejemplo.
EJEMPLO 4
Continuando con el ejemplo 2, ¿se podría prescindir del término independiente en la recta de regresión?
Se debe contrastar si se puede suponer β0 = 0. Se resuelve mediante el siguiente contraste de hipótesis
bilateral:
H0: β0 = 0
H1: β0 ≠ 0
Se utiliza como medida de discrepancia la variable pivote obtenida para calcular el intervalo de confianza
para β0, particularizando con el valor especificado en la hipótesis nula, que es β0 = 0.
β̂ 0 ‒ β0 β̂ 0
d= = ~ tn‒2, si H0 es cierta
‒ ‒
ŜR2 X2 ŜR2 X2
�1 + � �1 + �
n σ̂ X2 n σ̂ X2
Con los valores obtenidos en el ejemplo 2 y la varianza residual calculada en el ejemplo 3, la discrepan-
cia observada es d̂ = ‒ 0,903. Como no se indica un nivel de significación, hay que calcular el nivel crítico o
p-valor:
A partir de la tabla proporcionada en la unidad didáctica 7, habría que interpolar entre los valores
t4;0,1 = 1,533 y t4;0,5 = 0 (este último valor se conoce porque la distribución t de Student es simétrica respecto
al origen) obteniendo un p-valor aproximado:
p ≃ 2 · 0,2644 = 0,5288
Obsérvese que este valor se puede mejorar utilizando otras tablas disponibles con más percentiles. Como
el p-valor es superior a 0,2, no existen evidencias para rechazar la hipótesis nula y, por tanto, se puede
asumir que el término independiente β0 es 0, y se puede prescindir de dicho término en la ecuación de
regresión.
Se llama contraste de regresión al que contrasta si la pendiente de la recta teórica, β1, es cero. Este
contraste se puede realizar fácilmente a través de lo estudiado en el epígrafe anterior, pero ahora se verá
cómo relacionarlo con el análisis de la varianza (ANOVA).
La técnica del análisis de la varianza divide la variación total de las observaciones en sus partes
componentes. Para el modelo de regresión lineal simple, la variación total es la suma de dos componen-
tes: la causada por el término no aleatorio β1 x, y la que se debe al error aleatorio u. Se pretende que la
recta de regresión estimada explique la mayor cantidad posible de la variación total, por lo que la con-
276 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
tribución del término β1 x debe ser considerable. Esto implicaría que la variable de respuesta y la expli-
cativa están relacionadas de forma lineal. Si β1 = 0, no existe asociación lineal entre ambas. Se obtiene
la descomposición:
�
Variación total Variación Variación
VT explicada VE no explicada
VNE
H0: β1 = 0
H1: β1 ≠ 0
Para resolverlo a través del análisis de la varianza se puede expresar la hipótesis nula como que la
variabilidad explicada VE es pequeña respecto a la no explicada VNE, y la hipótesis alternativa como
que VE es mucho mayor que VNE. Si ocurre esto último, se rechaza β1 = 0, así se ve que el contraste a
partir del análisis de la varianza es unilateral por la derecha. La medida de discrepancia que se obtiene
para este contraste es la siguiente:
‒ ‒
Variación explicada .................................... Σ (Ŷi ‒ Y)2 1 Σ (Ŷi ‒ Y)2/1
Variación no explicada .............................. Σ (Yi ‒ Ŷi )2 n‒2 Σ (Yi ‒ Ŷi )2
= Ŝ R2
n‒2
‒
Variación total .............................................. Σ (Yi ‒ Y)2 n‒1
Algunas fórmulas útiles para obtener la tabla ANOVA son las siguientes:
VT = nσ̂ Y2
VE = β̂ 12 nσ̂ X2
VNE = VT – VE = (n – 2) Ŝ R2
www.udima.es 277
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
El análisis de los residuos contrasta a posteriori las hipótesis del modelo lineal y es especialmente
importante cuando, al tener un solo valor de Y para cada x, los contrastes básicos de homocedasticidad,
normalidad e independencia, no pueden realizarse antes de ajustar el modelo.
Se utilizan los test no paramétricos vistos en la unidad didáctica anterior (χ2 de Pearson y
Kolmogorov-Smirnov), sobre los residuos. Algunos de estos suponen independencia y los residuos no
son independientes, sin embargo para n grande, n > 30, este efecto es despreciable y los test de norma-
lidad son lo suficientemente aproximados.
Se puede detectar heterocedasticidad de las distribuciones condicionadas con el gráfico de los resi-
duos en función de los valores previstos Ŷ o, equivalentemente, de los valores de X.
e e
Ŷ Ŷ
278 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
8. C
OEFICIENTE DE DETERMINACIÓN Y COEFICIENTE DE CORRELACIÓN
LINEAL
Se puede evaluar globalmente una recta de regresión mediante la varianza residual, que es un índice
de la precisión del modelo. Sin embargo, no es útil para comparar rectas de regresión de variables dis-
tintas porque depende de las unidades de medida de Y. Entonces, una medida más adecuada del ajuste
de una línea a las observaciones es la proporción de variabilidad explicada:
VE Σ (Ŷi – Y–)2
R2 = =
VT Σ (Yi – Y–)2
En el caso particular de una ecuación de regresión lineal, la raíz cuadrada de ese coeficiente es el
coeficiente de correlación lineal r ya definido, ya que:
es decir:
Cov (X, Y)
r=
σ̂X σ̂Y
8.1. R
ELACIÓN ENTRE EL COEFICIENTE DE CORRELACIÓN Y LA VARIANZA
RESIDUAL
VE VT – VNE (n – 2) Ŝ R2 (n – 2) Ŝ R2
r2 = = =1– ⇒r= 1–
VT VT nσ̂ Y2 nσ̂ Y2
www.udima.es 279
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Se puede utilizar el coeficiente de correlación para calcular la varianza residual sin tener que obte-
ner todos los residuos. Despejando la varianza residual se obtiene:
(1 – r2) nσ̂Y2
Ŝ R2 =
n–2
Esta fórmula es especialmente útil para cuando no se dispone de los datos explícitamente.
9. PREDICCIONES
Una de las finalidades más importantes del análisis de regresión es predecir el valor de Y para
X = xh (punto no observado). Sustituyendo en la recta de regresión, se obtiene:
Ŷh = β̂ 0 + β̂ 1 xh
En lugar de dar una estimación puntual de esta predicción, se puede dar un intervalo de confianza
para Yh. La variable pivote que se utiliza es la siguiente:
Yh – Ŷh
~ tn–2
√ Ŝ R2 (1 + Vhh)
donde:
– –
(xh – X )2
1 1 (xh – X )2
Vhh = + = +
n Σ (xi – X–)2 n nσ̂ X2
También se pueden obtener intervalos de confianza para las medias condicionadas E (Yh |xh). En este
caso el intervalo al 100 (1 – α) % es:
Obsérvese que tiene menor amplitud que el construido para Yh con el mismo nivel de confianza.
Uniendo los extremos de los intervalos de confianza para el mismo valor de α y cada valor de x, se
obtienen las denominadas bandas de confianza para la predicción y para la predicción de las medias
condicionadas.
Observación. Los límites de confianza calculados son válidos solo si es cierto el modelo. Si se
extrapola el modelo fuera del rango de datos mediante el cual se ha construido, se tiene el riesgo de que
la relación entre las variables deje de ser lineal.
280 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
EJEMPLO 5
Dentro de la gestión de proyectos software, uno de los modelos de estimación relaciona de forma lineal las
variables Y = EFFORT (Esfuerzo para realizar el sistema en cuestión, medido en personas/mes) y X = LOC (Número
de líneas de código a desarrollar, en miles de líneas). Si se dispone de los datos recogidos en la tabla 4:
Tabla 4
LOC 30 32 31 37 29 39
EFFORT 82 90 83 98 80 103
a) Calcular la recta de regresión que permita predecir la variable EFFORT en función de la variable LOC
y obtener el coeficiente de correlación lineal.
b) Construir la tabla ANOVA y contrastar la bondad del modelo con una confianza del 95 %.
c) Contrastar la hipótesis de que al aumentar en 1000 el número de líneas de código, aumentan en 2 las
personas necesarias. Utilizar un nivel de confianza del 98 %.
d) Predecir el esfuerzo para realizar un sistema que necesita 35000 líneas de código para su desarrollo,
dando un intervalo de confianza al 90 % para esta predicción.
‒ Σ xi 198 Σ xi2 ‒2
X= = = 33 σ̂ X2 = ‒X = 13,66
n 6 n
‒ Σ yi 536 Σ yi2 ‒2
Y= = = 89,33 σ̂ Y2 = ‒Y = 73,88
n 6 n
Σ xi yi ‒‒
Cov (X, Y) = ‒ X Y = 31,44
n
a) Para obtener la recta de regresión pedida, se calculan los estimadores de los parámetros β1 y β0, que
son, respectivamente, los siguientes:
Como se puede apreciar, existe una alta correlación entre las dos variables.
.../...
www.udima.es 281
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
VE 429,8064 1 429,8064
VT 443,28 5
Para contrastar la bondad del modelo al 95 % de confianza, se debe resolver el siguiente contraste con
α = 0,05:
H0: β1 = 0
H1: β1 ≠ 0
429,8064
F̂ * = = 127,5995
3,3684
Como F * ~ F1,4 si H0 es cierta y el contraste se resuelve a una cola, se busca en la tabla de la F de Snede-
cor el valor F1,4;0,05 = 7,709, que define la región crítica o de rechazo que es (7,709; ∞) Como F̂ * > 7,709,
existen evidencias para rechazar la hipótesis nula y, por tanto, la pendiente de la recta es significati-
vamente distinta de cero y existe relación lineal entre ambas variables.
Equivalentemente, este contraste también se puede resolver usando la medida de discrepancia:
β̂ 1 ‒ β1 β̂ 1
d= = ~ tn‒2, si H0 es cierta
ŜR2 ŜR2
nσ̂ X2 nσ̂ X2
H0: β1 = 2
H1: β1 ≠ 2
.../...
282 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
.../...
β̂ 1 ‒ β1 β̂ 1 ‒ 2
d= = ~ tn‒2 = t4, si H0 es cierta
ŜR2 ŜR2
nσ̂ X2 nσ̂ X2
(1 ‒ r 2) nσ̂ Y2
ŜR2 =
n‒2
Equivalentemente, este contraste se puede resolver por medio de un intervalo de confianza. Al 98 %
el intervalo de confianza que se obtiene para β1 es el siguiente:
ŜR
�β̂ 1 ∓ t4;0,01 � = (1,56; 3,013)
√ nσ̂ X2
Como este intervalo contiene el valor 2, no existe evidencia suficiente para rechazar que β1 pueda ser
igual a 2 con α = 0,02.
‒
�Y h ∓ tn‒2,α/2 ŜR √ 1 + Vhh�
donde:
‒ ‒
1 (xh ‒ X )2 1 (xh ‒ X )2
Vhh = + = +
n Σ (xi ‒ X‒ )2 n nσ̂ X2
En este caso xh = 35 y la estimación puntual de la predicción es, sustituyendo en la recta de regresión obtenida
en el apartado a), Ŷh = 93,91 (aproximadamente 94 personas/mes). Como se pide una confianza del 90 %, se
tiene α = 0,1 y buscando en la tabla de la t de Student, t4;0,05 = 2,132. Sustituyendo se obtiene Vhh = 0,21547 y
el intervalo de confianza al 90 % para Yh es:
(89,5961; 98,2239)
En la figura 4 se encuentra representada gráficamente la recta de regresión estimada para los datos del ejem-
plo 5, así como las bandas de confianza al 90 % para la predicción (bandas exteriores) y las correspondientes
a la predicción de las medias condicionadas (bandas interiores).
.../...
www.udima.es 283
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
.../...
104
100
96
EFFORT
92
88
84
80
29 31 33 35 37 39
LOC
En muchas ocasiones, existen varias variables que están influyendo en la variable explicativa o
dependiente. Para tratar estos casos se utiliza el modelo de regresión lineal múltiple, que es una genera-
lización del modelo de regresión lineal simple a k variables de predicción o independientes.
Dada una variable aleatoria Y (variable de respuesta o dependiente) que puede depender linealmente
de k variables X1, X2, …, Xk (variables explicativas o independientes o predictoras), el modelo lineal
tiene la forma:
10.1. E
JEMPLO DE APLICACIÓN DE LA REGRESIÓN: MÚSICA CON REGRESIÓN
MÚLTIPLE (TRIOLA, 2000)
Sony fabrica millones de discos compactos en Terre Haute (Indiana). En una fase del proceso de
fabricación, un láser quema una placa fotográfica de modo que una señal musical se transforme en una
284 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
señal digital codificada con ceros y unos. Este proceso se analizó estadísticamente con el fin de identificar
los efectos de diferentes variables, como la duración de la exposición al láser y el espesor de la emulsión
fotográfica. Los métodos de regresión múltiple indicaron que de todas las variables consideradas, cuatro
eran las más importantes. Se ajustó el proceso fotográfico para obtener resultados óptimos basándose en
las cuatro variables críticas. El resultado fue que el porcentaje de discos defectuosos se redujo conside-
rablemente y se mantuvo la calidad tonal. El uso de métodos de regresión múltiple abatió los costes de
producción e hizo posible un mejor control del proceso de fabricación.
www.udima.es 285
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
ACTIVIDADES DE AUTOCOMPROBACIÓN
A partir del contenido de la presente unidad didáctica, se propone la realización de las siguientes
actividades de autocomprobación por parte del lector, como ejercicio general de repaso y asimilación de
la información básica proporcionada por el texto.
Enunciado 1
En una investigación sobre la relación entre el tráfico X (en miles de automóviles cada 24 horas)
y el contenido en plomo Y de la corteza de los árboles cerca de la autopista (en μg/g de peso seco), se
obtuvieron los datos de la tabla siguiente:
Tabla 6
Y 227 312 362 521 640 539 728 945 738 759 1.263
a) Calcular la relación inicial que permita predecir, a partir del tráfico, el contenido en plomo
en la corteza de un árbol. ¿Cuál es el coeficiente de correlación lineal?
b) Contrastar al 90 % de confianza la bondad del modelo.
c) Contrastar la hipótesis de que un aumento en un punto en el tráfico provoca un incremento
de 40 unidades en el contenido en plomo en la corteza de los árboles.
d) Con un 95 % de confianza, ¿entre qué valores oscilará el contenido en plomo de la cor-
teza de los árboles cerca de una autopista con un tráfico de 20.000 automóviles cada
24 horas?
286 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Enunciado 2
Un gran almacén recopiló información sobre 10 campañas de ventas, de los gastos en publicidad
(X) y los beneficios netos (Y). Los resultados obtenidos son los siguientes (ambas variables medidas en
miles de euros):
10 10 10 10 10
Σ xi = 693, Σ xi2 = 48.141, Σ xi yi = 10.948 Σ yi = 1.575, Σ yi2 = 254.245
i=1 i=1 i=1 i=1 i=1
a) Calcular el coeficiente de correlación y la recta de regresión que permita predecir los bene-
ficios netos en función de los gastos de publicidad.
b) Obtener un intervalo de confianza al 90 % para la pendiente del modelo. Utilizando el inter-
valo obtenido, contrastar la afirmación de la agencia de publicidad de que 1.000 euros gas-
tados en publicidad aporta más de 5.000 euros de beneficios.
Enunciado 3
Una empresa inmobiliaria estudia la relación entre el tiempo en semanas que se tarda en vender los
pisos (Y) y el precio, en miles de euros, que se pide por ellos (X). La siguiente tabla contiene los datos
obtenidos en una muestra de diez pisos.
Tabla 7
X 220 275 300 242 256 225 155 175 305 195
a) Obtener la recta de regresión que permita predecir el tiempo que se tarda en vender un piso
en función de su precio.
b) Contrastar que la pendiente de la recta es distinta de 0.
c) Predecir el tiempo que se tarda en vender una casa de 200.000 euros, dando un intervalo de
confianza del 90 %.
Enunciado 4
Una compañía quiere estudiar la relación entre el número de máquinas que esperan revisión en un
momento determinado y el tiempo promedio que necesitan los operadores para servir las máquinas. La
compañía elige al azar 8 registros que muestran el número de máquinas en espera al comienzo de un
periodo dado (X) y el número de servicios empleados por el operario durante el periodo (Y). Los resul-
tados obtenidos son los siguientes:
8 8 8 8 8
Σ
i=1
xi = 43, Σ
i=1
xi2 = 251, Σ
i=1
xi yi = 180 Σ
i=1
yi = 32, Σ
i=1
yi2 = 144
a) Calcular la recta de regresión que permita predecir el número de servicios que cumplirá un
operario a partir del número de máquinas en espera al principio del periodo.
b) Obtener un intervalo de confianza al 90 % para la pendiente del modelo.
www.udima.es 287
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
Enunciado 5
En un estudio hecho por el departamento de transporte de Sin-City sobre el efecto de los precios
del billete de autobús (en céntimo de euro) sobre el número de pasajeros (en miles), se obtuvieron los
resultados de la tabla 8:
Tabla 8
Miles de viajeros .......................... 800 780 780 660 600 620 620
a) Obtener la recta de regresión que permita predecir el número de pasajeros (Y ) a partir del
precio del billete (X) y calcular el coeficiente de correlación.
b) Contrastar la afirmación de que el número de miles de pasajeros que se pierden al aumentar
en un céntimo el precio del billete es menor o igual a 5. Utilizar α = 0,05. Calcular, además,
el nivel crítico o p-valor aproximado.
288 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Solución 1
Solución 2
Solución 3
Solución 4
Solución 5
www.udima.es 289
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
EJERCICIOS VOLUNTARIOS
Tras el estudio de esta unidad didáctica, el lector puede hacer, por su cuenta, una serie de ejercicios
voluntarios, como los siguientes:
1. Un hospital quiere estudiar la relación entre el número de pacientes que esperan en una con-
sulta médica y el tiempo promedio que se utiliza para atender a los pacientes. Se recogieron
datos durante 6 periodos determinados que muestran el número de pacientes en espera al
comienzo de un periodo dado (X) y el número de pacientes atendidos por un médico durante
tal periodo (Y). Los resultados obtenidos son los siguientes:
6 6 6 6 6
Σ
i=1
xi = 40, Σ
i=1
xi2 = 300, Σ
i=1
xi yi = 232 Σ
i=1
yi = 31, Σ
i=1
yi2 = 183
Tabla 9
X 66 64 68 65 69 63 71 67 69 70
Y 69 67 69 66 70 67 69 66 72 69
a) Obtener la recta de regresión que permita predecir la altura del primer hijo varón en
función de la altura de su padre y calcular el coeficiente de correlación lineal.
b) Predecir la altura del primer hijo varón del jardinero cuya altura es 65 pulgadas, dando
un intervalo de confianza del 90 %.
10 10 10 10 10
Σ
i=1
xi = 4,95, Σ
i=1
xi2 = 2,489, Σ
i=1
xi yi = 58,207 Σ
i=1
yi = 118,76, Σ
i=1
yi2 = 1415,704
Obtener la recta de regresión que permita predecir la resistencia a la ruptura a partir del peso
específico relativo de la madera y dar un intervalo de confianza al 95 % para la pendiente
del modelo.
290 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
Sumario │
Tabla 10
X 3 5 2 8 6 9 3 4
5. En un estudio de salud pública, se ha tomado una muestra de 12 personas en una zona indus-
trial. Sus datos de edad (X) y concentración de percloroetileno en la sangre (Y ) figuran en
la siguiente tabla:
Tabla 11
X 48 34 40 33 29 58 37 25 47 23 28 43
Y 161 162 131 107 128 188 169 126 202 76 134 191
REFERENCIAS BIBLIOGRÁFICAS
Básica
www.udima.es 291
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".
│ Sumario
En la red
Avanzada
RYAN, T. P.: Modern Regression Methods. New York: John Wiley & Sons, 1997.
292 www.udima.es
"Todos los derechos reservados. Cualquier forma de reproducción, distribución, comunicación pública o transformación de esta Unidad sólo puede ser realizada con la autorización de la Universidad a Distancia de Madrid, UDIMA, salvo excepción
prevista por la ley. Diríjase a CEDRO (Centro Español de Derechos Reprográficos, www.cedro.org) si necesita fotocopiar o escanear algún fragmento de esta obra (www.conlicencia.com; 91 702 19 70 / 93 272 04 47)".