P. 1
Apuntes de probabilidad y estadística

Apuntes de probabilidad y estadística

|Views: 23|Likes:
Publicado porJuan Pablo López

More info:

Published by: Juan Pablo López on Sep 28, 2013
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOCX, PDF, TXT or read online from Scribd
See more
See less

09/23/2014

pdf

text

original

Página 1 de 190

qwertyuiopasdfghjklzxcvbnmqwerty
uiopasdfghjklzxcvbnmqwertyuiopasd
fghjklzxcvbnmqwertyuiopasdfghjklzx
cvbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyui
opasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmqwertyuiopasdfghjklzxc
vbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyui
opasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmqwertyuiopasdfghjklzxc
vbnmqwertyuiopasdfghjklzxcvbnmq
wertyuiopasdfghjklzxcvbnmqwertyui
opasdfghjklzxcvbnmqwertyuiopasdfg
hjklzxcvbnmrtyuiopasdfghjklzxcvbn
mqwertyuiopasdfghjklzxcvbnmqwert
yuiopasdfghjklzxcvbnmqwertyuiopas
dfghjklzxcvbnmqwertyuiopasdfghjklz
xcvbnmqwertyuiopasdfghjklzxcvbnm
qwertyuiopasdfghjklzxcvbnmqwerty



APUNTES

PROBABILIDAD Y ESTADÍSTICA
ESIME ZACANTENCO


Francisco Muñoz Apreza, Juan Alfaro Yllescas, Genoveva Barrera
Godínez, Rosa María Estrella Montoya.




2


MODULO I ESTADÍSTICA DESCRIPTIVA Y MUESTREO

Esta Modulo I está diseñado para que el alumno comprenda los fundamentos y aplicaciones
de la Estadística descriptiva. Se abordarán los temas en dos vertientes; la primera a partir de
los fundamentos teóricos y aplicaciones y la segunda mediante un Muestreo por encuestas.


TEMARIO

1.- Características del muestreo
Levantamiento de la encuesta
Uso del SPSS 17 para la elaboración de las tablas de frecuencia
2.- Tabla de Frecuencia
2.1 Teoría Elemental
2.2 Frecuencias Acumuladas
2.3 Frecuencias Relativas
2.4 Ejemplos
2.5 Ejercicios
3.- Representación gráfica de las Tablas de Frecuencias
3.1 Teoría Elemental
3.2 Gráficas e Histogramas
3.3 Ejemplo
3.4 Ejercicio
4.- Medidas de Tendencia Central
4.1 Teoría Elemental
4.2 Moda
4.3 Media
4.4 Mediana
4.5 Media geométrica
4.6 Ejemplo
4.7 Ejercicios
5.- Medidas de Tendencia Central con Datos Agrupados
5.1 Teoría Elemental
5.2 Ejemplo
5.3 Ejercicios
6.- Medidas de Dispersión
6.1 Teoría Elemental
6.2 Cuartiles
6.3 Porcentiles
6.4 Varianza
6.5 Desviación Estándar
6.6 Ejemplo
6.7 Ejercicios


2.- Tablas de Frecuencia

3


Teoría Elemental

Definición de tabla de Frecuencia:
Una tabla de frecuencia es el conjunto de datos organizados con base en la información
contenida en una muestra.

Definición de frecuencia relativa:
La frecuencia Relativa fi/n : es una frecuencia particular entre el número total de observaciones.

Definición de escala ordinal.
Una escala Ordinal: es aquella escala representada por valores numéricos

Ejemplo:

{1, 2. 3.....}; < 1, 5, >,.

Definición de escala nominal

Una escala Nomina: es aquella escala representada por valores no numéricos

Ejemplo
< masculino, femenino >.

Determinación del tamaño del intervalo:
La fijación de este tamaño dependerá de las necesidades del investigador, puede ser todos del
mismo tamaño o de tamaños desiguales.


Determinación del número de intervalos de clase:

A medida que el número de intervalos de clase disminuye, la información es menos precisa
pero su tratamiento analítico es mayor. El número de intervalos se sugiere que sea entre 5 y 15
dependiendo de las necesidades de investigador.

Definición Límite superior e inferior: son los existentes en un intervalo de clase

< límite inferior, límite superior >.

Frecuencia acumulada:

Para elaborar este tipo de tabla se van sumando las frecuencias de cada una de los intervalos
de clase. Su utilidad consiste en que podemos conocer el comportamiento del proceso
estadístico de los intervalos de clase con respecto a la primera variable..

En los intervalos de clase, por ejemplo ( 13 a 15 ) del cuadro del ejemplo que se desarrolla, el
13 representa el límite inferior y el 15 el límite superior.

En el cuadro del siguiente ejemplo el investigador organizó su información en 7 intervalos de
clase sacrificando precisión en la información pero ganó claridad analítica en ella.







Ejemplo
4


Tamaño de la muestra 812
Edad a que entró a Trabajar
Edad Frecuencia
9 – 12 72
13 - 15 153
16 – 17 190
18 – 20 313
21 – 25 45
26 en adelante 9
No contestó 30
Total 812


Al analizar el cuadro 4, observamos que los datos están agrupados por intervalos de clase
ordinal, de conformidad con la necesidad que el investigador tiene de conocer parámetros que
le permitan inferir acerca del trabajo infantil ( 9 a 12 ), la pubertad (13 a 15 ) y la adolescencia
(18 a 20 ) y la juventud <21 a 25 > teniendo un intervalo mixto <26 en adelante> y uno nominal
<no contestó>.


+Tabla de frecuencia acumulada

Al elaborar una tabla de frecuencia acumulada del cuadro 4 se van sumando las frecuencias
de cada uno de los intervalos. Ahí la utilidad para el investigador consiste en que puede
conocer en cada uno de los intervalos el comportamiento total. Detecta en particular que 225
trabajadores se iniciaron en el trabajo asalariado entre los 9 y 15 años de edad.



Tamaño de la muestra 782
Inicia labor de asalariado
Clase Frecuencia Acumulada
9 – 12 72
9 - 15 225
9 – 17 415
9 – 20 728
9 – 25 773
9 ó 26 en adelante 782
No contestó
Total 782

+Tablas de frecuencia relativa

La utilidad para el investigador de representar sus datos mediante una tabla de frecuencias
relativas, consiste en que ésta da claridad sobre el comportamiento de cada intervalo de clase
respecto al total.

De tal forma si se desea conocer el peso que tiene en la rama del vidrio en los trabajadores
que iniciaron una actividad remunerada en la época de la adolescencia vemos que representa
el 38.54 %.



Tamaño de la muestra 812
Inicio en labores asalariadas
5

Clase Frecuencia
9 – 12 8.8
13 – 15 18.84
16 – 17 23.39
18 – 20 38.54
21 – 25 5.54
26 en adelante 1.1
No contestó 3.7
T o t a l 100.00


Cuadro 1





















CUADRO 2
Tamaño de la Muestra 812
Sexo Frecuencia
Masculino 712
Femenino 67
No Contestó 33
Total 812


CUADRO 3
Tamaño de la Muestra 812
Estado Civil Frecuencia
Soltero 206
Casado 544
Viudo 13
Divorciado 15
Unión Libre 28
No Contestó 6
Total 812



Ejercicios del Tema I

1.- ¿Qué utilidad tendría utilizar la frecuencia acumulada en los cuadros 1, 2 y 3 ?.
Tamaño de la muestra 812
Edad
Edad Frecuencia
0 – 17 12
18 – 20 60
21 – 25 143
26 – 30 171
31 - 35 148
36 – 40 137
41 – 45 61
46 - 50 52
51 - 55 21
55 o más 5
No contestó 2
Total 812
6


2.- ¿Qué utilidad tendría utilizar la frecuencia relativa en los cuadros 1, 2 y 3 ?.

3.- ¿Qué ventajas tiene el utilizar frecuencias de amplitud total en los cuadros 1, 2
y 3.

4.- ¿Tiene sentido la frecuencia de amplitud total en los cuadros 1, 2 y 3?. ¿En
cuáles no tiene sentido plantear intervalos de clase?.



TEMA II


El visualizar el comportamiento de los datos de las tablas de frecuencia mediante diagramas de
barras, gráficas de líneas, diagramas circulares, polígonos de frecuencia rinden beneficios
analíticos al investigador


GRÁFICA
Tipo I









GRÁFICA
Tipo 2










GRÁFICA
Tipo 3












El utilizar una u otra representación visual va a ser importante en la medida que describa a la
información con mayor claridad y facilite la interpretación.




0
0.2
0.4
0.6
0.21
0.03
0.47
GráficaBJ 13. Niveles de violencia
en la delegación política Benito
Juárez
Alto nivel de
pobreza
Inseguridad
alarmante
Fuente: TADET, muestra: 34, año: 2010
7

Se debe tener cuidado con la escala con las cuales elaboren las gráficas; si se usa una escala
errónea el gráfico arrojará una falsa idea en su comportamiento.



Ejemplo (Tema II)

Cuadro 5
Salario Semanal
Clase Frecuencia
Hasta 125 31
125 – 250 194
251 – 375 224
376 – 500 123
510 ó más 240
No contestó 0
Total 812


La presentación de los intervalos de clase en el salario semanal esta dada en combinación
ordinal y nominal < hasta 125 >, < 501 ó más >.

En el polígono de frecuencia podemos deducir que la mayor concentración de los trabajadores
se localiza en los niveles salariales de 4 salarios mínimos ó más.

Además de peso de los trabajadores que perciben hasta un salarios mínimo prácticamente
inexistente.

Cuadro 6

Antigüedad
Años Frecuencia
0 – 1 143
2 – 5 290
6 – 10 183
11 – 15 86
16 – 20 56
21 – 25 35
26 – 29 12
300 ó más 7
Total 812

Ejercicios (Tema II)

1.- Elabore la gráfica del cuadro 6.

2.- ¿Qué tipo de escalas se utilizan en el cuadro 6?.

3.- ¿Qué ventajas le ve usted a elaborar una tabla de frecuencias acumuladas en
el cuadro 6?.

4.- ¿Qué análisis se desprende de la gráfica del cuadro 6?.





Medidas de tendencia central
8

Las medidas de ubicación proporcionan información sobre el lugar hacia donde existe la
tendencia central dentro de un grupo de números. Las medidas de ubicación presentadas en
esta unidad para datos no agrupados son la media, la mediana, y la moda.
Media: La media aritmética (o el promedio, media simple) es calculada sumando todos los
números de un conjunto de números (x
i
) y después dividiéndolos por el número de
observaciones (n) del conjunto.
Media = = X
i
/n,
La media utiliza todas las observaciones, y cada observación afecta la media. Aunque la media
es sensible a los valores extremos; es decir, los datos extremadamente grandes o pequeños
pueden causar que la media se ubique o más cerca de uno de los datos extremos; A pesar de
esto, la media sigue siendo la medida lo más usada para medir la localización. Esto se debe a
que la media posee valiosas propiedades matemáticas que la hacen conveniente para el uso
en el análisis estadístico de inferencia o deductivo.
Media Ponderada: en algunos casos, los datos de una muestra o población no deberían ser
ponderados de la misma manera, es preferible ponderarlos de acuerdo a su importancia.
Mediana: La mediana es el valor medio de una grupo ordenado de observaciones. Si existe
un número par de observaciones correspondientes al grupo podrían haber dos medianas
La mediana es normalmente utilizada para resumir los resultados de una distribución. Si la
distribución es sesgada , la mediana es un buen indicador de medida para saber donde los
datos observados se encuentran concentrados.
Generalmente, la mediana proporciona una mejor medida que la media cuando las
observaciones son extremadamente grandes o pequeñas La media tiene dos ventajas distintas
sobre la mediana. Es más estable, y uno puede calcular la media basada de dos muestras
combinando las dos medios de las mismas.
Moda: La moda es el valor lo más con frecuencia posible que ocurre de un sistema de
observaciones. Los datos pueden tener dos modas. En este caso, decimos que los datos son
bimodales, y los grupos de observaciones con más de dos modos están referidos como
multimodales. Observe que la moda no es una medida útil de ubicación, porque puede haber
más de una moda o quizás ninguna.
Características de la Moda, Mediana y Media
Hechos Moda Mediana Media
1
Es el valor mas
frecuente en la
distribución. Es el punto
de más alta densidad.
Es el valor del punto
medio de la selección
(no del rango), tal que la
mitad de los datos están
por arriba y por debajo
de ella.
Es el valor en algún
agregado, el cual se
obtendría si todos los
valores fueran iguales.
2
Su valor es establecido
por la frecuencia
predominante, no por
los valores en la
distribución.
El valor de la media es
fijado por su posición en
la selección, y no refleja
valores individuales.
La suma de las
desviaciones en cualquier
lado de la media son
iguales; por lo tanto la
suma algebraica de sus
desviaciones es cero.
3
Este es el valor mas
probable, por lo tanto el
mas común.
La distancia agregada
entre la mediana y
cualquier otro punto de
la muestra es menor que
Esta refleja la magnitud de
cada valor.
9

en cualquier otro punto.
4
Una distribución puede
tener mas de 2 modas,
pero no existe moda en
una distribución
rectangular.
Cada selección tiene
solo una mediana.
Una muestra tiene solo
una media.
5
No puede ser
manipulada
algebraicamente.
Modas de subgrupos no
pueden ser ponderadas
o combinadas.
No puede ser
manipulada
algebraicamente.
Medianas de subgrupos
no pueden ser
ponderadas o
combinadas.
Pueden ser manipuladas
algebraicamente. Medias
de subgrupos pueden ser
combinadas cuando son
ponderadas
apropiadamente.
6
Es inestable, puede ser
influenciada en el
proceso de agrupación.
Es estable en cuanto a
que procedimientos para
agrupar no afecta su
apreciación.
Es estable en cuanto a
que procedimientos para
agrupar no afecta su
apreciación.
7
La moda no refleja el
grado de modalidad.
No es aplicable para
datos cualitativos.
Podría ser calcula
igualmente cuando los
valores individuales son
desconocidos, si se posee
la suma de los valores y el
tamaño de la muestra.
8
Puede ser calculada
cuando los extremos de
los valores de los
grupos son abiertos.
Puede ser calculado
cuando los valores
extremos son abiertos.
No puede ser calculado de
una tabla de frecuencia
cuando sus valores
extremos son abiertos.
9
Valores deben ser
ordenados para su
cálculo.
Valores deben ser
ordenados y agrupados
para su cálculo.
Los valores no necesitan
ser ordenados para su
cálculo.


La Media Geométrica: La media geométrica (G) de n valores no negativos es la enésima raíz
del producto de los n valores.
Si algunos valores son muy grandes en magnitud y otros muy pequeños, la media geométrica
proporciona una mejor representación de los datos que un simple promedio.
La Media Armónica:
H = n/[ (1/x(i)].
La media armónica es útil para calcular promedios de variables expresadas en proporciones
de unidades por tiempo.
Histogramas: Analizando la Homogeneidad de la Población
Un histograma es una representación gráfica de una estimación para la densidad (para
variables aleatorias continuas) o la función de probabilidad total (para variables aleatorias
discretas) de la población.
Las características geométricas del histograma nos permiten descubrir información útil sobre
los datos, por ejemplo:
1. La localización del “centro” de los datos.
10

2. El grado de dispersión.
3. La sección a la cual se sesga, es decir, cuando no cae simétricamente en
ambos lados del pico.
4. El grado de agudeza del pico. Cómo se levanta y baja la pendiente.
Las medidas de variación más comunes son: varianza, desviación estándar, y el coeficiente
de variación.
Cuartiles: Cuando requerimos sean divididos en cuartos, Q1... Q4, conocidos como cuartiles.
El primer cuartíl (Q1) es el valor donde están 25% de los valores mas pequeños y en el otro
75% los más grandes. El segundo cuartíl (Q2) es el valor donde están 50% de los valores mas
pequeños y en el otro 50% los más grandes. En el tercer cuartíl (Q3) es el valor donde están
75% de los valores mas pequeños y en el otro 25% los más grandes.
Porcentajes: Los porcentajes tienen la ventaja que pueden ser subdivididos en 100 porciones.
Los porcentajes y los cuartiles son más convenientes de leer cuando son tomados de una
función de distribución acumulativa.
Varianza: Es una importante medida de variabilidad. La varianza es el promedio de las
desviaciones estándar elevadas al cuadrado de cada una de las observaciones con respecto
a la media.
Var(x) = (x
i
- )
2
/ (n - 1), de donde n por lo menos es igual a 2.
La varianza es una medida de dispersión entre valores de los datos. Por lo tanto, mientras más
grande sea la varianza, menor será la calidad de los datos.
Desviación Estándar:
Ambas, la varianza y la desviación estándar proporcionan la misma información; una siempre
puede ser obtenida de la otra . Es decir, el proceso de cálculo de la desviación estándar
siempre implica el cálculo de la varianza. Puesto que la desviación estándar es la raíz
cuadrada de la varianza, esta siempre es expresada en las mismas unidades que el conjunto
de datos:
Desviación estándar= o = (Varianza)
½

Coeficiente de Variación: El coeficiente de variación (CV) es la desviación relativa absoluta
con respecto al tamaño , siempre que sea cero, expresado en porcentaje:
CV =100 |S/ | %
El CV es independiente de las unidades de medida. En la estimación de un parámetro, cuando
su CV es menos del 10%, la estimación se asume aceptable. En el caso contrario, digamos,
1/CV se llama el Cociente de señal de ruido.
El coeficiente de variación se utiliza para representar la relación de la desviación estándar
hacia la media, diciendo cuan representativa es la media de los números de los cuales fue
calculada. Esta expresa la desviación estándar como porcentaje de la media; es decir, refleja la
variación de una distribución con respecto a la media. Sin embargo, los intervalos de la
confianza para el coeficiente de variación generalmente no son expresados. Una de las
razones es que el cálculo exacto del intervalo de confianza para el coeficiente de variación es
tedioso de obtener.

11

Observe que, para un conjunto de datos agrupados o sesgados, el coeficiente de variación
cuartíl es:
V
Q
= 100(Q
3
- Q
1
)/(Q
3
+ Q
1
)%
es mas útil que el CV.
Cociente de Variación para Datos Cualitativos: Puesto que la moda es la medida mas usada
para la tendencia central de variables cualitativas, la variabilidad es medida con respecto a la
moda. El estadístico que describe la variabilidad de datos cuantitativos es el cociente de
variación (VR):
VR = 1 - f
m
/n,
de donde f
m
es la frecuencia de la moda, y n es el número total de cálculos en la distribución.
Cálculo de Estadísticos Descriptivos para Datos Agrupados: Una de las maneras más
comunes de describir una sola variable es con una distribución de frecuencia. Un histograma
es una representación gráfica de una estimación para la distribución de frecuencia de la
población. Dependiendo de las variables particulares, todos los valores de los datos podrían
ser representados, o se podrían agrupar los valores primero por categorías . Generalmente, no
sería sensible determinar las frecuencias para cada valor. Preferiblemente, los valores
deberían ser agrupados en rangos, y luego determinar la frecuencia. Las distribuciones de
frecuencia se pueden representar de dos maneras: como tablas o como gráficos, los cuales a
menudo se refieren a histogramas o gráfico de barras. Los gráficos de barras son normalmente
utilizados para mostrar la relación entre dos variables categóricas.
Los datos agrupados son derivados de informaciones ordinarias, y consisten en frecuencias
(cálculo de valores ordinarios) tabulados con las clases en las cuales ocurren. Los límites de
las clases representan los valores más pequeños (inferiores) y más grandes (superior) que la
clase contendrá. Las fórmulas para los estadísticos descriptivos son mucho más simples para
los datos agrupados, así como se muestra en las siguientes formulas para la media, varianza, y
la desviación estándar, respectivamente, de donde f representa la frecuencia de cada clase, y n
es la frecuencia total:



Seleccionando entre Desviación Cuartíl, Media de Desviación Absoluta y Desviación
Estándar
Una guía general para seleccionar el estadístico adecuado para describir la dispersión de la
población, incluye la consideración de los siguientes factores:
1. El concepto de dispersión que el problema requiere. ¿Es un simple par de
valores adecuado, tal como los dos extremos o los dos cuartiles (rango o Q)?
2. El tipo de datos disponibles. Si son pocos en números, o contiene valores
extremos, evite la desviación estándar. Si se encuentran sesgados, evite la
12

media de desviación absoluta. Si existen brechas entre los cuartiles, la
desviación cuartíl se debería evitar.
3. La peculiaridad de la dispersión que los mide. Estos son resumidos en el
cuadro de “las Características Principales de la Desviación Cuartíl, la Media de
Desviación Absoluta y la Desviación Estándar”, que se muestra a continuación.
Características Principales de la Desviación Cuartíl, la Media de Desviación Absoluta y la
Desviación Estándar

Hechos La Desviación Cuartíl
La Media de Desviación
Absoluta
La Desviación
Estándar
1
La desviación cuartíl es
fácil de calcular y
entender. Sin embargo,
esta es inconsistente si
existen brechas entre los
datos alrededor de los
cuartiles.
La Media de Desviación
Absoluta tiene la ventaja de
dar igual peso a la
desviación de cada valor
con respecto a la media o
la mediana.
La Desviación
Estándar es
normalmente mas útil y
mejor adaptable a
análisis mas profundos
que lo que es La
Media de Desviación
Absoluta.
2
Solo depende de dos
valores, los cuales
incluyen la mitad central
de los mismos.
Es una medida de
dispersión más sensitiva
que cualquiera de las
descritas anteriormente, y
normalmente tiene errores
de muestreo más
pequeños.
Es más adaptable
como estimador de la
dispersión de la
población que
cualquier otra
medición, haciendo
que la distribución sea
normal.
3
Es normalmente superior
al rango como una
medida cruda de
dispersión.
Es más fácil de calcular y
entender, además es
menos sensible que la
desviación estándar a
valores extremos.
Es la más amplia
medida de dispersión
usada, y la más fácil
de manejar
algebraicamente.
4
Esta podría ser
determinada en una
distribución abierta en
los extremos, o en una
en la cual los datos
pueden ser
seleccionados pero no
medidos
cuantitativamente.
Desafortunadamente, es
muy difícil de manejar
algebraicamente, dado que
el signo negativo debe ser
ignorado cuando se
calcula.
En comparación con
los demás, esta es
mas difícil de calcular y
de entender.
5
Es muy útil en
distribuciones muy
sesgadas, o en aquellas
en las cuales otras
medidas de dispersión
serian deformadas por
valores extremos.
Su aplicación principal es
la precisa elección de
modelos en técnicas de
predicciones comparativas.
Es normalmente
afectada por valores
extremos, los cuales
podrían ocasionar el
sesgamiento de los
datos.






Muestreo
13

Al tomar una cantidad de elementos de una población para poder contar con criterios de
decisión, estamos tomando una muestra de ella.
Del tamaño de la población (N) se pueden extraer varias muestras. Un cierto estadístico puede
ser calculado para cada una de las muestras posibles extraídas de la población. Una
distribución del estadístico obtenida de esta manera es llamada la distribución del estadístico.

En estadística un muestreo es la técnica para la selección de una muestra a partir de una
población.
Terminología para el muestreo
Los términos usados en inferencia estadística son:
Estadístico: medida usada para describir alguna característica de una muestra (media
aritmética, mediana. desviación estándar)
Parámetro: representación del estadístico.
Los símbolos usados para representar los estadísticos y los parámetros, en éste y los
siguientes capítulos, son resumidos en la tabla siguiente:
Tabla 1

Medida Símbolo para el estadístico Símbolo para el parámetro
Media X µ
Desviación estándar S s
Número de elementos N N
Proporción P P
Al elegir una muestra, se espera que sus propiedades sean extrapolables a la población. Este
proceso permite ahorrar recursos, obteniendo resultados parecidos que si se realizase un
estudio de toda la población.
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un estudio fiable (que
represente a la población), debe cumplir ciertos requisitos, lo que lo convertiría en una muestra
representativa.
En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se
puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se
pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada
muestra su probabilidad de extracción, sigue la llamada distribución muestral
Error Estándar: La desviación estándar de una distribución, en el muestreo de un estadístico,
es frecuentemente llamada el error estándar del estadístico.
Error muestral o error de muestreo: La diferencia entre el resultado obtenido de una muestra
(un estadístico) y el resultado el cual deberíamos haber obtenido de la población (el parámetro
correspondiente) se llama el error muestral o error de muestreo. Un error de muestreo
usualmente ocurre cuando no se lleva a cabo la encuesta completa de la población, sino que
se toma una muestra para estimar las características de la población.
El error muestral es medido por el error estadístico, en términos de probabilidad, bajo la curva
normal. El resultado de la media indica la precisión de la estimación de la población basada en
el estudio de la muestra. Mientras más pequeño el error muestras, mayor es la precisión de la
14

estimación. Deberá hacerse notar que los errores cometidos en una encuesta por muestreo,
tales como respuestas inconsistentes, incompletas o no determinadas, no son considerados
como errores muéstrales. Los errores no muéstrales pueden también ocurrir en una encuesta
completa de la población.
Métodos de selección de muestras.
Una muestra debe ser representativa si va a ser usada para estimar las características de la
población. Los métodos para seleccionar una muestra representativa van a depender del objeto
de estudio.
Muestreo simple: Este tipo de muestreo toma solamente una muestra de una población dada
para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada, el
tamaño de muestra debe ser lo suficientemente grandes para extraer una conclusión. Una
muestra grande muchas veces cuesta demasiado dinero y tiempo.
Muestreo doble: Bajo este tipo de muestreo, cuando el resultado del estudio de la primera
muestra no es decisivo, una segunda muestra es extraída de la misma población. Las dos
muestras son combinadas para analizar los resultados. Este método permite a una persona
principiar con una muestra relativamente pequeña para ahorrar costos y tiempo. Si la primera
muestra arroja una resultado definitivo, la segunda muestra puede no necesitarse.
Muestreo múltiple: El procedimiento bajo este método es similar al expuesto en el muestreo
doble, excepto que el número de muestras sucesivas requerido para llegar a una decisión es
más de dos muestras.
Los elementos de una muestra pueden ser seleccionados de dos maneras diferentes:
a. Basados en el juicio de una persona.
b. Selección aleatoria (al azar)
Muestreo Aleatorio: Una muestra se dice que es extraída al azar cuando la manera de
selección es tal, que cada elemento de la población tiene igual oportunidad de ser
seleccionado.
A. Muestreo aleatorio simple. Una muestra aleatoria simple es seleccionada de tal manera
que cada muestra posible del mismo tamaño tiene igual probabilidad de ser seleccionada de la
población. Para obtener una muestra aleatoria simple, cada elemento en la población tenga la
misma probabilidad de ser seleccionado, el plan de muestreo puede no conducir a una muestra
aleatoria simple. Por conveniencia, este método pude ser reemplazado por una tabla de
números aleatorios. Cuando una población es infinita, es obvio que la tarea de numerar cada
elemento de la población es infinita, es obvio que la tarea de numerar cada elemento de la
población es imposible. Por lo tanto, ciertas modificaciones del muestreo aleatorio simple son
necesarias. Los tipos más comunes de muestreo aleatorio modificado son sistemático,
estratificado y de conglomerados.
B. Muestreo sistemático. Una muestra sistemática es obtenida cuando los elementos son
seleccionados en una manera ordenada. La manera de la selección depende del número de
elementos incluidos en la población y el tamaño de la muestra. El número de elementos en la
población es, primero, dividido por el número deseado en la muestra. El cociente indicará si
cada décimo, cada onceavo, o cada centésimo elemento en la población va a ser seleccionado.
El primer elemento de la muestra es seleccionado al azar. Por lo tanto, una muestra
sistemática puede dar la misma precisión de estimación acerca de la población, que una
muestra aleatoria simple cuando los elementos en la población están ordenados al azar.
C. Muestreo Estratificado. Para obtener una muestra aleatoria estratificada, primero se divide
la población en grupos, llamados estratos, que son más homogéneos que la población como un
todo. Los elementos de la muestra son entonces seleccionados al azar o por un método
sistemático de cada estrato. Las estimaciones de la población, basadas en la muestra
15

estratificada, usualmente tienen mayor precisión (o menor error muestral) que si la población
entera muestreada mediante muestreo aleatorio simple. El número de elementos seleccionado
de cada estrato puede ser proporcional o no proporcional al tamaño del estrato en relación con
la población.
D. Muestreo de conglomerados. Para obtener una muestra de conglomerados, primero dividir
la población en grupos que son convenientes para el muestreo. En seguida, seleccionar una
porción de los grupos al azar o por un método sistemático. Finalmente, tomar todos los
elementos o parte de ellos al azar o por un método sistemático de los grupos seleccionados
para obtener una muestra. Bajo este método, aunque no todos los grupos son muestreados,
cada grupo tiene una igual probabilidad de ser seleccionado. Por lo tanto la muestra es
aleatoria.
Una muestra de conglomerados, usualmente produce un mayor error muestral (por lo tanto, da
menor precisión de las estimaciones acerca de la población) que una muestra aleatoria simple
del mismo tamaño. Los elementos individuales dentro de cada "conglomerado" tienden
usualmente a ser iguales. Por ejemplo la gente rica puede vivir en el mismo barrio, mientras
que la gente pobre puede vivir en otra área. No todas las áreas son muestreadas en un
muestreo de áreas. La variación entre los elementos obtenidos de las áreas seleccionadas es,
por lo tanto, frecuentemente mayor que la obtenida si la población entera es muestreada
mediante muestreo aleatorio simple. Esta debilidad puede reducida cuando se incrementa el
tamaño de la muestra de área.
El incremento del tamaño de la muestra puede fácilmente ser hecho en muestra de área. Los
entrevistadores no tienen que caminar demasiado lejos en una pequeña área para entrevistar
más familias. Por lo tanto, una muestra grande de área puede ser obtenida dentro de un corto
período de tiempo y a bajo costo.
Por otra parte, una muestra de conglomerados puede producir la misma precisión en la
estimación que una muestra aleatoria simple, si la variación de los elementos individuales
dentro de cada conglomerado es tan grande como la de la población.













16

Modulo II PROBABILIDAD CÁSICA


Teoría de conjuntos:


Un poco de historia
El matemático alemán Georg Cantor en el siglo XIX formalizó por primera vez la teoría de conjuntos.
El concepto de conjunto es fundamental en el análisis matemático toda vez que nos permite encontrar
relaciones, implícita o explícitamente, en todas las ramas de las matemáticas.
En su forma explícita, los principios y terminología de los conjuntos se utilizan para construir
proposiciones matemáticas más claras y precisas y para explicar conceptos abstractos como el infinito.
Definición de Conjunto
“Un conjunto es una agrupación de elementos bien definidos”
Ejemplo de conjuntos:
S
1
= {2, 4}; S
2
= {2, 4, 6, …, 2n, …} = {todos los enteros pares};

Notaciones de conjuntos

Es usual denotar los conjuntos por letras mayúsculas.
Los elementos de los conjuntos se representan por letras minúsculas
A = { 1,3,5,7,9,11 }
Separando los elementos por comas y encerrándolos entre llaves {}. Esta es llamada forma tabular de un
conjunto.
Pero si se define un conjunto enunciando propiedades que deben tener sus elementos.
Ejemplo: Sea B el conjunto de todos los numero pares, entonces se emplea una letra, por lo general x,
para representar un elemento cualquiera y se escribe
B={x/xea los números pares }
lo que se lee “B es el conjunto de los números x tales que x es par” se dice que esta es la forma de
definición por comprensión o constructiva de un conjunto. Téngase en cuenta que la barra vertical se lee “
Tales Que” .
si un objeto x es el elemento de un conjunto A, es decir, si A contiene a x como uno de sus elementos, se
escribe.
x c A
que se puede leer también “x pertenece a A” ó “x esta en A”. Si por el contrario un objeto x no es
elemento de un conjunto A, es decir, si A no contiene a x entre sus elementos, se escribe
x . A
Es costumbre que en los escritos matemáticos poner una línea vertical o una oblicua “/” tachando un
símbolo para indicar lo opuesto o la negación del significado de símbolos.
Decimos que el elemento P pertenece al conjunto S si P está contenido en el conjunto S.
Decimos que el conjunto A está contenido en el conjunto S si todos los elementos del conjunto A son elementos
del conjunto S.
Igualdad o identidad de conjuntos
El conjunto A es igual al conjunto B si ambos tienen los mismo elementos, es decir, si cada elemento en A
pertenece también a B, y si cada elemento en a B pertenece a A. Se denota la igualdad de los conjuntos
A = B.
Decimos que la identidad de dos conjuntos A Y B se da, cuando A está contenido en B y B está
contenido en A.
Ejemplo
Sean. A={1,2,3,4 } y B={3,1,4,2 }, entonces A=B, porque los elementos 1,2,3,4 de A pertenece a B y cada
uno de los elementos 3,1,4 y 2 de B pertenece a A.
Debemos de observar que en un conjunto el orden de aparición de sus elementos no cambia su
contenido.
17

UNIÓN
La unión de los conjuntos A y B es el conjunto de todos los elementos que pertenecen a A o a B o a
ambos. Se denota la unión de A y B por
A U B = { x / x en A ό x en B }
















el cual se lee “A unión B”.


Intersección

La intersección de los conjuntos A y B es el conjunto de los elementos comunes en A Y B, esto es,
aquellos elementos que pertenecen a A y que también pertenecen a B.
Se denota la intersección de A y B por:
A ∩ B = { x / x Є A y x Є B }
Que se lee “A intersección B”




























El complemento de un conjunto, es el conjunto de elementos que no pertenecen a A, es decir la diferencia
del conjunto universal U y del A.
Se denota el complemento de A por:
A' = { x / x e A }






18


















Diferencia
La diferencia de los conjuntos A y B es el conjunto de elementos que pertenecen a A pero no a B.
Se denota la diferencia de A y B por:
A ─ B = { x / x Є A y x e B }
Que se lee “A diferencia B” o simplemente “A menos B”















Definición de conjunto vacío
El conjunto vacío es un conjunto sin elementos.
Φ = { }













Conjunto Universal
El Conjunto Universal es el conjunto que tiene todos los elementos.
U = { Todos los elementos que están contenidos en el diagrama de Venn }



19


Es importante señalar que el conjunto universal se debe definir en primer lugar y todos los demás
conjuntos deberán estar contenidos en él.












Por Ejemplo Si definimos que el Conjunto Universal está definido por los diez número dígitos entonces
U = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 }

Ejemplo

Si el Conjunto Universal está definido por los números dígitos entonces

U = { 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 }

Ejemplo:
Sea U={ x / 0< x < 2}

A={x /1/2 < x < 1 }
B={x / ¼< x < 3/2 }
C= {x / 1/3 < x < 3/2 }


Entonces

AUB = { x / x Є A ó x Є B} = { x / ¼ < x < 3/2 }
A∩B ={x / x Є A y x Є B } = { x / ½ < x < 1}
Ā= {x / x e A , x Є (U - A)} = { x / 0 < x < ½ } U { 1 < x < 2}

Con base en el desarrollo anterior

Calcula (AUB)
C
, (A∩B)
C
, A
C
∩B , A∩B
C
, A
C
∩ B
C
, A
C
UB
C
, C
C
, A∩C , A
C
UC
C
, A
C
UC.

Solución

(AUB)
C
= { x / x e AUB, x Є (U- AUB) } = { x / (0 < x < ¼) U (3/2 < x < 2)}

(A∩B)
C
= { x / x eA∩B, x Є U – (A∩B) } = { x / (0 < x < 1/2) U (1 < x < 2)}

A
C
∩B = { x / x e A y x Є B} = { x / (1/4 < x < 1/2) U (1 < x < 3/2)}

A∩B
C
= { x/ x Є A y x e B} = { Ø }

A
C
∩ B
C
= { x / xe A y x e B} = { x / (0 < x < 1/4) U (3/2 < x < 2)}

A
C
UB
C
= { x / x e A ó x e B} ={ x / (0 < x < 1/2) U (1 < x < 2)}

C
C
= { x / xe C , x Є (U – C)} = { x / (0 < x < 1/3) U (3/2 < x < 2)}



/

20

A∩C = { x / x Є A y x ЄC} = { x /1/2 < x < 1 }

A
C
UC
C
= { x / x e A y xe C } = { x / (0 < x < 1/2) U (1 < x < 2)}

A
C
UC = { x / x e A ó x Є C } = { x / 1/3 < x < 3/2 }

Producto cartesiano

Definición: El producto cartesiano de un conjunto E por el conjunto F, es el conjunto de todas las parejas
ordenadas ( x , y ) tales que x c E , y c F .

El producto cartesiano de E y F, se escribe como E × F


Ejemplo:

si A = {1, 2} y B = {x, y, z}

entonces:

A × B = {(1, x), (1, y), (1, z), (2, x), (2, y), (2, z)}.

B × A = {(x, 1), (y, 1), (z, 1), (x, 2), (y, 2), (z, 2)}.


En este caso, A × B = B × A, pues al ser pares ordenados, el par (1, x) es distinto del par (x, 1).


Conjunto Potencia

La familia de todos los subconjuntos S se llama conjunto de potencia de S. Se le designa por
s
2


Ejemplo:

Si entonces b}, {a, M=
} }, b { }, a { }, b , a {{ 2
M
| =
si un conjunto S es infinito digamos que S tenga n elementos, entonces el conjunto potencia de S tendrá
n
2 elementos, como se puede demostrar. Esta es una razón, para llamar conjunto de potencia de S la
clase de los subconjuntos de S y para denotarla por
s
2 .

21

Ejemplos

1.- Sea el conjunto universal { } 0 1 , 0 1 , , | ) , (
2 1
s s s s e e = y x D y D x y x u y
+
eZ y x, . Sea:
} 10 | , {
2 1
> + e e = y x D y D x A
} | , {
2
2 1
y x D y D x B  e e =
} 10 | , {
2 2
2 1
s + e e = y x D y D x C
} 2 | , {
2
2 1
= e e = x D y D x D
} 10 2 2 | , {
2 1
s + s e e = y x D y D x E

Determinar u , A, B , C , D y E .


Solución:

)} 6 , 6 ( ), 5 , 6 ( ), 4 , 6 ( ), 3 , 6 ( ), 2 , 6 (
), 1 , 6 ( ), 5 , 5 ( ), 4 , 5 ( ), 3 , 5 ( ), 2 , 5 ( ), 1 , 5 ( ), 6 , 4 ( ), 5 , 4 ( ), 4 , 4 ( ), 3 , 4 ( ), 2 , 4 ( ), 1 , 4 ( ), 6 , 3 ( ), 5 , 3 ( ), 4 , 3 ( ), 3 , 3 (
), 2 , 3 ( ), 2 , 3 ( ), 1 , 3 ( ), 6 , 2 ( ), 5 , 2 ( ), 5 , 2 ( ), 4 , 2 ( ), 3 , 2 ( ), 2 , 2 ( ), 1 , 2 ( ), 6 , 1 ( ), 5 , 1 ( ), 4 , 1 ( ), 3 , 1 ( ), 2 , 1 ( ), 1 , 1 {( = u
)} 6 , 6 ( ), 5 , 6 ( ), 4 , 6 ( ), 6 , 6 ( ), 6 , 5 ( ), 6 , 4 {( = A
)} 6 , 6 ( ), 5 , 6 ( ), 4 , 6 ( ), 3 , 6 ( ), 6 , 5 ( ), 5 , 5 ( ), 4 , 5 ( ), 3 , 5 ( ), 6 , 4 ( ), 5 , 4 ( ), 4 , 4 (
), 3 , 4 ( ), 6 , 3 ( ), 5 , 3 ( ), 4 , 3 ( ), 3 , 3 ( ), 2 , 3 ( ), 6 , 2 ( ), 5 , 2 ( ), 4 , 2 ( ), 3 , 2 ( ), 2 , 2 ( ), 6 , 1 ( ), 5 , 1 ( ), 4 , 1 ( ), 3 , 1 ( ), 2 , 1 {( = B
)} , 31 ( ), 2 , 2 ( ), 1 , 2 ( ), 3 , 1 ( ), 2 , 1 ( ), 1 , 1 {( = C
)} 3 , 6 ( ), 2 , 4 ( ), 1 , 2 {( = D
u E = = )...} 5 , 1 ( ), 4 , 1 ( ), 1 , 3 ( ), 1 , 2 ( ), 1 , 1 {(

2.- Sean los conjuntos:
{ } 9 0 , | s s e = x R x x u
{ } } 9 3 | { 3 | s s = = x x x x A 
{ } } 3 0 | { 3 | s s = s = x x x x B
{ } 6 |  x A x C s =
{ } } 9 8 3 0 | { 8 , 3 | s s s s = > = x x x x o x x D 

Encontrar ' A , B A , ) ' ( ' C B A , ) ' ( c B A · , ) ' ( C A B .

Solución:

B x x x x A x x A = s s e = s s e = e = } 3 0 { } 9 3 { } | { '
} 9 0 , | { s s e = x R x x B A
} 6 4 y 9 3 ) ( ó 9 3 | { ) ' ( < s s < s < = x x x x x C B A
A x x x x A x c B A = s < = < s e = · } 9 3 | { } 6 4 | ó { ) ' (
B x x x B C A B = s s = s s s s · = } 3 0 { } 6 4 3 0 { ) ' (


Problemas propuestos

1.- Escriba los elementos de los siguientes conjuntos:

- A) Sea el conjunto de enteros entre 1 y 50 y que además cumplen con ser divisible entre 8.
22

Respuesta: { } 48 , 40 , 32 , 24 , 16 , 8
8
, 50 1 | =
)
`
¹
¹
´
¦
e s s =
+
Z
x
x x A
-
- B) Sea B el conjunto de las x que cumplen con 0 12
2
= ÷ ÷ x x
Respuesta: { } { } 4 , 3 , 0 12 |
2
÷ = e = ÷ ÷ = Z x x x x B
-
- C) Sea C el conjunto de las x que cumplen con 0 5 4
2
= ÷ + x x
Respuesta: { } { } 5 , 1 , 0 5 4 |
2
÷ = e = ÷ + = Z x x x x C
-
- D) Sea E el conjunto donde x es un continente.
{ }
{ } Oceanía Asia áfrica Europa América D
Continente x x D
, , , ,
|
=
= =


2.- Sea el conjunto universal un intervalo de 0 a 15 obtener:
a) El conjunto A todas x > 10.
El conjunto B todas las x de por lo menos 1 hasta 4.
El conjunto C todas las x de por lo menos 7 a lo más 9.
El conjunto D las x < 2 o x > 8.
El conjunto E las x > 8 y x < 10.

b) B’
c) B’ ∩ D’
d) A U (C∩E’)
Respuesta:
{ }
{ } { } R x x x R x x x A
U
e s < = e > =
=
, 15 10 | , 10 |
15 , 14 , 13 , 12 , 11 , 10 , 9 , 8 , 7 , 6 , 5 , 4 , 3 , 2 , 1 , 0


( ]



{ } R x x x B e s s = , 4 1 |


[ ]



{ } R x x x C e s s = , 9 7 |

[ ]





{ } { } R x x o x x R x x o x x D e s < < s = e > < = , 15 8 2 0 | , 8 2 |

[ ) ( ]



{ } { } R x x x R x x y x x E e < < = e < > = , 10 8 | , 10 8 |

[ ]


0 2 4 6 8 10 12 14

0 2 4 6 8 10 12 14
0 2 4 6 8 10 12 14

0 2 4 6 8 10 12 14

0 2 4 6 8 10 12 14

23


{ } { } R x x o x x R x B x x B e s < < s = e e = , 15 4 1 0 | , |
|


{ }
{ } { } { } { } 8 4 , 8 2 15 4 1 0 |
|
| |
| |
s < e = e s s e s < < s e =
e e =
x x R x x x y x o x x x D B
D x y B x x D B




( ) { } R x x o x x E C AU e s < s s = , 15 10 8 7 |
|














































Tema II.- Probabilidad

Simbología
- Є Pertenece.
-
|
Conjunto vacío.
- U Unión.
- ∩ Intersección.
- { } | Representa un conjunto con sus
elementos.
- ≤ menor igual que.
- ≥ mayor igual que.
- < menor que.
- = igual.
- ÷ exactamente igual.
- Por lo menos significa mayor o igual que
- A lo más significa menos o igual que
- Al menos: significa mayor o igual que
- No más: significa menos o igual que
- Igual a = Relación entre dos
cantidades del mismo valor.


24

La probabilidad es la rama de las matemáticas que se ocupa de medir cuantitativamente la
posibilidad de que ocurra un determinado suceso.
La probabilidad matemática comenzó como un intento de responder a varias preguntas que
surgían en los juegos de azar. Las grandes fortunas que se ganaban y perdían ocasionó que
los apostadores intentaran llevar ventaja sobre sus oponentes, de esta forma encontraron
que existía una relación inversamente proporcional entre los casos favorables y los casos
posibles.
La creación de la probabilidad se atribuye a los matemáticos franceses del siglo XVII
Blaise Pascal y Pierre de Fermat, aunque algunos matemáticos anteriores, como
Gerolamo Cardano en el siglo XVI, habían aportado importantes contribuciones a su
desarrollo.
La probabilidad es una disciplina matemática que se aborda desde tres enfoques:
a) El contenido lógico formal.
La probabilidad es analizada desde un punto de vista axiomático por lo que establece un
conjunto de reglas.
b)Antecedentes intuitivos.
La intuición y la experiencia física son interdependientes, es un problema del que necesitamos
ocuparnos.
c)Aplicaciones
En las aplicaciones, los modelos matemáticos abstractos sirven de instrumentos; además,
diferentes modelos pueden describir la misma situación empírica. La forma en que se aplican
las teorías matemáticas no depende de ideas preconcebidas; es una técnica con un fin
determinado, que depende y cambia con la experiencia.
Tipos de experimentos
Experimento determinístico:
Son aquellos eventos que se cumplen inexorablemente y cuya probabilidad de ocurrencia es 1
Ejemplo de ello es “Todos los humanos nos vamos a morir”.
Experimentos no determinísticos: son aquellos eventos cuya probabilidad de ocurrencia se
encuentra en 0 s P(E) s 1.
A este tipo de experimentos corresponde “Al arrojar un dado legal cual es la probabilidad de
que aparezca un dos”

Probabilidad clásica

Al utilizar el modelo probabilística en otro tipo de problemas surgió un problema nodal por
resolver, esto es, se requería saber contar tanto los casos favorables como los posibles.
Para responder a esta necesidad surgieron las técnicas del conteo, las que podemos agrupar
en: espacio muestral, análisis combinatorio y los diagramas de árbol.

Ejemplo: En una urna hay 30 bolas: 10 rojas, 5 azules y 15 blancas.
Hallar la probabilidad de que al extraer una bola al azar ésta sea de
color.
P(x) = casos favorables / casos posibles

25

Podemos observar que son 30 los casos posibles entonces:
P(roja) = 10/30 = 1/3
P(azul) = 5/30 = 1/6


Espacio Muestral

Comencemos por la técnica del espacio muestral, esta técnica se recomienda utilizarla cuando
el número de eventos posibles sea del orden de no más de 50.


Definición: “Un evento simple es un evento que no se puede descomponer”.

A cada evento simple le corresponde uno y sólo un punto muestral.

Construcción de espacios muestrales

Ejemplo 1: Exprese simbólicamente el espacio muestral S que consiste en todos los puntos
(x,y) dentro de una circunferencia de radio 3 con centro en el punto (2,-3)

{(x,y)/ (x - 2)
2
+ (y + 3)
2
< 9}

Ejemplo 2: Supongamos que en un sistema físico aislado hay tres moléculas M1, M2 y M3
cada una con cero, una o dos unidades de energía, la suma de sus energías es dos.
Supóngase que todas las distribuciones de energía entre las tres moléculas son igualmente
probables. Constrúyase un modelo matemático para esta situación. ¿Cuántos eventos
elementales hay? ¿Cuántos eventos elementales son favorables al evento “M1 tendrá energía
cero”? ¿Cuál es su probabilidad?.

M1 (0,1,2) (0,0,0) (0,0,1) (0,0,2) (0,1,0) (0,1,1) (0,1,2) (0,2,0) (0,2,1) (0,2,2)
M2 (0,1,2) (1,0,0) (1,0,1) (1,0,2) (1,1,0) (1,1,1) (1,1,2) (1,2,0) (1,2,1) (1,2,2)
M3 (0,1,2) (2,0,0) (2,0,1) (2,0,2) (2,1,0) (2,1,1) (2,1,2) (2,2,0) (2,2,1) (2,2,2)

Como la suma de sus energías es dos, entonces:

(0,0,2) (0,1,1) (0,2,0) (1,0,1) (1,1,0) (2,0,0)

por lo tanto,

a) Hay 6 eventos elementales.

b) “M1 tendrá energía cero”: (0,0,0) por lo tanto, cada uno tiene probabilidad de 1/6,
entonces:

(0,0,2) (0,1,1) (0,2,0) =1/6 + 1/6 + 1/6 = 3/6

c) Su probabilidad es:

Pr (C) = 3/24 / 6/24 = 3/6 = ½

Problemas propuestos

1.- Constrúyase un modelo para el experimento de lanzar un par de dados estándar ¿cuántos
eventos elementales hay, y cuales son sus posibilidades?
Definición: “Un espacio muestral es el conjunto de
todos los puntos muestrales de un experimento”

26

¿Qué suposiciones se hacen para establecer el modelo?
b)¿Cuántos eventos elementales favorables para el evento “caerá un total de ocho puntos por
los dos dados”?
c)¿Cuál es la probabilidad de tirar “ojos de víbora”(Un total de 2 puntos)?.
d)¿Cuál es la probabilidad de tirar 7 u 11?
e)¿Cuál es la probabilidad de tirar 2,3 o 12?.
f) Supóngase que un dado es rojo, el otro es blanco. ¿cuál es la probabilidad de que el numero
de puntos del dado rojo sea menor que el numero de puntos del dado blanco?




(1,1)(1,2)(1,3)(1,4)(1,5)(1,6)
(2,1)(2,2)(2,3)(2,4)(2,5)(2,6)
(3,1)(3,2)(3,3)(3,4)(3,5)(3,6)
(4,1)(4,2)(4,3)(4,4)(4,5)(4,6)
(5,1)(5,2)(5,3)(5,4)(5,5)(5,6)
(6,1)(6,2)(6,3)(6,4)(6,5)(6,6)

a) existen 36 eventos diferentes y es una suposición que los dados no están cargados

a) total de eventos 36 probabilidad de 1/36

b) p(b)= 5
c) p©=1/36
d) p(7)=6/36 +P(11)=6/36+2/36=8/36=2/9
e) P(2)=1/36 +P(3)=3/36 +P(12)=1/36=4/36=1/9
f) P(f)=15/36=5/12


2.- Encontrar el espacio muestral de preguntarle a tres mujeres si ve la telenovela a las 8:00
pm.


{ } NNN NNS NSN NSS SNN SNS SSN SSS S , , , , , , , =


3.- ¿Cuál será el espacio muestral si se quiere obtener de un grupo de química a tres personas
que son hombres y mujeres?



{ } MMM MMH MHM MHH HMM HMH HHM HHH S , , , , , , , =

4.- Encontrar el espacios muestral del siguiente experimento:
se inspeccionan 3 artículos si se encuentran o no defectuosos:








Sea D: articulo defectuoso y N : articulo no defectuoso.






Comienzo
D N
D N D N
D
N
N
D
D
N
N
D
Respuesta y solución

Respuesta y solución

Respuesta y solución

Respuesta y solución

27
















} , , , , , , , { NNN NND NDD NDD DNN DND DDN DDD S =
5.-Si se lanzan dos monedas al mismo tiempo :
a) Cual es la probabilidad de que caigan 2 soles
b) Que caiga un águila o un sol o águila y sol



S = { A A,AS, SA,SS}
a) P(A y A) = P(A∩A) =P(A)*P(A) = ½ * ½ = 1/4
b) P(S y A) o P(A y S) = (1/2 * 1/2) + (1/2 * 1/2) = 1/2

Para tres monedas: S = {AAA,AAS,ASA,ASS,SAA,SAS,SSA,SSS}

a) Probabilidad de que caiga SSA
P(SSA) = P(S∩S∩A) = P(S)*P(S)*P(A) = 1/2*1/2*1/2 = 1/8

b) Probabilidad de que salgan 2 soles y 1 águila
P(SSA) o P(SAS) o P(ASS) = 1/8*1/8*1/8 = 3/8



La probabilidad desde el punto de vista de la frecuencia relativa:
Si un experimento se repite un número grande (N) de veces y de éstas el evento A ocurre n
veces la probabilidad de A es:

P(A) = na / N
A cada punto muestral se le asigna P(Ej) tal que:
1.- 0 < P(Ej) < 1
2.- ¿ P(E) = 1
s


1.- Una urna contiene 20 papeletas blancas numeradas del 1 al 20, 10 papeletas rojas
numeradas del 1 al 10, 40 papeletas amarillas numeradas del 1 al 40 y 10 azules numeradas
del 1 al 10. Se revuelven las papeletas en la urna para que todas tengan probabilidad de ser
seleccionadas.
a) ¿Cuál es la probabilidad de seleccionar una papeleta azul ó blanca?
b) ¿Cuál es la probabilidad de obtener un 1, 2, 3,4 ó 5?
c) ¿Cuál es la probabilidad de obtener una roja ó amarilla y numeradas de 1, 2, 3, 4?
d) ¿Cuál es la probabilidad de sacar un 5,15,25 ó un 35?
e) ¿Cuál es la probabilidad de seleccionar una papeleta blanca con un número mayor que
12 ó amarilla y con un número mayor que 26?

Respuesta y solución

28

( ) { }
( )
( )
( )
( )
80
8
35 , 25 , 16 , 5
20
8
4 , 3 , 2 , 1
80
20
5 , 4 , 3 , 2 , 1
80
30
) 10 1 ( ), 40 1 ( ), 10 1 ( , 20 1
=
=
=
=
÷ ÷ ÷ ÷ =
P
amarilla o roja P
P
blancas o azules P
azules amarillas rojas blancas S

( )
80
22
26 12 = > > amarilla o blanca P


2.- Cuantas palabras de 5 letras se pueden formar usando las letras empleadas en la palabra
caaas. Se tienen 5! = 120 permutaciones si no tomamos en cuenta el orden. Si lo tomamos en
cuenta solamente las letras se forman seis palabras iguales, esto resulta del hecho que hay 3!
= 3·2·1 =6 maneras diferentes de colocar las letras Esto es cierto para cada una de las otras
posiciones posibles en donde las a aparezcan. Por consiguiente hay 20 palabras diferentes de
5 letras, que pueden formarse tomando las letras de la palabra caaas.

20
6
120
! 3
! 5
= =



b)


4.- Se van a construir en Puebla, Acapulco, Toluca y Tepic hoteles y condominios y casas los
que se ubicarán en la planicie o en la montaña.
a) ¿Cuál es el espacio muestral?
b) ¿Cuál es la probabilidad de tener un hotel?
c) ¿Cuál es la probabilidad de tener en Acapulco un condominio de desarrollo turístico?
d) ¿Cuál es la probabilidad de tener un desarrollo turístico?

( )
( )
( )
2
1
24
12
24
8
24
8
24
= =
=
=
=
DT P
DT Con C P
H P
S
 




5.- En una escuela 100 estudiantes tienen las siguientes asignaturas , 54 estudiaron
matemáticas, 69 historia y 35 ambas materias. Si se selecciona aleatoriamente uno de
estos estudiantes encuentre la probabilidad de que:
29

a) Se haya dedicado a matemáticas o historia.
b) No haya cursado ninguna de estas materias.
c) Haya estudiado historia pero no matemáticas.



















6.- La probabilidad de que una moneda al ser lanzada aparezca cara y cruz son 0.52 y 0.48
respectivamente. Si la moneda se lanza 3 veces ¿Cuáles son las probabilidades de sacar:
a) Solo caras
b) Dos cruces y una cara en ese orden

a) P(C · C · C) = P(C)*P(C)*P(C) = (0.52)(0.52)(0.52) = 0.14060
b) P(Z · Z · C) = P(Z)*P(Z)*P(C) = (0.48)(0.48)(0.52) = 0.1198


7.- Se lanzan dos dados en donde se registran el conjunto de todos los pares posibles que se
pueden observar entonces defina los siguientes subconjuntos de S.
A: el número en el segundo dado es par.
B: la suma de los dos números es par.
C: al menos un número en el par ordenado es impar.

(1,1) (2,1) (3,1) (4,1) (5,1) (6,1)
(1,2) (2,2) (3,2) (4,2) (5,2) (6,2)
(1,3) (2,3) (3,3) (4,3) (5,3) (6,3)
(1,4) (2,4) (3,4) (4,4) (5,4) (6,4)
(1,5) (2,5) (3,5) (4,5) (5,5) (6,5)
(1,6) (2,6) (3,6) (4,6) (5,6) (6,6)

A =: (1,2),(1,4),(1,6),(2,2),(2,4),(2,6),(3,2),(3,4),(3,6)
(4,2),(4,4),(4,6),(5,2),(5,4),(5,6),(6,2),(6,4),(6,6)

B =: (1,1),(1,3),(1,5),(2,2),(2,4),(2;6),(3,1),(3;3),(3,5)
(4,2),(4,4),(4,6), (5,1),(5,3),(5,5),(6,2),(6,4),(6,6)

C =: (1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2;1),(2,3),(2,5)
(3,1),(3,2),(3,3),(3,4),(3,5),(3,6),(4,1),(4,3),(4,5)
(5,1),(5,2),(5,3),(5,4),(5,5),(5,6),(6,1),(6,3),(6,5)

A n B = (2,2),(4,2),(6,2),(2,4),(4,4),(6,4),(2,6),(4,6)(6,6)
_
A n B =(1,2),(3,2),(5,2),(1,4),(3,4),(5,4),(1,6),(3,6),(5,6)
_
A u B = (1,1),(2,1),(3,1),(4,1),(5,1),(6,1),(1,3),(2,3),(3,3)
(4,3),(5,3),(6,3),(1,5),(2,5),(3,5),(4,5),(5,5),(6,5)
( )
( )
( ) ( ) ( ) ( )
( ) ( )
100
34
100
35
100
69
88
12
100
88
100
35
100
54
100
69
100
35
) (
100
54
100
69
_________
= ÷ = ÷
= |
.
|

\
|
= ÷ + = ÷ + =
=
=
=
M H P H P
M H P
M H P M P H P M H P
M H P
M P
H P


 


30

(2,2),(2,4),(2,6),(4,2),(4,4),(4,6),(6,2),(6,4)(6,6)


Eventos independientes
Definición:
Se dice que dos eventos son independientes si cumplen alguna de las condiciones:
i) PA/B) = P(A)
ii) P(B/A) = P(B)
iii) P(A∩B) = P(A)P(B
Caso contrario los eventos son dependientes
Eventos mutuamente excluyentes
Si A y B son mutuamente excluyentes entonces P(A∩B) = 0 y




6.- Si A y B son eventos mutuamente excluyentes
y P(A) = 0.3 y P(B)=0.5 encuentre:

a) P(AUB)
b) P(A
|
)
c) P(A
|
UB)
( ) ( ) ( ) 8 . 0 5 . 0 3 . 0 = + = + = B P A P B A P 

( ) { } 7 . 0 |
|
= e = A x x A P










( ) { } 5 . 0 5 . 0 7 . 0 |
|
÷ + = e e = B x y A x x B A P 












7.- Una persona al llegar a una intersección tiene tres opciones, dar vuelta a la derecha, a
la izquierda, o seguir de frente.

a) Obtenga el espacio muestral del experimento.
b) Determine la probabilidad de que la persona de vuelta, suponiendo que todos los
puntos maestrales tienen la misma probabilidad.

B
A
B
A
P(AUB)= P(A) +P(B)
31

{ }
( )
( )
( )
( ) ( ) ( ) ( )
3
2
3
1
3
1
3
1
3
1
3
1
, ,
= + = + = =
=
=
=
=
VI P VD P VI VD P V P
F P
VI P
VD P
F VI VD S



8.- En una empresa su personal tiene las siguientes características

Empleado Desempleado
Hombre 460 40 500
Mujer 140 260 400
600 300 900
Obtener:

a) P(M)
b) P(M|Desempleado)
c) P(Desempleados)
d) P(M ó Desempleados)
e) P(Empleados|Hombres)


( )
500
460
) | (
90
44
) (
3
1
900
300
) (
300
260
) | (
9
4
900
400
=
=
= =
=
= =
Hombres Empleados P
os Desemplead ó M P
os Desemplead P
os Desemplead M P
M P


Técnica de Análisis combinatorio

Principio fundamental del Conteo:

Si un evento puede realizares de n
1
maneras diferentes, y si, continuamos el procedimiento,
con n
2
maneras diferentes, y n
3
maneras diferentes, y así sucesivamente, entonces el número
de maneras en que los eventos pueden realizarse en el orden indicado es producto n
1
· n
2
·
·n
3
......

Notación Factorial

n!.es el producto de los enteros positivos desde 1 hasta n inclusive
32


Conviene también definir 0! = 1.


Definición de Combinaciones

El número de combinaciones de n objetos tomados de r veces a la vez, es el número de
subconjuntos no ordenados de tamaño r que se pueden formar con los n objetos está dada
por:

=
r n
C
)! ( !
!
r n r
n
÷


Definición de Permutaciones
Son la cantidad de manera en que podamos ordenar n objetos diferentes tomados de r a la
vez está dada por:
)! (
!
) , (
r n
n
r n P
÷
=


Teorema.

El numero de permutaciones de n objetos de los cuales n
1
son iguales, n
2
son iguales, ..., n
r

son iguales, es

! !· · · 2 ! 1
!
nr n n
n



Ejemplo 1.- Cuantas permutaciones se pueden hacer para 4 personas que juegan al Briget.

Solución:

24
4
=
n
P


Ejemplo 2.- De cuantas maneras un investigador puede seleccionar a 3 familias que viven en
un complejo departamental que consta de 20 departamentos.

Solución:

1140
3 20
= = C C
r n




Ejemplo 3.- En cuantas maneras diferentes pueden 6 lanzamientos de una moneda producir 2
águilas y soles.

Solución:
33


225
6 6
4 6 2 6
=
C
C C



Ejemplo 4.- ¿Cuántos comités diferentes de dos químicos y un físico se pueden formar con 4
químicos y 3 físicos de una universidad.

Solución:

18
1 3 4 4
= · C C

5.- En una mano de póquer que consta de 5 cartas, encuentre la probabilidad de tener:
a) Tres ases

Solución:

Número de formas en que se pueden repartir una mano póquer es 2598960
5 52
= = C C
r n


De esas 5, de cuantas maneras puedo recibir tres ases
21120
1 4 1 4 3 12 3 4
= · · · C C C C
008126 .
2598960
21120
) ( = = =
Posibles
Favorables
ases tres p

6.- Si un cliente invierte con una probabilidad de .6 en bonos, en fondos de inversión con una
probabilidad de .3 y en ambos instrumentos con una probabilidad de .15. Encuentre:
a) La probabilidad de que invierta ya sea en bonos libres o en fondos de inversión.
b) En ninguno de los instrumentos.

Solución:

Sea L: Bonos l y M: fondos de inversión.
a)
15 . ) (
3 . ) (
6 . ) (
= ·
=
=
L M p
M p
L p

75 .
15 . 3 . 6 .
) ( ) ( ) ( ) (
=
÷ + =
÷ + = M L p M p L p M L p

b) 25 . ) ( ) ( = · =
C C C
M L p M L p


7.- Un jurado integrado por ocho personas; cinco mujeres y tres hombres. Votaron por una
mujer las cinco mujeres y los tres hombres en contra. Se apeló la decisión alegando
parcialidad de género. Si no hubiera parcialidad se podría concluir que cualquiera de los
miembros de la junta votara a favor de la mujer con la misma probabilidad. Si esto fuera cierto.
¿cuál es la probabilidad de que el voto se diera como el jurado votó?

5M
5 P(cinco sean mujeres)= 5/8
3H


5
8
3 5
3 5
C
C C
Pvsex =

34


56
1
)! 5 8 ( ! 5
! 8
)! 3 3 ( ! 3
! 3
)! 5 5 ( ! 5
! 5
=
÷
÷ ÷
= Pvsex


8.- En un paquete de 52 cartas de un naipe inglés.
a) ¿Cuál es la probabilidad de sacar un as? P(as) = 4 /52 = 1/ 13

b) La probabilidad de sacar un rey rojo P(Rey Rojo) = 2/52 =1/26

c) Probabilidad de sea una figura negra P(Fig. Negra) = 26/52 = ½

d) Probabilidad de que sea par P(par) = (13)(13)
5
C
2
) /
52
C
5
= 0.000652

e) Probabilidad de un Full P(Full) = (13)(12)
5
C
3

5
C
2
) /
52
C
5
= 6 x 10
-3



9- En una urna existen 20 bolitas y solo hay 5 premiadas, ¿Cuál es la probabilidad de sacar las
5 bolitas con premio?, obtener el recorrido de la variable.

Solución:

20
C
5
= 15504 maneras de sacar 5 bolitas.

P(x) = eventos posibles / total de eventos

x = numero de bolitas ganadoras.

x = 0 , 1 , 2 , 3 , 4 , 5

15 5 5 0
* 1001
(0)
15504 5168
C C
P = =

15 4 5 1
* 2275
(1)
15504 5168
C C
P = =

15 3 5 2
* 2275
(2)
15504 7752
C C
P = =

15 2 5 3
* 175
(3)
15504 2584
C C
P = =

15 1 5 4
* 25
(4)
15504 5168
C C
P = =

15 0 5 5
* 1
(5)
15504 15504
C C
P = =

La probabilidad de sacar las 5 bolitas ganadoras es 1/15504

Axiomas de probabilidad

35

Sean S cualquier espacio muestral y A cualquier evento de éste. Se llamara función de
probabilidad sobre el espacio muestral S a P(A) si satisface los siguientes axiomas.

1.- p(A) > 0 para todo A _ S

2.- p(S) =1

3.- p(A+B) = p(A) + p(B) si AB = |

Teoremas importantes

a.- p( A´ ) = 1- p(A)

b.- p(A) s 1 para todo A_ S

c.- p(|) = 0.

d.- p(A+B) p(A) + p(B) -p(AB)

e.- p(A
1
+A
2
+... A
n
) = p(A
1
) + p(A
2
) + ...p(A
n
) si A
i
A
j
= | para i=j

f.- p(A) s p(B) si A_ B

g.- P(|) = 0

h.- P (A · B) = P(A) + P (B) - (A · B)

Diagramas de Árbol


1.- Una persona tiene probabilidad de sobrevivir a un trasplante de corazón en un 55%. Si el
paciente sobrevive a la operación, la probabilidad de que su cuerpo rechace el trasplante es del
20%. ¿Cuál es la probabilidad de que sobreviva a estas etapas críticas?.


















P(salvarse) = (0.55) ( 0.80) = 0.44

P
0.55
Sobreviva



0.45
No
sobreviva

0.2
Su cuerpo
rechace




0.8
Su cuerpo No
rechace
36








PROBABILIDAD CONDICIONAL

Definición.
Sean A y B dos sucesos tales que P(A)>0. Denotamos por P(B\A) la probabilidad de B dado
que A ha ocurrido.

P(B/A) = P( A B) / P(A)

Ejemplos

1.- Los resultados de una investigación de campo arrojan la siguiente información del
comportamiento de 50 empresas de servicio:

Antigüedad Buen servicio (BS) Mal servicio (MS) Total
mas de 10 años (A) 16 4 20
menos de 10 años
(B)
10 20 30
Total 26 24 20

a) ¿Cuál es la probabilidad de que seleccione una agencia de automóviles que
proporcione buen servicio dado que ha operado más de diez años?
5 4 20 16
50 20
50 16
20 16 / /
/
/
) A ( P
) A BS ( P
/ ) A | BS ( P = = =
·
= =


b) ¿Cuál es la probabilidad de que en la agencia que ha operado con menos de 10 años
proporcione un buen servicio de garantía?

3 1 30 10
50 30
50 10
/ /
/
/
) B ( P
) B BS ( P
) B | BS ( P = = =
·
=


2.- Se sabe por experiencia que el 80% de los productos están a tiempo para ser embarcados y
que el 72% se entregan a tiempo al comprador.¿Cuál es la probabilidad de que una orden se
entregue a tiempo dado que estuvo lista para el embarque a tiempo?
A = es el evento de que este a tiempo para el embarque = 0.80
B = es el evento de que se entregue a tiempo

P(B|A) = P(A∩B)/P(A) = 0.72 / 0.80 = 0.9



37

Teorema de Bayes

Los exámenes del laboratorio de una clínica privada resultan correctos en el 95% de los casos
de infección cuando la infección esta presente. Estos exámenes arrojan un resultado "positivo"
que es falso en el 1% de las personas sanas que se someten al examen, es decir, que si la
persona esta sana entonces el examen le puede decir con una probabilidad .01 que ella esta
enferma. Además se sospecha que el 5% de la población tiene esa infección.
¿Cual es la probabilidad de que una persona tenga la infección dado que recibió un resultado
positivo ?
Solución.
Si D: La persona tiene la infección y
E: El resultado del examen es positivo,
la interrogante será P(D/E) ?.

Esto significa que solo el 83,3% de las personas cuyos resultados fueron positivos tienen la
infección.

Se ha observado que los hombres y las mujeres reaccionan de una manera diferente en ciertas
circunstancias; 70% de las mujeres reaccionan positivamente en dichas circunstancias,
mientras que el porcentaje en los hombres es solamente del 40%. Se sometió a prueba un
grupo de 20 personas, 15 mujeres y 5 hombres, y se les pidió llenar un cuestionario para
descubrir sus reacciones. Una respuesta escogida al azar de las 20 resultó negativa. ¿Cuál es
la probabilidad de que haya sido contestada por un hombre?

SOLUCION:
M+ = 70% H+ = 40%
M_ = 30% M_ = 60%






P ( x H ) = ( 25 ) ( 60 ) = 0.4
(25)(60) +(75)(30)


Existen dos métodos A y B para enseñar a los trabajadores cierta habilidad
industrial el porcentaje de fracasos es 20% para A y 10% para B. Sin
embargo, B cuesta más y por esto se utiliza solamente en el 30% de los casos
(se utiliza A en el otro 70%). Se entreno a un trabajador según uno de los dos
métodos pero no logro aprenderlo correctamente ¿Cuál es la probabilidad de
que haya recibido el entrenamiento con el método A?
38

(tomando a x como el trabajador)


{ }
82 . 0
) 1 . 0 )( 3 . 0 ( ) 2 . 0 )( 7 . 0 (
) 20 . 0 )( 7 . 0 (
) | (
) | ( ) ( ) | ( ) (
) | ( ) (
) | (
3 . 0 ) (
7 . 0 ) (
1 . 0 ) | (
2 . 0 ) | (
=
+
=
+
=
=
=
=
=
e e =
x A P
B x P B P A x P A P
A x P A P
x A P
B P
A P
B x P
A x P
B x ó A x x B A


1. Se extrae una carta de una baraja española de 40 cartas. Si la carta extraída es un rey,
nos dirigimos a la urna I; en caso contrario a la urna II. A continuación, extraemos una
bola. El contenido de la urna I es de 7 bolas blancas y 5 negras y el de la urna II es de
6 bolas blancas y 4 negras. Halla:
a) La probabilidad de que la bola extraída sea blanca y de la urna II
b) La probabilidad de que la bola extraída sea negra.




























2. Dos personas piensan cada una de ellas un número del 0 al 9. Calcula la probabilidad
de que las dos personas no piensen el mismo número.



39































































40


Modulo III.- Variable aleatoria discreta y sus distribuciones de
probabilidad


Contenido

a) Variables aleatorias
Definición de una variable aleatoria, definición de una variable aleatoria discreta, definición
de función de probabilidad de una v.a.d.
b) Distribución de probabilidad Binomial, definición de ensaño Bernulli, definición de
variable aleatoria binomial.
c) Distribución de probabilidad Geométrica, serie geométrica, definición de v.a.
geométrica, función de probabilidad geométrica.
d) Distribución de probabilidad Poisson, proceso Poisson, v.a. Poisson, Función de
probabilidad Poisson.
e) Valor esperado, varianza, desviación estandar, de una v.a.d. definición de valor
esperado de una v.a.d. definición de valor esperado de la función de una v.a.d. cáculo
del valor esperado de las distribuciones binomial, geométrica y de Poisson.
f) Propiedades del valor esperado
g) Definición de varianza y desviación estandar.
h) Teoremas
i) Función generatriz de momentos, definición del i-esimo momento de una v.a. respecto
al origen, definición del i-esimo momento de una v.a. respecto a su media, definición de
función generatriz de momentos, teoremas.
j) Usando la función generatriz de momentos calcular las variables de esta para la
binomial, geométria y Poisson.

































41



VARIABLE ALEATORIA DISCRETA:

CASO 1.- Si X es una variable aleatoria discreta y Y es igual a H(X), entonces Y es también
una variable aleatoria discreta.

Supóngase que los valores posibles de X pueden enumerar como x1,x2... ,xn... con seguridad,
los valores posibles de Y se pueden enumerar como y1= H(x1), y2= H(x2),... (Algunos de los
valores anteriores pueden ser iguales, pero esto e no impide el hecho de que esos valores
pueden enumerarse.).

Una variable aleatoria discreta lo es, si los valores que toma se pueden contar , es decir,
provienen de un espacio muestral numerable finito o infinito.

DEFINICIÓN: Sea X una variable aleatoria, si el número de valores posibles de X es finito o
infinito numerable se dice que X es una variable aleatoria discreta. Esto es, se pueden notar los
valores posibles de X como x1,x2,... xn. Y la lista de ellas dependerá del total de valores
tomando en consideración.

Ejemplos:

* El número de automóviles vendidos en un mes

* El número de accidentes ocurridos en una determinada semana e una planta de manufactura,
también determinada.

Función de probabilidad de una v.a. d.

La Función de probabilidad de una v.a.d. es la función que representa las probabilidades
asociadas a cada valor posible de una variable aleatoria discreta.

La función f definida de esta forma como hemos visto se le conoce como función de
probabilidad de la variable aleatoria X.

La distribución de probabilidad de X será la colección de partes[xi, f(xi)] con
i=1, 2....

PROBLEMÁS

Sea el experimento de observar un hospital, el sexo del primer recién nacido en
un día determinado. Calcular S ,X, f y F.
Solución:


S = { M,H}
X = R
x
= {0,1}

ahora obtenemos f y F X = x
i
o 1
f(x
i
) ½ ½
F(x
i
) ½
2/2




Consideremos el nacimiento de un pequeño en donde los resultados: niño o niña son
igualmente posibles y los nacimientos son independientes.



Hallar S, X, f, F. De la variable aleatoria (uno de los niños que nacen en tres partos normales)
42


Solución:

S = {MMM,MMH,MHM,HMM,MHH,HMH,HHM,HHH}

X= {0,1,2,3}


.ahora obtenemos f y F


X = x
i
0 1 2 3

.f(x
i
) 1/8 3/8 3/8 1/8

F(x
i
) 1/8 4/8 7/8 8/8



Sea

( )
( )¦
)
¦
`
¹
¦
¹
¦
´
¦
÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷
= ÷ ÷ ÷ ÷ ÷ ÷
=
. c . o . e
, , , X
X
K
) X ( P
0
4 3 2 1


a) Encontrar K para ser una función de probabilidad.
b) Graficarla.
c) Encontrar E(x), VAR(X), r.
d) Hacer un intervalo de I = µ ± 2r


a) k = ?

P(1) = K = 12/25
P(2) = K/2 = 6/25
P(3) = K/3 = 4/25
P(4) = K/4 = 3/25
= K(25/12) K = 12/25


b) E(X), VAR(X), r

E(X) = ¿ X P(X)
E(X) = 1 (12/25) + 2 (6/25) + 3 (4/25) + 4 (3/25)
43

E(X) = 12/25 + 12/25 + 12/25 + 12/25 = 48/25

E(X
2
) = X
2
P(X) = 1
2
(12/25) + 2
2
(6/25) + 3
2
(4/25) + 4
2
(3/25)
E(X
2
) = 12/25 + 24/25 + 36/25 + 48/25 = 24/5

VAR (X) = E(X
2
) - µ
2
= (24/5) – (48/25)
2
= 1.1136

r = (VAR(X))
1/2
= 1.0552

c) Hacer un intervalo de I = µ ± 2r

I = { -0.1905 , 4.0305 }
















































44




LA DISTRIBUCIÓN BINOMIAL.

La Distribución Binomial es una de las distribuciones discretas de la probabilidad más útil. Sus
áreas de aplicación incluyen inspección de calidad, ventas, mercadotecnia, medicina,
investigación de opciones y otras.
Mediante ella usted puede imaginar un experimento en el que el resultado es la ocurrencia o
la no-ocurrencia de un evento. Sin perdida de generalidad, llámese "éxito" a la ocurrencia del
evento y "fracaso" a su no-ocurrencia. Además, p nos representa la probabilidad de éxito cada
vez que el experimento se lleva a cabo y q=(1- p ) la probabilidad de fracaso. Supóngase que
el experimento se realiza n veces y cada uno de estos es independiente de todos los demás, y
sea X la variable aleatoria que representa el número de éxitos en los n ensayos. El interés está
en determinar la probabilidad de obtener exactamente X = x éxitos durante los n ensayos. Las
suposiciones claves para la distribución binomial son:

1.- El experimento consiste en n ensayos idénticos
2.- Cada ensayo produce uno de dos resultados posibles. Uno llamado éxito y otro
fracaso.
3.- La probabilidad de éxito es p y es constante para todos los ensayos. La probabilidad
de falla es q= 1-p
4.- Los ensayos son independientes
5.- El experimento se interesa en los y aciertos observados en los n ensayos.

Varios problemas prácticos parecen adherirse razonablemente a las suposiciones
anteriores.
Por ejemplo, un proceso de manufactura produce un determinado producto en el que
algunas unidades se encuentran defectuosas. Si la proporción de unidades
defectuosas producidas por este proceso es constante durante un periodo razonable y,
si como procedimiento de rutina, se selecciona aleatoriamente un determinado número
de unidades, entonces las proposiciones de probabilidad con respecto al número de
artículos defectuosos pueden hacerse mediante el empleo de la distribución binomial.

Para obtener la función de probabilidad de la distribución binomial, primero se determina la
probabilidad de tener, en n ensayos, x éxitos consecutivos seguidos de n-x fracasos
consecutivos se tiene:

p. p ... p. (1-p)(1-p).....(1-p) = p
x
(1-p)
n-x
x términos (n - x) términos.

La probabilidad de obtener exactamente x éxitos y n-x fracasos en cualquier otro orden es la
misma puesto que los factores p y (1 - p) se reordenan de acuerdo con el orden particular. Por
lo tanto, la probabilidad de tener x éxitos y n - x fracasos en cualquier orden, es el producto de
p
x
(1-p)
n-x
por el número de órdenes distintos. Este último es el número de combinaciones de
n objetos tomando x a la vez. De acuerdo con lo anterior se tiene la siguiente definición:


Definición: Sea X una variable aleatoria que representa el número de éxitos en n ensayos y p
la probabilidad de éxito con cualquiera de éstos. Se dice entonces que X tiene una distribución
de probabilidad


x n x
p p
x x n
n
÷
÷
÷
) 1 (
! )! (
!
x = 0,1,2,......n.

p(x: n , p) =
0 para cualquier otro 0 1 s s p
valor

45

Los parametros de la distribución binomial son n y p. Estos definen una familia de
distribuciones binomiales, donde cada miembro tiene la función de probabilidad determinada
Para ilustrar el efecto de estos parámetros la figura proporciona algunas gráficas de la
distribución binomial.












Gráficas de la función binomial de probabilidad


Ejemplos
Para ilustrar él calculo de probabilidad mediante el empleo de la binomial :
Sea n = 5 y p =0.4 entonces:


p(x; 5 , 0.4) =
x x
x x
÷
÷
5
) 6 . 0 ( ) 4 . 0 (
! )! 5 (
! 5

x = 0,1,2,3,4,5;

p(0;5,0.4)=
0778 . 0 ) 6 . 0 ( ) 4 . 0 (
! 0 )! 0 5 (
! 5
5 0
=
÷



p(1;5,0.4)=
2592 . 0 ) 6 . 0 ( ) 4 . 0 (
! 1 )! 1 5 (
! 5
1 5 1
=
÷
÷


p(2; 5 , 0.4) =
3456 . 0 ) 6 . 0 ( ) 4 . 0 (
! 2 )! 2 5 (
! 5
2 5 2
=
÷
÷


p(3; 5 , 0.4) =
2304 . 0 ) 6 . 0 ( ) 4 . 0 (
! 3 )! 3 5 (
! 5
3 5 3
=
÷
÷



p(4; 5 , 0.4) =
0768 . 0 ) 6 . 0 ( ) 4 . 0 (
! 4 )! 4 5 (
! 5
4 5 4
=
÷
÷


p(5; 5 , 0.4) =
0102 . 0 ) 6 . 0 ( ) 4 . 0 (
! 4 )! 4 5 (
! 5
5 5 5
=
÷
÷


La probabilidad de que una variable aleatoria X sea menor o igual a un valor especifico de x, se
determina por la función de distribución acumulativa.


p(X s x ) = F(x; n, p) =
¿
=
÷
÷
x
i
i n i
i
n
p p
0
) 1 ( ) (


Sea n = 10 y p = 0.3. La probabilidad de que X pueda ser cuatro es:

p(X s 4 ) = F(4; 10, 0.3) = 0.8497

La probabilidad de que X sea menor de dos es :

n =5 , p =0.5
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
1 2 3 4 5
n =5, p=0.8
0
0.1
0.2
0.3
0.4
0.5
1 2 3 4 5
46

p(X>2) = p( 6172 . 0 ) 3 . 0 , 10 ; 2 ( 1 ) 2 ( 1 ) 3 = ÷ = s ÷ = > F X p )

Esperanza matemática.
Usando la función generadora de momentos tenemos:

Por lo tanto,

Entonces
Varianza.
Para calcular la Varianza, derivemos primero E[X
2
] de la siguiente manera:

Por lo tanto,

Entonces:



Ejercicios.
Una moneda es lanzada 20 veces. Calcule el número más probable de salidas de cara y cual
es la probabilidad de que salga ese número.
Solución:
El número más probable de caras es evidentemente n p =10. Y la probabilidad de que salga 10
veces es:


47


Supongamos que la probabilidad de recuperar un carro robado en Caracas es de 0.04.
a) ¿Cuál es la probabilidad de que de 10 carros robados sean recuperados a lo sumo 3 de
ellos?
b) ¿ Cuál es la probabilidad de que al menos 7 de los 10 carros sean recuperados?
Solución:
a) P(X=0) + P(X=1) + P(X=2) + P(X=3) = .66 + .27 + .05 + .0058 = .9995
b) P(X=7) + P(X=8) + P(X=9) = .00055

Un tubo de radio puesto e cierto tipo de equipo, tiene una probabilidad de 0.2 de funcionar más
de 500 hrs. Si se prueban 20 tubos , ¿cuál es la probabilidad de que exactamente k de ellos
funcionen más de 500 hrs. K=0, 1, 2, ..., 20?

solución:
Si X es el número de tubos que funcionan más de 500 hrs. Se tiene una distribución
binomial.

Donde:
P=0.2
Q=1-P=0.8

P(X)=
X N K
Q P
X
N
÷
|
|
.
|

\
|


P(X=K)= ( ) ( )
K K
k
÷
|
|
.
|

\
|
20
8 . 0 2 . 0
20


Sustituyendo los valores de K:

P(X=0)=0.012

P(X=1)=0.058

P(X=2)=0.137

P(X=3)=0.205

P(X=4)=0.218

P(X=5)=0.175

P(X=6)=0.109

P(X=7)=0.055

P(X=8)=0.022

P(X=9)=0.007

P(X=10)=0.002

P(X=K)=0
+


Las probabilidades para X>10 son menores
de 0.001

48
.
.
.
.
.
.
.
.
.













LA DISTRIBUCIÓN DE PROBABILIDAD GEOMÉTRICA.
.

La variable a aleatoria que tiene distribución geométrica se define para un experimento que es
muy similar al experimento binomial. También se refiere a pruebas idénticas e independientes,
y cada uno puede tener dos resultados, éxito o fracaso. La probabilidad de tener éxito es igual
a p y es constante para cada prueba. Sin embargo, la variable aleatoria geométrica Y es el
número de la prueba en la cual ocurre el primer éxito, en lugar del número de éxitos que
ocurren en n pruebas. Entonces el experimento consiste en una serie de pruebas que termina
al obtener el primer éxito. Por consiguiente, el experimento podría terminar en la primera
prueba al obtener el éxito o podría seguir indefinidamente.

El espacio muestral S para el experimento contiene el siguiente conjunto infinito
contable de puntos muestrales.



( )
( )
( )
1 ÷ k
S F F... F F :
K
E
.
.
.
S F F F :
4
E
tercera la en éxito segunda, la y primera la en fracasos ... S F F :
3
E
segunda la en éxito priemra, la en fracaso ... S F :
2
E
prueba primera la en éxito ... S :
1
E



Como la variable aleatoria Y es el número de pruebas hasta tener el primer éxito inclusive,
3 Y y 2 Y 1, Y = = = contendrán
3 2 1
E , E , E , respectivamente, y en general, el evento numérico
y Y = y contendrán solamente
y
E . De este modo,

( ) ( ) ( )
1
S F ...
÷
= =
y
y
F F F p E p y p



49
.
.
.
.
.
.
.
.
.

La probabilidad de la intersección de y eventos independientes da lugar a la distribución de
probabilidad geométrica.


Un histograma para p(y), en donde p = 0.5 se muestra en la figura 1. Las áreas sobre los
intervalos corresponden a probabilidades, tal como era el caso de las distribuciones de
frecuencia de datos, solamente debe considerarse que Y puede tomar valores discretos,
y=1,2,...,·.





La distribución de probabilidad geométrica se usa frecuentemente como modelo para las
distribuciones de longitud de tiempos de espera. Por ejemplo, supongamos que se da
mantenimiento periódico al motor de un avión comercial de tal manera que sus diferentes
partes se cambian en distintos momentos y por eso tiene tiempos de servicio diferentes.
Entonces, puede ser razonable suponer que probabilidad de p, de falla del motor durante
cualquier intervalo de una hora Y hasta el primer mal funcionamiento o descompostura.


Esperanza matemática de X Geométrica

E[X] = E[Y] –1 = (1-p)/p

0
0.1
0.2
0.3
0.4
0.5
0.6
1 2 3 4 5 6 7 8
p(y)
Y
Gráfico de una distribución de probabilidad geométrica
con p=0.5

50
.
.
.
.
.
.
.
.
.

Ejemplos
La probabilidad de que una componente de un sistema computacional falle en un ciclo
de tiempo (dt) es p.
a. ¿ Cuál es el tiempo promedio esperado antes de que la componente falle?
b. Solución: Asumiendo que las fallas ocurren independientemente entre si, el
número de ciclos (1 dt) para la primera falla debería seguir una distribución
geométrica. Luego el tiempo promedio de falla de una componente será 1/p.
c. Suponga que se requieren „n‟ componentes para construir una parte. Asumiendo
que la parte falla, si falla una de sus componentes, ¿ cual es la probabilidad de
que cualquiera de sus componentes falle?
Solución: Para n componentes, la probabilidad de falla de la parte, es la acumulada a
„n‟de la Geométrica, es decir,
– (1-p)
n

[para p pequeño, suma a n de p = np, entonces el tiempo esperado para que ocurra la 1ª.
Falla será 1/(np) ]

El fabricante de un lector óptico de precios asegura que la probabilidad de que su
aparato lea mal el precio de cualquier producto al interpretar mal el código de barras de
la etiqueta es de 0.001. En el momento de que uno de los lectores se instalo en un
supermercado, el gerente de la tienda probo su desempeño. Sea “y” el numero de
pruebas (es decir el numero de precios leídos por el aparato) hasta que se observa el
primer error en la lectura de un precio.
a) Si la aseveración del fabricante es correcta, calcule la distribución de
probabilidad para “y” (suponga que las pruebas representan eventos
independientes)
b) Si lo que dice el fabricante es cierto, ¿Qué probabilidad hay de que el lector leerá
bien por lo menos los primeros cinco precios?
c) Si de hecho se lee mal el tercer precio, ¿Qué inferencia haría usted acerca de lo
que el fabricante asegura, explique.


Solución.
a) Geométrica p(y)=pq
y-1

P(y)=(0.001) (0.999)
y-1


b) p(y)= (0.001)(0.999)
1-1
+ (0.001)(0.999)
2-1
+ (0.001)(0.999)
3-1
+ (0.001)(0.999)
4-1
+
(0.001)(0.999)
5-1
= 4.99 x 10
-3


p(y > 5)= 1- p(E
5
1
p(y)) = 0.775

c) Que no sería confiable lo que nos dice la probabilidad del fabricante.









51
.
.
.
.
.
.
.
.
.


Distribución de Probabilidad Poisson

Definición y propiedades de la distribución de Poisson.

Función de probabilidad.- Sea X una variable aleatoria con una distribución discreta y
supóngase que el valor de X debe ser un entero no negativo.. Se dice que X tiene una
distribución de Poisson con media ì (ì > 0 )si la f.p de X es la siguiente:



¦
¹
¦
´
¦
¬
= ¬
= |
.
|

\
|
÷
caso otro en
x para
x
e
x
f
x
. . 0
,.... 2 , 1 , 0
!
ì
ì
ì




Esta claro que f (x/ ì ) = 0 para cada valor de x . Para verificar que la función f (x/ ì) definida
por la ecuación anterior satisface los requisitos de toda f.p, se debe demostrar que la función
sea igual a 1. Por tanto.


1
!
0 0
= =
|
|
.
|

\
|
= |
.
|

\
|
÷
·
=
÷
·
=
¿ ¿
ì ì ì
ì
ì
e e
x
e
x
f
x
x
x



Si X es una v.a. de Poisson , entonces X mide :
- El número de ocurrencias discretas (éxitos) en un espacio continuo. Un proceso de Poisson
tiene las siguientes características:
-
- El número de éxitos en un intervalo de tiempo o región específicos es independiente del
número de éxitos en cualquier otro intervalo ajeno de tiempo o región del espacio
considerado.
- La probabilidad de que un éxito ocurra en un intervalo de tiempo o espacio muy corto es
proporcional a la longitud del intervalo o tamaño de la región y no depende del número de
resultados que ocurren fueran de esta intervalo o región.
- La probabilidad de que más de un resultado ocurra en ese intervalo de tiempo tan corto o
regiones tan pequeñas que es despreciable.


La distribución de Poisson a menudo servirá como una distribución de probabilidad apropiada
para variables aleatorias tales como el número de llamadas telefónicas recibidas por una
central telefónica durante un periodo de tiempo fijo, el número de partículas atómicas emitidas
por un a fuente radiactiva que golpea un cierto punto durante un periodo de tiempo fijo o el
número de defectos en una longitud especifica de un cinta magnética de grabación . Cada un
de estas variables aleatorias representan el número total X de ocurrencia de un fenómeno
durante un periodo de tiempo fijo que genera estas ocurrencias satisface tres condiciones
matemáticas especificas, entonces la distribución de X debe ser una distribución de Poisson .
Se presentara ahora un adscripción completa de las tres condiciones que se necesitan. En la
siguiente exposición supóngase que se observa el número de ocurrencias de un fenómeno
concreto durante un periodo de tiempo fijo.
La primera condición es que el número de ocurrencias en dos intervalos cualesquiera de
tiempo distintos deben ser independientes entre si.
La segunda condición es que la probabilidad de una ocurrencia durante cualquier intervalo de
tiempo muy pequeño debe ser aproximadamente proporcional a la longitud de ese intervalo.

52
.
.
.
.
.
.
.
.
.

Para expresar esta condición más formalmente se utiliza la notación matemática estándar o(t)
que denota cualquier función de t con la propiedad de que:


0
) ( 0
lim
0
=
÷
t
t
t


De acuerdo con esta formula, o(t ) debe ser una función que se aproxima a cero cuando t –0 y
además, esta función debe aproximarse a cero más rápido que t .
La segunda condición se puede expresar ahora como sigue: Existe una constante ì > 0 tal
que para cualquier intervalo de tiempo de longitud t, la probabilidad de almenas una ocurrencia
durante ese intervalo tiene la forma ì t +o(t) . Entonces para cualquier valor muy pequeño de t ,
la probabilidad de al menos una ocurrencia en un intervalo de longitud t , es igual a ì t más
una cantidad que tiene una magnitud de orden menor.
Una de las consecuencias de la segunda condición es que el proceso observado debe ser
estacionario sobre el periodo de observación completo; esto es , la probabilidad de una
ocurrencia debe ser la misma sobre el periodo completo. No puede haber periodos ocupados,
durante los cuales se sabe de ante mano que es probable que las ocurrencias sean más
frecuentes. Esta condición se refleja en el hecho de que la misma constante ì expresa la
probabilidad de una ocurrencia en cualquier intervalo durante el periodo completo de
observación.
La tercera condición que se debe satisfacer es que la probabilidad de que haya dos o más
ocurrencias en cualquier intervalo de tiempo muy pequeño debe tener una magnitud de menor
orden que la probabilidad de que haya solo una ocurrencia.
En símbolos, la probabilidad de dos o más ocurrencias en cualquier intervalo muy pequeño
debe de despreciable en comparación con la probabilidad de una ocurrencia. Claramente, de la
segunda condición resulta que la probabilidad de una ocurrencia en ese mismo intervalo será
despreciable por si misma en comparación con la probabilidad de no ocurrencia.

Si se verifican las tres condiciones anteriores, entonces se puede demostrar por los métodos
de ecuaciones diferenciales elementales que el proceso cumplirá las dos propiedades
siguientes.
El número de ocurrencias en cualquier intervalo de tiempo fijo de longitud t tendrá un
distribución de Poisson cuya media es ì t
Como se supuso en la primera condición, los números de ocurrencias en dos intervalos
cualquiera de tiempos distintos serán independientes. Un proceso para el que se satisfacen
estas dos propiedades se llama un proceso de Poisson. La constante positiva ì es el número
esperado de ocurrencias por unidad de tiempo.
La distribución Poisson con función de probabilidades.






Se le llama distribución de Poisson, debido a que S.D. Poisson lo introdujo en 1837.




Y F(x)=0 cuando x < 0.
La distribución de Poisson tiene aplicaciones importantes. De hecho, esta distribución es una
aproximación conveniente de la distribución binomial en casos en donde existe un gran número
n de ensayos y una probabilidad pequeña p de éxito en un solo ensayo. Esto es una
consecuencia de la sig. Proposición.

Si en la función de probabilidades binomial para x fijo, hacemos que n ÷ · y p ÷ 0 a través
de sucesiones de valores en donde np es igual a un número µ fijo.
) 1 .......( .........) 3 , 2 , 1 , 0 (
!
) ( = ¬ =
÷
x e
x
x f
x
µ
µ

). 0 .(
!
) ( > ¬ =
¿
s
÷
x cuando
s
e x F
x s
s
µ
µ


53
.
.
.
.
.
.
.
.
.

Para demostrar esto, partimos de µ = np y tenemos:




Y



De igual manera,





Entonces:






Cuando n ÷ ·, la expresión:







Tiende a 1, y también la expresión de las llaves, mientras que la de los paréntesis
rectangulares tiende a e

. Esto completa la demostración, que también prueba para µ como la
media de la distribución de Poisson.


Ejercicios :

Refiérase al estudio publicado en Science (abril de 1993) relativo a las
propiedades espectroscópicas de los asteroides de la franja principal. Las
investigaciones revelaron que, en promedio, se observan 2.5 exposiciones de
imagen espectral independientes por asteroide.
a) Suponiendo una distribución de Poisson, calcule la probabilidad de observar
exactamente una exposición de imagen espectral independiente durante la
observación de un asteroide de la franja principal.
b) Suponiendo una distribución de Poisson, calcule la probabilidad de observar
cuando más dos exposiciones de imagen espectral independientes durante la
observación de un asteroide de la franja principal.

SOLUCION:

Tanto la media como la varianza de una variable aleatoria de Poisson son iguales a λ.
Por tanto, en este problema será:

μ = λ = 2.5; σ² = λ = 2.5 por lo tanto σ = √2.5 = 1.58

n
p
µ
=

x
x
x
n
p
µ
=

x n x n
x n x n
n n n
p q
÷ ÷
÷ ÷
)
`
¹
¹
´
¦
÷
(
¸
(

¸

÷ =
|
.
|

\
|
÷ = ÷ =
µ µ µ
1 1 1 ) 1 (

x n
x
x
n n n
x n n n
x
÷
)
`
¹
¹
´
¦
÷
(
¸
(

¸

÷
+ ÷ ÷ µ µ µ
1 1
) 1 )...( 1 (
!

|
.
|

\
| + ÷
|
.
|

\
| ÷
|
.
|

\
|
=
+ ÷ ÷
n
x n
n
n
n
n
n
x n n n
x
x
x
1
...
1 ) 1 )...( 1 (
!
µ


54
.
.
.
.
.
.
.
.
.

a) Queremos conocer la probabilidad de que se observe exactamente una exposición de
imagen espectral. La distribución de probabilidad de “y” es:

P (y) = (λ*y)(℮*-λ) / y!

Entonces, dado que λ = 2.5, y = 1 y ℮*-2.5 = 0.082085 por lo tanto:

P(y = 1) = (2.5* 1)(.082085)/(1!) = (2.5)(.082085)/(1) = 0.20521
P(y = 1) = 0.20521

b) Queremos conocer la probabilidad de que se observe cuando más dos exposiciones
de imagen espectral.
Entonces, dado que λ = 2.5, y ≤ 2 y ℮*-2.5 = 0.082085 por lo tanto:

P(y ≤ 1) = P(0) + P(1) +P(2)
P(y ≤ 1) = (2.5* 0)(.082085)/(0!) + (2.5* 1)(.082085)/(1!) + (2.5* 2)(.082085)/(2!)
P(y ≤ 1) = (1)(.082085)/(1) + (2.5)(.082085)/(1) + (6.25)(.082085)/(2∙1)
P(y ≤ 1) = 0.082085 + 0.20521 + 0.25651
P(y ≤ 1) = 0.543805




















55
.
.
.
.
.
.
.
.
.


DISTRIBUCIÓN HIPERGEOMETRICA
La distribución Binomial es importante en muestreos con reemplazo.
Supongamos que queremos conocer el número de elementos defectuosos presentes en
una muestra de „n‟ elementos, extraídos de una urna que contiene „N‟ elementos de los
cuales „M‟ están defectuosos. Si la extracción es con reemplazo entonces la probabilidad
de escoger x elementos defectuosos tendrá un comportamiento Binomial, es decir:

Sin embargo, lo correcto en un caso como el de inspección, sería hacer la selección sin
reemplazo, en cuyo caso en la 1ª. selección la probabilidad de que salga defectuoso es
M/N, pero la segunda vez seria (M-1)/(N-1) ó M/(N-1) si antes salió defectuoso o no
(número de casos favorables / número de casos posibles).

Luego, la probabilidad de escoger x elementos defectuosos en una muestra de n
elementos sin reemplazo será:

la cual da lugar a la distribución conocida como Hipergeométrica.
Esperanza matemática de la Hipergeométrica:
Supongamos que n elementos de la muestra son seleccionados desde los N de la
población manera secuencial. Si definimos la VA:

Entonces, , nos señala el número de elementos defectuosos de la muestra de
n elementos.
Luego, y como E[Xi] = 1. p(Xi=1) + 0 . p(Xi=0) = p(Xi=1) = M/N,
se tiene que:
E[ X ] = n . M/N

56
.
.
.
.
.
.
.
.
.

El cálculo de la Varianza es problemático porque las Xi no son independientes y en
consecuencia hay que considerar indicadores no considerados hasta ahora
(Covarianzas). El resultado es:




La función generadora de momentos

Supóngase que X es una variable aleatoria; es decir, X es una función del espacio muestral a
los números reales. Al calcular diversas características de la variables aleatoria X, como E(X) o
V(X), trabajamos directamente con la distribución de probabilidades de X. La distribución de
probabilidad de una función: la fdp en el caso continuo, o las probabilidades puntuales p(xi) =
P(X = xi) en el caso discreto. La ultima también se puede considerar como una función que
toma valores distintos de cero sólo si X = xi, i = 1, 2,------. Posiblemente podemos presentar
otra función y hacer los cálculos necesarios mediante ella (tal como antes asociábamos con
cada número un nuevo número). Esto es, de echo, lo que haremos precisamente. Primero
daremos una definición normal.


Definición. Sea X una variable aleatoria discreta con distribución de probabilidades P(xi)=P(X
= xi), i = 1, 2,..........La función, MX, llamada función generadora de momentos de X, se define
con:

¿
·
=
=
1
) ( ) (
j
xj p
txj
e t MX


Si X es una variable aleatoria continua con fdp f, definimos la función generadora de momentos
con

dx x f
tx
e t MX
}
· +
· ÷
= ) ( ) (


Observaciones: a) tanto en el caso discreto como en el continuo, Mx(t) es simplemente el
valor esperado de e
tX
. Por tanto, podemos combinar las expresiones anteriores y escribir:

57
.
.
.
.
.
.
.
.
.

) ( ) (
tX
e E t MX =

I. MX(t) es el valor que toma la función MX por la variable (real) t. La notación que indica
la dependencia de X se usa porque quizá deseemos considerar dos variables
aleatorias, X y Y, y luego investigar la función generadora de momentos de cada una,
esto es, Mx y My.


II. Usaremos la forma abreviada fgm para la función generadora de momentos.

III. La fgm, como se definió anteriormente, se escribe como una serie infinita o integral
(impropia), dependiendo de si la variable aleatoria es discreta o continua. Tal serie (o
integral) puede no existir siempre (es decir; convergir aun valor infinito) para todos los
valores de t. Por tanto, puede suceder que la fgm no esté definida para todos los
valores de t. Sin embargo, no nos interesará esta posible dificultad. Cada vez que
hagamos uso de la fgm, siempre supondremos que existe. (Para t = O, /a fgm siempre
existe y es Igual a 1.)

IV. Hay otra función muy relacionada con la fgm que a menudo se usa en su lugar. Se
llama función característica, se denota con Cx, y se define con Cx(t) = E(e
itX
), donde
i=(-1)
1/2
, la unidad imaginaria. Por razones teóricas, hay una ventaja considerable al
usar Cx(t) en vez de Mx(t). Por esta razón, Cx(t) siempre existe para todos los valores
de t. Sin embargo, a fin de evitar cálculos con números imaginarios complejos
restringiremos nuestra exposición a la función generadora de momentos.

Teoremas

Teorema 1

M
(n)
(0)=E(X
n
)

(Esto es, la n-ésima derivada de Mx(t) calculada en t=0 da E(X
n
)

Los números E(X
n
), n=1, 2, ........, se llaman n-ésimos momentos de la variable
aleatoria X respecto a cero. Por tanto, hemos demostrado que conociendo la función Mx,
pueden generarse los momentos (de aquí el nombre de función generadora de momentos).


Teorema 2

Supóngase que la variable aleatoria X tiene fgm Mx sea Y = oX+|. Entonces, My, la
fgm de la variable aleatoria Y, esta dada por:


58
.
.
.
.
.
.
.
.
.

My(t) = e
|t
Mx(ot).




En palabras, para encontrar la fgm la fgm de Y=oX+| calculamos la fgm en ot (en vez
de t) y multiplicamos por e
|t


My(t) = E(e
Yt
) = E[e
(xX+|)t
]

= e
|t
E[e
otX
] = e
|t
Mx(ot)



Teorema 3


Sean X y Y dos variables aleatorias con fgm, Mx(t) y My(t), respectivamente. Si Mx(t) =
My(t) para todos los valores de t, entonces X y Y tienen la misma distribución de
probabilidades.

Sin embargo, es muy importante comprender exactamente lo que establece el teorema.
Este dice que si dos variables aleatorias tienen la misma fgm, entonces tienen la misma
distribución de probabilidades. Esto es, la fgm determina unívocamente la distribución de
probabilidades de la variable aleatoria.


Teorema 4


Supóngase que X y Y son variables aleatorias independientes, sea Z = X + Y. Sean Mx(t),
My(t) y Mz(t) las fgm de las variables aleatorias X, Y y Z, respectivamente. Entonces:

Mz(t) = Mx(t)My(t)











59
.
.
.
.
.
.
.
.
.













MODULO IV.- Variable aleatoria continua y sus distribuciones de
probabilidad.

Contenido
a) Variable aleatoria continua
Definición de v.a.c definición de función de distribución acumulada,
función de densidad de una v.a.c. propiedades de la función de
distribución acumulada, valor esperado, varianza y desviación estadar de
una v.a.c. definición de valor esperado de una v.a.c, propiedades del valor
esperado de una v.a.c. esperanza de una función de una v.a.c. la varianza
y desviación estandar de v.a.c. teoremas.
b) Distribución uniforme
Definición de la distribución uniforme, valor esperado de una distribución
uniforme, varianza y desviación estandar de una distribución uniforme.
c) La distribución exponencial
La función de densidad exponencial, función de distribución acumulada
de una función de densidad exponencial, el valor esperado de una
función de densidad exponencial, varianza y desviación estandar de una
exponencial. Propiedades de pérdida de memoria de la exponencial.
d) La distribución normal
La función de densidad normal, función de distribución acumulada de una
v.a. normal, función de densidad normal estandar, función de distribución
acumulada de una v.a. normal, estandarización de la distribución normal,
media y varianza de la distribución normal.
e) Distribución de probabilidad Ji cuadrada
f) Distribución de probabilidad F
g) Distribución de probabilidad T
h) Distribución de probabilidad gamma
i) Distribución de probabilidad Beta
j) Función generadora de momentos
Definición del i-esimo momento de una v.a. con respecto al origen,
Definición del i-esimo momento de una v.a. con respecto a su media,
teoremas, Teorena de Tchebysheff.







60
.
.
.
.
.
.
.
.
.








a) Variable aleatoria continua

Definición: Se dice que X es una variable aleatoria continua, si existe una
función f, llamada función de densidad de probabilidad (fdp) de X, que satisface
la siguientes condiciones:

1) 0 ) ( > x f para toda x,

2) 1 ) ( =
}

· ÷
dx x f

3) Para cualquier a, b, tal que , +· < < < · ÷ b a tenemos
}
= s s
b
a
dx x f b X a P . ) ( ) (

Definición de variable aleatoria acumulada o continua

Una variable aleatoria Y se dice continua si no puede tomar un conjunto
numerable de valores.

(X,Y) es una variable aleatoria bidimensional discreta si los valores posibles de
(X,Y) son finitos o infinitos numerables. Es decir, los valores posibles de (X,Y)
se pueden representar como (xi,yi),=1,2,.....,n,....;j=1,2,....,m,..

(X,Y) es una variable aleatoria bidimensional continua si (X,Y) puede tomar
todos los valores en un conjunto no numerable del plan euclidiano.


Definición de función de distribución acumulativa

Sea Y cualquier variable aleatoria. La función de distribución de Y, denotada
por F(y) está dada por:
F(y) = P( Y s y) - · < y < ·

Sea X una variable aleatoria, discreta o continua. Definimos que F es la
función de distribución acumulativa de la variable aleatoria X.

Ejemplo

Supongamos que Y tiene una distribución binomial con n= 2 y p= .5
Encontrar F(y)
y 2-y
P(y) = (2Cy) ( .5) ( .5) y= 0,1,2

61
.
.
.
.
.
.
.
.
.

Por lo que: p(0) = ¼ p(1) = ½ p(2) = ¼

Entonces

F8y) = P( Y s y)

= 0 para y<0
= ¼ para 0 s y s 1
= ¾ para 1 s y s 2
= 1 para y > 2


Propiedades de F(y)


1.- lim F(y) = F(- · ) = 0
y ÷ - ·

2.- .- lim F(y) = F( · ) = 1
y ÷- ·

3.- F(yb) > F(ya) si yb > ya



Definición.
Sea Y una variable aleatoria con función de distribución F(y). Se dice que Y es
continua si F(y) es continua para - · < y < ·


Definición: de función de densidad

Sea Fy) la función de distribución de una variable aleatoria continua Y.
Entonces la función de densidad f(y) está dada por :

f(y) = dF(y)/ dy y F(y) = f(t) dt


Siempre y cuando exista la derivada.


Propiedades de función de densidad f(y)


1.- f(y) > o para cualquier valor de y

2.- f(y)dy = 1


62
.
.
.
.
.
.
.
.
.

Se dice que X es una variable aleatoria continua, si existe una función f,
llamada función de densidad de probabilidad (fdp) de X, que satisface las
condiciones de arriba mencionadas.


Definición de valor esperado

El valor esperado de una variable aleatoria continua Y es:


E(Y) = yf(Y9 dy

Siempre que la integral exista


Propiedades importantes del valor esperado de una variable aleatoria.

1) Si X = C, donde C es una constante , entonces E(X) = C.

Demostración :

}

· ÷
= dx x Cf x E ) ( ) (
}

· ÷
= = . ) ( C dx x f C

2) Se supone que C es una constante y X es una variable aleatoria. Entonces,
E(CX) = CE(X).

Demostración :

} }

· ÷

· ÷
= = = ) ( ) ( ) ( ) ( X CE dx x xf C dx x Cxf CX E



Propiedades del valor esperado de una variable aleatoria continua

Sea c una constante y sean g(Y) , g1(Y), g2(Y) ... gk(Y) funciones de una
variable aleatoria Y. Entonces:

1.- E(c) = c

2.- E ( cg(Y) ) = cE(g(Y)

3.- E (g(Y) + g1(Y)+ g2(Y)+ ... +gk(Y) =
= E (g(Y) +E( g1(Y)+ E g2(Y)+ ... +E(gk(Y)


La varianza de una v.a.c.


63
.
.
.
.
.
.
.
.
.

2 2
V(Y) = E( Y - µ )

Encuentre la varianza para una variable aleatoria tipo gamma

La desviación estadar es la raíz cuadrada de la varianza


Teorema
2 2
(X) = E( X ) – ( E (X))



-
( )
( )
¹
´
¦
÷ ÷ ÷ ÷ ÷ ÷
÷ ÷ ÷ ÷
=
÷
. c . o . e
X Ke
) x ( f
X
0
0
3



a) Encontrar K.
b) Encontrar F(X).
c) Encontrar el valor de:
P (X < 1/2)
P (1 s X s 1.5)
P (X > 58)
P (X = 10)
P (1/2 < X s 50)
a) Encontrar K

K
e e
K
e
K dX e K dX Ke
X
X X
3
1
3 3 0 3
0
0 0
3
3 3
=
(
¸
(

¸

+ ÷ =
·
(
¸
(

¸

÷
= =
÷·
· ·
÷
÷ ÷
} }
K=3 ; f(X) = 3e
-
3X


b) Encontrar F(X).

F(X) =
0 3
3
0
3
0 3
3 3 e e
x
e
dt e
x
t
x
t
+ ÷ =
(
¸
(

¸

÷ =
÷
÷
÷
}
= 1-e
-3x

c)
P (X < 1/2) = P (0 < X < 1/2) = F (½) – F (0) = ( 1 – e
- (1/2) (3)
) – 0 =
0.7769
P (1 s X s 1.5) = F (1.5) – F (1) = ( 1 – e
- (1.5) (3)
) - ( 1 – e
- (3)
) = 0.0387
P (X > 58) = P (0 < X < 1/2) = F (·) – F (58) = 1 – 1 = 0
P (X = 10) = F (10) – F (10) = 0
P (1/2 < X s 50) = F (50) – F (1/2) = 1 – 0.7769 = 0.2231

-
( )
( )
¹
´
¦
÷ ÷ ÷ ÷ ÷ ÷ ÷
s s ÷ ÷ ÷ ÷ +
=
. C . O . E
X ) x ( c
) x ( f
0
2 0 1
2


64
.
.
.
.
.
.
.
.
.

a) C = ?
b) F(x)
c) Dibujar f(x) y F(x)
d) Encontrar
P (1/3 s x s1)
P (3/2 > x)
P (3/2 = x)
P (-1 < x <4/2)

a) | |
|
|
.
|

\
|
÷ +
(
¸
(

¸

+ =
(
¸
(

¸

+
(
¸
(

¸

= + = +
} } } }
0 2 0
3
2
0
2
0
2
3
3 3
2
0
2
0
2
2
0
2
0
2
c x c
x
c dx c dx x c cdx dx cx

= 14/3 c = 1 ; c = 3/14 f(x) = 3/14 (x
2
+ 1)
b) F(x) =
( )
|
|
.
|

\
|
+ =
|
|
.
|

\
|
(
¸
(

¸

+
(
¸
(

¸

= + = +
} } }
x
x
x
t
x
t
dt dt t dt t
x x x
3 14
3
0 0 3 14
3
14
3
14
3
1
14
3
3 3
0 0
2 2
0


c) Dibujar f (x) y F (x)

3/14 0
f(x) = 6/14 F(x) = 4/14
15/14 1

d) Encontrar :
P(1/3 s x s1)=F (1) –F (1/3)=[3/14 (1
3
/3 + 1)]–[3/14 ( (1/3)
3
/3 +
1)]=0.2116
P (3/2 > x) = P (3/2 > x > 2) = F(2) - F(3/2) = 37/32
P (3/2 = x) = F(3/2) – F(3/2) = 0
P (-1 < x <4/2) = F(4/2) – F(-1) = 3/14 (2
3
/3 + 2) – 0 = 1


-
( )
( )
¹
´
¦
÷ ÷ ÷ ÷ ÷
÷ ÷ ÷ ÷
=
. C . O . E
X x K
) x ( f
0
1 0  


a) Encontrar K.
b) F(x) y expresarla en intervalos
c) Con la función acumulativa encontrar:

65
.
.
.
.
.
.
.
.
.

P(x < 1/2)
P(x > 1/3)
P(1/3 < x <0.9)
P(x = 1/5)
d) E(x)
e) E(x
2
)
f) VAR (x)
g) o
a) k /
/
k
/
x
k dx x k dx x k
/ /
/
3 2
2 3
1
0
1
2 3
2 3 2 3
1
0
1
0
2 1
=
|
|
.
|

\
|
=
|
|
.
|

\
|
= =
} }


b) F(x) =
2 3
0 0
2 3
2 1
0 2 3
2 3 2 3 2 3
/
x x
/
/
x
x
/
t
/ dt t / dt t / =
(
¸
(

¸

= =
} }


0 0 s x
F(x) = x
3/2
0 < x < 1
1 x > 1
c)
P(x < 1/2) = P(-· < x < 1/2) = F(1/2) – F(- ·) = (1/2)
3/2
– 0 = 0.3535
P(x > 1/3) = P(1/3 < x) = F(1/3) – F(- ·) = (1/3)
3/2
-0 = 0.1924
P(1/3 < x <0.9) = F(0.9) – F(1/3) = (0.9)
3/2
– (1/3)
3/2
= 0.6613
P(x = 1/5) = F(1/5) – F(1/5) = 0

d) E(x)= ( ) ( ) 5 3 1
2 5
2 3
0
1
2 5
2 3 2 3 2 3
2 5
2 5
1
0
2 3
1
0
/
/
/
/
x
/ dx x / dx x / x
/
/
/
= =
(
¸
(

¸

= =
} }

= 3/5 = 0.6
e) E(x
2
) = ( )
(
¸
(

¸

= =
} }
0
1
2 7
2 3 2 3 2 3
2 7
1
0
2 5
1
0
2
/
x
/ dx x / dx x / x
/
/

= ((3/2)/(7/2)) (1
7/2
) = 3/7 = 0.4285
f) VAR (x) = E(x
2
) - µ
2
= 3/7 – (3/5)
2
= 68.57x10
-3

g) o = ) x ( VAR = \(68.57x10
-3
) = 0.2618


-
( )
( )
( )
¦
¹
¦
´
¦
÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷
s s ÷ ÷ ÷ ÷ ÷ +
÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷ ÷
=
5 1
5 2 27 8 27 1 27 2
2 0
2


x
x / x / x /
x
) x ( F

a) f(x)
b)
P(- 4
< x <1.5)
P(2.5 < x <4.5)
P(4.5 > 5)
P(3.1 < x)
c) E(x)

66
.
.
.
.
.
.
.
.
.

d) VAR(x)
e) I = µ ± 1.5o
f)
a) f (x) =
( )
( ) 27 2 27 2 2
27
1
27
2 27 8 27 1 27 2
2
/ x / x
x
/ x / x /
+ = + =
c
÷ + c


b)
P(- 4 < x <1.5) = F(1.5) – F(- 4) = 0 – 0 = 0
P(2.5 < x <4.5) = F(4.5) – F(2.5) = 0.7870 – 0.1203 = 0.6667
P(4.5 > 5) = P(4.5 < x < ·) = F(·) – F(4.5) = 1 – 0.7870 = 0.2130
P(3.1 < x) = P(- · < x <3.1) = F(3.1) – F(- ·) = 0.2892 – 0 = 0.2892

c) E(x)=
( )
(
(
¸
(

¸

|
|
.
|

\
|
+
|
|
.
|

\
|
=
(
¸
(

¸

+ = +
} } }
2
5
2 2
5
3
27 2 27 2 27 2 27 2
2 3
5
2
5
2
5
2
2
x x
/ dx x dx x / dx / x / x
= 2.8888 + 0.7777 = 3.6665
d) VAR (x)
E(x
2
) =
( ) ( )
} } } }
(
¸
(

¸

+ = + = +
5
2
5
2
2
5
2
3
5
2
2 2
27 2 1 27 2 27 2 27 2 dx x dx x / dx x x / dx / x / x
1666 14
2
5
3 2
5
4
27 2
3 4
.
x x
/ =
(
(
¸
(

¸

|
|
.
|

\
|
+
|
|
.
|

\
|
=

VAR (x) = 14.1666 – (3.6665)
2
= 0.7226
85 0 7226 0 . . ) x ( VAR = = = o
e) I = µ ± 1.5o I = {2.3916 , 4.9416}



Calcule µ y o
2
para la variable aleatoria continua de f(y) que se enuncia. Luego
calcule P(µ - 2 o < y < µ + 2o ) y compare el resultado con la regla empírica.


( )
( )
¦
¹
¦
´
¦
<
>
=
÷
0 y
1
10 y
1
) (
2
2
y
y
e
c
e
c
y f

} } }
·
· ÷
·
÷
·
÷
+ =
0
2
y
0
2
y
dy e
c
1
dy e dx f(x)


67
.
.
.
.
.
.
.
.
.

| | | | | | 4 1
4
1
2 2 2 2 2 1 1
0 0
0
2
0
2
0
2
0
2
= ¬ = = ÷ = ÷ ÷ ÷ =
(
¸
(

¸

÷
(
¸
(

¸

= +
· ÷ · ÷
·
÷
· ÷
·
÷
· ÷
} }
c
c c
e e
c
e e
c
e
c
e
c
dy e
c
dy e
c
y y y
y
a)
}
·
= =
0
y
dy yf(y) E(y) μ
} }
· ÷
·
÷
+ =
0
0
2
y
2
y
dy e
4
y
dy e
4
y


| | 1 4
4
1
4e ye 2
4
1
dy ye
4
1
0 0
2
y
2
y
2
y
÷ = ÷ =
(
¸
(

¸

÷ = =
}
· ÷
· ÷


| | 1 4
4
1
4e 2ye
4
1
dy ye
4
1
0
2
y
2
y
2
y
= + =
(
¸
(

¸

÷ ÷ = =
}
·
÷
÷ ÷


0 1 1 = + ÷ =

b)
2
y
V ( ) dy (y) f μ y (y) V
2
2
y
· ÷ = = V
}
·
·





} } }
÷ = =
· ÷ · ÷
dy e y 4 e y 2 dy e y
4
1
e y
4
2
2
y
2
y
2
2
y
0
2
0
2
y
2



| | 8 16
4
2
4 2 4 2
4
1
0
2 2 2
2
= =
(
¸
(

¸

)
`
¹
¹
´
¦
÷ ÷ =
·
y y y
e ye e y

















( )
} } }
·
· ÷ · ÷
·
· ÷
+ = ÷ = dy e y dy e y dy y f y y v
y
y
2
0
2
2
2 2
4
1
4
1
) ( 0 ) (

68
.
.
.
.
.
.
.
.
.






DISTRIBUCIÓN UNIFORME

Supongamos que X es una variable aleatoria continua que toma todos los
valores en el intervalo [a, b], en donde ambos a y b son finitos.
Si la fdp (función densidad de probabilidad) de X está dada por:


() {

La función de distribución de probabilidad es:

() {








Decimos que X está distribuida uniformemente en el intervalo [a, b].

Una variable aleatoria uniformemente distribuida tiene una fdp que es una
constante en el intervalo de definición. A fin de satisfacer la condición:

}f(x)dx = 1 en (-·, +·)

esta constante debe ser igual al recíproco de la longitud del intervalo.
Una variable aleatoria distribuida uniformemente representa la analogía
continua a los resultados igualmente posibles en el sentido siguiente. Para
cualquier sub-intervalo [c, d], en donde a s c < d s b , P(c s X s d) es la misma
para todos los sub-intervalos que tienen la misma longitud. Esto es,


P(c s X s d) = }f(x)dx = (d – c)/(b-a)

Y así solo depende de la longitud del intervalo y no de la ubicación del intervalo.

Ahora podemos hacer precisa la noción intuitiva de elegir un punto P al azar en
un intervalo, por ejemplo [a, b]. Con esto sencillamente indicaremos que la
coordenada x del punto elegido, por ejemplo X, está distribuida uniformemente
en [a, b].

Se supone que X es una variable aleatoria continua que toma todos los valores
en el intervalo (a,b), donde ambos, a y b son finitos. Si la fdp de X está dada
por

69
.
.
.
.
.
.
.
.
.

0
.
1
) (
=
s s
÷
= b x a
b a
x f
para cualquier otro valor.


EJEMPLO

Un punto se elige al azar sobre el segmento de línea [0, 2]. ¿Cuál es la
probabilidad de que el punto escogido quede entre 1 y 3/2?

Representando la coordenada del punto elegido por X, tenemos que la fdp de X está dada por f(x) = ½, 0
< x < 2, y por tanto P(1s X s 3/2) = ¼.


Se puede suponer que la dureza, H, de una muestra de acero es una variable aleatoria continua distribuida
uniformemente sobre [50, 70] en la escala B. Por tanto:


f(h) = 1/20 , 50 < h < 70

= 0, en otro lado


- Supóngase que una despachadora automática de un liquido nunca da
menos de 6cm
3
ni más de 10cm
3
y cualquier cantidad de liquido entre 6
y 10cm
3
tiene la misma probabilidad de ocurrir. Al despachar cierta
cantidad, determinar la probabilidad de que sea:
a) < 7cm
3

b) > 6cm
3

c) cualquier cantidad de entre {7 a 9}cm
3

d) el promedio t desviación estándar que tiene la despachadora
automática.
4
1
6 10
1
=
÷
= ) x ( f

a) P(x = 6) = ( ) 0 6 6 4 1
6
6
4 1 4 1
6
6
= ÷ =
|
|
.
|

\
|
=
}
/ x / dx /
b) P(7 s x s 10) = ( ) 4 3 7 10 4 1 4 1
10
7
/ / dx / = ÷ =
}

c) P(6 s x s 9) = ( ) 4 3 6 9 4 1 4 1
9
6
/ / dx / = ÷ =
}

d) E(x) = 8
2
6 10
=
+

( )
3 4
12
6 10
2
/ ) x ( VAR
÷
=



70
.
.
.
.
.
.
.
.
.

- Considere la temperatura ambiental promedio para una región de Polonia
se distribuye de igualmente entre los niveles que vende -20°C a 20°C
para un invierno cualquiera:
a) Probabilidad de que la temperatura sea < 10°C
b) < 10°C y > 5°C
c) {-10°C a 10°C}
( ) ( ) 40
1
20 20
1
=
÷ ÷
= ) x ( f
a) P(-20 < x < 20) = ( ) ( ) 4 3 20 10 40 1
20
10
40 1 40 1
10
20
/ / x / dx / = ÷ ÷ =
|
|
.
|

\
|
÷
=
}
÷

b) < 10°C y > 5°C = P(5 < x < 10) =
( ) 8 1 5 10 40 1
5
10
40 1 40 1
10
5
/ / x / dx / = ÷ =
|
|
.
|

\
|
=
}

c) P(-10 < x < 10) = ( ) ( ) 2 1 10 10 40 1
10
10
40 1 40 1
10
10
/ / x / dx / = ÷ ÷ =
|
|
.
|

\
|
÷
=
}
÷


Una función uniforme se cree que tiene una maquina que fabrica
tornillos entre los valores de 5 y 12mm.

a) Encuentre la función de densidad, haga su grafica, encuentre su media y
desviación estándar e indique sus valores en la grafica.
b) ¿Cuál es la probabilidad de que los tornillos sus dimensiones sean
menores de 8mm?
c) ¿Cuál es la probabilidad de que los tornillos sean mayores a 9mm?
d) Si una constructora desea tornillos de 6 a 9.5 mm, ¿Cuál es la
probabilidad de encontrar esos tornillos en esa producción?

Solución a:




0.142 5 12
( )
0 . . .
x
f x
e o c
s s ¦ ¹
¦ ¦
=
´ `
¦ ¦
¹ )



71
.
.
.
.
.
.
.
.
.

17
8.5
2 2
a b
µ
+
= = =

2 2
( ) (12 5)
( ) 4.08
12 12
b a
VAR x
÷ ÷
= = =

r = 2.02

Solución b:

8
8
5 5
( 8) 0.142 0.142 0.426 P x dx x < = = =
}





Solución c:

12
12
9 9
( 9) 0.142 0.142 0.426 P x dx x > = = =
}


Solución d:

9
9
6 6
(6 9) 0.142 0.142 0.426 P x dx x s s = = =
}










Sea


f(x) = 50 20
30
1
20 50
1 1
s s =
÷
=
÷
x paara
a b




Encontrar A,B,C

A) 35

72
.
.
.
.
.
.
.
.
.

x dx
30
1
30
1
35
20
=
}
=
2
1
30
15
30
20
30
35
= = ÷
20


B) (x < 25 o x > 45) = P(x < 25 U x > 45 ) = P( 45 25 s s x )

45
x dx
30
1
30
1
45
25
=
}

3
2
30
20
30
25
30
45
= = ÷
25



C)
o µ 5 . 1 ±

) (X E = µ = 35
2
50 20
2
=
+
=
+ b a


( ) ( ) ( )
66 . 8 75
75
12
30
12
20 50
12
2 2 2
= = =
= =
÷
=
÷
=
VAR
a b
VAR
o



Con la siguiente función acumulativa encontrar las siguientes probabilidades.


P(2 < x ≤ 6)
P(x = 4)
P(7 < x < 9)
P(x >5)
P(x >3)


0 x<1
1/3 1 < x < 4
F(x)= ½ 4 < x <6
5/6 6 < x <10
1 x > 10

P(2 < x ≤ 6) = P(3 < x ≤ 6) = F(6) – F(2) =5/6 - 1/3 = 3/6 = 1/2

P(x = 4) = F(4) – F(3) =1/2 - 1/3 = 1/6

P(x >5) = P(x >4)= 1- F(4) = 1-1/2=1/2

P(x >3) = 1- F(3) = 1-1/3=2/3



73
.
.
.
.
.
.
.
.
.

El tiempo y entre dos pausas en una terminal de edición en pantalla completa
(esto es, el tiempo necesario para que la terminal procese un comando de
edición y haga las correcciones en la pantalla) se distribuye uniformemente
entre .5 y 2.25 segundos.
a. calcule la media y la varianza de y
b. localice el intervalo µ ± 2o en una gráfica de la distribución de
probabilidad y calcule P ( µ - 2o < y < µ + 2o ). Compare su resultado
con la regla empírica.
c. ¿Qué probabilidad hay de que la terminal procesará un comando de
edición y hará las correcciones apropiadas en la pantalla en menos de
un segundo?



uniforme ad probabilid de ón Distribuci
β
1
)
`
¹
· ÷



¦
¹
¦
´
¦
< < V
÷ =
punto otro cualquier en 0
β x α
α β
1
f(x)

| = 2.25 seg ·= 0.5 seg ¬ | - · = 2.25 – 0.5 = 1.75 seg

¹
´
¦ < < V
=
punto otro cualquier en 0
2.25 x .5 0.5714
(x) f


a) 1.375
2
2.25 0.5
2
β α
μ
x
=
+
=
+
=

Varianza ( ) ( ) 2552 . 0 5 . 0 25 . 2
12
1
α β
12
1
2 2 2
x
= ÷ = ÷ = V


b)





P (µ -2V < y < µ + 2V) = 1.375 – 2 ( 0.505) = 0.365
1.375 + 2 (0.505) = 2.385


y
0.571
4
.5 2.25

74
.
.
.
.
.
.
.
.
.

P(0.365 < y < 2.385) =
} }
= =
2.385
0.365
2.385
0.365
dy 0.5714 dx F(x)

| | | | 15422 1. 2.02 x 0.5714 y 0.5714 dy
2.385
0.365
2.385
0.365
= = =
}


} } }
· ÷
= = = <
1 1
0.5
1
0.5
dy 0.5714 dy 0.5714 dy (y) F 1) (y P

| | 857 0.2 y 0.5714
1
10.5
= =



El tiempo y entre dos pausas en una terminal de edición en pantalla completa (esto es, el
tiempo necesario para que la terminal procese un comando de edición y haga las correcciones
en la pantalla) se distribuye uniformemente entre .5 y 2.25 segundos
a) ca
b) ¿Qué probabilidad hay de que la terminal procesara un comando de
edición y hará las correcciones apropiadas en la pantalla en menos de 1
seg.

Utilizando distribución uniforme
A = 2.25
B = 0.5
a)
a + b 2.25 + .5
= --------- = -------------- = 1.375
2 2

(b – a)
2
( 0.5 – 12 )
2

2
= ------------- = ----------------- = 0.2552
12 12

1
b) p(y < 1) f(y) = --------------- = 0.571
2.25 – 0.5

1 1
P( y < 1) = 0.571dy = 0.571( y ) = 0.571 ( 1-0.5) = 0.2857
0.5 0.5



Investigadores de la University of Calofornia-Berkeley han diseñado,
construido y probado un circuito de condensador conmutado para generar

75
.
.
.
.
.
.
.
.
.

señales aleatorias. Se demostró que a trayectoria del circuito estaba distribuida
uniformemente en el intervalo (0,1).

a. Indique la media y a varianza de la trayectoria del circuito.
b. Calcule a probabilidad de que la trayectoria esté entre .2 y .4.
c. ¿esperaría usted observar una trayectoria que excediera .995?.

solución:

2 . ) 2 . 4 )(. ( ) 4 . 0 2 . 0 (
1
1
) (
2886 . 12 / 1
083 . 12 / 1
12
) (
5 .
2
1 0
2
2
2
= ÷ =
=
÷
=
= =
= =
÷
=
=
+
=
+
=
y f a P
a b
y f
a b
b a
o
o
µ







El tiempo y entre dos pausas en una terminal de edición en pantalla completa
(esto es, el tiempo necesario para que la terminal procese un comando de
edición y haga las correcciones en la pantalla) se distribuye uniformemente
entre .5 y 2.25 segundos.

a. Calcule la media y la varianza de y.
b. Localice el intervalo o µ 2 ± en una gráfica de la distribución de probabilidad
y calcule ) 2 2 ( o µ o µ + < < ÷ y P .
c. ¿qué probabilidad hay de que la terminal procesará un comando de edición
y hará las correcciones apropiadas en la pantalla en menos de un segundo?

Solución:

2855 . ) 5 (. 571 . ) 1 (
047 . 1 ) 365 . 2 . 2 )( ( ) 385 . 2 365 (.
571 .
5 . 25 . 2
1
) (
505 .
2552 .
12
) 5 . 25 . 2 (
375 . 1
2
25 . 2 5 .
2
2
= = <
= ÷ = <
=
÷
=
=
=
÷
=
=
+
=
y P
y f y P
y f
o
o
µ


76
.
.
.
.
.
.
.
.
.







La distribución exponencial.

Definición. Se dice que una variable aleatoria continua X que toma todos los
valores no negativos tiene una distribución exponencial con parámetros 0 > o
si su fdp está dada por:


, ) (
x
e x f
o
o
÷
= x>o

=0 para cualquier otro valor.

Una integral inmediata indica que:

1 ) (
0
=
}
·
dx x f

y, por tanto, la ecuación representa un fdp.


La distribución exponencial desempeña un papel importante en la descripción
de una gran clase de fenómeno, especialmente en el área de la teoría de la
confiabilidad. Por el momento, sólo investiguemos algunas de las propiedades
de la distribución exponencial.



Propiedades de la distribución exponencial.

a) La fda F de la distribución exponencial está dada por:

0 , 1 ) ( ) (
0
> ÷ = = s =
÷ ÷
}
x e dt e x X P x F
x
x
t o o
o
= 0 para cualquier otro valor.

Por tanto,
x
e x X P
o
o
÷
= > ) (



b) El valor esperado de X se obtiene como sigue:

dx e x X E
x o
o
÷
·
}
=
0
) (


77
.
.
.
.
.
.
.
.
.

Integrando por partes y haciendo dv dx e
x
=
÷o
o y x=u, obtenemos v=
x
e v
o ÷
÷ = y
du=dx. Luego

| |
o
o o
1
) (
0
0
= + ÷ =
}
·
÷ · ÷
dx e e x X E
x x



c) La varianza de X puede obtenerse con una integración semejante.
Encontramos que
2 2
2 ) ( o = X E y por lo tanto,


| |
2
2 2
1
) ( ) ( ) (
o
= ÷ = X E X E X V


La distribución exponencial tiene la siguiente propiedad importante, análoga a
la ecuación descrita para la distribución geométrica. Considerando para
cualquier s, t>0, P(X>s+t | X>s). Tenemos:



t
s
t s
e
e
e
s X P
t s X P
s X t s X P
o
o
o
÷
÷
+ ÷
= =
>
+ >
= > + >
) (
) (
) (
) (

Por lo tanto,

) ( ) ( t X P s X t s X P > = > + >


Así hemos demostrado que la distribución exponencial también tiene la
propiedad de "no tener memoria" como la distribución geométrica.




Un caso especial muy importante de la distribución gama, se obtiene si
hacemos
2
1
= o y r=n/2, donde n es un entero positivo. Obtenemos una
familia de distribuciones de un parámetro con fdp


2 1 2
2
) 2 ( 2
1
) (
z n
n
e z
n
z f
÷
÷
I
, z>0


Una variable aleatoria Z que tiene fdp dada por la ecuación anterior se dice que
tiene una distribución X-cuadrada con n grado de libertad (se denota con n X
2
).
Una consecuencia inmediata de la ecuación del inciso c, es que si Z tiene fdp
de la ecuación anterior, tenemos:

78
.
.
.
.
.
.
.
.
.

n Z E = ) ( , n Z V 2 ) ( =



Ejemplo
Un enfermo de gripa tiene tos a un promedio de
5
6
de accesos de tos por
minuto.
Calcular la probabilidad de que en un momento dado transcurra mas de 1
minuto hasta el segundo acceso de tos dado que el acceso ocurrió.

} } }
· ·
·
÷
·
÷ ÷
= ÷ = |
.
|

\
|
÷ = = = >
1 1
1
5
6
1
5
6
5
6
6
5
5
6
5
6
5
6
) 1 (
x
u
x x
e du e dx e dx e x P *

dx du
x u
5
6
5
6
÷ =
÷ =


*= 3012 . 0 3012 . 0 0
5
6
5
6
= + =
|
|
.
|

\
|
÷ ÷ ÷
÷ · ÷
e e



La duración (en horas) de la unidad central de proceso de cierto tipo de
microcomputadora es una variable aleatoria exponencial con parámetro
|=1,000.

a. Calcule la media y la varianza de la duración de la unida central de proceso.
b. ¿Qué probabilidad hay de que una unidad centra de proceso tendrá una
duración de por lo menos 2,000 horas?
c. ¿Qué probabilidad hay de que una unidad centra de proceso tendrá una
duración de cuando más 1,500 horas?

Solución:
a) µ=1000 o
2
=|
2
=1000000

b)P(2000)=e
-y/|
= e
-2000/1000
= .135

c)P(y<1500)=1-e
-1500/1000
= .7768



Vardeman y Ray sugieren que el número de accidentes industriales se puede
modelar mediante una distribución exponencial. Suponga que el número de
accidentes por hora en una planta industrial está distribuido exponencialmente
con una media de |=.5.

79
.
.
.
.
.
.
.
.
.

a. ¿Qué probabilidad hay de que al menos un accidente ocurrirá en una hora
escogida al azar en la planta industrial?.
b. ¿qué probabilidad hay de que menos de dos accidentes ocurrirán en una
hora escogida al azar en la planta industrial?

Solución:

a)P(1)=e
-1/.5
= .1353

b)P(y<2)=1-e
-2/.5
=.98168








































80
.
.
.
.
.
.
.
.
.





DISTRUBUCION NORMAL.

La distribución normal o campana de Gauss es una de las distribuciones más
importantes y de mayor aplicación en la estadística inferencial por medio de la
cual y bajo ciertas condiciones los Investigadores Generalizan los resultados
obtenidos en una muestra a toda la población.

Es una distribución probabilística para una variable aleatoria continua, la cual
tiene simetría perfecta, forma de campana unimodal. La mediana y la moda de
la distribución son todas iguales y están localizadas al centro de la distribución.
Las medidas de la varianza, compactas o dispersas fuera de la distribución,
están alrededor de las media.



función de densidad de probabilidad normal esta dada por:




( )
2
2
1
2
2
1
|
.
|

\
| ÷
÷
=
o
µ
to
x
x
e x f




Si µ es la media y o es la varianza de una variable aleatoria normal Y, entonces la formula
f(y), la cual usamos para trazar curva normal de distribución, es:




3 ÷ = µ x

3 + = µ x






( )
2 2
2
2
1
2
1 3
2
1
3
r
q
r
q
x
ke ke ke f = = = +
÷ |
.
|

\
| ÷ ÷
o
µ µ
µ





81
.
.
.
.
.
.
.
.
.


( )
2 2
2
2
1
2
1 3
2
1
3
r
q
r
q
x
ke ke ke f = = = ÷
÷ |
.
|

\
| ÷ +
o
µ µ
µ



En donde e es la base de los logaritmos naturales elevada a la potencia.

Gráficamente:




o




µ-o µ µ+o x



Observamos que:

1) La curva es simétrica respecto al valor de x = E[x] = µ.
2) Tiene un máximo en x = E [X ] = µ cuyo valor es:



( )
t o
to
2
1
2
1
2
= = X fx



3) Si la curva es aguisada ( Los datos están concentrados alrededor de
E[X]: poca dispersión.

4) En x = µ +- o se tienen los puntos de inflexión de la curva ya que:



o > ) ( ) x f a



} }
·
· ÷
·
· ÷
|
.
|

\
| ÷
= = 1
2
1
) ( )
2
2
1
2
dx e dx x fx b
x
o
µ
to



Marcas normalizadas o marcas Z. Una marca normal, o marca Z es una
numero que mide que tan cerca esta cualquier medición dada con respecto a la
media de todas las mediciones. La marca Z esta expresada en unidades de
desviación estándar. Obtenemos la marca Z sustrayendo la media de las

82
.
.
.
.
.
.
.
.
.

desviaciones µ, de cada media individual, y dividiendo entonces entre la
desviación estándar de ellas esto es:



o
µ ÷
=
Y
Z



DISTRIBUCIÓN NORMAL ESTANDAR.


Si estandarizamos todas las mediciones en una distribución normal que tiene
una medida µ y una desviación estándar o, llamamos a la distribución
resultante distribución normal estándar. Esta tiene una media igual a 0 y una
varianza y desviación estándar iguales a 1.


En otras palabras, si Y es una variable aleatoria distribuida normalmente,
entonces


( )
} }
· ÷ · ÷
÷
|
.
|

\
|
÷
= = s =
x x
r
dx
x
e dx x f x X X p x f
2
2
1
2
2
1
) ( ) (
o
µ
to




}}
÷ ÷
= dxdy e e I
y x
2 2




1
2
= =
}
dy e I
y



Que esta también normalmente distribuida, con una medida 0 y una varianzas
igual a 1.



LA MEDIA Y LA VARIANZA DE DISTRUBUCION NORMAL.

La media de una variable aleatoria Y es una medida de posición para la distribución
probabilística de Y. Se le simboliza por una µ y se calcula al sumar el producto de cada
valor de Y con su probabilidad correspondiente sobre todos los valores posibles (y1,y2,
......yn) de Y En otras palabras, si Y toma los valores de y, entonces:



¿
= y yP( µ
)

83
.
.
.
.
.
.
.
.
.


En donde sumamos a través de todos los valores de y.

Varianza y desviación estándar de una distribución probabilística. Son medidas de
variabilidad que reflejan el grado de dispersión de una variable aleatoria con respecto a
la media



¿
÷ = Y P y ( ) (
2 2
µ o
)


Una formula alternativa es:




( )
2 2 2
µ o ÷ =
¿
y P y



La desviación estándar de una distribución probabilística es la raíz cuadrada
de la varianza estos es:



2
o o =
=1


donde la Acumulativa numérica esta dada por



( ) | | Z P z
Z
s Z = u



Ejemplo:

Las edades de un grupo de 30 personas están distribuidas normalmente con
medida de 19 años y la probabilidad de que la edad de una persona
seleccionada al azar se encuentra entre 18 y 20 años es de 0.4371.

a) Calcula la varianza de las edades.
b) Calcula la probabilidad de que la edad de una persona sea mayor de 21
años
c) Calcula el numero aproximado de personas mayores a 21 años.




Solución:

84
.
.
.
.
.
.
.
.
.


X es una v.a.n (19,o)


| |
| |
( ) ( )
0779 . 3
7544 . 1
57 .
1
7157 . ) 57 (.
2
43421 . 1 1
2
1
19 20 19 18
20 18 )
4321 . 0 20 18 `
=
~ =
= u
=
|
.
|

\
|
u
= ÷ u + u
(
¸
(

¸

÷
s
÷
s
÷
= s s
= s
o
o
o
o o
µ
o
Z
z
z Z
X
P X P a
P


X es v.a.n. ( 19,3.0779)

| | | |
( ) ( )
1075 . 0 8925 . 0 1
) 14 . 1 ( 1 1399 . 1
21 21 )
= ÷
u ÷ = u ÷ · u
· < < = <
Z Z Z
X P X P b

C)
| | 225 . 3 ) 1075 . 0 ( 30 21 30 = = > X P





Suponga que la temperatura (ªC) esta distribuida con esperanza 50ª y
varianza 4 ¿Cuál es la probabilidad de que la temperatura este entre 48 y 53
ªC.

E [T]= 50
V [T]= 4 P[48<T<53]


( )
7745 .
1587 . 0 9332 .
) ' 00 . 1 ( ) 50 . 1
2
50 48
2
50 53
=
÷ =
u ÷ u =
|
.
|

\
|
÷
u ÷
|
.
|

\
|
÷
u =
Z Z
Z Z



85
.
.
.
.
.
.
.
.
.

Suponga que una distribución normal tiene una media de 100 y una desviación
estándar de 10 (esto es, Y esta normalmente distribuida de tal forma que
µ=100 y o=10) ¿Cuál es la probabilidad de que una media escogida
aleatoriamente pueda estar entre 100 y 110?

Solución:


Z= 110-100 10
--------- =--- =1.00
10 10

Consultando la tabla normal estándar para Z = 100, encontramos el numero
0.3413. Este numero representa el área entre la media (100) y un segmento
de recta a una desviación estándar hacia la derecha de la media (110) por la
tanto la probabilidad de que una observación caiga en el intervalo es de
0.3413.


En un estudio de las personas adultas sanas, se encuentra que el 30%
dormían menos de 7.2hs. Diarias, mientras que el 40% dormían menos de 7.5
horas diarias. Si se supone que el sueño tiene una distribución normal, cual es
la media y la distribución Standard del No, de horas de sueño diarias

88 . 7 2 . 7 ) 111 . 1 ( 525 . 0
111 . 1
27 . 0
3 . 0
3 . 0 27 . 0
0 2 . 7 525 . 0 5 . 7 255 . 0
2 . 7 525 . 0
0 5 . 7 255 . 0
0 2 . 7 525 . 0
0 5 . 7 255 . 0 ..... .......... .......... .......... 0 2 . 7 525 . 0
5 . 7 55 . 0 . .......... .......... .......... .......... 2 . 7 525 . 0
5 . 7
255 . 0 .. .......... .......... .......... ..........
2 . 7
525 . 0
3974 . 0 26 . 0 ..... .......... .......... .......... .......... 2981 . 0 053
255 . 0 4013 . 0 25 . 0 ....... .......... .......... 525 . 0 3015 . 0 52 . 0
1
1
= + =
= = I
= I
= + I + I ÷
+ I =
= + ÷ I ÷
= + ÷ I ÷
= + ÷ I ÷ = + ÷ I ÷
÷ = I ÷ = ÷ I ÷
I
÷
= ÷
I
÷
= ÷
÷ ÷ ÷ ÷
÷ ¬ ÷ ÷ ÷ ¬ ÷ ÷
I
÷
=
µ
µ
µ
µ
µ µ
µ µ
µ µ
µ X
Z






Se observo durante largo periodo que la cantidad semanal gastada en el
mantenimiento y en las reparaciones en cierta fabrica tiene: µ = 400 pesos, y o
= 20. si el presupuesto es de 450 pesos.

86
.
.
.
.
.
.
.
.
.

a) Cuál es la probabilidad de que los costos reales sean mayores que el
propuesto.
b) Cuál es la probabilidad de que los costos reales sean menores que el
propuesto.
c) De cuanto debe de ser el presupuesto para que las reparaciones sean
menores a un 10% de rebasar el presupuesto.

µ = 400 o = 20

a) P (x > 450) = ( ) ( ) · = |
.
|

\
|
·
÷
= ·       z . P z P x P 5 2
20
400 450
450
( ) ( ) % . . . F F 62 0 9938 0 1 5 2 = ÷ = ÷ · =
b) P (x < 450) =
( ) ( ) 5 2 20
20
400 450
20
400 0
450 0 . z P z P x P       ÷ = |
.
|

\
| ÷ ÷
=
( ) ( ) % . . . F . F 1 97 0228 0 9938 0 20 5 2 = ÷ = ÷ ÷ =

En un estudio de la personas adultas sanas, se encontró que el 30% dormían
menos de 7.2Hrs diarias, mientras que el 40% dormían menos de 7.5Hrs
diarias. Si se supone que el sueño tiene una distribución normal cual es la
media y la desviación estándar del numero de haz de sueño diario.

P(x < 7.2) = 30%
P(x < 7.5) = 40%

525 0
2 7
.
.
÷ =
÷
o
µ
255 0
5 7
.
.
÷ =
÷
o
µ

5 7 255 0
2 7 525 0
. .
. .
= + ÷
= + ÷
µ o
µ o

11 1
27 0
3 0
.
.
.
=
÷
÷
= o
7827 7 11 1 525 0 2 7 . ) . ( . . = + = µ



Se observó durante un largo periodo que la cantidad semanal gastado en el
mantenimiento y reparaciones en cierta fabrica tiene una media de $400 y una
desviación de de $20.
Si el presupuesto es de $450
a)¿Cuál es la probabilidad de que los costos reales sean mayores que el
presupuesto?
b)¿De cuanto debe ser el presupuesto para que las reparaciones no rebasen el
10%?

μ = 400 σ = 20

a) P(x>450) = P[(x – μ)/σ > (450-400)/20)]

87
.
.
.
.
.
.
.
.
.

P(z> 2.5) = 1-F(2.5)= 1(0.9938) = 0.0062

Z=-1.28 aprox 10%

b) Z=( x – μ)/σ

Despejando a x

x = zσ + μ
x = (-1.28)20 + 400 = 374.4




Los marcapasos sirven para controlar el latido del corazón de pacientes
cardiacos, y cada año se implantan más de 120,000 de estos dispositivos. Un
solo marcapasos está constituido por varios componentes biomédicos que
deben ser de alta calidad para que el marcapasos funcione. Es vital que los
fabricantes de marcapasos utilicen componentes que cumplan con las
especificaciones. Una pieza de plástico en particular, llamada módulo conector,
se monta en la parte superior del marcapasos. Los módulos conectores deben
tener una longitud de entre .304 y .322 pulgadas para funcionar correctamente.
Cualquier módulo cuya longitud se salga de estos límites está “fuera de
especificación”. En Quality (agosto de 1989) se informó de un proveedor de
módulos conectores que había estado enviando al fabricante durante 12 meses
componentes fuera de especificación.

a. Se observó que las longitudes de los módulos conectores producidos
por el proveedor seguían una distribución aproximadamente normal con
una media de µ = .3015 pulgadas y una desviación estándar de o =
.0016 pulgadas. Utilice esta información para calcular la probabilidad de
que el proveedor produzca un componente fuera de especificación.
b. Una vez que se detectó el problema, el personal de inspección del
proveedor comenzó a utilizar un sistema automático de recolección de
datos diseñado para mejorar la calidad del producto. Después de dos
meses, el sistema estaba produciendo módulos conectores con una
media de µ = .3146 pulgadas y una desviación estándar de o = .0030
pulgadas. Calcule la probabilidad de producir un componente fuera de
especificación. Compare su respuesta con la del inciso a.


µ = 0.3015 V = 0.0016
o = 0.304 b = 0.322

| =
V
÷ μ x
= Variable Aleatoria Normal Estándar

a) P ( a < x < b ) = F ( 0.355 ) – F ( 0.304) =


88
.
.
.
.
.
.
.
.
.

( ) ( ) = ÷ =
|
.
|

\
| ÷
÷
|
.
|

\
| ÷
= 1.5625 φ 12.8125 φ
0.0016
0.315 0.304
φ
0.0016
0.3015 0.322
φ

= 1-0.9406 = 0.0594

1-P ( a < x < b ) = 1 – 0.0594 = 0.9406

b)
µ = 0.3146 V = 0.003

P ( a < x < b ) = F ( 0.322) – F ( 0.304)=

( ) ( ) = ÷ ÷ =
|
.
|

\
| ÷
÷
|
.
|

\
| ÷
= 3.53 φ 2.466 φ
0.0030
0.3146 0.304
φ
0.0030
0.3146 0.322
φ

= 0.9931-0

1-P (a < x < b ) 1- 0.9931 = 0.0069




Suponga que la fuerza que actúa sobre una columna que ayuda a sostener a un edificio, está
normalmente distribuida con media de µ = 15 kips, y desviación estándar de o = 1.25. ¿Cuál es
la probabilidad de que la fuerza?
a) Sea a lo sumo 17 kips.
b) Sea entre 12 y 17 kips.

a) P(y ' 17) z = (17 – 15) / 1.25 = 2 / 1.25 = 1.6
valor en las tablas = 0.9452.

b) P(12 / y | 17) z1 = (12 – 15) / 1.25 = -3 / 1.25 = -2.4
valor en tablas = 0.0082
z2 = (17 – 15) / 1.25 = 2 / 1.25 = 1.6
valor en tablas = 0.9452

89
.
.
.
.
.
.
.
.
.

0.5 – 0.0082 = 0.4918
0.5 – 0.9452 = 0.4452

P = 0.4918 + 0.4452 = 0.937

Se regula una maquina despachadora de refresco que sirva un promedio de 200 mililitros
por vaso. Si la cantidad de bebida se distribuye normalmente con una desviación
estandar igual a 15 mililitros

a) ¿Que fracción de los vasos contendrán mas de 224 mililitros?
b) ¿Cuál es la probabilidad de que un vaso contenga entre 191 y 209
mililitros?
c) La probabilidad de que un vaso tenga mas de 230 mililitros.
d) El 25% de 1000 botellas es de 250

Aquí se tiene una distribución normal con una mediaµ=200ml. Y uns
desviación estandar o=15ml.

( )
o
µ ÷
÷
o t
=
2
x
2
e
2
1
) x ( f
Haciendo cambio de variable:
15
200 x x
z
÷
=
o
µ ÷
=


a) La probabilidad de que un vaso tenga mas de 224ml. Se obtiene primero
calculando:

6 . 1
15
200 224
z =
÷
=
Así la probabilidad será:

} }
·
· ÷
÷ ÷
= ÷ =
t
÷ =
t
=
6 . 1
6 . 1
2
x
2
x
0548 . 0 9452 . 0 1 e
2
1
1 dx e
2
1
P
2 2


a) La probabilidad de que un vaso contenga entre 191 y 209ml.

6 . 0
15
200 191
Z
191
÷ =
÷
=


6 . 0
15
200 209
Z
209
=
÷
=

90
.
.
.
.
.
.
.
.
.
04514 7257 . 0 2743 . 0 e
2
1
e
2
1
e
2
1
6 . 0
2
x
6 . 0
2
x
6 . 0
6 . 0
2
x
2 2 2
= + ÷ =
t
+
t
÷ =
t
} } }
· ÷
÷
÷
· ÷
÷
÷
÷


c)La probabilidad de que un vaso tenga mas de 230ml.


2
15
200 230
z =
÷
=
Así la probabilidad será:

}
· ÷
÷
= ÷ =
t
÷ =
2
2
x
0228 . 0 9772 . 0 1 e
2
1
1 P
2

Ahora si se tienen 1000 vasos la variable aleatoria Y definida como el numero
de vasos con mas de 230ml. Tendrá distribución binomial con parámetros
n=1000 y P=0.0228: la esperanza de tal variable será de :

( )( ) 23 8 . 22 0228 . 0 1000 nP ~ = =


b) El 25% de 1000 botellas es de 250; suponiendo que el valor
querido nos da una probabilidad p y la variable aleatoria que nos
da la cantidad de vasos con mas del valor querido se distribuye
binomialmente entonces su esperanza deberá ser de

25 . 0 p 250 P 1000 = =


buscando en tablas el valor de z tal que




25 . 0 e
2
1
z
2
x
2
=
t
}
· ÷
÷


67 . 0 z ÷ =

recordando que:

( ) 95 . 189 200 67 . 0 15 x
200 z 15 x
15
200 x x
z
= + ÷ =
+ =
÷
=
o
µ ÷
=


91
.
.
.
.
.
.
.
.
.






DISTRIBUCIÓN DE PROBABILIDAD JI CUADRADA

Ejemplo 1

En el
estudio de un taller, se obtuvo un conjunto de datos para determinar si la
proporción de artículos defectuosos producidos por los trabajadores era la
misma durante el día, la tarde o la noche. Se encontraron los siguientes datos:










Frecuencias observadas y esperadas

Utilice un nivel de significancia de 0.025 para determinar si la proporción de
artículos defectuosos es la misma para los tres turnos.

Solución Sea que p1,p2 y p3 representen las proporciones reales de artículos
defectuosos para los turnos del día, la tarde y la noche, respectivamente. Al
utilizar el procedimiento de los 6 pasos, se tiene:

1. Ho : p
1
=

p
2
=

p
3

2. H1: p1,p2 y p3 no son todas iguales.
3. alfa ( o = 0.025.)
4. Región crítica: X
2
> 7.378 para v = 2 grados de libertad.
5. Cálculos: En relación a las frecuencias observadas Oi = 45 y 02 =55, se
encuentra:

e
1
=(950)(170)/2835=57
e2

=(945)(170)/2835=56.7


Turno
Día Tarde Noche Total
Defectuosos
No defectuosos
45(57.0)
905(893.0)
55(56.7)
890(888.3)
70(56.3)
870(883.7)
170
2665
Total 950 945 940 2835
Turno
Día Tarde Noche
Defectuosos
No defectuosos
45
905
55
890
70
870

92
.
.
.
.
.
.
.
.
.

Todas las otras frecuencias observadas se encuentran por sustracción y se
muestran en la tabla anterior
Ahora,

X
2
= (45- 57.9)
2
+ (55-56.7)
2
+ (70 – 56.3)
2

57 56.7 56.3

+ (905 - 893)
2
+ (890 - 888.3)
2
+ (870 - 883.7)
2

893.0 888.3 883.7

=6.29
P~0.04

6. Decisión: No se rechaza H
0
en a = 0.025. No obstante, con el valor
calculado de P, realmente sería peligroso concluir que la proporción
de artículos defectuosos producidos es la misma para todos los
turnos.





2.- Los siguientes son los pesos, en decagramos, de 10 paquetes de semillas de pasto
distribuidas por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1, 45.9, 45.8, 46.9, 45.2 y 46.
Encuentre un intervalo de confianza de 95% para la varianza de todos los paquetes de
semillas de pasto que distribuye esta compañía, suponga una población normal.
Solución:
Primero se calcula la desviación estándar de la muestra:

al elevar este resultado al cuadrado se obtiene la varianza de la muestra s
2
= 0.286.
Para obtener un intervalo de confianza de 95% se elige un = 0.05. Después con el
uso de la tabla con 9 grados de libertad se obtienen los valores de X
2
.

93
.
.
.
.
.
.
.
.
.


Se puede observar en la gráfica anterior que el valor de X
2
corre en forma normal, esto
es de izquierda a derecha.
Por lo tanto, el intervalo de confianza de 95% para la varianza es:

Gráficamente:

Se observa que la varianza corre en sentido contrario, pero esto es sólo en la gráfica.
La interpretación quedaría similar a nuestros temas anteriores referentes a estimación.
Con un nivel de confianza del 95% se sabe que la varianza de la población de los
pesos de los paquetes de semillas de pasto esta entre 0.135 y 0.935 decagramos al
cuadrado.

3.- En trabajo de laboratorio se desea llevar a cabo comprobaciones
cuidadosas de la variabilidad de los resultados que producen muestras
estándar. En un estudio de la cantidad de calcio en el agua potable, el cual
se efectúa como parte del control de calidad, se analizó seis veces la misma
muestra en el laboratorio en intervalos aleatorios. Los seis resultados en
partes por millón fueron 9.54, 9.61, 9.32, 9.48, 9.70 y 9.26. Estimar la
varianza de los resultados de la población para este estándar, usando un
nivel de confianza del 90%.
Solución:

94
.
.
.
.
.
.
.
.
.

Al calcular la varianza de la muestra se obtiene un valor de s
2
= 0.0285.
Se busca en la tabla los valores correspondientes con 5 grados de libertad, obteniéndose dos
resultados. Para X
2
(0.95,5)
= 1.145 y para X
2
(0.0,5)
= 11.07.
Entonces el intervalo de confianza esta dado por:
y

4.- Una tabla de números aleatorios de 250 dígitos mostró la distribución de los
dígitos 0,1,2,….9 que se muestra en la tabla adjunta.
¿Difiere significativamente la distribución observada de la distribución esperada
al nivel de 0.01?
Digito 0 1 2 3 4 5 6 7 8 9
Frecuencia
Observada
17 31 29 18 14 20 35 30 20 36
Frecuencia
Esperada
25 25 25 25 25 25 25 25 25 25

SOLUCION:

X
2
= (17 - 25)
2
/ 25 + (31 - 25)
2
/ 25 + (29 - 25)
2
/ 25
+ (18 - 25)
2
/ 25 +….. + (36 - 25)
2
/ 25 = 23.3

El valor critico de X
2
0.99
pata v = k – 1 = 9 grados de libertad es de 21.7; como
23.3 > 21.7 se deduce que la distribución observada difiere significativamente
de la esperada al nivel de significación del 0.01. Se deduce que cabe
sospechar alguna tendencia no aleatoria en dicha tabla de números.


Ejemplo5:
Los siguientes son los pesos, en decagramos, de 10 paquetes de
semillas de pasto distribuidas por cierta compañía: 46.4, 46.1, 45.8, 47.0, 46.1,
45.9, 45.8, 46.9, 45.2 y 46. Encuentre un intervalo de confianza de 95% para la
varianza de todos los paquetes de semillas de pasto que distribuye esta
compañía, suponga una población normal.
Solución:

95
.
.
.
.
.
.
.
.
.

Primero se calcula la desviación estándar de la muestra:

al elevar este resultado al cuadrado se obtiene la varianza de la muestra s
2
=
0.286.
Para obtener un intervalo de confianza de 95% se elige un = 0.05.
Después con el uso de la tabla con 9 grados de libertad se obtienen los valores
de X
2
.

Se puede observar en la gráfica anterior que el valor de X
2
corre en
forma normal, esto es de izquierda a derecha.
Por lo tanto, el intervalo de confianza de 95% para la varianza es:


Gráficamente:

Se observa que la varianza corre en sentido contrario, pero esto es sólo en
la gráfica. La interpretación quedaría similar a nuestros temas anteriores
referentes a estimación. Con un nivel de confianza del 95% se sabe que la
varianza de la población de los pesos de los paquetes de semillas de pasto
esta entre 0.135 y 0.935 decagramos al cuadrado.


DISTRIBUCION "F" FISHER



96
.
.
.
.
.
.
.
.
.

Distribución F









EJEMPLO NUMERICO
1.- Si s=12 y s=22 representan las varianzas de las muestras aleatorias independientes de
tamaño n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas uno 10 y varianza
dos = 15, respectivamente, encuentre
P(s12/s22 > 1.26).
Solución:
Calcular el valor de Fisher:

F= (S
1
/ S
2
)
2
(o
2
/o
1
)
2
= (1.26) ( 15/10) = 1.89

Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de libertad
uno. Cuando se este en esta posición se busca adentro de la tabla el valor de Fisher de 1.89.
Al localizarlo y ver a la izquierda de este valor se obtiene un área de 0.95, pero esta área
correspondería a la probabilidad de que las relaciones de varianzas muestrales fueran menor a
1.26, por lo que se calcula su complemento que sería 0.05, siendo esta la probabilidad de que
s12/s22 > 1.26.




97
.
.
.
.
.
.
.
.
.


2.- Supongamos que la probabilidad de tener una unidad defectuosa en una
línea de ensamblaje es de 0.05. Si el conjunto de unidades terminadas
constituye un conjunto de ensayos independientes.

1. ¿Cuál es la probabilidad de que entre 10 unidades 2 se encuentren
defectuosas?

2. ¿Y de que a lo sumo 2 se encuentren defectuosas?

3. ¿Cuál es la probabilidad de que por lo menos una se encuentre
defectuosa?


SOLUCION


1. Procedemos a calcular:

P(n
10, 0, 05
=2) = (2/10) X 0.05
2
X (1 – 0.05)
8
= 0.0746

2. Se tiene que:

P(n
10, 0, 05
≤ 2) = ∑(10/i) X 0.05
i
X (1- 0.05)
10-i
= 0.9884

3. Y por ultimo:

P(n
10, 0, 05
≥ 1) = 1- P(n
10, 0, 05
= 0) = 1 – (10/0) X 0.05
0
X
(1 – 0.05)
10-0


= 1 – 0.5987 = 0.4013




3.- Si s12 y s22 representan las varianzas de las muestras aleatorias independientes de
tamaño n1= 25 y n2 = 31, tomadas de poblaciones normales con varianzas 12 =10 y
22 = 15, respectivamente, encuentre P(s12/s22 > 1.26).





98
.
.
.
.
.
.
.
.
.

Solución:

Calcular el valor de Fisher:

F=(s1/s2)^2 * (var2/var1)^2=1.26*(15/10)=1.89

Luego se va a la tabla de Fisher a buscar 30 grados de libertad 2 con 24 grados de libertad
uno. Cuando se este en esta posición se busca adentro de la tabla el valor de Fisher de 1.89. Al
localizarlo y ver a la izquierda de este valor se obtiene un área de 0.95, pero esta área
correspondería a la probabilidad de que las relaciones de varianzas muestrales fueran menor a
1.26, por lo que se calcula su complemento que sería 0.05, siendo esta la probabilidad de que
s12/s22 > 1.26.


4.- Un fabricante de baterías para automóvil garantiza que su producto durará
en promedio 3 años con una desviación estándar de un año. Con el objeto de
controlar la calidad y mantener dicha especificación realiza un muestreo anual.
Los muestreos realizados en tos tres últimos años, basados en grupos de 5
baterías permitieron calcular las siguientes varianzas muestrales:
Año 94 Año 95
Año 96

Si el fabricante trabaja con un nivel de significación :
a) ¿En qué años mantuvo el fabricante su norma de calidad?

b) ¿En que año fueron fabricadas las baterías con más precisión en cuanto a
su duración?
Si y son las varianzas de muestras aleatorias independientes de tamaños y
, seleccionadas de poblaciones normales con varianzas y respectivamente,
entonces
tiene una distribución F de Snedecor con y grados de libertad.

99
.
.
.
.
.
.
.
.
.

Observe que si es un valor calculado a partir de sendas muestras, podemos
pronosticar como son y entre si. Es decir si ha ocurrido algo extraño pues
dicho suceso tiene una probabilidad pequeña de ocurrencia , a menos que .
Análogamente, es poco factible que un valor calculado de f sea tal que , a
menos que sea muy pequeño, esto es, .
Resumiendo, a través de la gráfica siguiente, tenemos:
Se espera que así:
a) ó , esto es, ó .
b) ó , esto es, ó .
c) ó , esto es, ó
Observe que , o sea la probabilidad de que la varianza muestral difiera
significativamente de la varianza muestral , por esto definimos de nuevo a
como el nivel de significación.
Los tiempos en que los clientes llegan a las cajas registradoras se rigen por
una distribución de Poisson. Se sabe que; durante un periodo de 30 minutos un
cliente llegara a la caja. Calcula la probabilidad de que lleguen durante los
últimos 5 minutos del periodo de media hora.

SOLUCION: Como se dijo, el tiempo en que un cliente llega a una caja sigue
una distribución uniforme en el intervalo (0,30).
Si Y denota el tiempo en que este llega,
Entonces:
30
P(25 ≤ Y ≤ 30) = ∫
25
(1/30)dy = 30 – 25 / 30 = 5/30 = 1/6

La probabilidad de que el cliente llegue a la caja en cualquier otro
intervalo de 5 minutos, es también de 1/6.



Se toman 2 muestras de tamaños 8 y 10 de dos poblaciones normalmente
distribuidas con varianzas respectivas 20 y 36. Hallar la probabilidad de que la
varianza de al primera sea doble que la de al segunda.





100
.
.
.
.
.
.
.
.
.

Solución:

Tenemos N
1
=8, N
2
=10, = = __ 36 20
2
2
2
1
o o y

2
2
2
1
2
2
2
1
85 . 1
) 36 )( 9 /( 10
) 20 )( 7 /( 8
S
S
S
S
F = =

El número de grados de libertad para el numerador y el denominador son V1
=N1-1 = 8-1 =7y V2 = N2-1 = 10-1=9. Ahora bien:

70 . 3 ) 2 )( 85 . 1 ( 85 . 1
2
2
2
1
= > =
S
S
F



































101
.
.
.
.
.
.
.
.
.
DISTRIBUCIÓN GAMMA























EJEMPLO: Suponga que el tiempo X de supervivencia en semanas de un ratón
macho seleccionado al azar y expuesto a 240 rads de radiación gamma,
tiene una

distribución gamma con α=8 y β=15 (datos de Survival Distribution sugieren
α=8.5 y β=13.3). el tiempo esperado de supervivencia es
E(X)=(8)(15)=120 semanas, en tanto que V(X)= (8)(15)
2
=1800
σ = 1800 =42.43 semanas. La probabilidad de que un ratón sobreviva
entre 60 y 120 semanas.
|
|
.
|

\
|
= = s o
|
| o ; ) ; ; ( ) (
x
F x F x X P

P(60 ≤ X ≤ 120) = P(X ≤ 120) – P(X ≤ 60)
= F(120/15 ; 8) – F(60/15 ; 8)
= F(8 ; 8) – F(4 ; 8) = .547 - .051 = 0.496

la probabilidad de que un ratón sobreviva por lo menos 130 semanas es:

P(X ≥ 120) = P(X < 120) =1– (X ≤ 30)
= 1 - F(30/15 ; 8) = 0.999

Suponga que el tiempo de reacción X a cierto estímulo en un individuo
seleccionado al azar, tiene una distribución gamma estándar con α = 2 s.
Puesto que

102
.
.
.
.
.
.
.
.
.

P (a ≤ X ≥ b) = F(b) – F(a)
Cuando X es continua,
P (3 ≤ X ≥ 5) = F(5;2) – F(3;2) = .960 - .801 = .159

La probabilidad de que el tiempo de reacción sea más de 4 s es:
P(X > 4) = 1 - P (X ≤ 4) = 1 - F(4;2) = 1 - .908 = .092
La función gamma incompleta también se puede utilizar para calcular
probabilidades en las que aparezcan distribuciones gamma que no sean
estándar.


Un distribuidor mayorista de gasolina tiene taques de almacenamiento con un
aprovisionamiento fijo. Los tanques se llenan cada lunes. Para el mayorista es
interesante la proporción de este volumen que vende durante la semana.
Durante muchas semanas se ha observado que esa proporción se modela muy
bien con una distribución beta con α = 4 y β = 2. Calcular el valor esperado de
esa proporción. ¿Será muy probable que el mayorista vende por lo menos el
90% de su capacidad en una semana determinada?

SOLUCION: De acuerdo con los datos mencionados, sea X la proporción del
suministro total que se vende en una semana determinada,

E (X) = α / α + β = 4 / 6 = 2 / 3

Para la segunda parte, lo que interesa es:
1
P(X > 0.9) = ∫
0.9
[Г(4 + 2) / Г(4) Г(2)] x
3
(1 - x)dx
1
= 20 ∫
0.9
(x
3
– x
4
)dx = 20 (0.004) = 0.08

No es muy probable que se venda el 90% del suministro de una semana
determinada.



Suponga que Y tiene una función de densidad de probabilidad gamma.
Demuestre que , para los números a y b con 0<a y 0<b.
) ( ) / ( b Y P a Y b a Y P > = > + >

Solución:
De la definición de probabilidad condicional tenemos que:

) (
) (
) / ) (
a Y P
b a Y P
a Y b a Y P
>
+ >
= > + >
Porque la intersección de lo eventos (Y>a=b) y (Y>a) es el evento (Y>a+b).
Ahora

| |
|
/ /
1
) (
a y
a
e dy e a y P
÷ ÷
·
= = >
}


103
.
.
.
.
.
.
.
.
.

Luego

) ( ) / (
/
/
/ ) (
b Y P e
e
e
a Y b a Y P
b
a
b a
> = = = > + >
÷
÷
+ ÷
|
|
|





Suponga que la longitud de tiempo, Y, para un cheque de mantenimiento
periódico de una maquina sigue una distribución gamma de α = 3 y β = 2.
Suponga que el nuevo fontanero tarda 14 minutos en verificar una maquina
¿Aparece que este tiempo en realizar el cheque de mantenimiento discrepa
con la experiencia anterior?

La media es:

µ = α β y σ
2
= α β
2


Entonces.

µ = α β = (3) (2) = 6

σ
2
= α β
2
= (3) (4) = 12

46 . 3 12 = = o

14 - 6 = 8 minutos

En el ejemplo Y =14 minutos excedentes de 6 minutos por lo tanto K =
46 . 3
8

( )
( ) 1875 . 0
64
12
8
46 . 3 1
8 6
1
2
2
2
2
= = = s s ÷
s s M ÷
K
Y P
K
K Y P o


Suponga que el tiempo de reacción X a cierto estimulo de individuo
seleccionado al azar tiene una distribución gamma estandar con


P( <=X<=b) = F(b) – F (a)
Cuando X es continua

P(3<=Xz=5) = F(5;2) – F(3;2) = .960 - .801 = .159

La probabilidad de que el tiempo de reacción sea mas de 4s es:

P(X>4) = 1 – P(X<=4) = 1 – F (4;2) = 1 - .908 = .092


104
.
.
.
.
.
.
.
.
.

DISTRIBUCIÓN GAMMA

Distribución gamma.
En estadística la distribución gamma es una distribución de
probabilidad continua con dos parámetros k y λ cuya función de
densidad para valores x > 0 es

Aquí e es el número e y Γ es la función gamma. Para valores la aquella es
Γ(k) = (k − 1)! (el factorial de k − 1). En este caso - por ejemplo para describir un proceso de
Poisson - se llaman la distribición distribución Erlang con un parámetro θ = 1 / λ.

El valor esperado y la varianza de una variable aleatoria X de distribución gamma son
E[X] = k / λ = kθ
V[X] = k / λ
2
= kθ
2

Relaciones
El tiempo hasta que el suceso número k ocurre en un Proceso de Poisson de intensidad λ es
una variable aleatoria con distribución gamma. Eso es la suma de k variables aleatorias
independientes de distribución exponencial con parámetro λ.

EJEMPLO: Suponga que el tiempo X de supervivencia en semanas de un ratón
macho seleccionado al azar y expuesto a 240 rads de radiación gamma,
tiene una distribución gamma con α=8 y β=15 (datos de Survival
Distribution sugieren α=8.5 y β=13.3). el tiempo esperado de
supervivencia es E(X)=(8)(15)=120 semanas, en tanto que V(X)=
(8)(15)
2
=1800 σ = 1800 =42.43 semanas. La probabilidad
de que un ratón sobreviva entre 60 y 120 semanas.
|
|
.
|

\
|
= = s o
|
| o ; ) ; ; ( ) (
x
F x F x X P

P(60 ≤ X ≤ 120) = P(X ≤ 120) – P(X ≤ 60)
= F(120/15 ; 8) – F(60/15 ; 8)
= F(8 ; 8) – F(4 ; 8) = .547 - .051 = 0.496

la probabilidad de que un ratón sobreviva por lo menos 130 semanas es:

P(X ≥ 120) = P(X < 120) =1– (X ≤ 30)
= 1 - F(30/15 ; 8) = 0.999

105
.
.
.
.
.
.
.
.
.





DISTRIBUCIÓN T

Una de las distribuciones que tiene mayor uso en el análisis de datos provenientes de
experimentos científicos es la llamada t de Student.
La distribución t es simétrica, con media cero y de forma semejante a la normal estándar.
Surge de la siguiente definición:
Si Z es una variable N(0,1), y si X
2
~

X
2
(v)
y es independiente de de Z, entonces la variable
aleatoria definida por:




La cual tiene una distribución t de Student con v grados de libertad:














La distribución t, según se dijo, tienen una apariencia similar a la de la Normal estándar y, de
hecho, se aproxima cada vez más a ésta a medida que se tienen más grados de libertad. La
principal diferencia entre ambas es que la distribución de t tiene más área en las colas que la
N(0,1).


Para calcular probabilidades en la distribución de t se presenta la tabla correspondiente cuyo
uso se explica en seguida.

En la primera columna de la tabla se encuentran diferentes valores de los grados de libertad,
mientras que en la primera hilera aparecen valores α de la variable t, denotados por t
α
(v),
tales que:

Para localizar un valor específico de t
α
(v),se encuentra la hilera con grados de libertad v y
sobre esa hilera la columna con la probabilidad α deseada. El valor que aparece en el cruce de
esa hilera y esa columna es t
α
(v)












106
.
.
.
.
.
.
.
.
.




EJEMPLO: Una empresa realizo un estudio del nivel de nicotina para una muestra de
220 cigarrillos producido por otra empresa. La tabla siguiente muestra la cantidad de
nicotina contenida en cada uno de los cigarrillos de muestra.

22.5 26.7 28.1 24.5 23.9
25.2 23.6 23.4 24.6 24.3
26.0 22.7 23.6 24.1 25.2
25.8 24.7 24.8 27.3 27.0
La media es:
9 . 24
20
0 . 27 ... 5 . 22
=
+ +
= x

La desviación estándar:
53 . 1
19
)) 9 . 24 0 . 27 ( ... ) 9 . 24 5 . 22 ((
1
) (
2
2
=
÷ + + ÷
=
÷
÷
=
¿
n
x x
s

El intervalo de confianza de 95% es o sea 025 . 0
2
05 . 0
= y se localiza en el
renglón 19 que corresponden a los grados de libertad por ser n-1 o sea 20-1,
localizando:
El valor de t es 2.093. entonces la formula queda:

62 . 25 18 . 24
72 . 0 9 . 24 72 . 0 9 . 24
20
53 . 1
* 093 . 2 9 . 24
20
53 . 1
* 093 . 2 9 . 24
* *
2 / 2 /
< <
+ < < ÷
+ < < ÷
+ < < ÷
µ
µ
µ
µ
o o
n
s
t x
n
s
t x


Esto es con probabilidad 0.95 el nivel medio de la nicotina de la marca
competidora esta entre 24.18 y 25.65, o bien que al estimar el nivel medio de
nicotina como 24.9 mg sabemos que un grado de confianza del 95%, el error
es menor a 0.72 mg.


1.- El valor t con v=14 grados de libertad que dejan un área de .025 a la
izquierda, y por tanto un área de .975 a la derecha es:
Solución:

t
0.975
= -t
0.025
= -2.145

2.-Encuentre P(-t
0.025
< T < t
0.05
)
Solución:


107
.
.
.
.
.
.
.
.
.

Como t
0.05
deja un area de 0.05ª la derecha, y -t
0.025
deja un area de 0.025 a la
izquierda encontramos una rea total de:

1 - 0.05 – 0.025 = 0.925

Entre -t
0.025
y t
0.05
de aquí:

P(-t
0.025
< T < t
0.05
) = 0.925




Se afirma que los estudiantes de un colegio tienen un promedio de C.I. mayor
que 100. Se toma una muestra aleatoria de tamaño 16 y se encuentra que la
media muestral es
x = 106. La desviación típica estimada (σ) es de 10 puntos. ¿Responden estos
datos a la afirmación hecha?
La prueba se hace como sigue:

Hipótesis nula, H
0
: μ = 100 Hipótesis alternativa, H
1
: μ > 100

El estadístico t será: t = x – μ / σ / √n = 106 – 100 / 10/ √16 = 2.4

Y tendremos una distribución de t con Ø = 16 – 1 = 15 grados de libertad. Si
admitimos α = 2.5 por cierto, como esta es una prueba unilateral o de un
extremo, obtenemos

P(-2.13 < t < 2.13│Ø = 15) = 0.95

Como t = 2.4, la probabilidad de elegir una muestra con x 0 106, o mayor, de
una población con μ = 100 será menor que 2.5 por cierto.
Por tanto, la diferencia entre x y μ es significativa y rechazamos la hipótesis
nula de μ = 100 y aceptamos la alternativa de μ > 100.


Ejemplo 1:
El valor t con = 14 grados de libertad que deja un área de 0.025 a la
izquierda, y por tanto un área de 0.975 a la derecha, es
t
0.975
=-t
0.025
= -2.145

Si se observa la tabla, el área sombreada de la curva es de la cola derecha, es
por esto que se tiene que hacer la resta de . La manera de encontrar el

108
.
.
.
.
.
.
.
.
.

valor de t es buscar el valor de en el primer renglón de la tabla y luego
buscar los grados de libertad en la primer columna y donde se intercepten y
se obtendrá el valor de t.
Ejemplo 2:
Encuentre k tal que P(k < t < -1.761) = 0.045, para una muestra aleatoria de
tamaño 15 que se selecciona de una distribución normal.
Solución:

Si se busca en la tabla el valor de t =1.761 con 14 grados de libertad nos
damos cuenta que a este valor le corresponde un área de 0.05 a la izquierda,
por ser negativo el valor. Entonces si se resta 0.05 y 0.045 se tiene un valor de
0.005, que equivale a . Luego se busca el valor de 0.005 en el primer
renglón con 14 grados de libertad y se obtiene un valor de t = 2.977, pero como
el valor de está en el extremo izquierdo de la curva entonces la respuesta
es t = -2.977 por lo tanto:
P(-2.977 < t < -1.761) = 0.045




109
.
.
.
.
.
.
.
.
.







D I S T R I B U C I O N D E P R O B A B I L I D A D B E T A .


Características:
¬ Posee 2 parámetros, definida en el intervalo cerrado 0 X y X 1
Definición: Una V. A. Y tiene una distribución de probabilidad beta sí:
1 0 ;
) , (
) 1 (
) (
1 1
s s
÷
=
÷ ÷
y
B
y y
y f
| o
| o

Donde:
) (
) ( ) (
) 1 ( ) , (
1
1
0
1
| o
| o
| o
| o
+ I
I I
= ÷ =
÷ ÷
}
dy Y y B

Si Y es una V. A. con distribución de probabilidad Beta con parámetros α > 0 y β > 0,
entonces:

| o
o
µ
+
= = ) (Y E
) 1 ( ) (
) (
2
2
+ + +
= =
| o | o
o|
o Y V


110
.
.
.
.
.
.
.
.
.


Esta distribución se puede utilizar como un modelo del porcentaje de impurezas presentes en
un producto químico o cantidad de tiempo que una maquina esta en reparación












E J E M P L O:


Los gerentes de proyecto utilizan por lo regular el método llamado PERT (
Program Evaluation and Review Technique) para coordinar diversas
actividades que conforman un gran proyecto. Una suposición estándar del
análisis PERT es que el tiempo necesario para realizar cualquier actividad
particular, una vez que se haya iniciado, tiene una distribución Beta con A =
tiempo optimista (sí todo va bien) y B = tiempo pesimista (sí todo sale mal).
Supongamos que en la construcción de una casa, el tiempo X (en días)
necesario para colocar los cimientos tiene una distribución Beta con A = 2, B=
5, α = 2 y β= 3.



Entonces , 4 =
+ | o
o
así que E(x) = 2+ (3) (.4)=3.2. Para estos valores de α y β,
la pdf. de x es una función polinomial sencilla. La probabilidad de que se tome
a lo sumo tres días para poner los cimientos es:






111
.
.
.
.
.
.
.
.
.

407 . )
3
5
)(
3
2
(
! 2 ! 1
! 4
*
3
1
) 3 (
2
3
2
=
÷ ÷
= s
}
dx
X X
X P






La distribución B se usa para modelar la variación en la proporción o porcentaje
de una cantidad que se presenta en muestras diferentes, tales como la
proporción de horas que duerme un individuo.

1.-Supongamos que una distribución Beta es definida por n= 11 y r= 5; ¿Cuál
es la probabilidad de que p sea menor o igual a p’ = 0.30?

( ) | | 3 . 0 , 1 11 ; 5 ) 11 ; 5 . 0 ( ÷ > = s
B
r P p P
|

= 1- B (4; 10, 0.3)
= 1- 0.84973
= 0.15027



2.-Nuevamente, para la misma distribución Beta anterior, ¿ Cual es la
probabilidad de que p sea menor o igual a p’ = 0.7?

( ) ( ) ( ) ( ) | | 7 . 0 1 , 1 11 ; 5 11 11 , 5 ; 7 . 0 ÷ ÷ ÷ ( = s r P p P
B |

=P
B
(r<6;10, 0.3)

= 0.95265








E J E M P L O:


Los gerentes de proyecto utilizan por lo regular el método llamado PERT (
Program Evaluation and Review Technique) para coordinar diversas
actividades que conforman un gran proyecto. Una suposición estándar del
análisis PERT es que el tiempo necesario para realizar cualquier actividad
particular, una vez que se haya iniciado, tiene una distribución Beta con A =
tiempo optimista (sí todo va bien) y B = tiempo pesimista (sí todo sale mal).
Supongamos que en la construcción de una casa, el tiempo X (en días)

112
.
.
.
.
.
.
.
.
.

necesario para colocar los cimientos tiene una distribución Beta con A = 2, B=
5, α = 2 y β= 3.



Entonces , 4 =
+ | o
o
así que E(x) = 2+ (3) (.4)=3.2. Para estos valores de α y β,
la pdf. de x es una función polinomial sencilla. La probabilidad de que se tome
a lo sumo tres días para poner los cimientos es:




407 . )
3
5
)(
3
2
(
! 2 ! 1
! 4
*
3
1
) 3 (
2
3
2
=
÷ ÷
= s
}
dx
X X
X P






La distribución B se usa para modelar la variación en la proporción o porcentaje
de una cantidad que se presenta en muestras diferentes, tales como la
proporción de horas que duerme un individuo.



Función Beta

Aplicación de las técnicas PERT:
- Determinar las actividades necesarias y cuando lo son.
- Buscar el plazo mínimo de ejecución del proyecto.
- Buscar las ligaduras temporales entre actividades del proyecto.

113
.
.
.
.
.
.
.
.
.

- Identificar las actividades críticas, es decir, aquellas cuyo retraso en la
ejecución supone un retraso del proyecto completo.
- Identificar el camino crítico, que es aquel formado por la secuencia de
actividades críticas del proyecto.
- Detectar y cuantificar las holguras de las actividades no críticas, es
decir, el tiempo que pueden retrasarse (en su comienzo o finalización)
sin que el proyecto se vea retrasado por ello.
- Si se está fuera de tiempo durante la ejecución del proyecto, señala las
actividades que hay que forzar.
- Nos da un proyecto de coste mínimo.

1.-Supongamos que una distribución Beta es definida por n= 11 y r= 5; ¿Cuál
es la probabilidad de que p sea menor o igual a p’ = 0.30?

( ) | | 3 . 0 , 1 11 ; 5 ) 11 ; 5 . 0 ( ÷ > = s
B
r P p P
|

= 1- B (4; 10, 0.3)
= 1- 0.84973
= 0.15027

2.-Nuevamente, para la misma distribución Beta anterior, ¿ Cual es la
probabilidad de que p sea menor o igual a p’ = 0.7?

( ) ( ) ( ) ( ) | | 7 . 0 1 , 1 11 ; 5 11 11 , 5 ; 7 . 0 ÷ ÷ ÷ ( = s r P p P
B |

=P
B
(r<6;10, 0.3)

= 0.95265




EJEMPLO: Los sensores de infrarrojo de un sistema robótico computarizado envía
información a otros sensores en diferentes formatos. El porcentaje y las señales que se
envían y que son directamente compatibles para todos los sensores el sistema sigue
una distribución beta con α = β = 2.

a. Calcule la probabilidad de que mas de 30% de las señales de infrarrojo enviadas en el
sistema sean directamente compatibles para todos los sensores.
b. Calcule la media y la varianza y.

1 y 0 , ) 1 (
) ( ) (
) (
) , (
) 1 (
) (
1 1
1 1
s s ÷
I I
+ I
=
÷
=
÷ ÷
÷ ÷
| o
| o
| o
| o
| o
y y
B
y y
y f

a) Si sustituimos α = β = 2 en la expresión de f(y) obtenemos.

114
.
.
.
.
.
.
.
.
.

) 1 ( 6 ) (
) ! 1 )( ! 1 (
) 1 ( ) ! 3 (
) 2 ( ) 2 (
) 1 ( ) 2 2 (
) (
1 2 1 2
y y y f
y y y y
y f
÷ =
÷
=
I I
÷ + I
=
÷ ÷


La probabilidad que buscamos es P(y > 0.30).
0.514 ) 6(0.085667
3
) 3 (.
3
1
2
) 3 (.
2
1
6
3 2
6 6
) ( 6 ) 1 ( 6 ) 30 . 0 (
3 2
1
30 . 0
3
1
30 . 0
2
1
30 . 0
2
1
30 . 0
1
30 . 0
2
1
30 . 0
= =
)
`
¹
¹
´
¦
|
|
.
|

\
|
÷ ÷ ÷ =
¦
)
¦
`
¹
¦
¹
¦
´
¦
(
¸
(

¸

÷
(
¸
(

¸

=
(
¸
(

¸

÷ =
÷ = ÷ = >
} }
} }
y y
dy y ydy
dy y y dy y y y P

b) La media y la varianza.

( ) ( )
( ) ( )
05 . 0
) 5 )( 16 (
4
1 2 2 2 2
) 2 )( 2 (
5 . 0
4
2
2 2
2
1
y
2
2
2
2
= =
+ + +
=
= =
+
=
+ + +
=
+
=
o
µ
| o | o
o|
o
| o
o
µ










115
.
.
.
.
.
.
.
.
.
















La función generadora de momentos

Supóngase que X es una variable aleatoria; es decir, X es una función del espacio muestral a
los números reales. Al calcular diversas características de la variables aleatoria X, como E(X) o
V(X), trabajamos directamente con la distribución de probabilidades de X. La distribución de
probabiIidades esta dada por una función: la fdp en el caso continuo, o las probabilidades
puntuales p(xi) = P(X = xi) en el caso discreto. La ultima también se puede considerar como
una función que toma valores distintos de cero sólo si X = xi, i = 1, 2,------. Posiblemente
podemos presentar otra función y hacer los cálculos necesarios mediante ella (tal como antes
asociábamos con cada número un nuevo número). Esto es, de echo, lo que haremos
precisamente. Primero daremos una definición normal.


Definición. Sea X una variable aleatoria discreta con distribución de
probabilidades P(xi)=P(X = xi), i = 1, 2,..........La función, MX, llamada función
generadora de momentos de X, se define con:

¿
·
=
=
1
) ( ) (
j
xj p
txj
e t MX


Si X es una variable aleatoria continua con fdp f, definimos la función
generadora de momentos con


116
.
.
.
.
.
.
.
.
.

dx x f
tx
e t MX
}
· +
· ÷
= ) ( ) (


Observaciones: a) tanto en el caso discreto como en el continuo, Mx(t) es
simplemente el valor esperado de e
tX
. Por tanto, podemos combinar las
expresiones anteriores y escribir:

) ( ) (
tX
e E t MX =

V. MX(t) es el valor que toma la función MX por la variable (real) t. La notación que indica
la dependencia de X se usa porque quizá deseemos considerar dos variables
aleatorias, X y Y, y luego investigar la función generadora de momentos de cada una,
esto es, Mx y My.


VI. Usaremos la forma abreviada fgm para la función generadora de
momentos.

VII. La fgm, como se definió anteriormente, se escribe como una serie
infinita o integral (impropia), dependiendo de si la variable aleatoria es
discreta o continua. Tal serie (o integral) puede no existir siempre (es
decir; convergir aun valor infinito) para todos los valores de t. Por tanto,
puede suceder que la fgm no esté definida para todos los valores de t.
Sin embargo, no nos interesará esta posible dificultad. Cada vez que
hagamos uso de la fgm, siempre supondremos que existe. (Para t = O,
/a fgm siempre existe y es Igual a 1.)

VIII. Hay otra función muy relacionada con la fgm que a menudo se usa en
su lugar. Se llama función característica, se denota con Cx, y se define
con Cx(t) = E(e
itX
), donde i=(-1)
1/2
, la unidad imaginaria. Por razones
teóricas, hay una ventaja considerable al usar Cx(t) en vez de Mx(t).
Por esta razón, Cx(t) siempre existe para todos los valores de t. Sin
embargo, a fin de evitar cálculos con números imaginarios complejos
restringiremos nuestra exposición a la función generadora de
momentos.


Teorema 1

M
(n)
(0)=E(X
n
)

(Esto es, la n-ésima derivada de Mx(t) calculada en t=0 da E(X
n
)


117
.
.
.
.
.
.
.
.
.

Los números E(X
n
), n=1, 2, ........, se llaman n-ésimos momentos de la
variable aleatoria X respecto a cero. Por tanto, hemos demostrado que
conociendo la función Mx, pueden generarse los momentos (de aquí el nombre
de función generadora de momentos).


Teorema 2

Supóngase que la variable aleatoria X tiene fgm Mx sea Y = oX+|. Entonces, My, la
fgm de la variable aleatoria Y, esta dada por:

My(t) = e
|t
Mx(ot).




En palabras, para encontrar la fgm la fgm de Y=oX+| calculamos la fgm
en ot (en vez de t) y multiplicamos por e
|t


My(t) = E(e
Yt
) = E[e
(xX+|)t
]

= e
|t
E[e
otX
] = e
|t
Mx(ot)




Problemas

Supóngase que X está distribuida uniformemente en el intervalo [a,b]. Por
lo tanto la fgm es:

0 ,
) (
1
) (
) ( = ÷
÷
=
}
÷
=
(
¸
(

¸

t
at
e
bt
e
t a b
b
a
dx
a b
tx
e
t Mx



Supóngase que X tiene una distribución exponencial con parámetro o. por lo
cual tenemos:



118
.
.
.
.
.
.
.
.
.

o
o
o
o
o o
o
o
o
o
<
÷
=
÷
÷
=
}
· ÷
=
}
·
÷
=
<
t
t
t x
e
a t
t MX
dx
t x
e dx
x
e
tx
e t MX
,
0
) (
) (
0
) (
0
) (
t. de valores esos para sólo existe fgm la . t si converge integral Esta




Supóngase que X tiene una distribución N(µ,o
2
). por lo cual tenemos:


| |
| | ds ts s
t t
e
ds t ts s
t
e
ds ts s
t
e
ds
s
e s t t MX
dx
x
tx
e t MX
s
)
2
2 / 1 exp(
2
1 2 /
2 2
))
2 2 2
( 2 / 1 exp(
2
1
) 2
2
2 / 1 exp(
2
1
2 /
2
)) ( exp(
2
1
) (
) 2 / 1 exp(
2
1
) (
por tanto ds. dx y s x así ; )/ - (x Sea
o
o µ
o o
µ
o
µ
µ o
o
µ
o
o µ o o µ
÷ ÷
}
· +
· ÷
[
+
=
÷ ÷ ÷
}
· +
· ÷
[
=
÷ ÷
}
· +
· ÷
[
=
}
· +
· ÷
÷
+
[
=
÷
÷
}
· +
· ÷
[
=
(
¸
(

¸

= + = =
(
¸
(

¸

Sea s-ot=v; entonces ds=dv y obtemos

) 2 /
2 2
(
2 /
2
2
1 2 /
2 2
) (
t t
e dv
v
e
t t
e t MX
o µ o µ +
=
}
· +
· ÷
÷
[
+
=




Supóngase que X sea una distribución gama con parámetros o y r. Por lo cual
tenemos:



119
.
.
.
.
.
.
.
.
.

r
t
t MX
puesto
du
u
e
r
u
r
r
t
du
u
e
r
t
u
r t
r
t MX
dx
t x
e
r
x
r
r
dx
x
e
r
x
yx
e
r
t MX
|
|
.
|

\
|
|
|
.
|

\
|
|
|
.
|

\
|
=
= >
÷
=
I
}
·
÷
÷
I ÷
=
}
·
÷
÷
÷
I ÷
=
÷ ÷
}
·
÷
I
=
÷ ÷
}
·
I
=
o
o
o
o
o
o
o
o o
o
o
o
o
o o
) (
tenemos (r), a igual es integral la que
0
1
) (
1
) (
0
1
) (
) ( ) (
) (
) (
0
1
) (
1
) (
0
) (
) (
obtenemos y
t) - (du)/( dx
: así u; t) - x( sea t. que de condición a converge integral esta



Considere una variable aleatoria continua con densidad


f(y)= {e
y
si y<0
{0 en cualquier otro punto

Encuentre la función generadora de momentos m(t) de y.


m(t)=e
ty
E
=
t t
e
e e e
y
t y ty y
+
=
+
= =
·
·
+
·
} }
1
1
1 0
0
) 1 (
0



Hallar los primeros cuatro momentos alrededor del origen, para una variable aleatoria X
con función de densidad.




120
.
.
.
.
.
.
.
.
.

¦
¦
¹
¦
¦
´
¦ s s ÷
=
f orma otra de
x x x
x f
0
3 0 81 / ) 9 ( 4
) (
2


}
= = ÷ = =
3
0
2 2 ¨
1
5
8
) 9 (
81
4
) ( µ µ x x X E




}
= ÷ = =
3
0
2 3 ¨
2
3 ) 9 (
81
4
) ( x x X E µ



}
= ÷ = =
3
0
2 4 ¨
3
35
216
) 9 (
81
4
) ( x x X E µ

}
= ÷ = =
3
0
2 5 ¨
4
8750
3693
) 9 (
81
4
) ( x x X E µ




Teorema de Tchebysheff

Sea Y una variable aleatoria continua con un a función de densidad f(y)
Entonces para cualquier k > o
2 2
P( ¦Y - µ¦ < k o >1 – 1/ k o´ P( ¦Y - µ¦ > k o >1 – 1/ k

2
En donde E(Y) =µ y V(Y) = o < ·

















121
.
.
.
.
.
.
.
.
.








MODULO V.- Distribución de probabilidad bivariada.

Contenido
a)Variable aleatoria bivariada
Variable aleatoria bivariada discreta, variable aleatoria bivariada continua,
función de densidad de porbabilidad conjunta y discreta, función de
distribución acumulada y sus propiedades, propiedades de la función de
densidad conjunta,
b) Distribución de probabilidad marginal y de probabilidad condicional,
definición de función de probabilidad marginal caso discreto, definición
de función de probabilidad marginal caso continuo, definición de función
de probabilidad condicional caso discreto, función de probabilidad
condicional caso continuo,.
c) Variables aleatorias independientes
Definición de variables aleatorias independientes caso discreto,
definición de variables aleatorias independientes caso continuo.
d) Valor esperado de una función de variables aleatorias
Definición de valor esperado de una función de v.a.d, definición de valor
esperado de una constante por una función de variables aleatorias, valor
esperado de una constante, el valor esperado d ela suma de funciones de
variables aleatorias, el valor esperado de las variables aleatorias
independientes.
e) La covarianza de dos variables aleatorias.
Definición de covarianza de dos variables aleatorias, teorema
f) Teorema central del límite
g) Regresión lineal
h) Regresión no lineal

















122
.
.
.
.
.
.
.
.
.






VARIABLES ALEATORIAS BIVARIADAS DISCRETAS.

Las variables aleatorias bivariadas discretas son funciones de distribución de
probabilidad bivariada.
Si (X,Y) es una variable aleatoria bivariada su función de
distribución de probabilidad p(x,y) debe satisfacer:
1) 0<p(x,y) < 1
2)
¿¿
p(x,y)= 1
x y

Ejemplo


Sean X y Y dos variables aleatorias continuas con función de densidad de probabilidad
conjunta dada por:


( x + y ) , 0 < x , y < 1,

0 , para cualquier otro valor

Graficar la función de densidad de probabilidad conjunta, determinar la función de
distribución acumulativa conjunta y obtener la probabilidad conjunta de que X < 1/2 y
Y < 3/4 .










Entonces:

f (x,y) =
{
( x + y ) dy dx = (xy + y / 2) dx = ( x + ½ ) dx = 1

123
.
.
.
.
.
.
.
.
.




esto es cuando 0 < x, y < 1

F (1/2, 3/4) = (1/2)(1/2)(3/4)(1/2 + 3/4) = 15/64
2
= xy + y / 2


2


1 1










Ejercicio 1

Sean X y Y las desviaciones horizontal y vertical respectivamente, de un individuo con
respecto a su lugar de trabajo. En donde X y Y son variables aleatorias, independientes
cada una, con una distribución normal bivariada, medias 0 =
y x
µ µ y varianzas iguales.
¿Cuál es la máxima desviación estándar de X y Y, que permita tener una probabilidad
de 0.99 de que el hombre se encuentre a no más de 500 milímetros de su lugar de
trabajo tanto en dirección vertical como horizontal?
Como o o o =
y x
, la probabilidad conjunta es:
P ( -500 < X < 500, -500 < Y <500 ) = P ( -500 < X < 500 ) P ( -500 < Y < 500 )
= |
.
|

\
|
< < ÷
|
.
|

\
|
< < ÷
o o o o
500 500 500 500
Z P Z P
=
2
2
500 500
|
.
|

\
|
< < ÷
o o
Z P
Puesto que por hipótesis es:
99 . 0
500 500
2
2
=
|
.
|

\
|
< < ÷
o o
Z P
F(x, y) = (u + v) dv du = (uy + y / 2) du = xy + (x + y) / 2
0

124
.
.
.
.
.
.
.
.
.

99499 . 0
500 500
=
|
.
|

\
|
< < ÷
o o
Z P
ó
0025 . 0
500
2
=
|
.
|

\
|
>
o
Z P
pero
( ) 0025 . 0 81 . 2 = > Z P
Por lo tanto 500/σ = 2.81 y 94 . 177 =s =
y x
o o milímetros.









































125
.
.
.
.
.
.
.
.
.

FUNCIONES DE DENSIDAD DE PROBABILIDAD CONJUNTAS DISCRETAS
Y CONTINUAS.


FUNCIONES DE DENSIDAD DE PROBABILIDAD CONJUNTAS DISCRETAS.

Una distribución conjunta es discreta, si cada variable aleatoria
tiene distribución marginal discreta. En este caso el espectro
conjunto estará compuesto de un numero finito de parejas (m,n).


FUNCIONES DE DENSIDAD DE PROBABILIDAD CONJUNTAS
CONTINUAS.

Una distribución conjunta es continua si su función de repartición F
xy
(x,y) es
continua para todos los valores de x,y ; y además posee segundas derivadas
parciales mixtas (excepto quizás en un conjunto finito o infinito numerable de
puntos), en tal caso la derivada parcial mixta (cualquiera de ellas puesto que
son iguales) se denomina función de densidad conjunta:


x y
) y , x ( F
y x
) y , x ( F
) y , x ( f
xy
2
xy
2
xy
c c
c
=
c c
c
=



Ejemplo

Se lanzan al aire tres monedas independientemente. Una de las variables de
interés es Y
1
=el número de casos. Sea Y
2
la cantidad de dinero ganado en una
apuesta que se realiza de la siguiente manera. Si la primera cara ocurre en el
primer lanzamiento, se ganará 1 dólar. Si la primera cara ocurre en las tiradas 2
y 3 dólares, respectivamente. Si no cae una cara, se perderá 1 dólar (es decir
se ganará 1 dólar).
a) Determine la función de probabilidad conjunta para Y
1
y Y
2
.
b) ¿Cuál es la probabilidad de que ocurran menos de tres caras y que se
gane 1 dólar o menos? [es decir obtenga F(2,1)]

espacio muestral:

126
.
.
.
.
.
.
.
.
.

x x x
x c x
c x x
c c x
c x c
x x c
x c c
c c c
3 2 1
P = 1 / 8



Y1
Y2 0 1 2 3
1 0 1/8 2/8 1/8
2 0 1/8 1/8 0
3 0 1/8 0 0
-1 1/8 0 0 0


2
1
) 1 , 2 ( ) 1 , 2 (
) 1 , 2 (
) , ( ) , (
2 1
2 1
= s s =
s s =
y y P F
F
b Y a Y P b a F

127
.
.
.
.
.
.
.
.
.

p x y , ( )
x y +
30
:=
p x y , ( )
¿
1 := a
¿
15a :=
a
¿
1 := a
¿
a
¿
89a := a por lo tanto a:1/89
Si la distribución de probabilidad conjunta de X y Y esta dada por:

f (x, y) = a(x
2
+ y
2
) para x = -1,0,1,3 ; y = -1,2,3

a) Encuentre el valor de a.
p(-1,1) = 2a p(0,-1) = a p(1,-1) = 2a p(3,-1) = 10a
p(-1,2) = 5a p(0,2) = 4a p(1,2) = 5a p(3,2) = 13a
p(-1,3) = 10a p(0,3) = 9a p(1,3) = 10a p(3,3) = 18a





-1 0 1 3
-1 2/89 1/89 2/89 10/89
2 5/89 4/89 5/89 13/89
3 10/89 9/89 10/89 18/89

P(x ≤ 1, y >2 ) = p(-1,3) + p(0,3) + p(1,3) = 1/89 ( 10 + 9 + 10 ) = 29/89

P(x = 0, y ≤ 2) = p(0,-1) + p(0,2) = 1/89 (1 + 4 ) = 5/89

p( x + y > 2) = = p(0,3) + p(1,2) + p(1,3) + p(3,2) + p(3,3) = 1/89 (9+5+10+13+18) =
55/89







Función de probabilidad conjunta



Dada

a) Determine que es una función de probabilidad.
b) Determinar lo siguiente:

P(x + y ≤ 3) ; P( x =1│y =2) ; P(2x + y > 1) ; P(2x + y ≤ 2) ; P(3x, 2y) ; F(2,2) ; F(1,2) ;
F(3,1)


0 1 2 3
0 0 1/30 2/30 3/30
1 1/30 2/30 3/30 4/30
2 2/30 3/30 4/30 5/30

a)

= p(0,0) + p(0,1) + p(0,2) + p(1,0) + p(1,1) + p(1,2) + p(2,0) + p(2,1) +
p(2,2) + p(3,0)
+ p(3,1) + p(3,2)

128
.
.
.
.
.
.
.
.
.

p x y , ( )
¿
1 := a
¿
15a :=


= 1/30 + 2/30 +1/30 +2/30 +3/30 +2/30 +3/30 +4/30 +3/30 + 4/30 +
5/30 = 30/30 = 1


Por lo tanto, podemos afirmar que es una función de probabilidad


b)

P(x + y ≤ 3) = p(0,0) + p(0,1) + p(0,2) + p(1,0) + p(1,1) + p(1,2) + p(2,0) + p(2,1) +
p(3,0)
= 1/30 ( 1 + 2 + 1 + 2 + 3 + 2 + 3 + 3 ) = 17/30


P( x =1│y =2) = p(x∩y) / h(y) = p(1,2)/ h(2) = 3/30 / 14/30 = 3/14



P(2x + y > 1) = p(0,2) + p(1,1) + p(1,2) + p(2,0) + p(2,1) + p(2,2) + p(3,0) + p(3,1) +
p(3,2)
= 1/30 ( 2 + 2 + 3 + 2 + 3 + 4 + 3 + 4 + 5 ) = 28/30


P(2x + y ≤ 2) = p(0,1) + p(0,2) + p(1,0) = 1/30 ( 1 + 2 + 1 ) = 4/30


P(3x, 2y) = p(0,0) + p(0,2) + p(3,0) + p(3,2) = 1/30 ( 2 + 3 + 5 ) = 10/30 = 1/3


F(2,2) = p(0,0) + p(0,1) + p(0,2) + p(1,0) + p(1,1) + p(1,2) + p(2,0) + p(2,1) + p(2,2)
= 1/30 (1 + 2 + 1 + 2 + 3 + 2 + 3 +4 ) = 18/30


F(1,2) = p(0,0) + p(0,1) + p(0,2) + p(1,0) + p(1,1) + p(1,2) = 1/30 (1 + 2 + 1 + 2 + 3 ) =
9/30


F(3,1) = p(0,0) + p(0,1) + p(1,0) + p(1,1) + p(2,0) + p(2,1) + p(3,0) + p(3,1)
= 1/30 (1 + 1 + 2 + 2 + 3 + 3 + 4 ) = 16/30 = 8/15



FUNCI ONES DE DI STRI BUCI ON ACUMULADAS CONJ UNTAS Y SUS PROPI EDADES.

Se define la función de distribución de probabilidad acumulativa conjunta como:
F
XY
(x,y):= P[
X
s
x
,
Y
s
y
] Que cumple con las propiedades:

i) F
XY
(-·, -·) = 0
ii) F
XY
(·, ·) = 1



Sí x
1
< x
2
-------- F
XY
(x
1
,y) s F
XY
(x
2
,y)

129
.
.
.
.
.
.
.
.
.

Sí y
1
< y
2
--------- F
XY
(x
1
,y
1
) s F
XY
(x
2
,y
2
)

0 s F
XY
(x,y) s 1




PROPI EDADES DE LAS FUNCI ONES DE DENSI DAD CONJ UNTA.

0 s g
xy
(m,n) s 1

1 ) n , m ( g
) n , m (
xy
=
¿


) n , m ( g
) n , m (
xy ¿




b) DI STRI BUCI ONES DE PROBABI LI DAD MARGI NAL Y DE PROBABI LI DAD CONDI CI ONAL

Con cada variable aleatoria bidimensional (X,Y) asociamos dos variables
aleatorias unidimensionales llamadas X y Y, respectivamente. Es decir;
podemos interesarnos por la distribución de probabilidad de X o por la
distribución de probabilidad de Y.


Definición de función de probabilidad marginal caso discreto

En el caso discreto procedemos así: puesto que X = x
i
debe ocurrir con Y = y
j

para una j, y puede ocurrir con Y = y
j
para solo una j, tenemos:

P(x
i
) = P ( X = x
i
) = P(X = x
i
, Y = y
1
o X = x
i
, Y = y
2
o ……) =
¿
·
=1
) , (
j
j i
y x p
La función p definida para x
1
, x
2
, ……, representa la distribución marginal de
probabilidad de X.
Análogamente definimos q(y
j
) = p(Y = Yj) =
¿
·
=1
) , ( 1
j
j i
y x p como la distribución
marginal de probabilidad de Y.








130
.
.
.
.
.
.
.
.
.

Ejemplo

De un grupo de tres republicanos, dos demócratas y un independiente, debe
seleccionarse al azar un comité de dos personas. Sea Y
1
el número de republicanos y Y
2

el número de demócratas en el comité. Encuentre la distribución marginal de Y
1
.


Para encontrar P1(y1), se tiene que sumar para todos los valores Y2,
entonces esta probabilidades están dadas por los totales de las
columnas (por tablas).

P
1
(0) = p ( 0,0) + p (0,1) + p (0,2)

= 0 + 2/15 + 1/15 = 3/15





Y
1




Y
2
0 1 2 Total


0 0 3/15 3/15 6/15
1 2/15 6/15 0 8/15
2 1/15 0 0 1/15

Total 3/15 9/15 3/15 1



P
1
( 1) = 9/15, p1(2) = 3/15

La distribución marginal de Y
2
está dada por los totales de los renglones.

Ejercicio 1

Una planta recibe reguladores de voltaje de dos diferentes proveedores, B1 y B2; el 75%
de los reguladores se compra a B1 y el resto a B2. El porcentaje de reguladores
defectuosos que reciben de B1 es 8% y el de B2 es el 0%. Determinar la probabilidad de
que funcione un regulador de voltaje de acuerdo con las especificaciones (es decir, el
regulador no está defectuoso)

131
.
.
.
.
.
.
.
.
.

0 x s 1 s
8 x · y ·
0 y s x s
0 en otro caso

Sea A el evento el regulador de regulador es no defectuoso. Es claro que ningún
regulador de voltaje puede ser vendido tanto por B1 como por B2; por lo tanto B1 y
B2 son disjuntos. Esto como resultado.


P (A) = P ( A B1) + P (A B2),

P (A B1) = P (B1)P(A/B1)

P (A B2) = P (B2)P(A/B2)

P(B1) =0.75, P (B2) = 0.25, P (A/B1) =0.92, y P (A/B2) =0.9;

Sustituyendo

P (A) = P (B1)P (A/B1) + P (B2)P (A/B2)

= 0.75(0.92) + 0.25(0.90) = 0.915




Definición de función de probabilidad marginal caso continuo.

En el caso continuo procedemos como sigue: sea f la fdp conjunta de la
variable aleatoria bidimensional continua (X,Y). Definimos g y h, las funciones
densidad de probabilidad marginales de X y Y, respectivamente, como sigue:

} }

· ÷

· ÷
= = . ) , ( ) ( ; ) , ( ) ( dx y x f y h dy y x f x g

Estas fdp corresponden a las fdp básicas de las variables aleatorias
unidimensionales de X y Y, respectivamente.


Probabilidad condicional conjunta

Encuentre f (x │y) y f (y│x) si



f(x,y)






132
.
.
.
.
.
.
.
.
.

p xIy ( )
f x y , ( )
h y ( )
:=
p xIy ( )
8 x · y ·
4 y ·
÷ :=
p yIx ( )
f x y , ( )
g x ( )
:=
p yIx ( )
8x y ·
4x
3
÷ :=



c) VARIABLES ALEATORIAS INDEPENDIENTES

Tal como definimos el concepto de independencia entre dos eventos A y B,
ahora definimos las variables aleatorias independientes. Lo que queremos decir
intuitivamente es que X y Y son variables aleatorias independientes si el
resultado de X, digamos, de ninguna manera influye en el resultado de Y. Esta
es una noción extremadamente importante y hay muchas situaciones en que
dicha suposición se justifica.

La independencia de variables aleatorias discretas requiere que p(y
1
, y
2
) = p
1
(y
1
)p
2
(y
2
)
para cada elección (y
1
, y
2
). Así se contraviene esta igualdad por cualquier (y
1
, y
2
), las
variables aleatorias son dependientes.

P(0,0) = 0
Pero p
1
(0) –3/15 y p
2
(0) = 6/15 Por tanto
P (0, 0 ) = p
1
(0) p
2
(0) y
y
1
y y
2
son dependientes.


Ejemplo

Un vendedor obtiene sus ingresos mediante la venta de dos productos distintos. Por
experiencia sabe que el volumen de ventas de A no tiene ninguna influencia sobre el de
B. Su ingreso mensual es de 10% del volumen, en dólares, del producto A y el 15% del
volumen de B. Si en promedio las ventas del producto A ascienden a $10000 con una
desviación estándar de $2000 y las de B a $8000 con una desviación estándar de $1000,
obténgase el valor esperado y la desviación estándar del ingreso mensual del vendedor.

Sea X y Y dos variables aleatorias que representan el volumen de ventas en dólares de
los productos A y B, respectivamente. Por hipótesis:

E (X) = 10 000, d.e (X) = 2 000
E (Y) = 8 000, d.e (X) = 1 000

De esta forma se tiene :

E (0.1X + 0.15Y) = 0.1E (X) + 0.15E (Y) = 2 200


133
.
.
.
.
.
.
.
.
.

y var (0.1X + 0.15Y) = 0.01var (x) + 0.0225var (Y) = 62 500

La desviación estándar es de $ 250.



Ejercicio 1

La probabilidad de que un hombre vivirá 10 años mas es de 1/4 y la probabilidad de que
su esposa vivirá 10 años más es de 1/3. Hallar la probabilidad de que:

 Ambos estén vivos dentro de 10 años.
 Al menos uno estará vivo a los 10 años.
 Ninguno estará vivo a los 10 años.
 Solamente la esposa estará viva a los 10 años.


años. 10 en vivirá esposa lsu
años. 10 en vivirá hombre el
3
1
) B ( P
4
1
) A ( P
=
=

Ambos estén vivos dentro de 10 años.

Puesto que A y B son eventos independientes
P(A·B)=P(A)P(B)=(1/4)*(1/3)=1/2.

Al menos uno estará vivo a los 10 años.

P(AB) = P(A) + P(B) - P(A·B)=(1/4) + (1/3) - (1/12)= 0.5.

Ninguno estará vivo a los 10 años.

P(A
c
)=1-P(A)=1-(1/4)=3/4
P(B
c
)=1-(1/3)=2/3

Puesto que A y B son independientes

P(A
c
·B
c
)= P(A
c
) P(B
c
)=(3/4)*(2/3)=0.5

Solamente la esposa estará viva a los 10 años.

A
c
y B son independientes entonces:
P(A
c
·B)= P(A
c
)P(B)= (3/4)*(1/3)=0.25







134
.
.
.
.
.
.
.
.
.


Definición de Variable Aleatoria independientes caso discreto.

a) Sea (X,Y) una variable aleatoria bidimensional discreta. Entonces X y Y son
independientes si y solo si p(x
i
| y
j
) = p(x
i
) para toda i y j (o lo que es
equivalente, si y solo si q(y
j
| x
i
) = q(y
j
)


Definición de Variable Aleatoria independientes caso continuo
Sea (X,Y) una variable aleatoria bidimensional continua. Entonces X y Y son
independientes si y solo si g(x | y) = g(x), o lo que es equivalente, si y solo si
h(y|x) = h(y) para toda (x,y).



El Valor esperado de una función de variables aleatorias

Ejemplo
Un vendedor obtiene sus ingresos, mediante la venta de dos productos distintos. Por
experiencia sabe que el volumen de ventas de A no tiene ninguna influencia sobre el de
B. Su ingreso mensual es el 10% del volumen, en dólares, del producto A y el 15% del
volumen de B. Si en promedio las ventas del producto A ascienden a $10 000 con una
desviación estándar de $2000 y las de B a $8000 con una desviación estándar de $1000,
obténgase el valor esperado y la desviación estándar del ingreso mensual del vendedor.


Tomando a x, y como 2 V.A. que representan el volumen de ventas en dólares de A y B.

Tenemos:

Suponiendo
8000 ) (
10000 ) (
=
=
y E
x E

1000 ) .( .
2000 ) .( .
=
=
y e d
x e d


Se tiene:
2200 $ ) 15 . 0 1 . 0 (
) ( 15 . 0 ) ( 1 . 0 ) 15 . 0 1 . 0 (
= +
+ = +
y x E
y E x E y x E


Y


62500 ) 15 . 0 1 . 0 (
) ( 0225 . 0 ) ( 01 . 0 ) 15 . 0 1 . 0 (
= +
+ = +
y x Var
y Var x Var y x Var



Con desviación estándar de $250.






135
.
.
.
.
.
.
.
.
.

d) VALOR ESPERADO DE UNA FUNCION DE V.A.

Ejemplo

Y
1
y Y
2
tiene una densidad conjunta


F(y
1
, y
2
) = 2y1 1 0 ; 0
2 1
s s s s y y
0 en cualquier otro punto.


Hallar el valor esperado Y
1


SOLUCION

E(Y
1
) =
} }
1
0
2
1
0
1 1 1
) 2 ( dy dy y y

1 1
=
}
1
0
1
3
2y dy
2
= =
}
2
1
0
2dy = 2
3 0 3 0 3


El valor E(Y
1
) = 2/3


Ejercicio1

Un vendedor obtiene sus ingresos, mediante la venta de dos productos distintos. Por
experiencia sabe que el volumen de ventas de A no tiene ninguna influencia sobre el de
B. Su ingreso mensual es el 10% del volumen, en dólares, del producto A y el 15% del
volumen de B. Si en promedio las ventas del producto A ascienden a $10 000 con una
desviación estándar de $2000 y las de B a $8000 con una desviación estándar de $1000,
obténgase el valor esperado y la desviación estándar del ingreso mensual del vendedor.


Tomando a x, y como 2 V.A. que representan el volumen de ventas en dólares de A y B.

Tenemos:

Suponiendo
8000 ) (
10000 ) (
=
=
y E
x E

1000 ) .( .
2000 ) .( .
=
=
y e d
x e d


Se tiene:
2200 $ ) 15 . 0 1 . 0 (
) ( 15 . 0 ) ( 1 . 0 ) 15 . 0 1 . 0 (
= +
+ = +
y x E
y E x E y x E


Y

136
.
.
.
.
.
.
.
.
.


62500 ) 15 . 0 1 . 0 (
) ( 0225 . 0 ) ( 01 . 0 ) 15 . 0 1 . 0 (
= +
+ = +
y x Var
y Var x Var y x Var



Con desviación estándar de $250.



La función de densidad de una variable aleatoria X esta dada por:

¹
´
¦ < <
=
forma. otra de 0
2 x 0 x
) x ( f
2
1

encontrar el valor esperado:

3
4
6
x
dx
2
x
dx
2
x
x dx ) x ( xF ) X ( E
2
0
3 2
0
2 2
0
x
= = =
|
.
|

\
|
= =
} } }
· ÷




Valor esperado de una constante


Ejemplo

La función de probabilidad conjunta de dos variables aleatorias discretas X, Y esta
dada por:
) 2 ( ) , ( y x c y x f + = , donde x, y pueden tomar todos los valores enteros tales que:
0 ) , ( , 3 0 , 2 0 = s s s s y x yf y x de otra forma.
a) Hallar el valor de la constante c.
b) Hallar P(X=2, Y=1).
c) Hallar P(X > 1, Ys2).


Obteniendo la tabla muestral:

y
x
0 1 2 3 Total
0 0 c 2c 3c 6c
1 2c 3c 4c 5c 14c
2 4c 5c 6c 7c 22c
Total 6c 9c 12c 15c 42c

Tenemos:


137
.
.
.
.
.
.
.
.
.

a)


42
1
1 42
) 2 (
=
=
+
c
c
y x c


b)

42
5
5 ) 1 , 2 ( = = = = c y x P

c)

¿¿
> s
= s >
1 2
) , ( ) 2 , 1 (
x y
y x f y x P

|
.
|

\
|
=
=
+ + + + + =
42
1
24
24
) 6 5 4 ( ) 4 3 2 (
c
c c c c c c

7
4
) 2 , 1 ( = s > y x P







E) DEFINICION DE COVARIANZA DE DOS VARIABLES ALEATORIAS.

Sean X & Y v.v.a.a. definidas sobre un mismo O. Se define la covarianza
entre X & Y como: COV [X , Y]:= E[(X - µ
x
) (Y- µ
Y
)]

Ejemplo

Sean X y Y dos variables aleatorias con una función de densidad conjunta de
probabilidad:

. 1 0 , 0 ) (
3
2
) , ( < < >
¹
´
¦
+ =
÷
y x e y x y x f
x

0 para cualquier otro valor.

Obtener la covarianza y el coeficiente de correlación
de X y de Y.


138
.
.
.
.
.
.
.
.
.

. 1 0 , 0 ) (
3
2
) , ( < < >
¹
´
¦
+ =
÷
y x e y x y x f
x

0 para otro valor.

} }
÷
+ =
x
x
dydx e xy x x E
0
1
0
2
) (
3
2
) (

}
÷
+ =
x
x
dx e
x
x
0
2
)
2
(
3
2


} }
÷ ÷
+ =
x x
x x
dx xe dx e x
0 0
2
3
1
3
2


3
) 2 (
3
) 3 ( 2 I
+
I
=

3
5
) ( = x E


} }
÷
+ =
x
x
dydx e y x x x E
0
1
0
2 3
) (
3
2
) 2 (

} }
÷ ÷
+ =
x x
x x
dx e x dx e x
0 0
2 3
3
1
3
2


3
) 3 (
3
) 4 ( 2 I
+
I
=
3
14
) 2 ( = x E

} }
÷
+ =
x
x
dydx e y xy y E
0
1
0
2
) (
3
2
) (

} }
÷ ÷
+ =
x x
x x
dx e dx xe
0 0
9
2
3
1


9
2
3
) 2 (
+
I
=
9
5
) ( = y E

} }
÷
+ =
x
x
dydx e y xy y E
0
1
0
3 2 2
) (
3
2
) (
=
} }
÷ ÷
+
x x
x x
dx e dx xe
0 0
6
1
9
2

18
7
) (
2
= y E


139
.
.
.
.
.
.
.
.
.

} }
÷
+ =
x
x
dydx e xy y x xy E
0
1
0
2 2
) (
3
2
) (

} }
÷ ÷
+ =
x x
x x
dx xe dx e x
0 0
2
9
2
3
1


9
) 2 ( 2
3
) 3 ( I
+
I
=
9
8
) ( = xy E


) ( ) ( ) ( ) , ( y E x E xy E y x Cov + =
|
.
|

\
|
|
.
|

\
|
+ =
9
5
3
5
9
8


27
1
) , ( ÷ = y x Cov

Dado que:
9
17
) ( ) ( ) (
2 2
= + = x E x E x Var

162
13
) ( ) ( ) (
2 2
= + = y E y E y Var
El coeficiente de correlación queda : 0951 . 0
) 162 / 13 )( 9 / 17 (
27
1
) , ( ÷ =
÷
= y x µ






Ejercicio 1

Sean X y Y dos variables aleatorias con una función de densidad conjunta de
probabilidad

¦
¹
¦
´
¦
( ( ) +
÷
valor otro culaquier para
y x y x
y x f
x
0
1 0 , 0 ) (
3
2
) , (
) (





Obtener la covarianza y el coeficiente de correlación de X y Y.
( ) ( ) dydx y x X E
x
x
÷
} }
+ = 
0
1
0
3
2



140
.
.
.
.
.
.
.
.
.

( )
}
÷
|
.
|

\
|
+ =
x
x
dx
x
x X E
0
2
2 3
2


( ) dx x x dx x X E
x x
x
} }
÷ + =
÷
0 0
2
3
1
3
2
 

( )
( ) ( )
3
2
3
3 2 P P
X E + =

( )
3
5
= X E

( ) ( ) dydx y x x X E
x
x
÷
} }
+ = 
0
1
0
2 3 2
3
2


( ) dx x x dx x X E
x x
x
} }
÷ + =
÷
0
2
0
3 2
3
1
3
2
 

( )
( ) ( )
3
3
3
4 2
2
P P
X E + =

( )
3
14
2
= X E

( ) ( ) dydx y xy Y E
x
x
÷
} }
+ = 
0
1
0
3
3
2


( ) dx dx x Y E
x x
x
} }
+ =
÷
0 0
6
1
9
2
 

( )
( ) ( )
3
2 2
3
3 P P
Y E + =

( )
9
8
= Y E

( ) ( ) dydx xy y x XY E
x
x
÷
} }
+ = 
0
1
0
2
3
2


( ) dx x dx x XY E
x x
x
} }
+ =
÷
0 0
2
9
2
9
2
 

( )
( ) ( )
9
2 2
3
3 P P
XY E + =


141
.
.
.
.
.
.
.
.
.

( )
9
8
= XY E

Por lo tanto

( ) ( ) ( ) ( )
27
1
9
5
3
5
9
8
÷ = |
.
|

\
|
|
.
|

\
|
÷ = ÷ = Y E X E XY E XY Cov
dado que
( ) ( ) ( )
9
17
2 2
= ÷ = X E X E X Var
y
( ) ( ) ( )
162
13
2 2
= ÷ = Y E Y E Y Var
el coeficiente de correlación es

( ) 0951 . 0
162
13
9
17
27
1
÷ =
|
.
|

\
|
|
.
|

\
|
÷
= XY p



Sean Y
1
y Y
2
dos variables aleatorias discretas con la distribución de probabilidad
conjunta. Hallar el valor de la covarianza.



Y1


1 1.16 3.16 1.16
0 3.16 0 3.16
1 1.16 3.16 1.16


las probabilidades marginales de p
1
(-1), p
2
(-1) = 5/16, p
1
(0) p
2
(0) = 6/16 y p
1
(1) p
2
(1)
= 5/16. en la esquina superior izquierda nos da p(1,-1) = 1/16

p( 1, 1) = p
1
(1) p
2
(1)

Entonces E(Y
1
) = E(Y
2
) o también

E(Y
1
, Y
2
)
¿ ¿
2
2 , 1 2 1
1
) (
y y
y y p y y

(1)(1) (1/16) +(0) (1) (3/16) + ... + (1)(1)(1/16) –0

así

142
.
.
.
.
.
.
.
.
.

Cov (Y
1
,Y
2
) = E(Y
1
, Y
2
) E(Y
1
) E(Y
2
) = 0




- Obtener la covarianza y el coeficiente de correlación de X y de Y

Si se toman los valores esperados apropiados, se tiene












= 2T(3) / 3 + T(2) / 3

= 5 / 3 ;








E(X) = 2 / 3
2
(x +xy) exp (-x) dy dx
= 2 / 3
2
(x +x / 2) exp (-x) dx
= 2 / 3
2
x exp (-x) dx + 1 / 3 x exp ( -x ) dx
2
E( X ) = 2 / 3
3 2
(x +x y) exp (-x) dy dx
= 2 / 3
3
x exp (-x) dx + 1 / 3
2
x exp ( -x ) dx

143
.
.
.
.
.
.
.
.
.

= 2T (4) / 3 + T(3) / 3

= 14 / 3 ;








= T(2) / 9 + 1 / 6


= 5 / 9 ;








= 2T(2) / 9 + 1 / 6


= 7 / 18 ;





E( Y ) = 2 / 3
2
(x y+ y ) exp (-x) dy dx
= 1 / 3

x exp (-x) dx + 2 / 9

exp ( -x ) dx
2
E( Y ) = 2 / 3
2 3
(xy + y ) exp (-x) dy dx
= 2 / 9

x exp (-x) dx + 1 / 6

exp ( -x ) dx

E(XY ) = 2 / 3
2 2
(x y + x y ) exp (-x) dy dx

144
.
.
.
.
.
.
.
.
.





= T(3) / 3 + 2T(2) / 9


= 8 / 9 ;


Por lo tanto:

Cov(X, Y) = E (XY) – E (X)E (Y) = 8 / 9 – (5 / 3)(5 / 9) = -1 / 27.

Var(X) = 17 / 9

Var(Y) = 13 / 162,



p(X , Y) =



= -0.0951



Encuentre E(T), donde T es el tiempo entre llamadas telefónicas consecutivas al centro
de reservaciones y ( ) 0 , 2
2
> =
÷
t e t f
t
T
. ¿Cuál es la interpretación de este valor?

Implícitamente, ( ) 0 = t f
T
, para t < 0. es necesario saber que:
2
0
1
c
dt te
ct
=
}
·
÷
de lo anterior se sigue que ( ) ( )
} }
·
÷
·
· ÷
= =
0
2
2 dt te dt t tf T E
t
T

( Pues ( ) 0 = t f
T
para t<0 y ( )
t
T
e t f
2
2
÷
=
2
1
2
1
2
2
=
|
.
|

\
|
= Como T es el tiempo que transcurre entre dos llamadas consecutivas,
E(T)=1/2 significa que, en el límite, se recibe una llamada telefónica cada medio
minuto.



Covarianza

= 1 / 3
2
x exp (-x) dx + 2 / 9

x exp ( -x ) dx
-1 /27


(17/9)(13/162)

145
.
.
.
.
.
.
.
.
.

1.- Sean X y Y dos variables aleatorias con una función de densidad conjunta de
probabilidad:

. 1 0 , 0 ) (
3
2
) , ( < < >
¹
´
¦
+ =
÷
y x e y x y x f
x

1 para cualquier otro valor.

Obtener la covarianza y el coeficiente de correlación
de X y de Y.

. 1 0 , 0 ) (
3
2
) , ( < < >
¹
´
¦
+ =
÷
y x e y x y x f
x

1 para otro valor.

} }
÷
+ =
x
x
dydx e xy x x E
0
1
0
2
) (
3
2
) (

}
÷
+ =
x
x
dx e
x
x
0
2
)
2
(
3
2


} }
÷ ÷
+ =
x x
x x
dx xe dx e x
0 0
2
3
1
3
2


3
) 2 (
3
) 3 ( 2 I
+
I
=

3
5
) ( = x E


} }
÷
+ =
x
x
dydx e y x x x E
0
1
0
2 3
) (
3
2
) 2 (

} }
÷ ÷
+ =
x x
x x
dx e x dx e x
0 0
2 3
3
1
3
2


3
) 3 (
3
) 4 ( 2 I
+
I
=
3
14
) 2 ( = x E

} }
÷
+ =
x
x
dydx e y xy y E
0
1
0
2
) (
3
2
) (

} }
÷ ÷
+ =
x x
x x
dx e dx xe
0 0
9
2
3
1


9
2
3
) 2 (
+
I
=
9
5
) ( = y E

146
.
.
.
.
.
.
.
.
.

} }
÷
+ =
x
x
dydx e y xy y E
0
1
0
3 2 2
) (
3
2
) (
=
} }
÷ ÷
+
x x
x x
dx e dx xe
0 0
6
1
9
2

18
7
) (
2
= y E


} }
÷
+ =
x
x
dydx e xy y x xy E
0
1
0
2 2
) (
3
2
) (

} }
÷ ÷
+ =
x x
x x
dx xe dx e x
0 0
2
9
2
3
1


9
) 2 ( 2
3
) 3 ( I
+
I
=
9
8
) ( = xy E


) ( ) ( ) ( ) , ( y E x E xy E y x Cov + =
|
.
|

\
|
|
.
|

\
|
+ =
9
5
3
5
9
8


27
1
) , ( ÷ = y x Cov

Dado que:
9
17
) ( ) ( ) (
2 2
= + = x E x E x Var

162
13
) ( ) ( ) (
2 2
= + = y E y E y Var
El coeficiente de correlación queda : 0951 . 0
) 162 / 13 )( 9 / 17 (
27
1
) , ( ÷ =
÷
= y x µ







COVARIANZA.

Sean X y Y dos variables aleatorias con distribución de densidad conjunta de
probabilidad.


147
.
.
.
.
.
.
.
.
.

.
18
7
6
1
9
) 2 ( 2
) X ( E
dx ) x exp( dx ) x exp( x ) X ( E
dydx ) x exp( ) y xy ( ) Y ( E
.
9
5
9
2
3
) 2 (
) Y ( E
dx ) x exp( dx ) x exp( x ) Y ( E
dydx ) x exp( ) y xy ( ) Y ( E
.
3
14
3
) 3 (
3
) 4 ( 2
) X ( E
dx ) x exp( x dx ) x exp( x ) X ( E
dydx ) x exp( ) y x x ( ) X ( E
.
3
5
3
) 2 (
3
) 3 ( 2
) X ( E
dx ) x exp( x dx ) x exp( x ) X ( E
dx ) x exp( )
2
x
x ( ) X ( E
dydx ) x exp( ) xy x ( ) X ( E
0
. 1 y 0 , 0 x ) x exp( ) 2 x (
) y , x ( f
2
x
0
6
1
x
0
9
2
2
x
0
1
0
3 2
3
2
2
x
0
9
2
x
0
3
1
x
0
1
0
2
3
2
2
x
0
2
3
1
x
0
3
3
2
2
x
0
1
0
2 3
3
2
2
x
0
3
1
x
0
2
3
2
x
0
2
3
2
x
0
1
0
2
3
2
3
2
= + =
÷ + ÷ =
÷ + =
= + =
÷ + ÷ =
÷ + =
= + =
÷ + ÷ =
÷ + =
= + =
÷ + ÷ =
÷ + =
÷ + =
¹
´
¦ < < > ÷ +
=
} }
} }
} }
} }
} }
} }
} }
}
} }
I
I
I I
I I
. COVARIANZA LA OBTENER
punto. otro
para


148
.
.
.
.
.
.
.
.
.

.
27
1
9
5
3
5
9
8
) Y ( E ) X ( E ) XY ( E ) Y , X ( Cov
.
9
8
9
) 2 ( 2
3
) 3 (
) X ( E
dx ) x exp( x dx ) x exp( x ) X ( E
dydx ) x exp( ) xy y x ( ) XY ( E
2
x
0
9
2
x
0
2
3
1
2
x
0
1
0
2 2
3
2
÷ =
|
.
|

\
|
|
.
|

\
|
÷ = ÷ =

= + =
÷ + ÷ =
÷ + =
} }
} }

I I






































149
.
.
.
.
.
.
.
.
.

0 x s 1 s
8 x · y ·
0 y s x s
0 en otro caso




TEOREMA COV (X
1
, X
2
) = E (X
1
X
2
) - E(X
1
) E(X
2
)

Si X
1
tiene promedio µ
1
y X
2
tiene promedio µ
2
, entonces:

COV (X
1
, X
2
) = E (X
1
X
2
) - µ
1
µ
2

Si X
1
y X
2
son variables aleatorias independientes, entonces E (X
1
X
2
) -
E(X
1
) E(X
2
)


TEOREMA SI X
1
Y

X
2
SON INDEPENDIENTES, ENTONCES COV (X
1
,X
2
)=0

La inversa no es necesariamente valida, es decir, una covarianza cero no quiere decir
que las variables sean independientes.

Es claro que E(X
1
) = E(X
2
) = 0 y que también E (X
1
X
2
) = 0, y por lo
tanto la covarianza de este teorema es igual a cero.






Supóngase que la fracción X de atletas hombres y la
fracción de atletas mujeres que terminaron la carrera
puede describirse por la siguiente función de densidad.



f(x,y)



Pruebe que es una función de densidad conjunta.

150
.
.
.
.
.
.
.
.
.

0 x s 2 s x 1 3 y
2
· +
( )
·
4
0 y s 1 s
0 en otro caso
f x y , ( )
0
1
x
0
x
y 8x y ·
(
(
]
d
(
(
]
d ÷ :=
f x y , ( ) 8
0
1
x x
x
2
2
|

\
|
|
.
·
(
(
(
]
d

¸
(
(
(
¸
· ÷ :=
f x y , ( ) 8
x
4
8
|

\
|
|
.
· :=
f x y , ( ) 1 :=


Encontrar g(x) y h(y) para verificar si son variables independientes

g x ( )
0
x
y 8x y ·
(
(
]
d ÷ :=
4x
3
0 x s 1 s
g x ( )
0 En otro Caso
h y ( )
0
1
x 8x y ·
(
(
]
d ÷ :=
4y 0 y s x s
h y ( )
0 En otro Caso



para verificar si son variables independientes f (x, y) = g(x).h(y)

g x ( ) h y ( ) · ÷
;
f x y , ( ) 8 x · y · :=


Para f (1,1), tenemos que:

8 ≠ 16, por lo tanto, son variables dependientes

Función de densidad conjunta

sea la función



f(x,y)



Verificar si es una función de densidad

151
.
.
.
.
.
.
.
.
.

f x y , ( )
0
2
x
0
1
y
x 1 3 y
2
· +
( )
·
4
(
(
(
]
d
(
(
(
]
d 1 ÷ :=
f x y , ( )
1
4
0
2
x
0
1
y x 1 3 y
2
· +
( )
·
(
(
]
d
(
(
]
d

¸
(
(
¸
· 1 ÷ :=
f x y , ( )
1
4
0
2
x
0
1
y x
(
(
]
d
(
(
]
d
|

\
|
|
. 0
2
x
0
1
y 3 x · y
2
·
(
(
]
d
(
(
]
d
|

\
|
|
.
+

¸
(
(
¸
· 1 ÷ :=
f x y , ( )
1
4
0
2
x x
(
(
]
d
|

\
|
|
. 0
1
y 1
(
(
]
d
|

\
|
|
.
· 3
0
2
x x
(
(
]
d
|

\
|
|
.
·
0
1
y y
2
(
(
]
d
|

\
|
|
.
·

¸
(
(
¸
+

¸
(
(
¸
· 1 ÷ :=
f x y , ( )
1
4
2 1 · ( ) 3 2
1
3
·
|

\
|
|
.
· +

¸
(
(
¸
· 1 ÷ :=
f x y , ( ) 1 :=


Por lo tanto, es una función de probabilidad

2.- f (x │y)
3.- Si son variables independientes.


g x ( )
0
1
y
x 1 3 y
2
· +
( )
·
4
(
(
(
]
d ÷ :=
x
2
0 x s 2 s
g x ( )
0 En otro Caso
h y ( )
0
2
x
x 1 3 y
2
· +
( )
·
4
(
(
(
]
d ÷ :=
1
2
3
2
y
2
· + 0 y s x s
h y ( )
0 En otro Caso


p xIy ( )
f x y , ( )
h y ( )
:=
p xIy ( )
x 1 3y
2
+
( )
·
4
1
2
3
2
y
2
· +
factor ÷ :=


152
.
.
.
.
.
.
.
.
.

0 x s 2 s
1 0 y s 1 s
2y x s
0 en otro caso
f (x, y) = g(x).h(y)
Para f(1,1) = 1 g(1).h(1) = 1

por lo tanto, 1 = 1, son variables independientes

4.-Encontrar el coeficiente de correlación

µ x y , ( )
0
73
960
|

\
|
|
.
1
120
1095 ·
|

\
|
|
.
·
÷ :=
Cov x y , ( )
5
6
4
3
5
8
·
|

\
|
|
.
÷ ÷ :=
cov x y , ( ) E x y , ( ) E x ( ) E y ( ) · ÷ :=
E x y , ( )
0
2
x
0
1
y x y ·
x 1 3y
2
+
( )
·
4

¸
(
(
¸
·
(
(
(
]
d
(
(
(
]
d ÷ :=
o y ( ) var y ( ) ÷ := var y ( )
7
15
25
64
÷ ÷ :=
var y ( ) E y2 ( ) E y ( )
2
÷ :=
E y2 ( )
0
1
y y
2
1
2
3
2
y
2
· +
|

\
|
|
.
·
(
(
(
]
d ÷ := E y ( )
0
1
y y
1
2
3
2
y
2
· +
|

\
|
|
.
·
(
(
(
]
d ÷ :=
E y2 ( )
0
1
y y
2
h y ( ) ·
(
(
]
d := E y ( )
0
1
y y h y ( ) ·
(
(
]
d :=
o x ( ) var x ( ) ÷ := var x ( ) 2
16
9
÷ ÷ :=
var x ( ) E x2 ( ) E x ( )
2
÷ :=
E x2 ( )
0
2
x x
2
1
2
x ·
|

\
|
|
.
·
(
(
(
]
d ÷ := E x ( )
0
2
x x
1
2
x ·
|

\
|
|
.
·
(
(
(
]
d ÷ :=
E x2 ( )
0
2
x x
2
g x ( ) ·
(
(
]
d := E x ( )
0
2
x x g x ( ) ·
(
(
]
d :=



Dada la Función:


f(x,y)



153
.
.
.
.
.
.
.
.
.


1.- Verificar si es una función de densidad
f x y , ( )
0
2
x
0
x
2
y 1
(
(
]
d
(
(
]
d ÷ :=
f x y , ( )
0
2
x
x
2
|

\
|
|
.
(
(
(
]
d ÷ :=
f x y , ( )
x
4
4
|

\
|
|
.
:=
f x y , ( )
4
4
:=

2.- f (x │ y)
3.- verificar si son variables independientes
f x y , ( )
4
4
:=
g x ( )
0
x
2
y 1
(
(
]
d ÷ :=
x
2
0 x s 2 s
g x ( )
0 En otro Caso
h y ( )
0
2
x 1
(
(
]
d ÷ :=
2 0 y s x s
h y ( )
0 En otro Caso
p xIy ( )
f x y , ( )
h y ( )
:= p xIy ( )
1
2
:=



Para f(1,1) = 1 g(1).h(1) = 1

son variables independientes




4.- Coeficiente de correlación


154
.
.
.
.
.
.
.
.
.

µ x y , ( )
1
2
1
3
x
2
· ÷
1
3
2 ·
|

\
|
|
.
16 x
3
· 12 x
4
· ÷
192
|

\
|
|
.
·
factor 12 3 ÷ 2 x
2
· +
( )
·
2
x
3
4 ÷ 3 x · + ( ) ·

¸
(
¸
· ÷ :=
Cov x y , ( )
1
2
4
3
x
2
4
·
|

\
|
|
.
÷
1
2
1
3
x
2
· ÷ ÷ :=
cov x y , ( ) E x y , ( ) E x ( ) E y ( ) · ÷ :=
E x y , ( )
0
2
x
0
x
2
y x y · 1 ( ) ·
(
(
]
d
(
(
]
d
1
2
÷ :=
o y ( )
16 x
3
· 12 x
4
· ÷
192
:=
x
var y ( )
16 x
3
· 12 x
4
· ÷
192
:=
x
var y ( ) E y2 ( ) E y ( )
2
÷ := y2
E y2 ( )
0
x
2
y y
2
2 ( ) ·
(
(
]
d
1
12
x
3
· ÷ := E y ( )
0
x
2
y y 2 ( ) ·
(
(
]
d
1
4
x
2
· ÷ :=
E y2 ( )
0
x
2
y y
2
h y ( ) ·
(
(
]
d
1
12
x
3
· ÷ := E y ( )
0
x
2
y y h y ( ) ·
(
(
]
d
1
4
x
2
· ÷ :=
o x ( ) var x ( )
1
3
2 · ÷ := var x ( ) 2
16
9
÷
2
9
÷ :=
var x ( ) E x2 ( ) E x ( )
2
÷ := x2
E x2 ( )
0
2
x x
2
x
2
|

\
|
|
.
·
(
(
(
]
d 2 ÷ := E x ( )
0
2
x x
x
2
|

\
|
|
.
·
(
(
(
]
d
4
3
÷ :=
E x2 ( )
0
2
x x
2
g x ( ) ·
(
(
]
d 2 ÷ := E x ( )
0
2
x x g x ( ) ·
(
(
]
d
4
3
÷ :=












155
.
.
.
.
.
.
.
.
.

Probabilidad conjunta

Determine la probabilidad de que al menos 1/8 de las mujeres que se inscribieron en
el maratón la finalizaron si se sabe que exactamente la mitad de los atletas hombres
la terminaron.


p xIx ( )
0
1
x
1
8
x
y 8 x · y ·
(
(
]
d
(
(
]
d
g x ( )
:=
p xIx ( )
0
1
x 4 x · x
2
1
8
|

\
|
|
.
2
÷

¸
(
(
¸
·
(
(
(
]
d
1
2
:=
p xIx ( ) 4
x
4
4
1
64
x
2
2
· ÷
|

\
|
|
.
1
2
· :=
p xIx ( ) 4
1
4
1
128
÷
|

\
|
|
.
1
2
· ÷ :=














11.- Demuestre que no hay un valor K para el cual:

f(x, y) = k y (2y-x) para x = 0,3; y = 0,1,2.

p(0,0) = 0 p(3,0) = 0
p(0,1) = 2k p(3,1) = -k
p(0,2) = 8k p(3,2) = 2k

No existe valor de k, pues no se cumple la condición en la cual p(x,y) ≥ 0 para p(3,1),
por lo tanto, no puede ser esta una función de probabilidad

156
.
.
.
.
.
.
.
.
.

0 x s 3 s
a x y + ( ) ·
0 y s 3 s
0 en otro caso
0 x s 3 s 1
27
x y + ( ) ·
0 y s 3 s
0 en otro caso



12.-Sea la función :


F(x,y)



La función de densidad conjunta del vector aleatorio (x,y)

a) Encuentre el valor de a

f x y , ( )
0
3
x
0
3
y a x y + ( ) ·
(
(
]
d
(
(
]
d ÷ := f x y , ( ) a
0
3
x
0
3
y x y + ( )
(
(
]
d
(
(
]
d

¸
(
(
¸
· ÷ :=



f x y , ( ) a
0
3
x x
(
(
]
d
|

\
|
|
. 0
3
y 1
(
(
]
d
|

\
|
|
.
·
0
3
x 1
(
(
]
d
|

\
|
|
. 0
3
y y
(
(
]
d
|

\
|
|
.
· +

¸
(
(
¸
· ÷ :=
f x y , ( ) a
9
2
3 · 3
9
2
· +
|

\
|
|
.
· ÷ :=
1 27a := por lo tanto a
1
27
:=




f(x,y)




b) p(1≤x≤2, 1≤y≤x2)

p x y , ( )
1
27
1
2
x
1
2
y x y + ( )
(
(
]
d
(
(
]
d · ÷ :=
f x y , ( ) a
1
2
x x
(
(
]
d
|

\
|
|
. 1
2
y 1
(
(
]
d
|

\
|
|
.
·
1
2
x 1
(
(
]
d
|

\
|
|
. 1
2
y y
(
(
]
d
|

\
|
|
.
· +

¸
(
(
¸
· ÷ :=
f x y , ( ) a
3
2
1 · 1
3
2
· +
|

\
|
|
.
· ÷ :=



c)E(x), E(y), y las derivaciones estandar para ambas variables.


157
.
.
.
.
.
.
.
.
.

g x ( )
1
27
0
3
y x y + ( )
(
(
]
d · ÷ :=
1
9
x ·
1
6
+ 0 x s 3 s
g x ( )
0 En otro Caso
h y ( )
1
27
0
3
x x y + ( )
(
(
]
d · ÷ :=
1
6
1
9
y · +
0 x s 3 s
h y ( )
0 En otro Caso


E x ( )
0
3
x x g x ( ) ·
(
(
]
d ÷ := E x2 ( )
0
3
x x
2
g x ( ) ·
(
(
]
d ÷ :=
E x ( )
0
3
x x
1
9
x ·
1
6
+
|

\
|
|
.
·
(
(
(
]
d ÷ := E x2 ( )
0
3
x x
2
1
9
x ·
1
6
+
|

\
|
|
.
·
(
(
(
]
d ÷ :=
var x ( ) E x2 ( ) E x ( )
2
÷ :=
var x ( )
15
4
49
16
÷ ÷ := o x ( ) var x ( ) ÷ :=
E y ( )
0
3
y y h y ( ) ·
(
(
]
d ÷ :=
E y2 ( )
0
3
y y
2
h y ( ) ·
(
(
]
d ÷ :=
E y ( )
0
3
y y
1
6
1
9
y · +
|

\
|
|
.
·
(
(
(
]
d ÷ :=
E y2 ( )
0
3
y y
2
1
6
1
9
y · +
|

\
|
|
.
·
(
(
(
]
d ÷ :=
var y ( ) E y2 ( ) E y ( )
2
÷ :=
var y ( )
15
4
49
16
÷ ÷ := o y ( ) var x ( ) ÷ :=










158
.
.
.
.
.
.
.
.
.

p x y , ( ) a x y ÷ · :=
a
¿
1 := a
¿
15a := por lo tanto a:1/15
p x y , ( ) a
x
y
|

\
|
|
.
· :=
a
¿
1 := a
¿
a
¿
9
2
a := a por lo tanto a:2/9






Conjunta discreta

3.- Determinar el valor de la constante A, de tal manera que las siguientes
funciones representen una distribución de probabilidad conjunta para las
variables aleatorias discretas X, Y.

b) P(x, y) = a(x-y) x = -2, 0, 2 y = -2,3
c) P(x ,y) = a ( x / y ) x = 1, 2 y = 1,2
e) P(x ,y) = a(x
2
+ y
2
) para las parejas (1,1), (1,3), (2,3)


b)

p(-2,-2) = 0 p(0, 3) = 3a
p(-2, 3) = 5a p(2,-2) = 4a =
p(0, -2) = 2a p(-2, 3) = a


-2 0 2
-2 0 2/15 4/15
3 5/15 3/15 1/15


P(x≤2, y=1) = 0

P(x>2, y≤1) = 0

P(x > y ) = p(0,-2) + p(2,-2) = 2/15 + 4/15 = 6/15

P(x + y = 4) = 0

F(2,2) = p(x≤2, y≤2) = p(-2,-2) + p(0,-2) + p(2,-2) = 0 + 2/15 + 4/15 = 6/15

F(1,3) = p(x≤1, y≤3) = p(-2,-2) + p(-2,3) + p(0,-2) + p(0,3) = 0 + 5/15 + 2/15 + 3/15 =
10/15









c)


p(1,1) = a p(2,1) = 2a
p(1,2) = a/2 p(2,2) = a =

159
.
.
.
.
.
.
.
.
.

p x y , ( ) a x
2
y
2
+
( )
· :=
a
¿
1 := a
¿
a
¿
24a := a por lo tanto a:1/24


1 2
1 2/9 4/9
2 1/9 2/9


P(x≤2, y=1) = p(1,1) + p(1,2) = 2/9 + 4/9 = 6/9 = 2/3

P(x>2, y≤1) = 0

P(x > y ) = p(2,1) = 4/9

P(x + y = 4) = p(2,2) = 2/9

F(2,2) = p(x≤2, y≤2) = p(1,1) + p(1,2) + p(2,1) + p(2,2) = 2/9 + 1/9 + 4/9 + 2/9 = 9/9
=1

F(1,3) = p(x≤1, y≤3) = p(1,1) + p(1,2) = 2/9 + 1/9 + 3/9 = 1/3




d)


p(1,1) = a
p(1,3) = 10a =
p(2,3) = 13a


1 2
1 1/24 0
3 10/24 13/24


P(x≤2, y=1) = p(1,1) + p(2,1) = 1/24

P(x>2, y≤1) = 0

P(x > y ) = p(2,1) = 0

P(x + y = 4) = p(1,3) = 10/24

F(2,2) = p(x≤2, y≤2) = p(1,1) + p(2,1) = 1/24

F(1,3) = p(x≤1, y≤3) = p(1,1) + p(1,3) = 1/24 + 10/24 = 11/24






Dada la sig. Distribución, calcule:


160
.
.
.
.
.
.
.
.
.

1 ÷
1
x 1 ÷
1
y
p x y , ( )
¿
=
¿
=
E x ( )
1 ÷
1
x
x g x ( ) ·
¿
=
:=
E y ( )
1 ÷
1
y
y h y ( ) ·
¿
=
:= h
E x
2
( )
1 ÷
1
x
x
2
g x ( ) ·
¿
=
:= E x
2
( )
1 ÷
1
x
x
2
g x ( ) ·
¿
=
:=
E y
2
( )
1 ÷
1
y
y
2
h y ( ) ·
¿
=
:= h
-1 1 H(y)
-1 1/8 1/2 5/8
0 0 1/4 1/4
1 1/8 0 1/8
G(x) 2/8 3/4 1


a) Compruebe que es una distribución de probabilidad:


= 1/8 +1/8 + 0 + 4/8 + 2/8 + 0 = 8/8 = 1


Por lo tanto, es una función de probabilidad


b) Calcule las marginales

h(-1) = 5/8
g(-1) = 2/8
g(x) h( 0) = 1/4 h(x)
g( 1) = 3/4
h( 1) = 1/8


c) Determine si son variables independientes o dependientes

si p(x,y) = g(x) . h(y) son independientes

p(-1,1) = 1/8 ; g(x)=( 2/8 ) ;h(y) = ( 5/8 )

1/8 ≠ 10/64 por lo tanto, son variables dependientes


d) Calcule la media para cada variable


= (-1)(2/8) + (1)(6/8) = 4/8 = 1/2



= (-1)(5/8) + (0)(2/8) + (1)(1/8) = -4/8 = -1/2



e) Calcula la varianza y la desviación estándar para ambas variables


= (-1)
2
(2/8) + (1)
2
(6/8) = 4/8 = 1



= (-1)
2
(5/8) + (0)
2
(2/8) + (1)
2
(1/8) = 6/8 = 3/4


161
.
.
.
.
.
.
.
.
.

Var x ( ) E x
2
( )
E x ( )
2
÷ :=
Var y ( ) E y
2
( )
E y ( )
2
÷ := E
o x ( ) Var x ( ) :=
o y ( ) Var y ( ) :=
E x y , ( )
1 ÷
1
x 1 ÷
1
y
xy p x y , ( ) ·
¿
=
¿
=
:=
µ x y , ( )
Cov x y , ( )
o x ( ) o y ( ) ·
:=
µ x y , ( )
0 x s 2 s 6 x ÷ y ÷
8
2 y s 4 s
0 en otro caso
= 1 – (1/2)
2
= 3/4
= 3/4 – (-1/2)
2
= 2/4 = 1/2

= 0.866

= 0.707


f) Covarianza


Cov x y , ( ) E x y , ( ) µ x ( ) µ y ( ) · ÷ :=
;



E(x,y) = (-1)(-1)p(-1,-1) + (-1)(0)p(-1,0) + (-1)(1)p(-1,1) + (1)(-1)p(1,-1) + (1)(0)p(1,0) +
(1)(1)p(1,1)

= (1)(1/8) + (-1)(1/8) + (-1)(4/8) + (1)(0) = -4/8 = -1/2


Cov(x,y) = ( -1/2 ) – [ ( 3/4) . (1/2) ] = -1/4


g) Coeficiente de correlación





= ( -1/4 ) / [ (0.866) (0.707) ] = -0.408



6.-Dada la sig. Función, determine lo siguiente:



f(x,y)




a) Que es una función de densidad.


162
.
.
.
.
.
.
.
.
.
f x y , ( )
0
2
x
2
4
y
6 x ÷ y ÷
8
(
(
(
]
d
(
(
(
]
d ÷ :=
f x y , ( )
1
8
0
2
x
2
4
y 6
(
(
]
d
(
(
]
d
0
2
x
2
4
y x ÷
(
(
]
d
(
(
]
d +
0
2
x
2
4
y y ÷
(
(
]
d
(
(
]
d +
|

\
|
|
.
· ÷ :=
f x y , ( )
1
8
6
0
2
x 1
(
(
]
d
|

\
|
|
.
·
2
4
y 1
(
(
]
d
|

\
|
|
.
·

¸
(
(
¸ 0
2
x x
(
(
]
d
|

\
|
|
. 2
4
y 1
(
(
]
d
|

\
|
|
.
· ÷
0
2
x 1
(
(
]
d
|

\
|
|
. 2
4
y y
(
(
]
d
|

\
|
|
.
· ÷

¸
(
(
¸
· ÷ :=


Por lo tanto, es una función de probabilidad


b) g(x), h(y)

g x ( )
2
4
y
6 x ÷ y ÷
8
(
(
(
]
d ÷ :=
3
4
1
4
x · ÷ 0 x s 2 s
g x ( )
0 En otro Caso
h y ( )
0
2
x
6 x ÷ y ÷
8
(
(
(
]
d ÷ :=
5
4
1
4
y · ÷ 2 y s 4 s
h y ( )
0 En otro Caso






c) f (x, y) = g(x).h(y)

g x ( ) h y ( ) · ÷ factor ÷
3 ÷ x + ( ) 5 ÷ y + ( ) · 15 3y ÷ 5x ÷ xy + :=


f x y , ( ) 6 x ÷ y ÷ 8 : =



163
.
.
.
.
.
.
.
.
.

Cov x y , ( ) E x y , ( ) µ x ( ) µ y ( ) · ÷ :=
Evaluando para f(1,1)
½ = ½

f(x,y) = g(x) . h(y) por lo tanto son variables independientes


d) E(x), E(y)
E x ( )
0
2
x x g x ( ) ·
(
(
]
d :=
E x ( )
0
2
x x
3
4
1
4
x · ÷
|

\
|
|
.
·
(
(
(
]
d
5
6
÷ :=
E y ( )
2
4
y y h y ( ) ·
(
(
]
d :=
E y ( )
2
4
y y
5
4
1
4
y · ÷
|

\
|
|
.
·
(
(
(
]
d
17
6
÷ :=


e) VAR (x), VAR (y), E(x
2
), E(y
2
)

E x2 ( )
0
2
x x
2
g x ( ) ·
(
(
]
d := E y2 ( )
2
4
y y
2
h y ( ) ·
(
(
]
d :=
E x2 ( )
0
2
x x
2
3
4
1
4
x · ÷
|

\
|
|
.
·
(
(
(
]
d ÷ :=
E y2 ( )
2
4
y y
2
5
4
1
4
y · ÷
|

\
|
|
.
·
(
(
(
]
d ÷ :=
var x ( ) E x2 ( ) E x ( )
2
÷ := var y ( ) E y2 ( ) E y ( )
2
÷ :=
var x ( ) 1
25
36
÷ ÷ := var y ( )
25
3
289
36
÷ ÷ :=








f) Cov (x, y )




E x y , ( )
x0
x1
x
y0
y1
y xy f x y , ( ) ·
(
(
]
d
(
(
]
d :=


164
.
.
.
.
.
.
.
.
.

µ x y , ( )
Cov x y , ( )
o x ( ) o y ( ) ·
:=
Cov x y , ( ) E x y , ( ) E x ( ) E y ( ) · ÷ :=
Cov x y , ( )
7
3
5
6
17
6
·
|

\
|
|
.
÷ ÷ :=


o x ( ) var x ( ) ÷ :=
o y ( ) var y ( ) ÷ :=

g) Coeficiente de correlación.




µ x y , ( )
1 ÷
36
1
6
11 ·
|

\
|
|
.
1
6
11 ·
|

\
|
|
.
·
÷ :=


h) p(1<y<3 │x =2)

p yIx ( )
f x y , ( )
g x ( )
:=
x
p yIx ( )
0
2
x
1
3
y
6 x ÷ y ÷
8
|

\
|
|
.
(
(
(
]
d
(
(
(
]
d
1
4
6 ÷ :=
p yIx ( ) 6x
x
2
2
÷ 2x ÷
|

\
|
|
.
:= x
p yIx ( ) 12 2 ÷ 4 ÷ ( ) 6 ÷ :=


















165
.
.
.
.
.
.
.
.
.

TEOREMA DEL LÍMITE CENTRAL

El Teorema Central del Límite dice que si tenemos un grupo numeroso de variables
independientes y todas ellas siguen el mismo modelo de distribución (cualquiera que
éste sea), la suma de ellas se distribuye según una distribución normal.

Ejemplo: la variable "tirar una moneda al aire" sigue la distribución de Bernouilli. Si
lanzamos la moneda al aire 50 veces, la suma de estas 50 variables (cada una
independiente entre si) se distribuye según una distribución normal.

Este teorema se aplica tanto a suma de variables discretas como de variables
continuas.
Los parámetros de la distribución normal son:
Media: (media de la variable individual multiplicada por el número de variables
independientes)
Varianza: e
variables individuales).
EJEMPLO 1. Se lanza una moneda al aire 100 veces, si sale cara le damos el
valor 1 y si sale cruz el valor 0. Cada lanzamiento es una variable independiente que
se distribuye según el modelo de Bernouilli, con media 0,5 y varianza 0,25. Calcular
la probabilidad de que en estos 100 lanzamientos salgan más de 60 caras.
La variable suma de estas 100 variables independientes se distribuye, por tanto,
según una distribución normal.
Media = 100 * 0,5 = 50
Varianza = 100 * 0,25 = 25
Para ver la probabilidad de que salgan más de 60 caras calculamos la variable normal
tipificada equivalente:



166
.
.
.
.
.
.
.
.
.

(*) 5 es la raíz cuadrada de 25, o sea la desviación típica de esta distribución.
Por lo tanto:
P (X > 60) = P (Y > 2,0) = 1- P (Y < 2,0) = 1 - 0,9772 = 0,0228
Es decir, la probabilidad de que al tirar 100 veces la moneda salga más de 60 caras
es tan sólo del 2,28%.
EJEMPLO 2. La renta media de los habitantes de un país se distribuye
uniformemente entre 4,0 millones ptas. y 10,0 millones ptas. Calcular la probabilidad
de que al seleccionar al azar a 100 personas la suma de sus rentas supere los 725
millones ptas.
Cada renta personal es una variable independiente que se distribuye según una
función uniforme. Por ello, a la suma de las rentas de 100 personas se le puede
aplicar el Teorema Central del Límite.
La media y varianza de cada variable individual es:
= (4 + 10 ) / 2 = 7
= (10 - 4)^2 / 12 = 3
Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y
varianza son:
Media: = 100 * 7 = 700
Varianza:
Para calcular la probabilidad de que la suma de las rentas sea superior a 725 millones
ptas, comenzamos por calcular el valor equivalente de la variable normal tipificada:
Luego:
P (X > 725) = P (Y > 1,44) = 1 - P (Y < 1,44) = 1 - 0,9251 = 0,0749

167
.
.
.
.
.
.
.
.
.

Es decir, la probabilidad de que la suma de las rentas de 100 personas
seleccionadas al azar supere los 725 millones de pesetas es tan sólo del 7,49%

EJEMPLO 3. En una asignatura del colegio la probabilidad de que te saquen a
la pizarra en cada clase es del 10%. A lo largo del año tienes 100 clases de esa
asignatura. ¿Cuál es la probabilidad de tener que salir a la pizarra más de 15 veces?
Se vuelve a aplicar el Teorema Central del Límite.
Salir a la pizarra es una variable independiente que sigue el modelo de distribución
de Bernouilli:
"Salir a la pizarra", le damos el valor 1 y tiene una probabilidad del 0,10
"No salir a la pizarra", le damos el valor 0 y tiene una probabilidad del 0,9
La media y la varianza de cada variable independiente es:
= 0,10
= 0,10 * 0,90 = 0,09
Por tanto, la suma de las 100 variables se distribuye según una normal cuya media y
varianza son:
Media : = 100 * 0,10 = 10
Varianza : 9
Para calcular la probabilidad de salir a la pizarra más de 15 veces, calculamos el valor
equivalente de la variable normal tipificada:

Luego:
P (X > 15) = P (Y > 1,67) = 1 - P (Y < 1,67) = 1 - 0,9525 = 0,0475
Es decir, la probabilidad de tener que salir más de 15 veces a la pizarra a lo largo del
curso es tan sólo del 4,75%.

168
.
.
.
.
.
.
.
.
.

EJ EMPLO 1.- Los resultados de las pruebas finales de todos los alumnos del último
año de las preparatorias de cierto estado tienen una media de 60 y una varianza de 64.
Una generación específica de cierta preparatoria n = 100 alumnos tuvo una media de 58.
¿Puede afirmarse que esta preparatoria sea inferior? (Calcular la probabilidad de que la
media muestral sea a lo más 58 cuando n = 100.)

SOLUCIÓN Sea Y la media de una muestra aleatoria de n = 100 calificaciones de una
población con µ = 60 y o
2
= 64. Se desea aproximar P(Y s 58). Sabemos del Teorema
que ( ) o µ / ÷ Y n es aproximadamente una variable aleatoria normal estándar, que
denotaremos por Z. Por tanto:

( ) ( ) 0062 . 5 . 2
100 / 64
60 58
58 = ÷ s = |
.
|

\
| ÷
s ~ s Z P Z P Y P

Mediante la Tabla 4 del Apéndice III.
Ya que la probabilidad es tan pequeña, es poco probable que se pueda considerar a esa
generación estudiada como una muestra aleatoria de una población con µ =60 y o
2
=64.
Se puede afirmar que la calificación promedio para esta preparatoria es menor que el
promedio global de µ = 60.

EJ EMPLO 2.- Los tiempos de espera para los clientes que pasan por una caja
registradora a la salida de una tienda de menudeo son variables aleatorias
independientes con una media de 1.5 minutos y una varianza de 1.0. Aproxime la
probabilidad de que se pueda atender a 100 clientes en menos de 2 horas.

SOLUCIÓN Si Y
i
denota el tiempo de espera para el i–ésimo cliente, entonces se desea
calcular.
( ) 20 . 1
100
120
120
100
1
s =
|
.
|

\
|
s = |
.
|

\
|
s
¿
=
Y P Y P Y P
i
i


Ya que el tamaño de la muestra es grande, el teorema del límite central establece que Y
es aproximadamente una distribución normal con media µ = 1.5 y varianza
. 100 / 0 . 1 /
2 2
= = n
y
o o Por lo tanto,

( ) |
.
|

\
| ÷
s
÷
= s
100 / 1
50 . 1 20 . 1
100 / 1
50 . 1
20 . 1
Y
P Y P
( ) | | ( ) 0013 . 0 3 100 5 . 1 2 . 1 = ÷ s = ÷ s ~ Z P Z P
De la tabla 4 del Apéndice III.
Así la probabilidad de que se pueda atender a 100 clientes en menos de 2 horas es
aproximadamente 0.0013.

EJ EMPLO 3.- Considere el experimento de lanzar un dado 30 veces y anotar sus
resultados. Este experimento se realiza 56 veces para obtener 56 valores de x .

SOLUCIÓN Según el teorema del límite central, cabe esperar que el histograma de
estos datos tenga forma aproximada de campana. El centro de la campana se ubicaría
cerca de 3.5, el valor verdadero de µ; la varianza de los datos de ser cercana a 0.0973, el

169
.
.
.
.
.
.
.
.
.

valor verdadero de o
2
/n, y la desviación estándar de los datos ha de aproximarse
satisfactoriamente al valor real del error estándar de la media, 0.3119. La figura 7.6
muestra el histograma de los datos del ejemplo.
Note que la forma de campana es imperfecta. Se observa una leve desviación a la
derecha, resultante de que se obtuvieron unos cuantos valores de x relativamente altos
en el experimento. La media de estos datos es 3.548, un poco mayor que la media
verdadera de 3.5; la varianza muestra es de 0.0911, levemente menor que el valor
teórico de 0.0973, y el valor estimado del error estándar de la media basado en estos
datos es 0.3019, apenas menor que el valor teórico de 0.3119. Al aumentar el tamaño de
la muestra en el cual se basa cada valor de , se espera que el histograma tenga forma de
campana más pronunciada y que las estimaciones de la media, la varianza y la
desviación estándar de x guarden concordancia más estrecha con la predicciones
teóricas.






Regresión lineal

La forma de una función f puede ser algo de la forma


170
.
.
.
.
.
.
.
.
.

Por el momento no pretendemos encontrar relaciones tan complicadas entre
variables, pues nos vamos a limitar al caso de la regresión lineal. Con este
tipo de regresiones nos conformamos con encontrar relaciones funcionales de
tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir
como:

Con el menor error posible entre e Y, o bien

De forma que sea una variable que toma valores próximos a cero.

Por tanto:
- Si b>0, las dos variables aumentan o disminuyen a la vez;
- Si b<0, cuando una variable aumenta, la otra disminuye.
Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que
b>0.
El problema que se plantea es entonces el de cómo calcular las cantidades a y
b a partir de un conjunto de n observaciones


De forma que se minimice el error. Las etapas en que se divide el proceso que
vamos a desarrollar son:
1. Dadas dos variables X, Y, sobre las que definimos


Medimos el error que se comete al aproximar Y mediante calculando
la suma de las diferencias entre los valores reales y los aproximados al
cuadrado (para que sean positivas y no se compensen los errores):



2. Una aproximación de Y, se define a partir de dos cantidades a y b. Vamos a
calcular aquellas que minimizan la función

171
.
.
.
.
.
.
.
.
.



3. Posteriormente encontraremos fórmulas para el cálculo directo de a y b que
sirvan para cualquier problema.
Regresión de Y sobre X
Para calcular la recta de regresión de Y sobre X nos basamos en la figura.

Figura: Los errores a minimizar son las cantidades


Una vez que tenemos definido el error de aproximación mediante la relación,
las cantidades que lo minimizan se calculan derivando con respecto a ambas e
igualando a cero (procedimiento de los mínimos cuadrados):

172
.
.
.
.
.
.
.
.
.


Se denomina ecuaciones normales. La primera se escribe como

Sustituyendo se tiene que

Lo que nos da las relaciones buscadas:





La cantidad b se denomina coeficiente de regresión de Y sobre X.
Regresión de X sobre Y
Las mismas conclusiones se sacan cuando intentamos hacer la regresión de X
sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es
totalmente incorrecto despejar de

173
.
.
.
.
.
.
.
.
.



Pues esto nos da la regresión de X sobre , que no es lo que buscamos. La
regresión de X sobre Y se hace aproximando X por , del modo


Donde:




Figura: Los errores a minimizar son las cantidades





Ejemplo 1. En una muestra de 1.500 individuos se recogen datos sobre dos
medidas antropométricas X e Y. Los resultados se muestran resumidos en los
siguientes estadísticos:


Obtener el modelo de regresión lineal que mejor aproxima Y en función de X.
Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada
cuando X=15.

174
.
.
.
.
.
.
.
.
.

Solución:
Lo que se busca es la recta, que mejor aproxima los valores de Y (según el
criterio de los mínimos cuadrados) en la nube de puntos
que resulta de representar en un plano (X,Y) las 1.500
observaciones. Los coeficientes de esta recta son:




Así, el modelo lineal consiste en:


Por tanto, si x=15, el modelo lineal predice un valor de Y de:


En este punto hay que preguntarse si realmente esta predicción puede
considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades
de la regresión lineal que están a continuación.
Propiedades de la regresión lineal
Una vez que ya tenemos perfectamente definida , (o bien ) nos
preguntamos las relaciones que hay entre la media y la varianza de esta y la de
Y (o la de X). La respuesta nos la ofrece la siguiente proposición:
Proposición
En los ajustes lineales se conservan las medias, es decir

En cuanto a la varianza, no necesariamente son las mismas para los
verdaderos valores de las variables X e Y y sus aproximaciones y , pues
sólo se mantienen en un factor de r
2
, es decir,


Demostración
Basta probar nuestra afirmación para la variable Y, ya que para X es totalmente
análogo:

175
.
.
.
.
.
.
.
.
.





Donde se ha utilizado la magnitud que denominamos coeficiente de
correlación, r, y que ya definimos anteriormente como


Observación
Como consecuencia de este resultado, podemos decir que la proporción de
varianza explicada por la regresión lineal es del .

La cantidad que le falta a la varianza de regresión , para llegar
hasta la varianza total de Y, , es lo que se denomina varianza residual,
que no es más que la varianza de , ya que

El tercer sumando se anula según las ecuaciones normales expresadas:

Por ello

176
.
.
.
.
.
.
.
.
.



Obsérvese que entonces la bondad del ajuste es



Para el ajuste contrario se define el error como , y su varianza residual
es también proporcional a 1-r
2
:



Y el coeficiente de determinación (que sirve para determinar la bondad del
ajuste de X en función de Y) vale:

Lo que resumimos en la siguiente proposición:
Proposición
Para los ajustes de tipo lineal se tiene que los dos coeficientes de
determinación son iguales a r
2
, y por tanto representan además la proporción
de varianza explicada por la regresión lineal:



Por ello:
- Si el ajuste es bueno (Y se puede calcular de modo bastante
aproximado a partir de X y viceversa).
- Si las variables X e Y no están relacionadas (linealmente al
menos), por tanto no tiene sentido hacer un ajuste lineal. Sin embargo
no es seguro que las dos variables no posean ninguna relación en el
caso r=0, ya que si bien el ajuste lineal puede no ser procedente tal vez
otro tipo de ajuste sí lo sea.




177
.
.
.
.
.
.
.
.
.

Ejemplo 2. De una muestra de ocho observaciones conjuntas de valores de
dos variables X e Y, se obtiene la siguiente información:




Calcule:
1. La recta de regresión de Y sobre X. Explique el significado de los
parámetros.
2. El coeficiente de determinación. Comente el resultado e indique el
tanto por ciento de la variación de Y que no está explicada por el modelo
lineal de regresión.
3. Si el modelo es adecuado, ¿cuál es la predicción para x=4.
Solución:
1. En primer lugar calculamos las medias y las covarianza entre ambas
variables:

Con estas cantidades podemos determinar los parámetros a y b de la
recta. La pendiente de la misma es b, y mide la variación de Y cuando X
aumenta en una unidad:


Al ser esta cantidad negativa, tenemos que la pendiente de la recta es
negativa, es decir, a medida que X aumenta, la tendencia es a la
disminución de Y. En cuanto al valor de la ordenada en el origen, a,
tenemos:


Así, la recta de regresión de Y como función de X es:


2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de
determinación:

178
.
.
.
.
.
.
.
.
.



Es decir, el modelo de regresión lineal explica el de la variabilidad de
Y en función de la de X. Por tanto queda un de variabilidad no
explicada.

3. La predicción que realiza el modelo lineal de regresión para x=4 es:


La cual hay que considerar con ciertas reservas, pues como hemos visto
en el apartado anterior, hay una razonable cantidad de variabilidad que
no es explicada por el modelo.


















179
.
.
.
.
.
.
.
.
.

Regresión no lineal
La regresión lineal no siempre da buenos resultados, porque a veces la
relación entre Y y X no es lineal sino que exhibe algún grado de curvatura. La
estimación directa de los parámetros de funciones no-lineales es un proceso
bastante complicado. No obstante, a veces se pueden aplicar las técnicas de
regresión lineal por medio de transformaciones de las variables originales.

Una función no-lineal que tiene muchas aplicaciones es la función exponencial:
Y = AX
b

Donde A y b son constantes desconocidas. Si aplicamos logaritmos, esta
función también puede ser expresada como:
log(Y) = log(A) + b.log(X)
Consideremos ahora la siguiente regresión lineal:
log(Y) = b
0
+ b
1
log(X)
En esta regresión (denominada regresión doble-log), en lugar de calcular la
regresión de Y contra X, calculamos la regresión del logaritmo de Y contra el
logaritmo de X. Comparando estas dos ecuaciones, podemos apreciar que el
coeficiente es un estimador de log(A), mientras que es un estimador de b (el
exponente de la función exponencial). Este modelo es particularmente
interesante en aplicaciones econométricas, porque el exponente b en una
función exponencial mide la elasticidad de Y respecto de X.
La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que
la relación más exacta entre las variables peso y altura definidas anteriormente
sea algo de la forma
3.1


180
.
.
.
.
.
.
.
.
.




Por el momento no pretendemos encontrar relaciones tan complicadas entre
variables, pues nos vamos a limitar al caso de la regresión lineal. Con este
tipo de regresiones nos conformamos con encontrar relaciones funcionales de
tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir


con el menor error posible entre e Y, o bien




de forma que sea una variable que toma valores próximos a cero.
Observación
Obsérvese que la relación explica cosas como que si X varía en 1 unidad,
varía la cantidad b. Por tanto:
- Si b>0, las dos variables aumentan o disminuyen a la vez;
- Si b<0, cuando una variable aumenta, la otra disminuye.
Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que
b>0.
El problema que se plantea es entonces el de cómo calcular las cantidades a y
b a partir de un conjunto de n observaciones




de forma que se minimice el error. Las etapas en que se divide el proceso que
vamos a desarrollar son de forma esquemática, las que siguen:

181
.
.
.
.
.
.
.
.
.

1.
Dadas dos variables X, Y, sobre las que definimos



medimos el error que se comete al aproximar Y mediante calculando
la suma de las diferencias entre los valores reales y los aproximados al
cuadrado (para que sean positivas y no se compensen los errores):




2.
Una aproximación de Y, se define a partir de dos
cantidades a y b. Vamos a calcular aquellas que minimizan la función


3.
Posteriormente encontraremos fórmulas para el cálculo directo de a y b
que sirvan para cualquier problema.

Regresión de Y sobre X
Para calcular la recta de regresión de Y sobre X nos basamos

Figura: Los errores a minimizar son las cantidades


182
.
.
.
.
.
.
.
.
.



Una vez que tenemos definido el error de aproximación mediante la relación
(3.13) las cantidades que lo minimizan se calculan derivando con respecto a
ambas e igualando a cero (procedimiento de los mínimos cuadrados):




La relación (, no es más que otra manera de escribir la relación , que se
denomina ecuaciones normales. La primera de se escribe como





183
.
.
.
.
.
.
.
.
.

Sustituyendo se tiene que



Lo que nos da las relaciones buscadas:





La cantidad b se denomina coeficiente de regresión de Ysobre X.
Regresión de X sobre Y
Las mismas conclusiones se sacan cuando intentamos hacer la regresión de X
sobre Y, pero ¡atención!: Para calcular la recta de regresión de X sobre Y es
totalmente incorrecto despejar de




Pues esto nos da la regresión de X sobre , que no es lo que buscamos. La
regresión de X sobre Y se hace aproximando X por , del modo




donde




184
.
.
.
.
.
.
.
.
.




pues de este modo se minimiza, en el sentido de los mínimos cuadrados, los
errores entre las cantidades x
i
y las


Figura: Los errores a minimizar son las
cantidades





La forma de la función f en principio podría ser arbitraria, y tal vez se tenga que
la relación más exacta entre las variables peso y altura definidas anteriormente
sea algo de la forma

Por el momento no pretendemos encontrar relaciones tan complicadas entre
variables, pues nos vamos a limitar al caso de la regresión lineal. Con este
tipo de regresiones nos conformamos con encontrar relaciones funcionales de
tipo lineal, es decir, buscamos cantidades a y b tales que se pueda escribir

con el menor error posible entre e Y, o bien

de forma que sea una variable que toma valores próximos a cero.

Por tanto:
- Si b>0, las dos variables aumentan o disminuyen a la vez;
- Si b<0, cuando una variable aumenta, la otra disminuye.
Por tanto, en el caso de las variables peso y altura lo lógico será encontrar que
b>0.
El problema que se plantea es entonces el de cómo calcular las cantidades a y
b a partir de un conjunto de n observaciones

185
.
.
.
.
.
.
.
.
.



de forma que se minimice el error. Las etapas en que se divide el proceso que
vamos a desarrollar son de forma esquemática, las que siguen:

1. Dadas dos variables X, Y, sobre las que definimos


medimos el error que se comete al aproximar Y mediante calculando
la suma de las diferencias entre los valores reales y los aproximados al
cuadrado (para que sean positivas y no se compensen los errores):


2. Una aproximación de Y, se define a partir de dos cantidades a y b.
Vamos a calcular aquellas que minimizan la función


3. Posteriormente encontraremos fórmulas para el cálculo directo de a y b que
sirvan para cualquier problema.

Ejemplos.

Ejemplo 1.
En una muestra de 1.500 individuos se recogen datos sobre dos medidas
antropométricas X e Y. Los resultados se muestran resumidos en los siguientes
estadísticos:



Obtener el modelo de regresión lineal que mejor aproxima Y en función de X.
Utilizando este modelo, calcular de modo aproximado la cantidad Y esperada
cuando X=15.

Solución:
Lo que se busca es la recta, , que mejor aproxima los valores de Y
(según el criterio de los mínimos cuadrados) en la nube de puntos que resulta
de representar en un plano (X,Y) las 1.500 observaciones. Los coeficientes de
esta recta son:


Así, el modelo lineal consiste en:

186
.
.
.
.
.
.
.
.
.


Por tanto, si x=15, el modelo lineal predice un valor de Y de:

En este punto hay que preguntarse si realmente esta predicción puede
considerarse fiable. Para dar una respuesta, es necesario estudiar propiedades
de la regresión lineal que están a continuación.

Ejemplo 2.
De una muestra de ocho observaciones conjuntas de valores de dos variables
X e Y, se obtiene la siguiente información:


Calcule:
1. La recta de regresión de Y sobre X. Explique el significado de los
parámetros.
2. El coeficiente de determinación. Comente el resultado e indique el
tanto por ciento de la variación de Y que no está explicada por el modelo
lineal de regresión.
3. Si el modelo es adecuado, ¿cuál es la predicción para x=4.
Solución:
1. En primer lugar calculamos las medias y las covarianza entre ambas
variables:

Con estas cantidades podemos determinar los parámetros a y b de la
recta. La pendiente de la misma es b, y mide la variación de Ycuando X
aumenta en una unidad:

Al ser esta cantidad negativa, tenemos que la pendiente de la recta es
negativa, es decir, a medida que X aumenta, la tendencia es a la
disminución de Y. En cuanto al valor de la ordenada en el origen, a,
tenemos:


Así, la recta de regresión de Y como función de X es:


2. El grado de bondad del ajuste lo obtenemos a partir del coeficiente de
determinación:


Es decir, el modelo de regresión lineal explica el de la variabilidad de

187
.
.
.
.
.
.
.
.
.

Y en función de la de X. Por tanto queda un de variabilidad no
explicada.

3. La predicción que realiza el modelo lineal de regresión para x=4 es:


la cual hay que considerar con ciertas reservas, pues como hemos visto
en el apartado anterior, hay una razonable cantidad de variabilidad que
no es explicada por el modelo.

Ejemplo 3.
En un grupo de 8 pacientes se miden las cantidades antropométricas peso y
edad, obteniéndose los siguientes resultados:
Resultado de las mediciones
edad 12 8 10 11 7 7 10 14
peso 58 42 51 54 40 39 49 56
¿Existe una relación lineal importante entre ambas variables? Calcular la recta
de regresión de la edad en función del peso y la del peso en función de la
edad. Calcular la bondad del ajuste ¿En qué medida, por término medio, varía
el peso cada año? ¿En cuánto aumenta la edad por cada kilo de peso?
Solución:
Para saber si existe una relación lineal entre ambas variables se calcula el
coeficiente de correlación lineal, que vale:


ya que
Por tanto el ajuste lineal es muy bueno. Se puede decir que el ángulo entre el
vector formado por las desviaciones del peso con respecto a su valor medio y
el de la edad con respecto a su valor medio, , es:


es decir, entre esos vectores hay un buen grado de paralelismo (sólo unos 19
grados de desviación).
La recta de regresión del peso en función de la edad es

188
.
.
.
.
.
.
.
.
.


La recta de regresión de la edad como función del peso es

que como se puede comprobar, no resulta de despejar en la recta de regresión
de Y sobre X.
La bondad del ajuste es


por tanto podemos decir que el de la variabilidad del peso en función de
la edad es explicada mediante la recta de regresión correspondiente. Lo mismo
podemos decir en cuanto a la variabilidad de la edad en función del peso. Del
mismo modo puede decirse que hay un de varianza que no
es explicada por las rectas de regresión. Por tanto la varianza residual de la
regresión del peso en función de la edad es


y la de la edad en función del peso:



Por último la cantidad en que varía el peso de un paciente cada año es, según
la recta de regresión del peso en función de la edad, la pendiente de esta recta,
es decir, b
1
=2,8367 Kg/año. Cuando dos personas difieren en peso, en
promedio la diferencia de edad entre ambas se rige por la cantidad b
2
=0,3136
años/Kg de diferencia.


Ejemplo: vamos a calcular la recta de regresión de la siguiente serie de
datos de altura y peso de los alumnos de una clase. Vamos a considerar que
la altura es la variable independiente "x" y que el peso es la variable
dependiente "y" (podíamos hacerlo también al contrario):
Alumno Estatura Peso Alumno Estatura Peso Alumno Estatura Peso
x x x x x x x x x
Alumno
1
1,25 32
Alumno
11
1,25 33
Alumno
21
1,25 33
Alumno
2
1,28 33
Alumno
12
1,28 35
Alumno
22
1,28 34
Alumno
3
1,27 34
Alumno
13
1,27 34
Alumno
23
1,27 34

189
.
.
.
.
.
.
.
.
.

Alumno
4
1,21 30
Alumno
14
1,21 30
Alumno
24
1,21 31
Alumno
5
1,22 32
Alumno
15
1,22 33
Alumno
25
1,22 32
Alumno
6
1,29 35
Alumno
16
1,29 34
Alumno
26
1,29 34
Alumno
7
1,30 34
Alumno
17
1,30 35
Alumno
27
1,30 34
Alumno
8
1,24 32
Alumno
18
1,24 32
Alumno
28
1,24 31
Alumno
9
1,27 32
Alumno
19
1,27 33
Alumno
29
1,27 35
Alumno
10
1,29 35
Alumno
20
1,29 33
Alumno
30
1,29 34
El parámetro "b" viene determinado por:
b =
(1/30) * 1,034
----------------------------------------- = 40,265
(1/30) * 0,00856
Y el parámetro "a" por:
a = 33,1 - (40,265 * 1,262) = -
17,714
Por lo tanto, la recta que mejor se ajusta a esta serie de datos es:
y = -17,714 + (40,265 *
x)
Esta recta define un valor de la variable dependiente (peso), para cada valor de
la variable independiente (estatura):
Estatura Peso
x X
1,20 30,6
1,21 31,0
1,22 31,4
1,23 31,8
1,24 32,2
1,25 32,6
1,26 33,0
1,27 33,4

190
.
.
.
.
.
.
.
.
.

1,28 33,8
1,29 34,2
1,30 34,6

























You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->