Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y Estadística
Ann G. Wellens
2.1. Definiciones 18
2.2. Espacio muestral o espacio de resultados 18
2.3. Eventos aleatorios 19
4.1. Definición 28
4.2. Distribución de probabilidad 31
4.2.1. Variables aleatorias discretas 31
4.2.2. Variables aleatorias continuas 37
4.3. Función de distribución 40
4.4. Parámetros de una variable aleatoria 46
Bibliografía 93
Capítulo 1
Estadística descriptiva
La estadística descriptiva, en general es bastante sencilla, aunque no por ello deja de ser
interesante y sobre todo importante. Es así que si a través de la estadística buscamos
obtener conclusiones acerca de toda una población a partir de la información contenida
en una muestra, parece claro que no es posible hacerlo si no somos capaces
primeramente de describir el comportamiento del conjunto de datos que tenemos a la
mano. Esto es, no podemos pretender describir o intuir lo que ocurre con lo desconocido,
si no somos capaces de describir y analizar primero lo que sucede con lo que sí
conocemos. De ahí la importancia de la estadística descriptiva.
Para describir datos cualitativos lo usual es utilizar métodos gráficos, ya que por las
características de las otras técnicas, no es posible aplicarlas con ese tipo de información.
Los datos cuantitativos, son datos numéricos y para analizarlos pueden aplicarse los
tres tipos de técnicas mencionadas anteriormente. En este caso, como se dijo antes, las
1
metodologías se complementan para lograr una mejor y más amplia descripción del
conjunto de datos.
1.2. Muestreo
La forma de seleccionar una muestra de una población tiene importancia vital porque los
datos de la muestra observada no podrán inferir las características de la población
muestreada, a menos que la muestra sea una colección de datos representativa de la
población completa, es decir, una muestra que contenga información de todas los
posibles estratos o conglomerados de la población, en caso de que la población esté
conformada por varios grupos de elementos, con características similares entre sí aunque
distintas entre grupos diferentes.
Dentro del muestreo aleatorio, se tiene que distinguir entre muestreo con y sin reemplazo.
Cuando se efectúa un muestreo en una población de tal manera que cada elemento de la
misma se pueda escoger más de una vez (es decir, regresando cada elemento a la
población, después de haber sido seleccionado en la muestra), se dice que el muestreo
2
es con remplazo; en caso contrario, el muestreo es sin reemplazo. Si, por ejemplo, se
quiere extraer de un lote de producción una muestra de productos terminados para ver si
son defectuosos o no, se puede hacer esto de dos formas: Se selecciona al azar un
producto, se anota si es defectuoso o no y se regresa al lote antes de obtener otra, y así
sucesivamente (muestreo con remplazo, MCR). También se pueden extraer al azar todos
los productos que constituyen la muestra sin regresarlos al lote (muestreo sin remplazo,
MSR).
En los casos en los que la población tiene una composición diferente a la de un solo
grupo o estrato, será necesario utilizar métodos distintos de muestreo, tales como el
muestreo estratificado o el muestreo por conglomerados, entre otros. Cabe decir, que
muchos de estos tipos de muestreo más especializados son muy comunes en situaciones
tales como la realización de encuestas para estimar la tendencia de voto en el caso de
elecciones, o en estudios de opinión para verificar el grado de aceptación o rechazo de un
producto o de alguna política propuesta o establecida, y suelen estar basados en el
muestreo aleatorio simple, mencionado antes.
Definición:
Ejemplo 1.3.1
3
Frecuencia
Límites de Marcas Frecuencia Frecuencia relativa
clase de clase Frecuencia relativa acumulada acumulada
xi fi fi* Fi Fi*
-2 ≤ x < 7 2.5 2 0.050 2 0.050
7 ≤ x < 16 11.5 4 0.100 6 0.150
16 ≤ x < 25 20.5 7 0.175 13 0.325
25 ≤ x < 34 29.5 14 0.350 27 0.675
34 ≤ x <43 38.5 8 0.200 35 0.875
43 ≤ x < 52 47.5 5 0.125 40 1.000
40
Como se puede observar, de acuerdo con la técnica de construcción adoptada, una tabla
completa de distribución de frecuencias consta de seis columnas cuyo contenido se
explicará enseguida.
Límites de clase: Son los valores que definen el criterio de clasificación. Cualquier dato
que se encuentre en el intervalo indicado, pertenecerá a la clase en cuestión. Los límites
de clase tendrán la misma aproximación que los datos y el límite superior de una clase
coincidirá con el límite inferior de la clase siguiente de manera que no haya huecos entre
una clase y otra, pero tampoco traslapes entre clases distintas.
Marca de clase (xi): Es el punto medio del intervalo de clase y se considera representativo
de los datos en dicha clase. La marca de clase se determina como el promedio de los
límites de una clase, es decir, la suma de los límites superior e inferior dividida entre dos.
4
n f i
* fi = fi
fi =
i
Frecuencia acumulada (Fi): Es el número de datos en la muestra cuyo valor es menor que
el límite superior de la clase en cuestión. Para calcular Fi basta contabilizar las
frecuencias observadas en la clase de interés y las anteriores, es decir,
f
i
Fi =
j 1
j
Frecuencia relativa acumulada (Fi*): Es la proporción de los datos en la muestra que son
menores que el límite superior de la clase en cuestión.
n f i
* Fi = Fi
Fi =
i
Ejemplo 1.3.2
5
Construir una tabla de distribución de frecuencias para dichos datos:
Solución:
Para que la tabla que se construya se pueda considerar adecuada para analizar los datos,
se requiere que contenga a todos los datos en la muestra. Así, es necesario conocer el
rango en el que se encuentran los datos, para lo cual se tiene la siguiente definición:
De acuerdo con estos valores para m y c. cada uno decidirá de manera personal, la
longitud de clase que resulte más conveniente para su problema particular, considerando
que si c decrece, el análisis será más preciso pero menos eficiente, pues el número m de
clases aumentará.
A continuación se deberá decidir cuál será el límite inferior de la primera clase. Este límite
es conveniente que sea un valor un poco inferior al dato menor de la muestra. Sea 50 el
límite inferior de la primera clase, la tabla resultante será la que se muestra:
6
Generalmente, cuando se desea hacer una presentación clara de un conjunto de datos,
se elige una forma gráfica. Así, se acostumbra presentar gráficamente los resultados de
una compañía, se hacen gráficas comparativas de las utilidades de una empresa, se
hacen gráficas que muestren la composición de una población (%de hombres adultos, %
de mujeres adultas, %de niños), etc.
Es una gráfica formada por barras rectangulares cuyas bases se centran en las marcas
de clase de una distribución de frecuencias y sus áreas representan las frecuencias
absolutas o relativas correspondientes. Nótese que de acuerdo con esta definición no se
requiere más de un eje, en el cual se identificarán las marcas de las clases que se hayan
construido.
Vale la pena mencionar que ésta es sólo una de las construcciones posibles o conocidas
que tiene la ventaja de que permite encontrar fácilmente la similitud entre el histograma de
frecuencias relativas, y el histograma de probabilidad que se construye en probabilidad
para las funciones de probabilidad. Por otro lado, se mantiene la concepción de la
probabilidad de un evento como área, lo cual puede facilitar la comprensión del concepto
de función de densidad en el caso de variables aleatorias continuas.
17
15
11
1 1 0 0 1
7
de clase es la altura de la barra correspondiente. Por otro lado, esta forma será la elegida
si se desea trazar el histograma de frecuencias utilizando algún software o dispositivo
que posea una aplicación de trazado de gráficas. El resultado de esta construcción se
muestra en la Ilustración 2.
20
15
Frecuencias
10
17
15
5 11
1 1 0 0 1
0
5675 1175 1925 2675 3425 4175 4925 5675
Marcas de clase
Es una gráfica poligonal que representa para cada marca de clase la frecuencia de dicha
clase y se construye uniendo mediante líneas rectas, los puntos medios de las bases
superiores de las barras del histograma de frecuencias. Es claro que tampoco se requiere
trazar más que un eje, para hacer la gráfica del polígono de frecuencias.
Como caso particular en la Ilustración 3 se presenta a continuación la gráfica del polígono
de frecuencias de los datos del ejemplo anterior.
8
De la misma manera que el histograma, existe una forma alternativa de realizar la gráfica
del polígono de frecuencias, simplemente agregando un eje vertical en la gráfica por lo
que ya no requiere el histograma. Observe la Ilustración 4.
Polígono de Frecuencias
20
Frecuencias 15
10
0
5675 1175 1925 2675 3425 4175 4925 5675
Marcas de clase
Ilustración 4 Polígono de frecuencias con dos ejes
1.4.3. Ojiva
Es una gráfica poligonal que representa para cada límite de clase la frecuencia
acumulada o la frecuencia acumulada relativa hasta dicho límite. Cuando la que se
representa es la frecuencia acumulada relativa se le llama ojiva porcentual. A diferencia
de las gráficas anteriores, para trazar esta gráfica sí es indispensable contar con los dos
ejes coordenados.
Es claro que la diferencia entre la ojiva y la ojiva porcentual no es la forma de ellas, sino
solamente la escala utilizada en el eje de las ordenadas, al trazarlas. La ojiva porcentual
es, además, una aproximación a la gráfica de la función de distribución de la variable
aleatoria que represente a la población.
Ejemplo 1.4.3.1
9
30
35 30
28 29
Frecuencia Acumulada 30 25
25 21
19
20
14
15
10 5
5 2
0
0
26.95 29.95 32.95 35.95 38.95 41.95 44.95 47.95 50.95 53.95
Límites de clase
Ilustración 5 Ojiva
Desde luego es posible ya, mediante la tabla de distribución de frecuencias y las gráficas
hacer cierta descripción del comportamiento de los datos en la muestra, pero conviene
estar consciente de que sabemos que las gráficas pueden mentir, en el sentido de que
simplemente con un cambio de escala, variaciones tal vez pequeñas se pueden
amplificar y otras tal vez grandes podrían minimizarse, en tanto que algunos valores
característicos de la muestra solamente podrían obtenerse de manera aproximada, esto
significa que una representación gráfica puede no ser lo precisa que uno desearía. Por lo
anterior, además de una gráfica requerimos obtener valores que sean representativos del
comportamiento de los datos y que dependan únicamente de dichos datos. A estos
valores se les llama "parámetros numéricos" y se utilizan para ayudar a describir el
comportamiento de la muestra con mayor precisión.
10
1.5.1 Medidas de tendencia central
Las medidas de tendencia central son valores que se encuentran dentro del rango de
la muestra y que se pueden considerar como representativos de la misma. Es
importante aclarar que no necesariamente coinciden con alguno de los datos
observados y en general tampoco se ubican en el centro del rango, solamente están
en el interior del mismo. Entre las medidas de tendencia central más usuales están la
media aritmética, la mediana y la moda, que estudiaremos a continuación.
i. Media aritmética
xi
n
x = i =1
n
xi f i
m
= x i f *i , puesto que
m fi
x= 1i= = f *i
n i=1 n
en donde
m es el número de clases
xi la marca de clase de la clase i, y
fi la frecuencia de la clase i
ii. Mediana
xn + xn
+ 1
~
x = 2 2
Ejemplo 1.5.1.1
Solución:
2) Dado que el número de datos es par, la mediana será el promedio de los datos que
ocupan los lugares n/2 y (n/2) + 1 en la ordenación, es decir, la mediana será el promedio
de los datos que ocupen los lugares 6 y 7 en la ordenación.
~ 3+4
x = = 3.5
2
II. Si los datos se encuentran agrupados, para obtener la mediana se debe realizar
una interpolación en la ojiva, como se indica a continuación:
12
1.- Identificar la clase en la que se alcanza el 50% de los datos. Esta clase recibe
el nombre de clase mediana.
2.- Trazar la porción de la ojiva correspondiente a la clase mediana.
Límites
~x - Li - n
= F 50% F i ; F 50% =
Li+1 - Li F i+1 - F i 2
n
~x - Li - Fi
= 2
Li+1 - Li F i+1 - F i
n
( - F i )( Li+1 - Li )
x= 2
~ + Li
F i+1 - F i
en donde:
iii. Moda
Denotaremos a la moda como xmo y es aquella observación que se repite con mayor
frecuencia dentro de la muestra. Puede existir más de una moda en una misma
muestra. Para determinar el valor de la moda a partir de los datos agrupados en una
13
tabla de distribución de frecuencia, se puede utilizar la marca de clase del intervalo
con mayor frecuencia.
i. Rango
Tal vez la medida de dispersión más simple sea el rango que se definió para
construir la tabla de distribución de frecuencias. Es una medida de dispersión
interesante, ya que proporciona información inmediata acerca de la variabilidad que
tienen los datos entre sí. Como se dijo antes, el rango se define como la diferencia
entre los datos mayor y menor en la muestra, esto es:
ii. Varianza
( x - x )
como:
n
2
i
n 1
2
i =1
s =
en tanto que si los datos se tienen en forma agrupada, se calculará la varianza como se
indica a continuación:
14
( x
m
i - x )2 f i
n 1
2
i =1
s =
La varianza presenta el problema de que sus unidades no coinciden con las de los
datos de la muestra, ya que al elevar al cuadrado se obtienen unidades cuadradas,
por lo que su interpretación podría resultar un tanto confusa, sin embargo, la forma
que se ha encontrado de resolver dicho problema de unidades, consiste
simplemente en extraer la raíz cuadrada de dicha medida, con lo cual el resultado se
encontrará en unidades lineales, por tal razón se define la desviación estándar de los
datos.
s = s2
Ejemplo 1. 4.2
15
Solución
a) Media:
x = [8(240,000)+2(255,000)+2(265,000)+2(280,000)+290,000+300,000+305,000
+ 325,000+330,000+340,000] / 20
x = 270,500
xn +xn
1 255,000 + 265,000
b) Mediana: x~ = 2 2
= = 260,000
2 2
c) Moda = 240,000
( x - x
20
2
i )
i =1
d) Varianza: s 2 = = 1,155,000,000
19
s
f) Coeficiente de variación: c.v.= = 0.1256 = 12.56%. Esto es que los datos se alejan
x
de la media un 12.56 % en promedio.
Rango = 100,000
m≈√ = . usaremos m = 5
c ≈ 100,000 / 5 = 20,000
Límite inferior de la primera clase=235,000
Límites Frec.
Marcas Frecuencia Frecuencia
Frecuencia Acum.
Inferior Superior de clase relativa acumulada
relativa
235,000 255,000 245,000 8 0.400 8 0.400
255000 275,000 265000 4 0.200 12 0.600
275000 295,000 285000 3 0.150 15 0.750
295000 315,000 305000 2 0.100 17 0.850
315000 335,000 325000 2 0.100 19 0.950
335000 355,000 345000 1 0.050 20 1.000
16
x f
20
n
i i
f
i =1 5,480,000
Media : x = n
= = 274,000
20
i
i =1
Moda: Primera marca de clase. xmo = 245,000
20
- 8 (275,000 -
2
255,000)
~
Mediana: x = + 255,000 = 265,000
12 - 8
Rango= 100,000
( x -
11
i 274,000 )2 f i
i =1 19,580,000,000
Varianza: s 2 = = =1,030,526,316
19 19
s
c.v. = = 0.11716= 11.716%
x
17
Capítulo 2
Experimentos aleatorios
2.1. Definiciones
Ejemplo.
S = { 1, 2, 3, 4, 5, 6 }
A = { 1 } S ; B = { 2 } S ; = {} S ; { 1, 3, 5 } S
Finitos
Discretos
Infinito contable
Espacios
muestra
19
Capítulo 3
Teoría de probabilidades
Al lanzar una moneda no se puede decir con certeza cual cara quedará hacia
arriba. Lo único que se puede asegurar, si la moneda no está cargada, es que
ambas caras tienen la misma oportunidad de salir, es decir que los eventos
simples (cara) y (cruz) tienen la misma probabilidad de ocurrir.
Como ya se dijo, la probabilidad de que ocurra un evento es una medida del grado
de confianza que se tiene de que este ocurra al realizar el experimento
correspondiente.
nA N° de eventos favorables
P ( A) =
n
N° de eventos posibles
Ejemplo 1:
20
A resultados par. Estos resultados son tres (2, 4, 6), que presentan esta
característica, por lo tanto al aplicar la ecuación anterior, la probabilidad es:
3 1
P (A) = =
6 3
Ejemplo 2:
(1) y el dos de espadas (1).
tiene que:
P( B)
6 elementos o cartas
52 cartas totales
Que se obtenga una suma de 7 al lanzar un dado dos veces. Hay seis formas de
obtener un siete: C =( (1,6), (2,5), (3,4), (4,3), (5,2), (6,1) ), los cuales se
obtuvieron del siguiente espacio muestral:
(6,1), (6,2), (6,3), (6,4), (6,5), (6,6)
Entonces la probabilidad obtenida es:
21
6 1
P (C ) = =
36 6
n
Crn =
( )
n - r !r !
C 44C 48
1
48 1
C 525 = 5
= =
C 52 2'598,960 54,245
C 43C 42 1
C 5
52 = 5
=
C 52 108,290
5
C 48 35,673
5
C 52 = 5
=
C 52 54,145
Sin embargo, esta definición se aplica mucho en todas las ramas de la ingeniería.
“Es probable que la resistencia de este elemento estructural sea menor que X”
Estas opiniones no tienen valor científico, sin embargo reflejan la experiencia del
que habla y pueden tener un contenido valioso. Si se permite asociar
probabilidades a determinados resultados será posible tomarlas en cuenta en el
marco de intervalo de probabilidad. Las conclusiones obtenidas no tendrán más
valor que dichas probabilidades a menos que se agregue información
experimental adicional en cuyo caso la importancia de estas probabilidades “a
priori” se reduce sensiblemente.
Este tipo de probabilidad y de enfocar los problemas constituye la esencia de los
métodos bayesianos, muy de moda en la actualidad.
1. P(S) = 1
2. P(A) 0 0 P(A) 1
es decir, ( A B = )
3. Si A y B son subconjuntos de S y estos son excluyentes
23
3.2. Probabilidad condicional
Tomando como base lo visto en la sección anterior, se sabe que a todo posible
resultado de un experimento se le puede asociar una probabilidad de ocurrencia.
Si se considera nuevamente el llenado de botellas de ml, se pueden analizar
varios eventos como son: lograr que la cantidad de líquido vertido en cada botella
se encuentre dentro de los límites especificados, = { ; ml < < ml},
que la máquina de llenado se encuentre bien calibrada, que se cumpla con la
producción diaria, etc. Cada evento tendrá una probabilidad de ocurrencia que
dependerá, en principio, de la calidad del proceso de producción. Sin embargo,
resulta claro que la ocurrencia de alguno de estos eventos puede afectar a los
otros, por ejemplo si se sabe que la máquina de llenado está mal calibrada será
menos probable que las botellas contengan la cantidad de líquido esperada, o que
se logré cubrir la producción diaria.
� ∩
� | =
�
Donde
� | =�
24
1) � | =�
2) � | =�
3) � ∩ =� �
�( ∩ ) �( | )�( )
�( | ) = = � = , ,…,�
� ∑= � | ∙�
Ejemplo 3.4.1
25
Solución:
Del enunciado sabemos que P(A) = 0.20 , P(B) = 0.50 , P(C) = 0.30 ,
P(D | A) = 0.10 , P(D | B) = 0.05 , P(D | C) = 0.08
a. P(Dc) = 1 – P(D)
P(Dc) = 0.931
b. P(AD) =
0.2898
P(A) P(D A) 0.20 ( 0.10)
P(C) P(D C) P(B) P(D B) P(C) P(D C) 0.069
Ejemplo 3.4.2
Solución
26
a. P(D) = ?
A P(A) = 0.30
B P(B) = 0.50
C P(C) = 0.20
27
Capítulo 4
Variables aleatorias discretas y continuas
4.1 Definición
Definición 4.1
Una variable aleatoria (v.a.) es una función definida en un espacio muestral, cuyos
aleatoria X por X : S ®
valores son números reales. De una manera simple puede denotarse a la variable
En otras palabras una variable aleatoria es una función que asigna números reales
a cada posible resultado de un experimento aleatorio; esto es, es una función cuyo
dominio de definición es el espacio muestral de un experimento y su rango es el
eje real.
28
Ejemplo 4.1.1
Considere las familias que tienen dos hijos, si se desea conocer el sexo de los
hijos entonces el espacio muestral es:
Solución
( F , F )®0 ; ( F , M ) , ( M , F ) ®1 ; ( M , M ) ® 2
Ejemplo 4.1.2
Solución:
29
(1,1) (1,2) (1,3) (1,4) (1,5) (1,6)
(2,1) (2,2) (2,3) (2,4) (2,5) (2,6)
(3,1) (3,2) (3,3) (3,4) (3,5) (3,6)
S=
(4,1) (4,2) (4,3) (4,4) (4,5) (4,6)
a)
(5,1) (5,2) (5,3) (5,4) (5,5) (5,6)
(6,1) (6,2) (6,3) (6,4) (6,5) (6,6
b) La definición es la siguiente:
Sea X la variable aleatoria que representa la suma de los resultados
en el lanzamiento de los dados.
Los posibles valores x de X son entonces:
2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12
1 3 5 5 3 1
P( A )= + + + + +
36 36 36 36 36 36
1
P( A )=
2
Ejemplo 4.1.3
Solución
30
Como se puede observar en los ejemplos, el rango de una variable aleatoria
puede ser un conjunto discreto (finito o infinito numerable) o continuo (infinito no
numerable). Dependiendo de ello, las variables aleatorias se pueden clasificar
como discretas, continuas o mixtas. Sin embargo, se estudiarán las características
de las discretas y de las continuas, dejando las mixtas como una combinación de
los casos anteriores.
Definición 4.2.1.1
Una vez definida una variable aleatoria discreta, la probabilidad de cada uno de los
elementos de su rango queda descrito por una función.
Definición 4.2.1.2
1) 0 fX ( x ) 1 , x
2 Es muy común la notación p X (x) , donde se resalta el hecho de que la función proporciona probabilidad. En estas
notas se utiliza la notación f ( x ) para hacer énfasis en que es una función.
X
31
2) f
x
X ( x ) =1
P ( a X b )= f
b
3) X ( x )
x = a
Ejemplo 4.2.1.1
Solución
1
fX ( 3 ) =P ( X = 3 ) =
8
En general
1 x
x =1 , 2 , 3 ...
( x )= 2
fX
0 en otro caso
2
f
Verificando (2)
Debe cumplirse que X ( x ) =1
x
32
1
x
x = 1 2
es decir =1
a r
k -1 a
De la serie geométrica se sabe que: converge a para
1- r
| r | < 1 y diverge para | r | 1, a 0 .
k =1
Debe observarse con mucho cuidado el hecho de que una vez definida la
v.a., debe poderse obtener el rango de dicha variable, es decir el conjunto de
valores que la variable aleatoria puede tomar; sin embargo el dominio de la función
de probabilidad puede extenderse a todos los reales, para facilitar la notación en
análisis posteriores.
Ejemplo 4.2.1.2
x 0 1 2 3 4
fX ( x ) 1 1+ k 1+ 2 k 1+ 3 k 1+ 4 k
6 6 6 6 6
33
a) Determinar el valor de la constante k para que f X sea una función de
probabilidad.
b) Calcular P ( X < 3 ) .
Solución
f
Y por otro lado:
4
1 1+ k 1+ 2 k 1+ 3 k 1+ 4 k
X ( x )= + + + + =1
x = 0 6 6 6 6 6
1
De donde k =
10
b) P ( X < 3 ) =P ( X = 0 ) + P ( X = 1 ) + ( X = 2 )
1 1+ 1
10 1+ 2
10
11
= + + =
6 6 6 20
Los problemas que generalmente resultan más interesantes son aquellos en los
que se debe obtener la función de probabilidad para una variable aleatoria discreta
a partir de un problema en particular.
Ejemplo 4.2.1.3
Solución
34
Sea A el evento en el cual se tiene la impureza A, y B el evento en el cual se
tiene la impureza B, entonces:
A Ac Total
P ( Y = 0 ) = P ( Ac B c ) = 0.2
De donde
y 0 1 2
35
Histograma de Probabilidad
0.8
0.6
f (x)
0.4
0.7
0.2
0.2 0.1
0
0 1 2
x
Ejemplo 4.2.1.4
Solución
El rango de la v.a. es RY = 0 , 1, 2
Definamos a la v.a. Y como el número de trayectorias cerradas de a a b
P Y = 0 = P (S c
1 S2 Sc3 ) (S1 Sc2 Sc3 ) ( S1c Sc2 Sc3 )
= 0.1 0.9 0.1 + 0.9 0.1 0.1 + 0.1 0.1 0.1
= 0.019
36
Y =1 = (S S2 Sc3 ) (S1 Sc2 S3 ) ( S1c S2 S3 ) ( S1c Sc2 S3 )
0.9 0.9 0.1 + 0.1 0.1 0.9
P 1
=3
= 0.252
y 0 1 2
fY y 0.019 0.252 0.729
Definición 4.2.2.1
Las variables aleatorias continuas también tienen una función que proporciona
información sobre la probabilidad de conjuntos de valores de la variable aleatoria,
esta función es la función de densidad o función de densidad de probabilidad.
Definición 4.2.2.2
1) f X ( x ) 0 x RX
- f X ( x ) d x = 1
2)
P ( a < X < b ) = a f X ( x ) d x
b
3)
37
a) P ( X = x )=0
b) P ( a X b ) =P ( a < X < b )
En términos simples, dado que la probabilidad de que una v.a. continua tome
valores en un rango dado es el área bajo la función de densidad, las propiedades
de la función de densidad dicen que: (1) la función debe ser no negativa; y (2) que
la probabilidad del espacio muestral debe ser igual a la unidad. De los resultados
debe destacarse el hecho de que la probabilidad de que una variable aleatoria
continua tome exactamente un valor específico cualquiera que este sea, es cero.
Debe observarse de la propiedad (3), que para obtener la probabilidad de que una
v.a. esté dentro de cierto intervalo, se integra sobre ese intervalo; recordando la
interpretación geométrica de la integral, se puede decir que la probabilidad
coincide con el "área" bajo la curva f X , de la misma manera que la frecuencia
relativa en la estadística descriptiva, y que la función de probabilidad en el caso
discreto.
Ejemplo 4.2.2.1
c y 2 + y 0 y 1
fY ( y ) =
0 en otro caso
38
a) Determinar el valor de c para el cual la función fY (y) es una función
de densidad.
b) Trazar la gráfica de f Y ( y ) .
c) Calcular la probabilidad de que un estudiante termine en menos de
media hora.
d) Dado que cierto estudiante necesita al menos 15 minutos para
presentar el examen, obtener la probabilidad de que necesite al
menos 30 minutos para terminarlo.
Solución
0 ( c y + y ) d y = 1, de donde
1 2
a)
+ =1 c =
c 1 3
3 2 2
b)
1
P ( 0 Y 0.5 ) = 02 y + y d y = 3
3 2
2
c)
16
P Y
1
P Y
1
Y =
1 2 = 0.8455
4
d)
P Y
2 1
4
Ejemplo 4.2.2.2
39
La temperatura de encendido de un interruptor con control termostático de
real X a la cual el interruptor acciona es una variable aleatoria que tiene la función
de densidad de probabilidad
1 59 x 61
fX x = 2
0 en otro caso
a) Ca
la necesaria para que accione el interruptor.
b) Si se utilizan en forma independiente dos de tales interruptores,
calcular la probabilidad de que ambos necesiten que la temperatura
sea mayor
Solución
1
a) P(X > 60) = ∫ =
2
b) Sea Xi la variable aleatoria que representa la temperatura a la cual el
interruptor i se acciona, entonces:
1 59 x i 61
xi = 2
f Xi para i =1 , 2
0 en otro caso
por lo que:
1 1 1
X1 > 60 X2 > 60 =P P = =
2 2 4
P X1 > 60 X2 > 60
Así como en el caso del análisis de una muestra se consideró importante hacer un
análisis acumulativo a partir de la frecuencia acumulada y la frecuencia acumulada
relativa, en el caso de una variable aleatoria es muy útil el análisis de la forma en
que se va acumulando probabilidad conforme se incrementan los valores del rango
de la v.a. Este análisis se realiza a través de la función de distribución, también
llamada función de distribución acumulativa.
40
Definición 4.3.1
FX ( x ) = P ( X x )
FX : R X ® [ 0 , 1 ]
x
para X discreta
fX ( i )
FX ( x ) =
x
i = -
- f X ( t ) d t para X continua
1) 0 FX ( x ) 1 , - < x <
lim F X ( x ) = 1
x®
Si a b entonces FX ( a ) FX ( b )
41
generalmente en una tabla de distribución de frecuencias, se asemeja a la función de
distribución y que la semejanza será mayor siempre que la muestra sea más grande.
FX ( b ) - FX ( a ) + f X ( a )
P ( a X b )=
para X discreta
FX ( b ) - FX ( a ) para X continua
x -5 -1 1 1.5 3
Solución:
x -5 -1 1 1.5 3
b)
42
Ejemplo 4.3.2
ìï
0£ y£ 1
2
3
y +y
fY ( y )= í 2
ïî 0 en otro caso
a) Obtener FY ( y ) .
b) Trazar la gráfica FY ( y ) .
c) Utilizar FY ( y ) del inciso (a) para encontrar F ( - 1 ) , F ( 0 ) y
F ( 1 ).
Solución
FY ( y ) = 0 t + t d t =
y 3
, 0 y 1
3 2
y y
2
2
a) +
2 2
Finalmente,
0 y<0
3
y 0 y 1
FY ( y ) =
2
y
2
+
2
1 y >1
b)
43
c) F ( - 1) = 0
F ( 0 )=0
1 1
F ( 1 )= + = 1
2 2
Ejemplo 4.3.3
Una gasolinera tiene dos bombas, que pueden bombear cada una hasta 10,000
litros de gasolina por mes. La cantidad total de gasolina bombeada en un mes es
una variable aleatoria Y (expresada en diez mil litros), con una función de
densidad de probabilidad dada por
y 0 < y <1
( y )= 2- y 1 y < 2
fY
0 en otro caso
a) Trazar la gráfica de f Y ( y ) .
b) Obtener FY ( y ) y construir su gráfica.
c) Calcular la probabilidad de que la gasolinera bombee entre 8,000 y
12,000 litros en un mes.
d) Si se sabe que la gasolinera ha bombeado más de 10,000 litros en
un mes en particular, obtener la probabilidad de que haya bombeado
más de 15,000 litros durante el mes.
Solución
a)
44
Para 0 < y < 1 , FY ( y ) = t d t =
2
yy
b) 0
2
Para 1 y < 2
FY ( y ) = 0 t d t + 1 ( 2 - t ) d t = 2 y -
2
1 y y
-1
2
Finalmente:
y0
0
2
y 0 < y <1
2
FY ( y ) =
1 y < 2
2
y
2 y - -1
2
1 y2
P ( Y > 1.5 )
d) P ( Y > 1.5 | Y > 1 ) =
P ( Y >1)
1 - ( 3 - 1.125 - 1 )
= = 0.25
0.5
45
Se llama parámetro al valor numérico que describe una característica de la
población. Cabe menciona que las características de una población se denominan
parámetros, mientras que las características similares en una muestra se conocen
como estadísticos.
Los parámetros de tendencia central son datos que representan de forma global a
toda la población. Los más conocidos y utilizados son la media aritmética, la
moda y la mediana. Asimismo, los parámetros de dispersión son datos que
informan de la dispersión de los datos respecto de los parámetros de tendencia
central, como el rango, la varianza y la desviación típica o estándar.
La media de una variable aleatoria discreta que puede tomar los � valores
, , … , � está dada por:
�
=E =∑
=
� = VAR =E − =∑ − =E −
=
Por otra parte, si la variable aleatoria es continua, la media está dada por:
∞
=E =∫
−∞
a) E + =E +
b) E + =E +E
c) E = E
Donde:
46
, son variables aleatorias
, son constantes reales.
a) VAR
b) VAR =
c) VAR + = VAR
Donde:
47
Capítulo 5
Modelos probabilísticos
Si un fenómeno puede ser aproximado con alguna distribución o función de
probabilidad específica, ésta puede ser empleada para encontrar las principales
características del sistema, tales como su tendencia central y variabilidad; en este
caso, se dice que el sistema puede ser modelado con dicha distribución o función
de probabilidad.
Cabe recordar que el hecho de que los ensayos son independientes se puede
traducir en que el resultado de cierto ensayo no afecta la probabilidad de éxito de
los ensayos posteriores. Asimismo, como los posibles resultados, éxito o fracaso,
son complementarios, la probabilidad de fracaso será − .
48
P{X x} X 0, 1, ..., n
X! n X !
p X qnX ;
n!
S X : X es entero y 0 X n
valores de 0 a n; es decir, su espacio de eventos es
1. En cada prueba del experimento sólo son posibles dos resultados: éxito y
fracaso.
2. La probabilidad de éxito es constante, es decir, que no varía de una
prueba a otra. Se representa por p.
3. La probabilidad de fracaso también es constante, Se representa por q,
4. q = 1 − p
5. El resultado obtenido en cada prueba es independiente de los resultados
obtenidos anteriormente.
6. La variable aleatoria binomial, X, expresa el número de éxitos
obtenidos en las n pruebas. Por tanto, los valores que puede tomar X son:
0, 1, 2, 3, 4, ..., n.
EX np
2 X npq
X npq
49
S 0, 1, 2,
y la distribución de probabilidades es el conjunto de las tres
probabilidades de que ocurra cada valor de X:
P0 q q q2 p0 q2 , con X 0 y n 2
2 , por lo que,
P 2!
Para X=1: 21,1
1! x1!
P
1 2pq 2p1q1 , con X 1 y n 2
P2 p p p 2 p 2 q0 , con X 2 y n 2
PS P
i q 2 2pq p 2 p q 12 1
2
2
i o
Comprobación:
S1 f, f, f , e, f, f , f, e, f , f, f, e, e, e, f , e, f, e, f, e, e, e, e, e
50
Generalizando: al realizar n veces el experimento con reemplazo, la probabilidad
de que ocurran X éxitos y n-X fracasos en un orden determinado, se calcula
utilizando la Ley General de la Multiplicación, la cual es aplicable, puesto que el
resultado de cada experimento es independiente de los demás; por tanto
PX x p x qnx
Ahora bien, los X éxitos pueden ocurrir permutando los elementos de un grupo con
X elementos (éxitos), con los del otro grupo con n-X elementos (fracasos); es
decir, pueden aparecer en n X, n X órdenes distintos, cada uno con probabilidad
P
pXqn-X.
En donde
n es el número de pruebas.
k es el número de éxitos.
p es la probabilidad de éxito.
q es la probabilidad de fracaso.
EX X p X qn X np
X! n X !
n
n!
X 0
2 X EX EX E X np npq
2 2
σX npq
Por lo cual la desviación estándar es:
51
En resumen, para la distribución binomial
FX X k! n k ! p q
X
n! k n k
k 0
Considerando
PX xn PX xn PX xn
y que
PX x n PX x n1 PX x n1 PX x n
Ejemplo:
b. Ningún acierto k = 0
−
� = = . . = 1x (0.5)0 (0.5)10 = 0.0010
c. Más de un acierto
� > =� = +� = +⋯+� =
= − [� = + � = ]
− 9
� = = . . = . . = 10 x (0.5 x 0.002) = 0.01
52
5.3. Distribución de Poisson
Si todos los resultados de un experimento se producen de manera aleatoria dentro
de un intervalo de números reales, y si el intervalo se puede dividir en
subintervalos de longitud suficientemente pequeña, de tal forma que:
−�
= , = , , ,… (5.12)
!
= =
�x = � =
Ejemplo 5.2
Suponga que en una carretera estatal hay en promedio 3.5 baches cada 5
kilómetros. Sea la cantidad de baches que se observan en esta distancia. Si el
número de baches sigue una distribución de Poisson con = . , ¿cuál es la
probabilidad de encontrar exactamente 4 baches en un recorrido de 5 kilómetros?
53
Por otra parte, la probabilidad de encontrar a lo sumo 4 baches es:
− .
. . .
� = ∑� = = [ + . + + + ]
! ! !
=
= .
Uno de los errores más comunes al utilizar la distribución de Poisson proviene del
uso incorrecto del factor . En el ejemplo anterior, se consideró = . , lo cual se
interpreta como 3.5 baches cada 5 kilómetros. Este valor de resultó adecuado
para determinar la probabilidad de encontrar 4 baches en un recorrido de 5
kilómetros, pero si se modifica el tamaño del recorrido también debe modificarse el
valor de .
Ejemplo 5.3
54
5.4. Distribución exponencial
En la sección anterior se mencionó que una variable aleatoria que sigue una
distribución de Poisson cuenta el número de fallas ocurridas durante un intervalo.
Sin embargo, la distancia entre dos fallas consecutivas también define una
variable aleatoria de mucho interés, principalmente en el estudio de líneas de
espera.
−�
−�
� = = =
!
−�
−�
� > = � = = =
!
−�
=� < = − ,
−�
= ,
= = y � =� =
� �
55
Figura 5.1. Distribución exponencial
Ejemplo 5.4
Suponga que el número de defectos producidos por un telar sigue una distribución
de Poisson con una media de 0.75 errores por metro. Determine la probabilidad de
que el telar produzca 6 metros de tela sin errores.
= .
− . − . − . − .
� < < =∫ . =− | = −
= . − . = .
56
Ejemplo 5.5
= .
.
=− − .
| ⁄− − .
|∞
= . ⁄ . = .
Por lo tanto, el hecho de que hayan transcurrido 2 minutos sin cambios de voltaje
no cambia la probabilidad de una detección en los próximos 90 segundos.
Suponga que el tiempo entre los camiones que lo llevan a la escuela o al trabajo
sigue una distribución exponencial con = . camiones por minuto. Esto significa
que en promedio pasan 0.1 camiones cada minuto, o bien, 1 camión cada 10
minutos. Al llegar a la parada se puede determinar que la probabilidad de que el
camión pase en los próximos 10 minutos es 0.6321. Si se espera algún tiempo,
por ejemplo 7 minutos, por lo general se considera que las probabilidades de que
el camión pase han aumentado. Sin embargo, la propiedad de pérdida de memoria
espera. Esto ocurre porque una media de 0.1 significa que en cada intervalo de
indica que las probabilidades siguen siendo las mismas que al comienzo de la
10 minutos se espera que pase un camión: tanto a partir del punto de espera
inicial, como en el intervalo que inicia después de los 7 minutos de espera.
57
5.5. Distribución normal
En las secciones 5.1 a 5.3 se estudiaron variables aleatorias discretas que son
útiles para analizar experimentos donde los posibles resultados son finitos o
infinitos numerables, como por ejemplo el número de defectuosos en un lote de
producción. Sin embargo, cuando los posibles resultados incluyen un intervalo
completo de números, como cuando se está hablando de peso, altura, volumen,
etc., es necesario utilizar variables aleatorias continuas. En esta sección se
estudia la distribución normal, probablemente la distribución más importante y útil
en la mayoría de los estudios estadísticos.
�−��
−
= �� con − ∞ < <∞
� √ �
simétrica con centro en x, ver figura 5.3. El valor de x es la distancia desde x
Al graficar la función se obtiene una gráfica con forma de campana y
Si es una variable aleatoria con una distribución normal con media x y varianza
�x , � , �x , entonces se cumple que:
58
3. � − � < < + � = .
4. � − � < < + � = .
59
�
−
= con − ∞ < <∞
√ �
� =∫
−∞
Ejemplo 5.6
Suponga que Z es una variable aleatoria normal estándar. La tabla del anexo A
contiene probabilidades de la forma � . Para encontrar � − . , se lee
hacia abajo la columna z hasta el renglón − . . Por último se desplaza sobre este
renglón hasta la columna con el encabezado . . El valor de esta celda indica la
probabilidad buscada. Por lo tanto, � − . = . , en la figura 5.6 se
ilustra este proceso.
Observa que los encabezados de las columnas indican el dígito de las centésimas
del valor de z.
En este punto es importante destacar que la forma en que son presentadas las
tablas de distribución normal acumulada puede variar de un texto a otro, y es
necesario reconocer la forma en que deben utilizarse. La mayoría de las tablas
utilizan los valores asociados con � , � , o � , ver figura
5.7. Para determinar el tipo de datos incluidos en cada tabla, es recomendable
revisar los valores asociados a puntos positivos y al valor 0.00.
60
Si la probabilidad es . en el punto 0.00 y es menor que . ∀ > ,
entonces se trata de una tabla que indica los valores de � , figura
5.7b.
Sin embargo, es poco común que de un experimento surja una variable aleatoria
normal estándar. Cuando una variable aleatoria sigue una distribución normal
pero ≠ o � ≠ , sus probabilidades pueden calcularse mediante una
estandarización. En este caso, la variable estandarizada es:
−
=
�
− −
� = �( )
� �
− − − −
= ( )= = = =
� � � �
− � − � �
� = �( )= = = =
� � � �
61
De hecho, el proceso de estandarización puede verse como un “desplazamiento”
del eje para lograr que la media de la distribución estudiada sea cero, ver figura
5.8.
Ejemplo 5.7
La cantidad de agua vertida en cada botella por cierta máquina tiene una
distribución normal con un valor medio de 750 ml y una desviación estándar de 1.5
ml. Si las botellas están diseñadas para contener, a lo sumo, 752 ml, ¿cuál es la
probabilidad de que ocurra un derrame?
− −
� = �( )=� . = −� .
. .
= − . = .
Por lo tanto, el 9.12% de las botellas sufrirán un derrame, por lo que puede
resultar conveniente aumentar ligeramente el tamaño de las botellas, o buscar
disminuir la varianza del proceso, para así disminuir el porcentaje de derrames.
Por otro lado, es importante que las botellas contengan al menos 746 ml de agua.
Determine el porcentaje de piezas que cumple con esta especificación.
− −
� = �( )=� − .
. .
62
= −� − . = − . = .
De esta forma, se espera que el 99.62% de las botellas cumplan con el contenido
mínimo de agua.
=� = . = .
Y
� = √� − =√ . . = .
0.16
0.14
0.12
0.1
0.08
0.06
0.04
0.02
0
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
= � y � = √� −
Ejemplo 5.8
=� = . =
Y
� = √� − =√ . . = .
� =� = +� = + ⋯+ � = = .
Por otro lado, se puede calcular la misma probabilidad utilizando una distribución
normal:
− + . −
� = �( )=� − . = .
. .
64
Capítulo 6
Elementos de inferencia estadística
El teorema del límite central indica que la distribución de probabilidad de una suma
de n variables aleatorias tiende a una distribución gaussiana o normal, si n es lo
suficientemente grande. Esto implica que una suma de variables aleatorias
normales se puede aproximar con una función de densidad normal. ¿Qué tan
grande es "suficientemente grande"? Cuando las variables aleatorias sumadas
son semejantes, se considera como regla empírica n = 30 como el valor límite a
partir del cual esta aproximación es adecuada.
Si la distribución de la población es normal.
Si la distribución de la muestra es simétrica, unimodal, sin valores
extremos, la distribución de muestreo puede ser normal incluso en tamaños
de muestra menores a 15.
Si la distribución de la muestra es moderadamente asimétrica, unimodal, sin
valores extremos, y el tamaño de la muestra es mayor a 16.
Cuando no se tienen valores atípicos, si el tamaño de la muestra es mayor
a 40.
La forma exacta de una curva normal está totalmente determinada por su media y
desviación estándar. Por lo tanto, si se conoce la media y desviación estándar de
una variable, se puede encontrar la media y desviación estándar de la distribución
muestral del estadístico.
El teorema del límite central es tal vez el más importante de toda la inferencia
estadística. Asegura que la distribución de muestreo del promedio se aproxima a
la normal al incrementarse el tamaño de la muestra. Hay situaciones teóricas en
65
las que el teorema del límite central no se cumple, pero casi nunca se encuentran
en la toma de decisiones práctica. Una muestra no tiene que ser muy grande para
que la distribución de muestreo de la media se acerque a la normal. Los
estadísticos utilizan la distribución normal como una aproximación a la distribución
de muestreo siempre que el tamaño de la muestra sea al menos de 30, pero la
distribución de muestreo de la media puede ser casi normal con muestras incluso
de la mitad de ese tamaño. La importancia del teorema del límite central es que
permite usar estadísticas de muestra para hacer inferencias con respecto a los
parámetros de población sin saber nada sobre la forma de la distribución de
frecuencias de esa población más que lo que se pueda obtener de la muestra.
6.2. Estadísticos
Una vez seleccionada la muestra, se pueden obtener varias medidas descriptivas
numéricas a partir de los datos de la muestra. Ejemplos son el promedio
aritmético, la mediana, el rango o la varianza de la muestra. Si se sacan dos o
más muestras diferentes de la población y se calcula el promedio aritmético para
ambos, este seguramente variará de una muestra a otra, ya que depende de los
valores de los datos que se hayan obtenido y no se puede conocer su valor hasta
después de haber seleccionado la muestra. Lo mismo se puede decir para las
otras medidas descriptivas numéricas de la muestra. Por lo tanto, cada una de
éstas es en realidad una variable aleatoria.
A todo elemento que es función de los valores de los datos que se tienen en una
muestra se le denomina estadístico; todo estadístico es, entonces, una variable
aleatoria. Si se consideran todas las muestras posibles de tamaño n que pueden
extraerse de una población, y para cada una se calcula el valor del estadístico de
interés, se puede encontrar la distribución de probabilidades de esta nueva
población que contiene todos los posibles valores del estadístico para las
muestras de tamaño n.
66
más adelante que la dispersión de la distribución de muestreo (su error estándar)
disminuye conforme va aumentando el número de elementos en la muestra.
desviación estándar x, y la que se tiene a nivel muestreo, es decir ��̅ �̅ , con
media ��̅ y desviación estándar ��̅ . Esta última es solamente válida para el
tamaño de muestreo estudiado y será utilizada para hacer inferencias (ya sea
estimaciones puntuales o por intervalos de confianza y pruebas de hipótesis)
sobre los parámetros de la población de interés.
67
6.1.1. Distribución muestral del promedio aritmético
aritmético, es que existe una relación entre los parámetros de la población (x y x)
Otra característica importante de la distribución de muestreo del promedio
Supóngase que se extraen sin remplazo todas las muestras posibles de tamaño n
de una población finita de tamaño Np > n, entonces es posible demostrar que se
cumplen las siguientes ecuaciones:
m X =m X
s Np - n
s = X
Np - 1
X
n
m X =m
s
s X =
n
puesto que
Np - n s
lím = s =
n Np - 1 n
Np ®
Supóngase que se tiene una población finita formada por los datos 1, 2, 3, 4 y 5;
considerando un tamaño de muestra de 3 y un muestreo sin remplazo (MSR), se
desean conocer la distribución muestral del promedio aritmético y los parámetros
de ésta.
68
Como la población es finita y el muestreo es sin remplazo, el número total de
muestras distintas de tamaño 3 que pueden obtenerse a partir de una población
de 5 elementos es
10
5!
3! (5 3)!
Estas muestras, junto con sus promedios aritméticos correspondientes, son las
siguientes:
X Xi X Xi
1, 2, 3 6/3 3, 4, 5 12/3
1, 2, 4 7/3 3, 4, 1 8/3
1, 2, 5 8/3 4, 5, 1 10/3
2, 3, 4 9/3 4, 5, 2 11/3
2, 3, 5 10/3 5, 1, 3 9/3
1.5
Frecuencia
0.5
0
0.0 1.0 2.0 3.0 4.0 5.0
X
Figura 6.2 Distribución de muestreo para el promedio, muestreo sin reemplazo.
69
10 10 2
å X i = 90 / 3 å X i = 840 / 9
i =1 i =1
1 10 1 90
m x =X = å Xi = × =3
10 i = 1 10 3
1 10 2 2 1 840
s = å X i - X = × - 9=
2
x
10 i = 1 10 9
Es decir, ̅ = 3 y � ̅ = 5.577
X
Np n
X
n Np 1
en donde Np = 5, n = 3 y = 3.
1 4 9 16 25
2 (3)2 9 11 9 2
55
5 5
Por lo tanto,
s = 2 = 1.4145
y
1.4145 5- 3
s x = × = (0.8164)(0.7071) = 0.577
3 5- 1
70
Ejemplo 6.2
4.5
4
3.5
3
Frecuencia
2.5
2
1.5
1
0.5
0
0.0 1.0 2.0 3.0 4.0 5.0
Mediana
M = 0.77
10
distribución es simétrica.
la que hace que el promedio aritmético sea mejor estimador de X que la mediana.
estudio de la estimación puntual, se verá que esta característica es exactamente
71
Distribución muestral
de los promedios
Distribución muestral
de las medianas
Si se repite este ejercicio para un muestreo sin remplazo, se tendrán que analizar
5 x 5 x 5 = 125 muestras. A través del manejo de una computadora, se encuentra
fácilmente la distribución de muestreo correspondiente:
20
18
16
14
12
Frecuencia
10
8
6
4
2
0
0.0 1.0 2.0 3.0 4.0 5.0
X
Figura 6.5 Distribución de muestreo para el promedio, muestreo con reemplazo.
72
considerablemente menor que la población de origen: X / 5 . Esto se
Asimismo, se aprecia que la distribución de muestreo tiene una dispersión
5 repeticiones 5 repeticiones
25 repeticiones 25 repeticiones
73
entonces ̅ sigue una distribución normal con media ̅ y varianza � ̅ .
̅
Estandarizando, se encuentra que la variable aleatoria z = ( – ̅ )/ � ̅ sigue una
distribución normal estándar.
En otras palabras:
X X
para - < z <
X
fz(z) =
Np n
X
Np 1
(MSR)), se puede escribir:
n
X X
para - < z <
X
fz(z) =
Partiendo del conocimiento de que P(-zc < z < zc) = 1 - , se encuentra que
X X
< zc) = 1 -
X
P(-zc <
74
Esto será la base de la inferencia mediante intervalos de confianza y pruebas de
hipótesis.
X X
t=
* sX
n
X X
t=
sX
n 1
Z
2
t=
en donde z representa una variable aleatoria normal y 2 una variable aleatoria ji-
cuadrada independiente con v grados de libertad (ver adelante).
75
menos que la variable aleatoria lo sea. Como la distribución t se deriva de
distribuciones basadas en la distribución normal, se exige que la muestra
provenga de una población normal cuando n es pequeño.
Dado que en el límite, cuando n tiene a infinito, *Sx tiene el mismo valor que x, la
distribución t de Student tiene como límite a la distribución normal estándar a la
cual se va acercando conforme vaya aumentando n.
tn1
Como en el caso anterior, se parte del hecho que P(-tc < t < tc) = 1 - , en donde t
confianza preestablecida 1 - .
queda definido como en la ecuación anterior, y en donde tc depende de la
76
tamaño nx y ny respectivamente, provenientes de 2 poblaciones relativas a las
variables X y Y.
Cuando nx y ny son mayores que 30, se sabe que tanto ̅ como ̅ siguen una
distribución aproximadamente normal. Tomando en cuenta que la suma algebráica
de 2 variables aleatorias normales también es normal, se puede considerar que el
estadístico ̅ - ̅ también sigue una distribución normal.
77
estableciéramos un intervalo de confianza de (1 - )% para cada muestra,
Si se obtiene repetidamente una muestra de tamaño n de la población y
Ejemplo
son x x , x x
por ciento de las muestras de tamaño n, por lo que los intervalos de confianza de
68.26, 95.44 y 99.73 por ciento para estimar a
x 2 x , x 2 x y x 3 x , x 3 x , lo cual se aprecia en la figura siguiente
Figura A
78
P X X X 1
Los límites de confianza para la media de una población con variable aleatoria X
asociada están daos por ̅ ± � � ̅ donde � depende del nivel de confianza
deseado. Si ̅ tiene distribución normal, � puede obtenerse en forma directa de la
tabla.
Entonces, los límites de confianza para la media de la población quedan dados por
�
̅± � √� en caso de que el muestreo se haga a partir de una población infinita o
de que se efectúe con remplazo a partir de una población finita, o por ̅ ±
� �� −�
� √� √ � − si el muestreo es sin remplazo a partir de una población finita de
�
tamaño NP.
Definición 6.5.1
79
no ocurre (Hipótesis alternativa: H1)., es por decir así, el complemento de la
hipótesis H0 .
Sin embargo, y dado que no se conoce toda la población, sino solamente una
muestra obtenida de ella, este procedimiento solamente nos permitirá decidir si se
tiene evidencia para pensar que la hipótesis bajo prueba parece ser cierta, esto
es, si los datos no muestran claramente resultados que sean incongruentes con la
hipótesis H0 . Esto significa que no podemos tener certeza absoluta en nuestra
conclusión, sino que podemos estar equivocados. Esta posibilidad de error la
mediremos como una probabilidad, y desde luego, queremos que sea pequeña.
Pero, ¿a cuál error nos referimos? Porque por la aplicación de este procedimiento
podemos cometer cualquiera de los dos errores siguientes. Veamos.
Ambos errores son distintos, pero no igualmente graves, por lo tanto sus tamaños
serán también diferentes. ¿Cuál tomar entonces como base? El procedimiento
Finalmente, se debe establecer el criterio que nos permita decidir si las diferencias
que existan entre la estimación del parámetro y el valor (o valores) propuesto(s)
para él es suficientemente grande para pensar que parece no cumplirse H 0 . Sin
embargo, el criterio de decisión depende no solamente de H 0 , sino que puede
pensarse que estará definido por la hipótesis alternativa H1 , ya que el decidir que
H0 parece falsa ( rechazar H0 ) es en favor de la hipótesis H1 (pensar que H1
parece ser cierta).
80
Existen básicamente dos tipos de hipótesis:
darán indicios para pensar que el valor del parámetro es distinto del valor
que tanto los valores grandes como los pequeños del estadístico de prueba nos
supuesto, 0 .
El planteamiento es el siguiente:
H0 : = 0
H1 : 0
vs
Región
de Acep-
tación
(1-)
C C
1 2
El planteamiento es el siguiente:
H0 : 0
H1 : < 0
vs
Región
de Acep-
tación
(1-)
C
1
En este caso, la región de rechazo está limitada solamente por arriba por el valor
C1 , esto es, existe un solo valor crítico.
H0 : 0
O bien,
H1 : > 0
vs
Región
de Acep-
tación
(1-)
C
1
En este caso la región de rechazo de H0 está limitada solamente por abajo por el
valor C1 , esto es, existe un solo valor crítico. Como lo muestra la gráfica, la
región de rechazo de la prueba es la cola superior de la distribución, es decir,
serán los valores grandes del estadístico los que nos llevarán a pensar que se
cumple la hipótesis alternativa.
82
1. Determinar el nivel de significancia .
2. Definir el parámetro sobre el que se quiere probar.
3. Plantear las hipótesis H0 y H1.
4. Construir un estadístico3 que tenga distribución completamente conocida, y
que involucre como único parámetro desconocido al que se quiere probar.
5. A partir de la distribución del estadístico construido en el paso 4, determinar el
(los) valor(es) crítico(s), según corresponda a la prueba planteada, tal como se
indicó antes.
6. Evaluar el estadístico de prueba con los datos de la muestra disponible
suponiendo además que H0 es cierta.
7. Si el valor calculado para el estadístico está dentro de la región de aceptación,
se decidirá NO RECHAZAR H0 por parecer cierta. Si por el contrario el valor
calculado para el estadístico está dentro de la región de rechazo, se decidirá
RECHAZAR H0 por parecer falsa optando entonces, por no rechazar la hipótesis
H1 .
Ejemplo 6.5.1
Hombres Mujeres
n1 = 50 n2 = 50
y 1 = 3.6 segundos y 2 = 3.8 segundos
Solución:
H0 : 1 - 2 = 0
H1 : 1 - 2 0
vs
3 En este punto se suele utilizar el estadístico que más convenga, de aquellos que se muestran en la tabla del Anexo B.
83
la muestra de hombres como la de mujeres son grandes (n 1 > 30 y n2 > 30), por
lo tanto, el estadístico que utilizaremos es
Y1 - Y2 - 1 - 2
12 22
~ N ( 0, 1)
n1 n 2
3.6 - 3.8 - 0
= -2.5
0.18 0.14
50 50
Suponga que se tiene una muestra aleatoria de n observaciones x1, x2, …, xn,
independientes y distribuidas en forma idéntica, de una variable aleatoria X con
distribución no especificada. El problema general del ajuste de distribuciones debe
concluir con la prueba de la hipótesis
84
La prueba de bondad de ajuste de Kolmogorov – Smirnov es una prueba no
paramétrica muy utilizada que permite verificar, con base en una muestra y cierto
grado de certidumbre, si se puede sostener la afirmación de que la población se
comporta conforme a la distribución planteada.
Sn ( xr ) = i
r f
Esto es,
i 1 n
6) Dado que en general la diferencia será distinta para cada xr , el valor que
utilizaremos para realizar la prueba, el cual se conoce como estadístico de
prueba, será la diferencia máxima, es decir,
Dn = max S n ( x r ) - F0 ( x r )
xr
85
Dicho valor Dn será comparado con los valores críticos que se muestran en las
tablas de Kolmogorov – Smirnov (Anexo C).
Ejemplo 6.5.1:
38 35 76 58 48 59
67 63 33 69 53 51
28 25 36 32 61 57
49 78 48 42 72 52
47 66 58 44 44 56
¿Se puede considerar que dicha demanda tiene una distribución normal con
media 50 y desviación estándar 10?
Solución:
demanda
Media 51.5
Error típico 2.58677005
Mediana 51.5
Moda 48
Desviación estándar 14.1683231
Varianza de la muestra 200.741379
Curtosis -0.70604745
Coeficiente de asimetría -0.00300069
Rango 53
Mínimo 25
Máximo 78
Suma 1545
Cuenta 30
86
Marcas de clase Frecuencia
23 0
31.5 2
40 5
48.5 6
57 6
65.5 5
74 4
82.5 2
y mayor... 0
Dn = Sn(x) -F0(x)
Frecuencia Frec. Acum. Relat. Frec. Acum. Relat. Diferencia
Demanda
observada observada Sn(x) esperada F0(x)
25 1 0.0333 0.0062 0.0271
28 1 0.0667 0.0139 0.0528
32 1 0.1000 0.0359 0.0641
33 1 0.1333 0.0446 0.0887
35 1 0.1667 0.0668 0.0999
36 1 0.2000 0.0808 0.1192
38 1 0.2333 0.1151 0.1182
42 1 0.2667 0.2119 0.0548
44 2 0.3333 0.2743 0.0593
47 1 0.3667 0.3821 0.0154
48 2 0.4333 0.4207 0.0126
49 1 0.4667 0.4602 0.0065
51 1 0.5000 0.5398 0.0398
52 1 0.5333 0.5793 0.0460
53 1 0.5667 0.6179 0.0512
56 1 0.6000 0.7257 0.1257
57 1 0.6333 0.7580 0.1247
58 2 0.7000 0.7881 0.0881
59 1 0.7333 0.8159 0.0826
61 1 0.7667 0.8643 0.0976
63 1 0.8000 0.9032 0.1032
66 1 0.8333 0.9452 0.1119
67 1 0.8667 0.9554 0.0887
69 1 0.9000 0.9713 0.0713
72 1 0.9333 0.9861 0.0528
76 1 0.9667 0.9953 0.0286
78 1 1.0000 0.9974 0.0026
87
El valor calculado del estadístico de prueba de Kolmogorov es Max D n = 0.1257,
n
en tanto que el valor crítico del estadístico, obtenido de la tabla es 0.24. Como el
valor calculado del estadístico es menor que el valor crítico, la hipótesis bajo
prueba de que X ~ N(50, 100) no se rechaza, es decir, con base en la evidencia
de los datos, no habría razón alguna para pensar que la distribución de X no es la
propuesta “N(50, 100)”.
88
Anexo A
z 0.0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
-3.5 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002 0.0002
-3.4 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0003 0.0002
-3.3 0.0005 0.0005 0.0005 0.0004 0.0004 0.0004 0.0004 0.0004 0.0004 0.0003
-3.2 0.0007 0.0007 0.0006 0.0006 0.0006 0.0006 0.0006 0.0005 0.0005 0.0005
-3.1 0.0010 0.0009 0.0009 0.0009 0.0008 0.0008 0.0008 0.0008 0.0007 0.0007
-3 0.0013 0.0013 0.0013 0.0012 0.0012 0.0011 0.0011 0.0011 0.0010 0.0010
-2.9 0.0019 0.0018 0.0018 0.0017 0.0016 0.0016 0.0015 0.0015 0.0014 0.0014
-2.8 0.0026 0.0025 0.0024 0.0023 0.0023 0.0022 0.0021 0.0021 0.0020 0.0019
-2.7 0.0035 0.0034 0.0033 0.0032 0.0031 0.0030 0.0029 0.0028 0.0027 0.0026
-2.6 0.0047 0.0045 0.0044 0.0043 0.0041 0.0040 0.0039 0.0038 0.0037 0.0036
-2.5 0.0062 0.0060 0.0059 0.0057 0.0055 0.0054 0.0052 0.0051 0.0049 0.0048
-2.4 0.0082 0.0080 0.0078 0.0075 0.0073 0.0071 0.0069 0.0068 0.0066 0.0064
-2.3 0.0107 0.0104 0.0102 0.0099 0.0096 0.0094 0.0091 0.0089 0.0087 0.0084
-2.2 0.0139 0.0136 0.0132 0.0129 0.0125 0.0122 0.0119 0.0116 0.0113 0.0110
-2.1 0.0179 0.0174 0.0170 0.0166 0.0162 0.0158 0.0154 0.0150 0.0146 0.0143
-2 0.0228 0.0222 0.0217 0.0212 0.0207 0.0202 0.0197 0.0192 0.0188 0.0183
-1.9 0.0287 0.0281 0.0274 0.0268 0.0262 0.0256 0.0250 0.0244 0.0239 0.0233
-1.8 0.0359 0.0351 0.0344 0.0336 0.0329 0.0322 0.0314 0.0307 0.0301 0.0294
-1.7 0.0446 0.0436 0.0427 0.0418 0.0409 0.0401 0.0392 0.0384 0.0375 0.0367
-1.6 0.0548 0.0537 0.0526 0.0516 0.0505 0.0495 0.0485 0.0475 0.0465 0.0455
-1.5 0.0668 0.0655 0.0643 0.0630 0.0618 0.0606 0.0594 0.0582 0.0571 0.0559
-1.4 0.0808 0.0793 0.0778 0.0764 0.0749 0.0735 0.0721 0.0708 0.0694 0.0681
-1.3 0.0968 0.0951 0.0934 0.0918 0.0901 0.0885 0.0869 0.0853 0.0838 0.0823
-1.2 0.1151 0.1131 0.1112 0.1093 0.1075 0.1056 0.1038 0.1020 0.1003 0.0985
-1.1 0.1357 0.1335 0.1314 0.1292 0.1271 0.1251 0.1230 0.1210 0.1190 0.1170
-1 0.1587 0.1562 0.1539 0.1515 0.1492 0.1469 0.1446 0.1423 0.1401 0.1379
-0.9 0.1841 0.1814 0.1788 0.1762 0.1736 0.1711 0.1685 0.1660 0.1635 0.1611
-0.8 0.2119 0.2090 0.2061 0.2033 0.2005 0.1977 0.1949 0.1922 0.1894 0.1867
-0.7 0.2420 0.2389 0.2358 0.2327 0.2296 0.2266 0.2236 0.2206 0.2177 0.2148
-0.6 0.2743 0.2709 0.2676 0.2643 0.2611 0.2578 0.2546 0.2514 0.2483 0.2451
-0.5 0.3085 0.3050 0.3015 0.2981 0.2946 0.2912 0.2877 0.2843 0.2810 0.2776
-0.4 0.3446 0.3409 0.3372 0.3336 0.3300 0.3264 0.3228 0.3192 0.3156 0.3121
-0.3 0.3821 0.3783 0.3745 0.3707 0.3669 0.3632 0.3594 0.3557 0.3520 0.3483
-0.2 0.4207 0.4168 0.4129 0.4090 0.4052 0.4013 0.3974 0.3936 0.3897 0.3859
-0.1 0.4602 0.4562 0.4522 0.4483 0.4443 0.4404 0.4364 0.4325 0.4286 0.4247
-0.0 0.5000 0.4960 0.4920 0.4880 0.4840 0.4801 0.4761 0.4721 0.4681 0.4641
89
Distribución normal estándar acumulada
z 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09
0.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359
0.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753
0.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141
0.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517
0.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879
0.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224
0.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549
0.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852
0.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133
0.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389
1.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621
1.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830
1.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015
1.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177
1.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319
1.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441
1.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545
1.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633
1.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706
1.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767
2.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817
2.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857
2.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890
2.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916
2.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936
2.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952
2.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964
2.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974
2.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981
2.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986
3.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990
3.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.9993
3.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.9995
3.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.9997
3.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9998
3.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998
90
Anexo B Tabla de distribuciones de los estadísticos de uso más común.
Parámetro Situación Distribución del
Estadístico
a estimar particular estadístico
X μ
σ2
Media conocida σ N(0,1)
n
X μ
Poblacional
σ2
t – student con
desconocida S
n n -1 grados de libertad
n < 30
n - 1 S2
Varianza
Ji – cuadrada con
2
Poblacional
σ2 n -1 grados de libertad
ˆ p
ˆ Y
Proporción P
ˆ (1 P
P
Poblacional n P ˆ) N(0,1)
X1 X 2 μ1 μ 2
P n > 30 n
Se conocen las
varianzas
poblacionales σ 12 σ 22 N(0,1)
12 22
X1 X 2 μ1 μ 2
y n1 n 2
Diferencia de No se conocen
1 1
las varianzas Sp t – student con
n1 n 2
12 22
las medias n1 + n 2 – 2
de dos y
12 = 22
n1 - 1 S12 n2 - 1S22
en donde, grados de libertad
1 - 2 Sp2
poblaciones
n1 , n2 < 30 n1 n2 2
X1 X2 μ1 μ2
t – student con
grados de libertad
S
No se conocen
n1 S22 n2
S S
las varianzas
12 22
2 2
y S12 S22 1
-2
12 ≠ 22
2 2 2 2
n1 n2 n1 n2
n1 1 n2 1
1 2
P̂1
Y1
Pˆ1 Pˆ2 p1 p 2
Diferencia de n1
P̂2 2 p1 1 p1 p 2 1 p 2
Proporciones Y
N(0,1)
poblacionales n2
p1 – p2 n1 n2
n1 , n2 > 30
91
Anexo C
92
Referencias
Mendenhall W., Sincich T. (2007), Statistics for engineering and the sciences,
Pearson Prentice-Hall.