Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Analisis Del Dato Estadistico II Guia A Actualizada
Analisis Del Dato Estadistico II Guia A Actualizada
10
11
12
13
14
15
16
Smbolos Matemticos
Smbolos
AB
P(A)
x<y
x y
[a, )
( , b]
(a, )
(- , b)
[a, b]
(a, b)
(x, y)
AxB
Descripcin
Pertenece
No pertenece a
Contenido en
Estrictamente Contenido
No est contenido
Igual
Diferente
Unin
Interseccin
Diferencia
Conjuntos de Partes de A
x menor que y
x menor o igual a y
Intervalo Cerrado por la izquierda
Intervalo Cerrado por la derecha
Intervalo Abierto por la izquierda
Intervalo Abierto por la derecha
Intervalo Cerrado
Intervalo Abierto
Par ordenado
Producto Cartesiano
17
Interpretaciones de la Probabilidad 1
A pesar de que el concepto de probabilidad es una parte tan comn y natural de la experiencia
de la gente, no existe una nica interpretacin cientfica del trmino probabilidad aceptada por
todos los estadsticos, filsofos y dems autoridades cientficas. A travs de los aos, cada
interpretacin de la probabilidad propuesta por unos expertos ha sido criticada por otros. De
hecho, el verdadero significado de la probabilidad es todava un trmino muy conflictivo y
surge en muchas discusiones filosficas actuales sobre los fundamentos de la estadstica.
Se expondrn tres interpretaciones (o definiciones) diferentes de la probabilidad, cada una de
estas interpretaciones puede ser til en la aplicacin de la teora de la probabilidad a
problemas prcticos.
Basado en los siguientes textos: DeGroot, Morris. Probabilidad y Estadstica. Pgs. 2-6; Mood, Graybill y
18
y si el dado es justo2, los seis resultados son igualmente probables, es decir que por la
naturaleza del proceso, por su simetra, todas las caras tienen la misma oportunidad de
aparecer.
Ahora se quiere la probabilidad de que el resultado de un lanzamiento sea un nmero par.
Tres de los seis posibles resultados tienen este atributo. La probabilidad de que un nmero
par aparecer cuando el dado es lanzado es 3/6 1/2. Similarmente, la probabilidad que un
cinco aparecer cuando un dado es lanzado es 1/6. La probabilidad que el resultado de un
lanzamiento ser mayor que 2 es 2/3.
De este modo, se tiene de manera ms general que, si los n resultados de un fenmeno
aleatorio son mutuamente excluyentes e igualmente probables y si n(A) de estos resultados
presentan el atributo A, entonces la probabilidad de A es la proporcin n (A)/n.
19
Por ejemplo, es lanzada una moneda sabiendo que esta sesgada a favor de las caras, es
decir, es ms probable que aparezca una cara que un sello. Los dos posibles resultados
del lanzamiento de la moneda no son igualmente probables 3. Cul es la probabilidad
de cara? La definicin clsica no tiene la posibilidad de ayudar aqu.
Es decir, el dado es un cubo perfecto en el sentido de que es simtrico y no est arreglado para que alguna
20
21
Frecuencia
observada
C
S
TOTAL
56
44
100
0.56
0.44
1
0.50
0.50
1
Obsrvese que la frecuencia relativa de caras esta cerca de 1/2. Esto era lo que se esperaba
ya que la moneda era simtrica.
Supngase ahora que un dado fue lanzado 300 veces, con los siguientes resultados:
Tabla 2. Resultados obtenidos al lanzar un dado 300 veces.
Resultado
1
2
3
4
5
6
TOTAL
Frecuencia
Frecuencia relativa
observada
observada
plazo
51
54
48
51
49
47
300
0.170
0.180
0.160
0.170
0.163
0.157
1
0.1667
0.1667
0.1667
0.1667
0.1667
0.1667
1
Ntese ahora que la frecuencia relativa de la cara con 1 esta cerca de 1/6; de manera similar
para 2, 3, 4, 5 y 6. Estos resultados no son inesperados, ya que el dado estaba balanceado;
era de esperarse que cada cara ocurriera con aproximadamente la misma frecuencia en el
largo plazo.
Esto sugiere que se pueden usar las frecuencias relativas como una aproximacin para la
probabilidad. En otras palabras, se supone que la proporcin de lanzamientos en los que se
obtiene una cara en el lanzamiento de una moneda o de los nmeros de un dado se puede
usar como una aproximacin de la respectiva probabilidad. Advirtase que aunque las
frecuencias relativas de los diferentes resultados son predecibles, el resultado actual de un
lanzamiento individual es impredecible.
En los ejemplos anteriores puede usarse la interpretacin clsica o la frecuentista y se
obtienen aproximadamente los mismos resultados. Esto se debe a que la moneda y el dado
estn bien balanceados y son simtricos. Supngase ahora que la moneda no est
balanceada, as que los dos casos: cara y sello, no son igualmente probables que ocurran.
Aqu la definicin clsica no es til en la misin de encontrar el valor de una probabilidad.
Entonces, podra utilizarse la interpretacin de la frecuencia relativa o posiblemente algn
anlisis fsico de la moneda no balanceada.
En muchas investigaciones cientficas, se toman observaciones las cuales tienen un
elemento de incertidumbre o son impredecibles. Como un ejemplo, supngase que se quiere
predecir, si al nacer un bebe en cierta localidad ser varn o hembra. Esto es
individualmente un evento incierto, pero los resultados de grupos de nacimientos pueden
ser satisfactorios. Se ha encontrado que existe una cierta regularidad a largo plazo, la cual
es similar a la regularidad a largo plazo de la frecuencia relativa de una cara cuando una
moneda es lanzada. Si por ejemplo es encontrado, examinando registros, que alrededor de
51% de los nacimientos en esta localidad son masculinos, este nmero puede ser tomado
como una aproximacin a la probabilidad de que nazca un varn en esa localidad.
Para hacer esta idea mas concreta, se asumir que una serie de observaciones pueden ser
obtenidas bajo condiciones uniformes. Es decir, una observacin de un experimento
aleatorio es hecha; entonces el experimento se repiti bajo las mismas condiciones y se
tom otra observacin. Esto se repite muchas veces, y mientras las condiciones son
similares cada vez, hay una variacin incontrolable la cual es aleatoria, as que las
Esta claro que las condiciones mencionadas son muy vagas para servir como base de una
definicin cientfica de probabilidad. Por tanto, este criterio de la probabilidad a posteriori
recibe varias crticas, entre las cuales se pueden mencionar las siguientes:
1. Se menciona un nmero grande de repeticiones de un proceso, pero no hay una
identificacin clara del nmero especfico que podra considerarse suficientemente grande.
2. Se afirma que la moneda debera ser lanzada cada vez en condiciones similares, pero
estas condiciones no se describen con precisin. Las condiciones en la cual se lanza la
moneda no pueden ser completamente idnticas para cada lanzamiento porque entonces los
resultados serian todos iguales y se obtendran slo caras o slo sellos. De hecho, una
persona experimentada puede lanzar una moneda repetidamente y cogerla de tal manera
que obtenga una cara en casi todos los lanzamientos. En consecuencia, los lanzamientos no
deben ser completamente controlados sino que deben tener una caracterstica aleatoria.
1
3. Se asevera, adems, que la frecuencia relativa de caras sera aproximadamente 1/2,
pero no se especifica un lmite para la variacin posible respecto al valor 1/2. Si una
1. El requisito de que los juicios de una persona sobre las probabilidades de un nmero
infinito de sucesos sean completamente consistentes y libres de contradicciones no
parece humanamente posible.
2. La interpretacin subjetiva no proporciona bases objetivas para que dos o ms
cientficos que trabajan juntos obtengan una evaluacin conjunta de su estado de
conocimiento en un rea cientfica de inters comn.
La evaluacin por un determinado cientfico de la probabilidad de algn resultado incierto
debe ser, en ltima instancia, su propia evaluacin, basada en todas las evidencias de que
dispone. Esta evaluacin puede estar parcialmente basada en la interpretacin frecuentista
de la probabilidad, ya que el cientfico puede tener en cuenta la frecuencia relativa de la
ocurrencia de este resultado o de resultados similares en el pasado. Tambin puede basarse
parcialmente en la interpretacin clsica de la probabilidad, puesto que el cientfico puede
tener en cuenta el nmero total de resultados posibles que considera igualmente probables.
Sin embargo, la asignacin final de probabilidades numricas es responsabilidad del propio
cientfico.
Probabilidad de un evento
Las probabilidades se plantean con respecto a algn evento. El evento en cuestin puede ser
que llueva, haya ganancias, caiga cara, se obtenga un rendimiento de por lo menos 6%, se
termine el curso, se obtengan buenas calificaciones, entre otros.
Las probabilidades pueden expresarse en mltiples formas, incluyendo decimales,
fracciones y porcentajes. Por ejemplo, la posibilidad de lluvia se puede establecer como
20%, 2 de 10, 0.20, o bien 1/5.
La probabilidad de que un evento ocurra est dada mediante un nmero que va de 0 a 1.
La probabilidad de algn evento A, se representa por P(A), es un nmero que va del 0 al 1,
y que indica cuan probable es la ocurrencia del evento A. Cuanto mas cerca se encuentre el
nmero de uno (1), tanto mayor es la probabilidad de que dicho evento A ocurra; cuanto
mas cercano sea el numero a cero (0) menor es la probabilidad de que el evento A ocurra. A
un evento imposible se le asigna una probabilidad 0, mientras que a un evento del cual se
tiene la certeza que ocurrir se le asigna una probabilidad de 1.
Si lanzamos una moneda al aire, el resultado puede ser cara o sello, pero no
La estadstica tiene dos objetivos inmediatos, describir e inferir, cuya finalidad es satisfacer
un objetivo mucho mas exigente: predecir.
La prediccin est relacionada de una manera indisoluble con las probabilidades, y aquel
que no estudia los postulados de probabilidades para comprender profundamente su
significado, no podr interpretar cabalmente los resultados de la estadstica.
Es por esta razn que categricamente afirmamos que con la estadstica no se puede mentir.
Vincular a la estadstica, en tanto que disciplina matemtica, con la capacidad de
manipulacin para engaar, es tan osado como acusar al espaol, como lenguaje verbal, de
herramienta susceptible de ser usada para decir mentiras. Es slo la falta de informacin de
un individuo lo que faculta a otro para engaarlo, con o sin intencin, tanto con letras como
con nmeros.
Operaciones con eventos:
Tratndose los eventos de subconjuntos del espacio muestral, es natural que satisfagan todas las
caractersticas de los conjuntos. Sean A y B dos eventos pertenecientes a un espacio muestral S.
La interseccin, que se denota A B , es el evento que consta de todos los resultados en S que
pertenecen tanto a A como a B. Por tanto, la interseccin A B ocurre si y slo si tanto A
como B ocurren.
De manera ms general, dados k eventos A1, A2, ..., Ak, su interseccin A1 A2 Ak es el
conjunto de todos los resultados bsicos que pertenecen a todo Ai (i = 1, 2, ..., k)
La unin, que se denota A B , es el evento que consta de todos los resultados en S que
pertenecen al menos a uno de estos eventos. Por lo tanto, la unin A B ocurre si y slo si A
y/o B ocurren.
De manera ms general, dados k eventos A1, A2, ..., Ak, su unin A1 A2 Ak es el
conjunto de todos los resultados que pertenecen al menos a uno de estos k eventos.
Definiciones complementarias:
Ejercicios
Surge entonces la siguiente pregunta: cmo podemos asociar un nmero con el evento A
que mida de alguna manera la posibilidad de que A ocurra?
Para ello vamos a estudiar a fondo un modelo de pensamiento que utilizamos
constantemente sin importar nuestra cultura probabilstica.
Suponga que se repite n veces el experimento aleatorio E. Sean A y B dos eventos
relacionados con E. Sean nA y nB el nmero de veces que A y B ocurren respectivamente en
las n repeticiones.
Frecuencia Relativa: para el evento A se define como f A =
nA
.
n
3.
1
0
0
2
0
0
3
1
0.3
4
1
0.2
5
2
0.2
6
3
0.5
7
4
0.5
8
5
0.6
9
6
0.6
10
6
0.6
11
6
0.5
5
12
6
0.5
13
7
0.5
4
Frecuencia relativa
F
re
c
u
e
n
c
iare
la
tiv
ae
ne
lla
n
z
a
m
ie
n
tod
eu
n
am
o
n
e
d
a
1
0
,9
0
,8
0
,7
0
,6
0
,5
0
,4
0
,3
0
,2
0
,1
0
1
1
0
1
1
1
2
1
3
L
a
n
z
a
m
ie
n
to
Vamos a usar las propiedades de la frecuencia relativa como esquema para las condiciones
que le exigiremos que cumpla a una medida de la posibilidad de que un evento ocurra.
Probabilidad
Consideraremos la probabilidad como el lmite de la frecuencia relativa, de forma tal que se
convierte en una funcin que va del espacio de todos los eventos posibles al conjunto de los
nmeros reales en el intervalo entre 0 y 1 inclusive:
P ( A) = lim f A
n
como el lmite anterior, la probabilidad es una funcin que asigna a cada evento A de S un
nmero real denotado por P(A) y llamado probabilidad de A, que satisface las siguientes
propiedades:
1. 0 P ( A) 1
2. P(S ) = 1
3. Si A y B son mutuamente excluyentes entonces P(A B) = P(A) + P(B)
4. (terico) Si cada par de eventos de la secuencia infinita E1,E2,..., Ek,..., es
P Ai = P( Ai )
i =1 i =1
pi 0
2.
p1 + + pk =1
Estos nmeros son consistentes, por definicin, con los postulados de probabilidades, lo
cual se puede verificar fcilmente.
As,
A = {a j1 ,, a jr }
para 1 r k entonces
P ( A) = P ( Aj1 A j2 A jr ) = P ( A j1 ) + P ( Aj 2 ) + + P ( A jr ) = p j1 + p j2 + + p jr
1
para i = 1,,k.
k
r
k
Esta forma de pensar nos lleva a la conocida frmula de casos favorables entre casos
totales para calcular probabilidades. Formalmente se escribe:
P ( A) =
nmero de puntos de S en A
nmero de puntos de S
Tcnicas de Conteo
Definiciones previas:
El nmero de posibles ordenaciones de x objetos es x! = x(x-1)(x-2)...(2)(1), es decir el
producto de todos los nmeros inferiores a x. Este nmero se lee x factorial.
Regla m x n:
La regla del producto se aplica a situaciones en las que se busca un nmero de maneras
distintas que las que se pueden formar pares de objetos, en donde los objetos se seleccionan
de dos grupos distintos.
Este principio se conoce tambin como regla de multiplicacin regla m por n.
Permutaciones:
El nmero de permutaciones de n objetos tomados de k en k es el nmero de posibles
ordenaciones cuando k objetos han de ser seleccionados de un total de n y dispuestos en
n!
n
orden. Este nmero se calcula por la frmula Pk =n Pk = ( n k )! y se lee permutaciones
Combinaciones:
El nmero de combinaciones de n objetos tomados de k en k es el nmero de subconjuntos
de tamao k que se pueden formar de un conjunto de n elementos. Este nmero se calcula
por la frmula n Ck =
Pk
n!
=
y se lee combinaciones de n en k. Generalmente se
k!
k!(n k )!
Muestreo
Muestra al azar:
Supongamos que tenemos n objetos. Escoger al azar k objetos entre los n objetos originales
( 0 k n ) significa que cada subconjunto de tamao k tiene la misma probabilidad de ser
elegida que cualquier otro subconjunto.
Muestreo con reemplazo ( o con reposicin):
Consiste en seleccionar un objeto de una coleccin y devolverlo a la misma despus de
anotar su caracterstica de inters.
Muestreo sin reemplazo (o sin reposicin):
Consiste en seleccionar un objeto de una coleccin sin devolverlo a la misma despus de
anotar su caracterstica de inters.
En principio, al efectuar un muestreo con reemplazo el espacio muestral no cambia, de
forma que en caso de seleccionar otra muestra posteriormente, las probabilidades originales
Ejercicios
1. Un candado de combinacin abre slo cuando la combinacin correcta de los tres
dgitos es seleccionada. Cada dgito puede ser cualquier nmero entre 0 y 9. Si una
combinacin particular de dgitos representa a un punto muestral, cuntas puntos se
estn utilizando para definirlo?
2. El presidente, vicepresidente, secretario y tesorero de una determinada asociacin, se
elegirn de entre 10 candidatos. Encuentre el nmero de maneras distintas en que estos
puestos pueden ocuparse.
3. Un experimento consiste en asignar 10 trabajadores para 10 tareas distintas (un
trabajador por tarea y viceversa). De cuantas maneras se pueden asignar las 10 tareas a
los 10 trabajadores?
4. Si se seleccion una muestra de 10 enfermeras de un total de 90 de un hospital,
cuntas posibles muestras haba?
5. Si se seleccionan cinco cartas con reposicin (esto es, se selecciona al azar la primera y
se regresa al conjunto de cartas, etc.) de un mazo de 52 cartas, cuntas selecciones
posibles hay?
6. Para el ejercicio anterior suponga que no hay reposicin. Cuntas selecciones posibles
hay?
7. En un departamento con 18 empleados, se debe efectuar una reduccin de un tercio del
personal. Si todos los empleados tienen igual desempeo, de cuntas formas se pueden
elegir los grupos de despidos?
8. En una habitacin 25 personas tienen insignias numeradas del 1 al 25. Se eligen 5
personas al azar y se les pide que dejen la habitacin inmediatamente y se anotan los
nmeros de sus insignias.
a. Cul es la probabilidad de que el nmero menor de las insignias sea 7?
b. Cul es la probabilidad de que el nmero mayor de las insignias sea 7?
Teorema de Probabilidad
Sean A y B dos eventos, y Ac el complementario. Siempre se satisfacen las frmulas
siguientes:
P(Ac) = 1 P(A)
Probabilidad Condicional
Dados dos eventos A y B, se define la probabilidad condicional de A dado B como
P( A | B) =
P( A B)
, siempre que P(B) > 0
P( B)
Similarmente se define
P ( B | A) =
P( A B )
, siempre que P(A) > 0
P ( A)
i =1
i =1
4. P ( Ai | B ) = P ( Ai | B )
si Ai A j = 0 para i j
Independencia de Eventos
Dados dos eventos A y B se dice que son independientes estadsticamente, o simplemente
independientes, si y slo si
P(A B) = P(A)P(B)
En otras palabras, A y B son independientes si y solo si P(A|B) = P(A) siempre que P(A)
sea diferente de 0 y tambin si P(B|A) = P(B) siempre que P(B) sea diferente de 0.
En general n eventos A1 , , An , se dicen independientes si y slo si
P( A1 An ) = P( A1 ) P( A2 ) ... P( An )
En general n eventos A1 , , An , se dicen mutuamente independientes si y slo si para
cualquier valor k = 2, 3, 4, , n se tiene:
P( Ai1 Ai k ) = P( Ai1 ) P( Ai 2 ) ... P( Ai k )
Particin
Los eventos A1 , , An conforman una particin del espacio muestral S si
1. Ai A j = para i j
n
2. Ai = S
i =1
Teorema de Bayes
Teorema de Bayes para dos eventos:
Dados los eventos A y B, entonces se cumple que
P ( B | A) =
P( A | B) P( B)
P ( A)
P( A | Ei ) P ( Ei )
P ( A | Ei ) P( Ei )
=
P( A)
P ( A | E1 ) P ( E1 ) + + P ( A | Ek ) P ( Ek )
Probabilidades Bivariadas
Supngase que al realizar un experimento los resultados puedan ser clasificados segn dos
reglas de clasificacin diferentes. Por ejemplo, un grupo de personas puede ser clasificado
por su edad y por su sexo.
Sea un experimento aleatorio y A1, A2, ..., Ah y B1, B2, ..., Bk dos grupos de eventos donde los
Ai son mutuamente excluyentes y colectivamente exhaustivos, as como los B j. Estos
grupos de eventos se denominan eventos bivariantes.
Las probabilidades conjuntas son las que se obtienen mediante P(Ai Bj)
Las probabilidades marginales son la que se obtienen mediante P(Ai) P(Bj)
Los aspectos importantes de esta forma de clasificar los datos est en que facilita el
planteamiento de los problemas donde hay dos formas de clasificar los resultados.
Las tablas de frecuencia que se arman previo al clculo de probabilidades se conocen como
tablas de contingencia. Cuando las frecuencias son sustituidas por probabilidades se habla
de las probabilidades bivariadas o bivariantes.
Si a las reglas de clasificacin las llamamos atributos A y B respectivamente como
representantes de cada uno de sus grupos de eventos mutuamente excluyentes y
colectivamente exhaustivos, decimos que dichos atributos son independientes si todo
evento Ai es independiente de todo evento Bj.
Ejercicios:
1. Un estudio sobre los estudiantes de la Universidad X revel que el 20% fuma. La
probabilidad de enfermedad pulmonar, si una persona fuma es diez veces mayor que la
probabilidad de que se enferme del pulmn si no lo hace. Si la probabilidad de
enfermedad pulmonar es de 0.014 en nuestro pas, cul es la probabilidad de que un
estudiante de la Universidad X sufra enfermedades pulmonares si fuma?
2. Supongamos que lanzamos dos dados. Se definen los eventos de la manera siguiente:
A = {el primer dado muestra un nmero par}
B = {el segundo dado muestra un nmero impar}
C = {ambos dados muestran nmeros pares nmeros impares}
Halle la probabilidad de cada evento, de cada par de eventos y de la interseccin de
todos los eventos. Los eventos son mutuamente independientes?
Ejercicios
1. Suponga que se tira un dado no cargado una sola vez. A) Cul es la probabilidad
de obtener un par?. B) Cul es la probabilidad de obtener un nmero mayor que 4?.
Sol: (a) 3/6, (b) 2/6.
2. Se lanza una vez un par de dados no cargados, a) cul es la probabilidad de que la
suma de los dos nmeros sea 2 (b) sea 7?,(C) sea 11?.
Sol: (a) 1/36, (b) 6/36, (c) 2/36.
En determinado grupo hay 20 estudiantes, 7 son chicas rubias de ojos azules, 4 tienen
cabello castao y ojos azules, 5 son muchachos rubios de ojos azules y los 4 restantes son
muchachos de cabello castao y ojos cafs. Si se selecciona un estudiante al azar: a) cul
es la probabilidad de que el estudiante elegido sea una chica (b) que tenga ojos azules?, (c)
que tenga cabello castao?, (d) que sea rubia y
Caja B
Caja C
Una caja es seleccionada aleatoriamente y se extrae una bola que resulta ser roja. Cul
es la probabilidad de que provenga de la caja A?.
Sol: 45/173.
9. De cuntas maneras pueden ser colocados 10 automviles en u stock, si 3 de ellos
son Fiat, 4 son Ford, 2 Toyota y 1 BMW?.
Sol: 12.600
10. De cuntas maneras pueden ser seleccionadas 4 personas provenientes de 5 parejas
de casados, si la seleccin consiste de 2 damas y 2 caballeros?.
Sol: 100.
11. Se lanza un par de dados no cargados una vez, y se establece que los dos nmeros
que aparecen no son los mismos. (A) Calcular la probabilidad de que la suma sea 7. (B)
Calcular la probabilidad de que la suma sea 4. (C) Que la suma sea 12.
Sol: (a) 1/5 (b) 1/15 (c) 0.
12. Con base a su experiencia un mdico ha recabado la siguiente informacin relativa a
las enfermedades de sus pacientes: 5% creen tener un virus infeccioso y lo tienen, 45%
creen tener el virus y no lo tienen, 10% creen no tener el virus pero s lo tienen y
finalmente 40% creen no tenerlo, lo cual es cierto. Hallar: (a) la probabilidad de que un
paciente si cree tenerlo, (b) la probabilidad de que tenga virus si no cree tenerlo, (c) la
probabilidad de que crea tener virus y no lo tenga y (d) la probabilidad de que crea tener
el virus y s lo tiene.
Sol: (a) 0,10 (b) 0,20 (c) 0,53 (d) 0,33
13. Cul es la probabilidad de encontrar solamente un 6 en el lanzamiento de un dado
tres veces?.
Sol: 75/216.
Nmero de veces que se lanza una moneda hasta que aparezca la primera cara, etc.
Una variable aleatoria es continua cuando toma cualquier valor dentro de un intervalo de
nmero reales.
Ejemplos de variables aleatorias continuas: edad, estatura, peso, temperatura, ingreso, etc.
p( x) =1
x
Ejemplo 1
Experimento aleatorio: se lanza una moneda 3 veces
S = { ccc, ccs, csc, css, scc, scs, ssc, sss }
Sea X : Nmero de caras observadas
x
p(x)
1
8
1
8
p( x) =1. Para
x
P(X 0) = P(X = 0) =
1
8
1 +3 = 1
8
8
2
1 +3 +3 =7
8
8
8
8
1
8
1 + 3 + 3 + 1 =1
8
8
8
8
1
2
7
8
3
1
xp( x)
x
Propiedades:
a) E(k)=k
b) E(kX)=kE(X)
c) E(X Y)=E(X) E(Y)
d) E(g(X))=g(x)p(x)
Para el ejemplo dado, E(X) = xp( x) = 0 p( 0 ) +1p( 1) +2p( 2) + 3p( 3)
x
1
3
3
1 12 3
= 0 . + 1. + 2. + 3. = =
8
8
8
8 8 2
( )
= E X2 [ E( X)]2
donde,
E X2
x2 p( x)
)=
x
E X2
1
8
3
8
3
8
1 24
=3
8 8
= 0 . + 1. + 4. + 9. =
2
12 9 3
3
Entonces, V(X) = 3 =
=
Propiedades de la Varianza:
a) V(k)=0
b) V(kX)=k2V(X)
c) V(X Y)=V(X)+V(Y) si X y Y son independientes
d)
La desviacin estndar de la variable aleatoria X es la raz cuadrada positiva de la varianza,
es decir, = V(X) .
P (0) = 1-p = q
combinaciones
x
. Por otro lado, como las n repeticiones del experimento son
independientes entre s y calcular P(X = x) equivale a calcular la probabilidad de una
interseccin de eventos (en las que cada evento corresponde a un xito o a un fracaso),
tenemos que la probabilidad de un punto muestral cualquiera asociado al experimento es
px qnx;
en definitiva:
n
x n x
parax = 0 , 1, 2,...,n
P(X = x) = x p q
x n x
Dado que 0 x p q 1 y
x=0
x n x
parax = 0 , 1, 2,...,n
P(X = x) = x p q
con parmetro n y p.
O, la variable aleatoria X tiene distribucin binomial si su funcin distribucin de
probabilidad est dada por
n x n x
p q
p( x) = x
si x = 0 , 1 , ... , n
otros valores
Se puede demostrar que para una variable aleatoria con distribucin binomial
E(X)
V(X)
= n.p.q ( Varianza de X )
Ejemplo 1
Una mquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas
defectuosas. Hallar la probabilidad de que al examinar 50 piezas slo haya una defectuosa.
Solucin :
Se trata de una distribucin binomial de parmetros B (50, 0'007) y debemos calcular la
probabilidad p(X=1).
Ejemplo 2
La probabilidad de xito de una determinada vacuna es 0,72. Calcular la probabilidad de
que una vez administrada a 15 pacientes:
a) Ninguno sufra la enfermedad
b) Todos sufran la enfermedad
c) Dos de ellos contraigan la enfermedad
Solucin :
Se trata de una distribucin binomial de parmetros B(15, 0'72)
Ejemplo 3
La probabilidad de que el carburador de un coche salga de fbrica defectuoso es del 4 por
100. Hallar :
a) El nmero de carburadores defectuosos esperados en un lote de 1000
b) La varianza y la desviacin tpica.
Solucin :
Distribucin Normal
Sea una variable aleatoria X que toma todos los valores reales, y que posee una esperanza o
media y una desviacin estndar . Esa variable tiene una Distribucin Normal o
Gaussiana si su funcin de densidad de probabilidad es de la forma:
f(x) =
1 ( x )2
1
exp
2
2
2
, < x <
Los parmetros y deben satisfacer las condiciones < < y > 0 . Puesto
que tendremos diversas ocasiones para referirnos a la distribucin anterior; utilizaremos la
siguiente notacin: X tiene la distribucin N ( , 2 ) s y slo si su funcin de densidad est
dada por la expresin anterior.
El grfico de f se denomina Curva Normal, la cual es simtrica respecto a un eje vertical
que pasa por el punto x = , donde f toma su valor mximo. La forma de la curva es
acampanada, positiva a lo largo del Eje X, creciente en ( , ) y decreciente en ( , ) .
La curva no corta al Eje X, sino que es asinttica en ambos extremos.
La posicin o localizacin de la curva vara con el valor de , y su forma cambia con el
valor de . Mientras ms pequea sea la desviacin estndar (o dispersin con respecto a
Fig. 1
Entre la media y una desviacin estndar por encima de la media, se encuentra el 34,13%
de todos los casos. Anlogamente, el 34,13% de todos los casos se encuentran entre la
media y una desviacin estndar por debajo de la media. Dicho de otra manera, 34,13% del
rea bajo la curva se encuentra entre la media y una desviacin estndar por encima de la
media, y 34,13% del rea est comprendida entre la media y menos una desviacin
estndar.
Entre la media y dos desviaciones estndar por encima de la media, se encuentra el 47,72%
de los casos. Anlogamente, por debajo de la media y menos dos desviaciones estndar se
encuentran el 47,72% de los datos.
Finalmente, entre la media y tres desviaciones estndar por encima de la media se
encuentra el 49,87% de los casos. Anlogamente, el 49,87% de los casos se encuentra
entre la media y menos tres desviaciones estndar.
f (Z ) =
Z2
1
exp
2
2
, < Z <
Funcin de Distribucin
de una Curva Normal Estndar
Z
0,00
0,25
0,50
0.75
1,00
1,25
1,50
1,75
F(Z)
0,00000
0,09871
0,19146
0,27337
0,34134
0,39435
0,43319
0,45994
2,00
2,25
2,50
2,75
3,00
3,25
3,50
3,75
4,00
0,47725
0,48778
0,49379
0,49702
0,49865
0,49942
0,49977
0,49991
0,49997
0, 1 y funcin
fX ( X ) =
1 ( X ) 2
1
exp
2
2
2
1
Z2
1
=
exp
2
2
1
= f ( z )
Para cada valor x que asume X se calcula el respectivo valor Z que asume Z usando la
esperanza y la desviacin estndar de X, se revisa la tabla de la curva normal estndar, y as
se ubica el valor del rea del grfico de f X que sea anterior a x.
Ahora, al transformar los datos X de una variable normalmente distribuida en datos
estandarizados Z, en realidad expresamos estos datos en unidades de la curva normal
estndar. La importancia de esta transformacin radica en que podemos expresar cualquier
dato que provenga de una distribucin normal como un valor porcentual. Adems, puesto
que los datos estandarizados z representan nmeros abstractos (adimensionales) en
oposicin a las unidades concretas de los datos, podemos comparar la posicin de un dato
en una variable con su posicin en una segunda variable.
Puesto que cualquier forma de curva normal puede ser convertida en la forma de la curva
normal estndar, esta es la nica que se requiere para encontrar la probabilidad de una
cierta rea bajo la primera curva.
Yj =
n
f(Z j ), j = 1, , n
Al graficar la distribucin {(X1, Y1), (X2, Y2),, (Xn, Yn)} uniendo esos pares con trazos
curvos y no lineales, se obtiene un grfico muy cercano al de la funcin de probabilidad de
la distribucin N ( , 2 ) .
Con el fin de entender mejor la frmula y facilitar posteriores clculos, para cada j = 1,,
n tenemos que:
n
d j = X j
Yj
Zj = d j
f(zj)
100 = 100.
d=X
500
550
600
650
700
750
800
0
50
100
150
200
250
300
Z=
0.0
0.5
1.0
1.5
2.0
2.5
3.0
f(Z)
0,39894
0,35207
0,24197
0,12952
0,05399
0,01753
0,00443
Y =
n
f(Z)
39,894
35,207
24,197
12,952
5,399
1,753
0,443
Puesto que la curva normal es simtrica, la altura de la ordenada hacia el lado izquierdo de
la media debe ser la misma que la del lado derecho de ese valor. Definimos RXj como
aquel punto que est a la misma distancia de la media pero en direccin opuesta a Xj. Por
ejemplo, para X2 = 550 y RX2 = 450, tenemos d2 = RX2 = 450 500 = 50, Z2 =
50
= 0,5 y f(Z2) = f(0,5) = f(0,5) = 0,35207, por lo que RY2 = 32,207 = Y2. As, los
100
valores de las ordenadas para RX2 = 450 y X2 = 550, son los mismos puesto que ambos
datos se encuentran a la misma distancia de la media.
Ahora procedemos a dibujar la curva normal correspondiente.
Fig. 2
Como puede observarse, esta curva tiene forma acampanada adems de ser simtrica
respecto a la media , es decir, es como si el segmento punteado fuese un espejo.
Ejercicio: construyamos una curva normal igual que en el ejemplo anterior pero tomando
la media en $600.
Ejemplo 2:
Supongamos que el ingreso mensual promedio de 10.000 trabajadores de PDVSA es $500
y la desviacin estndar es $100. Si la distribucin es normal, encontraremos el nmero de
trabajadores que tiene un ingreso mensual
a) Inferior a $500.
b) Superior a $500 pero inferior a $600.
c) Superior a $600.
Antes de usar la tabla de reas de la curva normal, el valor de X debe ser transformado
en Z =
X
. En este ejemplo, = 500 y
que el 100% del rea de la distribucin N(500, 100) est asociada al ingreso de 10.000
trabajadores, por lo que un rea menor representa menos trabajadores.
a)
z=
Fig. 3
c)
Fig. 4
Para calcular esa rea procedemos de la siguiente manera: el rea por encima de Z = 0 es
0,5 o 50%, y el rea por debajo de Z = 1 es F(1) = 0,34134 o 34,134 %. Luego, el rea
sombreada se obtiene de la diferencia 0,5 0,34134 = 0,15866 o 15.866%. As, el nmero
aproximado de trabajadores que perciben un sueldo por encima de $600 es
10.000 (0,15866) =1.586,6 1.587.
Ejemplo 3:
Siguiendo con el ejemplo anterior, si = $400 y = $100, hallaremos la probabilidad
(rea) de que los 10.000 trabajadores ganen entre $250 y $500. Dicha probabilidad es la
suma del rea entre $250 y = $400 ms el rea entre = $400 y $500.
El rea entre 250 y 400 se calcula como sigue:
Cuando X = 250 entonces Z =
250 400
400 400
= 1,5, y para X = 400 queda Z =
=
100
100
400 400
500 400
= 0, y para X = 500 queda z =
= 1,0.
100
100
Fig. 5
Ejercicios :
1) Hallar el rea bajo la curva normal tipificada:
a) Entre Z = 0 y Z = 1,2 Sol: 0,3849
b) Entre Z = -0,68 y Z = 0 Sol: 0,2517
c) Entre Z = -0,46 y Z = 2,21 Sol: 0,6636
d) Entre Z = 0,81 y Z = 1,94 Sol: 0,1828
e) A la derecha de Z = -1,28 Sol: 0,8997
2) Si "rea" se refiere al rea bajo la curva normal tipificada, hallar el valor o los valores de
Z
tales que:
a) El rea entre 0 y Z sea 0,3770 Sol: Z = 1,16
b) El rea a la izquierda de Z sea 0,8621 Sol: Z = 1,09
c) El rea entre -1,5 y Z sea 0,0217 Sol: Z = -1,695 y Z = -1,35
3) El peso medio de 500 estudiantes varones de una universidad es de 68,5 Kg. y la
desviacin
tpica es de 10 Kg. Suponiendo que los pesos estn distribuidos normalmente, hallar el
nmero de estudiantes que pesan:
a) Entre 48 y 71 kg. Sol: entre 289 y 290 estudiantes.
b) Ms de 91 kg. Sol: entre 6 o 7 estudiantes.
4) La media del dimetro interior de una muestra de 200 lavadoras producidas por una
mquina es 1,275 cm. y la desviacin tpica de 0,0125 cm. El propsito para el cual se han
diseado las lavadoras permite una tolerancia mxima en el dimetro de 1,26cm. a 1,29
cm., de otra forma las lavadoras se consideran defectuosas. Determinar el porcentaje de
lavadoras defectuosas producidas por la mquina, suponiendo que los dimetros estn
distribuidos normalmente.
Sol: 23,02%
5) Si X est distribuida normalmente con media 5 y desviacin tpica 2, hallar P (X > 8).
Sol: 0,0668
6) Se tiene un programador de entrenamiento diseado para mejorar la calidad de las
habilidades de los supervisores de la lnea de produccin. Debido a que el programa es auto
administrativo, los supervisores requieren un nmero diferente de horas para terminarlo. Un
estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el
programa es de 500 h. y que esta variable aleatoria normalmente distribuida tiene una
desviacin estndar de 100 h.
a) Cul es la probabilidad de que un participante elegido al azar requiera ms de 500 h.
para
completar el programa?. Sol: 0,5
b) Cul es la probabilidad de que un candidato elegido al azar se tome entre 500 h. y 650
h. para completar el programa de entrenamiento?. Sol: 0,4332
c) Cul es la probabilidad de que un candidato elegido al azar se tome ms de 700 h. en
completar el programa?. Sol: 0,0228
.
Cuando usamos una estimacin puntual, sabemos que aunque usemos un mtodo bueno de
estimacin es prcticamente improbable que el valor de la estimacin coincida con el
verdadero valor del parmetro, as que sera conveniente acompaar nuestra estimacin con
alguna medida que nos permitiera expresar la cercana del estimador al parmetro. Una
solucin a ello no los brindan los estimadores por Intervalos de Confianza.
b) Estimacin por intervalo: es la estimacin de un parmetro de la poblacin dado por dos
nmeros que forman un intervalo que contiene al parmetro con una cierta probabilidad.
Conceptos bsicos.
Nivel de Confianza
Est asociado con la probabilidad de que el intervalo de confianza contenga al parmetro de
la poblacin y es expresado en porcentaje. Los niveles de confianza que ms se utilizan son
90%, 95% y 99%.
_ _________
___________
Ejemplo.1
Se encuentra que la concentracin promedio de zinc que se saca del agua a partir de una
muestra de mediciones de zinc en 36 sitios diferentes es de 2.6 gramos por mililitro.
Encuentre los intervalos de confianza de 95% y 99% para la concentracin media de zinc
en el ro. Suponga que los datos siguen una distribucin normal con una desviacin
estndar de 0.3.
Como se puede observar en los resultados del ejercicio se tiene un error de estimacin
mayor cuando el nivel de confianza es del 99% y ms pequeo cuando se reduce a un nivel
de confianza del 95%
Ejemplo 2
Ejemplo 3
Una empresa elctrica fabrica 3000 focos con una duracin aproximadamente distribuida
de forma normal con una desviacin estndar de 40 horas. Si una muestra de 300 focos
tiene una duracin promedio de 780 horas, encuentre un intervalo de confianza de 96%
para la media de la poblacin de todos los focos que produce esta empresa.
Solucin:
En este caso la varianza de la poblacin es conocida, la poblacin es finita, as que:
Ejemplo 4
Un bilogo quiere estimar el peso promedio de los capibaras cazados en el estado Apure.
Un estudio anterior de diez capibaras cazados mostr que la desviacin estndar de sus
pesos es de 12.2 libras. Qu tan grande debe ser una muestra para que el bilogo tenga el
95% de confianza de que el error de estimacin es a lo ms de 4 libras?
Ejemplo 5
Una empresa elctrica fabrica focos que tienen una duracin aproximadamente normal
con una desviacin estndar de 40 horas. De qu tamao se necesita una muestra si se
desea tener 95% de confianza que la media real est dentro de 10 horas de la media real?
Ejemplo 3.6
1.Una legisladora estatal desea encuestar a los residentes de su municipio para conocer qu
proporcin del electorado conoce la opinin de ella, respecto al uso de fondos estatales para
pagar abortos, ella supone que el 50% del electorado conoce su opinin.Qu tamao de
muestra se necesita si se requiere una confianza del 95% y un error mximo de estimacin
de 0.10?
Solucin:
La proporcin de residentes que conoce la opinin de la legisladora es de 0.5, as
que:
Se requiere un tamao de muestra de 97 residentes para que con una confianza del 95% la
estimacin tenga un error mximo de 0.10.
Control de la anchura del intervalo
Es evidente que si se estrecha el intervalo, se suministrar al investigador una estimacin
ms exacta del valor del parmetro. Hay dos mtodos corrientes para estrechar un intervalo,
pero para ambos se debe hacer un sacrificio adicional. Estos procedimientos
son:
a) Ajuste del nivel de confianza: por la propia naturaleza de los intervalos de confianza, si
se acepta un nivel de confianza ms bajo, se podra generar un intervalo ms preciso,
menos amplio, pero eso aumenta la probabilidad de error.
b) Ajuste del tamao de la muestra: el aumentar el tamao de la muestra disminuye el error
esperado y es ms probable que se d una estimacin ms ajustada del valor verdadero del
parmetro, con ello se puede conservar un nivel de confianza determinado y al mismo
tiempo disminuir la anchura del intervalo; pero el sacrificio es un aumento ya sea de
tiempo, del gasto, etc.; que se exige para recoger los datos para una muestra mayor.
Contraste de Hiptesis1
La prueba de hiptesis y la estimacin son dos de las ramas principales de la inferencia
estadstica2
Otros nombres de contraste de hiptesis utilizados en la bibliografa estadstica son: Prueba de hiptesis,
docimasia de hiptesis, test de hiptesis, prueba de significacin.
2 Estos Apuntes estn basados principalmente en: Newbold, Paul. Estadstica para los Negocios y la
Economa. Y en Stevenson,. W. Estadstica para Administracin y Economa.
Ejemplo 1:
Es posible desear determinar si afirmaciones como las siguientes son ciertas: 3
1. Un fabricante que produce cereales de desayuno afirma que, en promedio, el contenido
de cada caja pesa al menos 200 gramos. Para verificar esta afirmacin, se pesa el contenido
de una muestra aleatoria y se infiere el resultado a partir de la informacin muestral.
2. Una compaa recibe un gran cargamento de piezas. Slo puede aceptar el envo si no
hay ms de un 5% de piezas defectuosas. La decisin de aceptar la remesa puede basarse en
el examen de una muestra aleatoria de piezas.
3. Un profesor est interesado en valorar la utilidad de realizar regularmente pruebas cortas
en un curso de estadstica. La asignatura consta de dos partes y el profesor realiza esta
prueba slo en una de ellas. Cuando acaba el curso, compara los conocimientos de los
estudiantes en las dos partes de la materia mediante un examen final y analiza su hiptesis
de que las pruebas cortas aumentan el nivel medio de conocimientos.
Los ejemplos propuestos tienen algo en comn. La hiptesis se formula sobre la poblacin,
y las conclusiones sobre la validez de esta hiptesis se basan en la informacin muestral.
Hiptesis Estadstica
Es cualquier enunciado, teora, conjetura, tentativa, afirmacin que se haga sobre una o ms
caractersticas poblacionales como un parmetro, la distribucin de probabilidad de una
poblacin, etc.
____________________
3
Nunca se sabe con absoluta certeza la verdad o falsedad de una hiptesis estadstica, a no
ser que se examine toda la poblacin. Esto, por supuesto, sera imprctico en la mayora de
las situaciones. En su lugar, se toma una muestra aleatoria de la poblacin de inters y se
utilizan los datos que contiene tal muestra para proporcionar evidencias que confirmen o no
la hiptesis.
La evidencia de la muestra que es inconsistente con la hiptesis planteada conduce a un
rechazo de la misma, mientras que la evidencia que apoya la hiptesis conduce a su
aceptacin. De ah que el aspecto principal de la prueba de hiptesis sea determinar si la
diferencia entre un valor propuesto de un parmetro poblacional y el valor estadstico de
la muestra se debe razonablemente a la variabilidad del muestreo. O si la discrepancia es
demasiado grande para ser considerada de esa manera, lo cual en el argot estadstico es
conocido como que la diferencia es significativa.
Considrese la siguiente situacin:
Se inspecciona una muestra de 150 productos de un enorme lote y se observa que el 7% de
ellos est defectuoso. El proveedor de dichos productos garantiz que un porcentaje igual al
5% de cualquier cargamento tendra defectos. La pregunta que se habr de contestar
mediante la prueba de hiptesis es si la informacin proporcionada por el proveedor es
verdadera.
Si la proposicin realmente es cierta, Cul sera la causa del hecho de que una muestra
sealara un 7% de partes defectuosas? Una posibilidad es que la causa sea la variabilidad
del muestreo. Si la decisin despus de efectuar el anlisis es aceptar la afirmacin del
proveedor, significa que la discrepancia entre el porcentaje de productos defectuosos
observado en la muestra y el porcentaje de elementos defectuosos propuesto se debe
razonablemente a la variabilidad del muestreo (al azar). Por el contrario, la decisin de
rechazar la afirmacin del proveedor, significa que la diferencia entre el valor observado y
el propuesto es demasiado grande como para deberse nicamente al azar.
Ejemplo 2:
Supngase que una persona es llevada a juicio en un tribunal de justicia. Las hiptesis nula
y alternativa son:
H0: Es inocente
H1: Es culpable
Cuando la persona acusada es llevada ante un tribunal de justicia, en principio, goza de la
presuncin de inocencia (toda persona es inocente hasta que se demuestre lo contrario).
Como en la hiptesis nula se enuncia lo que se asume como cierto, en este caso H0: Es
inocente.
Por otra parte, en la hiptesis alternativa se plantea lo que se presume o se cree que es la
situacin actual y que ha cambiado con respecto a lo enunciado en H0 y es lo que se quiere
probar. De esta manera, debe plantearse bajo esta circunstancia que H1: Es culpable.
Por lo tanto, la acusacin debe presentar evidencia suficientemente clara como para
conseguir un veredicto de culpabilidad. Puede darse el caso de que no se rechace que el
enjuiciado sea inocente dado que no se han presentado suficientes evidencias.
En el contexto del contraste de hiptesis clsico, la hiptesis nula se considera cierta
inicialmente. La tarea de persuadirnos de lo contrario corresponde a los datos de la muestra.
La aceptacin de una hiptesis nula implica tan slo que los datos de la muestra no
proporcionan evidencia suficiente para rechazarla. Por otro lado, el rechazo implica que la
evidencia muestral la refuta.
En muchas situaciones, se contrasta una hiptesis nula simple, digamos, H0: = 0, frente a
una alternativa compuesta. En algunos casos, slo interesan alternativas a un lado de la
hiptesis nula. Por ejemplo, podra quererse contrastar esta hiptesis nula frente a la
hiptesis alternativa de que el verdadero valor de es mayor que 0, lo cual puede escribirse
como:
H1: > 0
La alternativa obvia es que el verdadero peso medio es inferior a 200 gramos, es decir,
H1: < 200
1
2. La compaa resuelve aceptar envos de piezas siempre que no tenga evidencia para
sospechar que ms del 5% son defectuosas. Denotando por la proporcin poblacional
de piezas defectuosas. La hiptesis nula aqu es que esta proporcin es como mucho
0.05, es decir, H0: 0,05.
2
Basndose en la informacin muestral, se contrasta esta hiptesis frente a la alternativa
H1: > 0,05.
La hiptesis nula, entonces, es que el cargamento de piezas tiene una calidad adecuada,
mientras que la hiptesis alternativa es que no la tiene.
1
Tabla 1.Situacin Real y decisiones sobre la hiptesis nula, con las probabilidades
Asociadas a cada decisin, dada una determinado situacin real
SITUACIN REAL
DECISIONES SOBRE LA HIPTESIS NULA
ACEPTAR H0
RECHAZAR H0
H0 VERDADERA
Decisin correcta
H0 FALSA
Error Tipo II
Probabilidad = 1
Probabilidad =
Error Tipo I
Decisin correcta
Probabilidad =
Probabilidad = 1
Ejemplo 4:
Haciendo referencia al ejemplo del juicio, se aclararn estas ideas. Se tiene que determinar
si la persona llevada a juicio a un tribunal de justicia es inocente o culpable. Como se
estableci ms atrs, se consider como hiptesis nula el que esta persona es inocente
contrastndose con la hiptesis alternativa de que es culpable. Cuando la decisin es
tomada se est en presencia de las situaciones expuestas en la Tabla 1.
Si el veredicto es que el acusado es declarado culpable, es decir, se rechaza H0, entonces
esta decisin puede ser la correcta si efectivamente esta persona es culpable. O por el
contrario, se puede estar ante la presencia de un Error Tipo I que en este caso significa que
se est condenando a una persona inocente!
Pero, si el veredicto declara que el acusado es inocente, en otras palabras, se acepta H0, esta
puede ser la decisin correcta si ciertamente esta persona no cometi el delito. O se puede
estar cometiendo un Error Tipo II, lo cual implica que se est declarando inocente a una
persona que realmente es culpable!
Ejercicio
Cul de los dos errores anteriores es ms grave? Justifique su respuesta.
menos de 200 gramos. Dada una regla de decisin, se pueden determinar las probabilidades
de los errores de Tipo I y de Tipo II asociadas al contraste. Sin embargo, en realidad, se
procede fijando primero la probabilidad de error de Tipo I. Supngase, por ejemplo, que se
quiere asegurar que la probabilidad de rechazar la hiptesis nula cuando es cierta sea como
mucho 0,05. Esto se puede conseguir eligiendo un nmero, k, apropiado a la regla de
decisin rechazar la hiptesis nula si la media muestral es inferior a k gramos (ms
adelante se explicar cmo se puede hacer esto). Una vez elegido el nmero k, pueden
calcularse las probabilidades del error de Tipo II usando los procedimientos que se
expondrn ms adelante. As se puede observar que la regla de decisin queda determinada
por el nivel de significacin elegido.4
1
Nota 2:
Al usar el criterio de fijar la probabilidad de error Tipo I, , para encontrar una regla de
decisin; implcitamente se est considerando a este error ms grave que el error Tipo II.
As, al fijar en un valor pequeo, el investigador est controlando directamente la
probabilidad de cometer un error Tipo I. Por tal razn, al plantear las hiptesis siempre hay
que hacerlo tomando en cuenta esto ltimo, es decir, que rechazar la hiptesis nula cuando
es cierta es un error ms grave que aceptar la hiptesis nula cuando es falsa.
Regla de Decisin
Una regla de decisin define las condiciones que llevan a la aceptacin o rechazo de la
hiptesis nula.
Regin de Aceptacin
Es un rango de valores, tal que si el estadstico de prueba queda dentro, la hiptesis nula se
declara aceptable.
Regin de Rechazo
Es un rango separado de valores, tal que si el estadstico de prueba queda dentro, la
hiptesis nula se rechaza.
Valor(es) Crtico(s)
Los valores crticos son los nmeros que definen las fronteras de la regin de rechazo.
Cmo establecer los valores crticos?
Va a depender del:
1 1. nivel de significacin, .
2 2. tipo de distribucin de probabilidad del estadstico de contraste
3 3. tipo de hiptesis alternativa que se est contrastando (bilateral o unilateral)
Los valores crticos pertenecen a la regin de rechazo. En la Figura 3 de forma ilustrativa se
pueden apreciar las regiones de aceptacin y rechazo, como tambin los valores crticos
para las diferentes hiptesis alternativas.
Nota 3:
Los trminos aceptar (no rechazar) y rechazar son comnmente usados para las posibles
decisiones sobre la hiptesis nula en los resmenes formales de los resultados de un
contraste particular. Sin embargo, estos trminos no reflejan adecuadamente las
consecuencias de un procedimiento en el que se fija el nivel de significacin y no se
controla la probabilidad de un error de Tipo II. Como ya se ha sealado, la hiptesis nula
tiene estatus de hiptesis mantenida, una hiptesis que se considera cierta salvo que los
datos contengan suficiente evidencia en contra. Adems, al fijar el nivel de significacin,
generalmente en alguna probabilidad pequea, se est asegurando que el riesgo de rechazar
una hiptesis nula cierta sea pequeo.
Con esta estructura, una pequea cantidad de datos no ser suficiente para poderse colocar
en posicin de rechazar una hiptesis nula, aunque sea completamente errnea. Cuando
aumenta el nmero de observaciones, es decir, aumenta el tamao de la muestra, tambin lo
hace la capacidad de la tcnica de contraste para detectar una hiptesis nula falsa. Por tanto,
al aceptar una hiptesis nula, no se est asegurando necesariamente, que haya mucho en
su favor. Una afirmacin ms precisa sobre la situacin es los datos disponibles no
proporcionan suficiente evidencia para rechazar la hiptesis nula en lugar de se acepta la
hiptesis nula.
Se seguir usando aceptar como una manera eficiente de expresar esta idea, pero es
importante tener en cuenta la interpretacin de la frase. La situacin es muy similar a la de
un tribunal de justicia, donde el acusado, al principio, goza de la presuncin de inocencia, y
la acusacin debe presentar evidencia contraria lo suficientemente clara como para
conseguir un veredicto de culpabilidad. En el contexto del contraste de hiptesis clsico, la
hiptesis nula se considera cierta inicialmente. La tarea de persuadir de lo contrario
corresponde a los datos de la muestra.5
Casos Particulares
A continuacin se introducir la metodologa del contraste de hiptesis clsico. Supngase
que se dispone de una muestra aleatoria de n observaciones, X1, X2, , Xn, proveniente de
una poblacin con media y varianza 2. ( Tambin la varianza se denota S2 )
. En
este caso particular, el investigador desconfiar de la veracidad de una hiptesis nula, frente
a esta alternativa, si la media muestral observada fuese mucho mayor que 0.
La idea es buscar la forma de un contraste con un nivel de significacin prefijado.
Ejemplo 5:
Cuando un proceso de produccin de bolas de rodamiento funciona correctamente, el peso
de las bolas tiene una distribucin normal con media cinco gramos y desviacin estndar
0,1 gramos. Se lleva a cabo una modificacin del proceso, y el director de la fbrica
sospecha que esto ha incrementado el peso medio de las bolas producidas, sin modificar la
desviacin estndar. Se toma una muestra aleatoria de 16 bolas, y se comprueba que su
peso medio es de 5,038 gramos.
a. Son vlidas las sospechas del director de la fbrica? Use un nivel de significacin del
5%
b. Responda la pregunta anterior usando, ahora, un nivel de significacin del 10%
Solucin:
a. Poblacin: Peso (en gramos) de las bolas de rodamiento producidas en una fbrica
Denotando por el peso medio (en gramos) de las bolas de rodamientos, se quiere
contrastar H0: = 5 frente a H1: > 5
Por qu son esas las hiptesis?
La regla de decisin es:
De esta manera,
Para un contraste de nivel 5%, en las tablas estadsticas se puede hallar que
Z0,05 = 1,645
Como 1,52 no es mayor que 1,645, no se puede rechazar la hiptesis nula para un nivel de
significacin del 5%, es decir, se acepta la hiptesis nula con este nivel de significacin. En
otras palabras, si se usa un contraste que nos asegure que la probabilidad de rechazar la
hiptesis nula cuando es cierta es 0,05; los datos de la muestra no contienen suficiente
evidencia como para rechazar esta hiptesis.
En trminos del problema, se puede decir que no se han encontrado evidencias en la
muestra que apoyen la sospecha del director de la fbrica en cuanto a que las
modificaciones en el proceso han incrementado el peso medio de las bolas de rodamiento
producidas.
b. Para un contraste de nivel 10%, se tiene que
Z0,10 = 1,28
Como 1,52 es mayor que 1,28, se rechaza la hiptesis nula para un nivel de significacin
del 10%. Hasta aqu, existe una cierta evidencia en los datos que sugiere que el verdadero
peso medio supera los 5 gramos.
Qu es lo que se entiende por el rechazo de una hiptesis nula?
En el ejemplo anterior, la hiptesis de que el peso medio en la poblacin es 5 gramos fue
rechazada por un contraste con nivel de significacin 0,1. Desde luego, esto no significa
que se haya probado que la verdadera media supera los 5 gramos. Partiendo slo de la
informacin muestral, nunca ser posible asegurar nada sobre un parmetro poblacional.
Por el contrario, se puede pensar que los datos suscitan cierta duda sobre la veracidad de la
hiptesis nula. Si esta hiptesis fuese cierta, entonces el valor observado representara
una observacin de una distribucin normal estndar
Valor p
Es el nivel de significacin ms pequeo que conduce al rechazo de la hiptesis nula H0.
El valor p seala la probabilidad (suponiendo que H0 sea cierta) de obtener un valor del
estadstico de prueba, por lo menos tan extremo como el obtenido.
Por tanto, de acuerdo con la regla de decisin en el problema anterior, se rechaza la
hiptesis nula para cualquier nivel de significacin tal que z sea mayor que 1,52. El
valor p del contraste viene dado en este caso por p = P(Z>1.52), que al usar las tablas
estadsticas se encuentra que p = 0,0643. La implicacin es que la hiptesis nula puede ser
rechazada para todos los niveles de significacin mayores que 6,43%.
1. Formulacin de hiptesis
5. Cmputos necesarios.
6. Decisin.
Tabla 1 Parmetros y estadsticos de prueba mas comunes
concentracin
de
calcio
es
una
variable
que
se
distribuye
normalmente.
Las hiptesis de investigacin son las siguientes:
Ho : El tratamiento para la osteoporosis no tiene ningn efecto
H1 : El tratamiento para la osteoporosis aumenta los niveles de calcio en
los huesos.
Prueba de las hiptesis estadsticas
a. Formulacin de hiptesis. Ho : = 270 frente a H1 : > 270
b. Especificacin de un valor de probabilidad crtico o nivel de
significacin. = 0.05
c. Eleccin de un estadstico de la muestra y de su distribucin para
someter a prueba las hiptesis.
Puesto que el parmetro involucrado en la docimasia es la media
poblacional , y la variable se distribuye normalmente con varianza
conocida lo ms conveniente es usar como estadstico de prueba la
media muestral en su forma derivada Z.
(1)
f. Decisin:
Como z = 2 > z(0.95) = 1.65 el valor del estadstico de prueba se
encuentra dentro de la zona de rechazo. Por lo tanto se concluye que
los datos proporcionan suficiente evidencia para rechazar Ho.
La informacin obtenida de la muestra permite afirmar que se tiene
un 95% de confianza que el tratamiento aplicado a los pacientes
enfermos de osteoporosis aumenta el nivel de calcio en los tejidos
seos.
(1/2)
} = {Z / -1.96 <
(0.975)
f. Decisin:
Como z = -0.35, el valor del estadstico de prueba se encuentra dentro de la zona de
aceptacin de Ho. Por lo tanto se concluye que los datos no proporcionan suficiente
evidencia para rechazar Ho
ZA = {T / T > - t ( 1; n-1) }
e. Cmputos necesarios.
e.1) Media: x= 10.48
e.2) Desviacin estndar: s = 2.41
e.3) Estadstico de prueba:
Interpretacin de:
a es el estimador de A. Es el valor estimado de la variable Y cuando la variable X = 0
b es el estimador de B , es el coeficiente de regresin. Est expresado en las mismas
unidades de Y por cada unidad de X. Indica el nmero de unidades en que vara Y
cuando se produce un cambio, en una unidad, en X (pendiente de la recta de regresin).
Un valor negativo de b sera interpretado como la magnitud del decremento en Y por
cada unidad de aumento en X.
Ejemplo
Los datos de la siguiente tabla representan las estaturas (X, cm) y los pesos (Y, kg) de
una muestra de 12 hombres adultos. Para cada estatura fijada previamente se observ el
peso de una persona seleccionada de entre el grupo con dicha estatura, resultando:
X 152 155 152 155 157 152 157 165 162 178 183 178
Y
61
72
66
72
84 82
Con estos datos vamos a plantear una ecuacin de regresin simple que nos permita
pronosticar los pesos conociendo las estaturas.
Desarrollo:
estatura
pesos
Regresin Lineal
datos
x ^2
y ^2
xy
y est.
Residual
152
50
23104
2500
7600
56.43
155
61.5
24025
3782.3
9532.5
152
54.5
23104
2970.3
155
57.5
24025
157
63.5
152
L. S.
L. I.
L. S.
-6.43
53.07 59.79
47.30
65.56
59.03
2.47
56.09 61.97
50.05
68.02
8284
56.43
-1.93
53.07 59.79
47.30
65.56
3306.3
8912.5
59.03
-1.53
56.09 61.97
50.05
68.02
24649
4032.3
9969.5
60.77
2.73
58.05 63.48
51.85
69.68
59
23104
3481
8968
56.43
2.57
53.07 59.79
47.30
65.56
157
61
24649
3721
9577
60.77
0.23
58.05 63.48
51.85
69.68
165
72
27225
5184
11880
67.71
4.29
65.17 70.24
58.85
76.57
162
66
26244
4356
10692
65.11
0.89
62.65 67.56
56.27
73.94
10
178
72
31684
5184
12816
78.99
-6.99
74.65 83.33
69.45
88.52
11
183
84
33489
7056
15372
83.32
0.68
78.01 88.64
73.31
93.34
12
178
82
31684
6724
14596
78.99
3.01
74.65 83.33
69.45
88.52
Representacin Grfica
L. I.
Se obtiene:
Conclusin:
De acuerdo a la grfica de dispersin y la ecuacin de Regresin Lineal estimada para
las variables estatura y peso muestran, que las variables peso y estatura estn
correlacionadas.
Esta relacin se ha estimado en un R = 93.7, que indica una fuerte relacin positiva.
Adems si consideramos el coeficiente de determinacin R = 87.9 podemos indicar que
el 87.9% de las variaciones que ocurren en el peso se explicaran por las variaciones en
la variable estatura.
FUENTES CONSULTADAS:
1
FACES-ULA.
2
Interamericana.
4
11
Pgina WEB.