Documentos de Académico
Documentos de Profesional
Documentos de Cultura
La Estadstica es la parte de las Matemticas que se encarga del estudio de una determinada
caracterstica en una poblacin, recogiendo los datos, organizndolos en tablas, representndolos
grficamente y analizndolos para sacar conclusiones de dicha poblacin.
Segn se haga el estudio sobre todos los elementos de la poblacin o sobre un grupo de ella, vamos
a diferenciar dos tipos de Estadstica:
Estadstica descriptiva. Realiza el estudio sobre la poblacin completa, observando una
caracterstica de la misma y calculando unos parmetros que den informacin global de toda la
poblacin.
Estadstica inferencial. Realiza el estudio descriptivo sobre un subconjunto de la poblacin llamado
muestra y, posteriormente, extiende los resultados obtenidos a toda la poblacin.
Vocabulario estadstico:
Las primeras definiciones necesarias para el inicio de cualquier estudio estadstico son:
Poblacin: Conjunto de todos los elementos que verifican una caracterstica que ser objeto de
estudio.
Individuo: Cada uno de los elementos de la poblacin.
Muestra: Cualquier subconjunto de la poblacin. Este subconjunto es muy importante que
sea representativo de la poblacin.
Carcter: Cada una de las propiedades que poseen los individuos de la poblacin y que pueden
ser objeto de estudio.
Caracteres
Cualitativos
Cuantitativos
Continuos
Discretos
http://recursostic.educacion.es/descartes/web/indice_ud.php
Planteamiento del problema: Un problema de inferencia estadstica suele iniciarse con una fijacin
de objetivos o algunas preguntas del tipo:
Cul ser la media de esta poblacin respecto a tal caracterstica?
Se parecen estas dos poblaciones?
Hay alguna relacin entre?
En el planteamiento se definen con precisin la poblacin, la caracterstica a estudiar, las variables,
etc.
Elaboracin de un modelo: Se establece un modelo terico de comportamiento de la variable de
estudio. En ocasiones no es posible disear el modelo hasta realizar un estudio previo.
Los posibles modelos son distribuciones de probabilidad.
Extraccin de la muestra: Se usa alguna tcnica de muestreo o un diseo experimental para
obtener informacin de una pequea parte de la poblacin.
Tratamiento de los datos: En esta fase se eliminan posibles errores, se depura la muestra, se
tabulan los datos y se calculan los valores que sern necesarios en pasos posteriores, como la media
muestral, la varianza.
Los mtodos de esta etapa estn definidos por la estadstica descriptiva.
Estimacin de los parmetros: Con determinadas tcnicas se realiza una prediccin sobre cules
podran ser los parmetros de la poblacin
Contraste de hiptesis: Artculo principal: Contraste de hiptesis.
Los contrastes de hiptesis son tcnicas que permiten simplificar el modelo matemtico bajo anlisis.
Frecuentemente el contraste de hiptesis recurre al uso de estadsticos mustrales.
Ministerio de educacin y ciencia de Espaa:
http://recursostic.educacion.es/descartes/web/
http://descartes.cnice.mec.es/
http://recursostic.educacion.es/descartes/web/Descartes1/Bach_HCS_2/Distri...
http://ntic.educacion.es/w3//eos/MaterialesEducativos/mem2001/estadistica/index2.htm
ACTIVIDADES DE APERTURA
Te damos una cordial bienvenida como estudiante del curso de Modelos
Inferenciales y te deseamos xito en ste semestre. Te recomendamos que
contestes todas tus actividades de aprendizaje y participes activamente en las
siguientes secuencias didcticas para que construyas un aprendizaje
significativo. Recuerda lo importante es que aprendas a aprender, a resolver
problemas de la vida cotidiana.
ACTIVIDADES DE DESARROLLO
Revisin de contenido:
1. Lee de manera individual y cuidadosamente, los contenido relacionados
al problema en tu gua didctica:
Distribucin Binomial.
Distribucin Poisson.
Distribucin Hper geomtrica
Distribucin Normal.
2. Junto con los integrantes de tu equipo, comenten las estrategias para la
solucin de las preguntas antes sealadas.
OBSERVACIN
Contextualizar el tema
integrador en base a:
Las expectativas
educativas en el presente
semestre y al momento de
egresar del programa.
Se considera conveniente
realizar un ejercicio similar
en tu programa, como
tarea.
http://ntic.educacion.es/w3//eos/MaterialesEducativos/mem2001/estadistica/index2.htm
http://recursostic.educacion.es/descartes/web/materiales_didacticos/Distribucion_normal/Distribucion_normal.htm
http://recursostic.educacion.es/descartes/web/materiales_didacticos/Distribucion_binomial/binomial.htm
Qu es una distribucin binomial? Una distribucin de probabilidad ampliamente utilizada de una variable aleatoria
discreta en la distribucin binomial. Esta describe varios procesos de inters para los administradores.
Describe datos discretos, resultantes de un experimento denominado proceso de Bernoulli en honor del
matemtico suizo Jacob Bernoulli, quien vivi en el siglo XVII.
Empleo del proceso de Bernoulli.
Podemos servirnos de los resultados de un nmero fijo de lanzamientos de una moneda como ejemplo de un
proceso de Bernoulli. Este proceso lo describimos as:
1. Cada ensayo (cada lanzamiento, en nuestro caso) tiene slo dos resultados posibles: lado A o lado B,
s o no, xito o fracaso.
2. La probabilidad del resultado de cualquier ensayo (lanzamiento) permanece fija con el tiempo.
Tratndose de una moneda la probabilidad de que salga del lado A sigue siendo de 0.5 en cada
lanzamiento, cualquiera que sea el nmero de veces que la moneda sea arrojada.
3. Los ensayos son estadsticamente independientes, es decir, el resultado de un lanzamiento no afecta al
de cualquier otro lanzamiento.
Cada proceso de Bernoulli tiene su propia probabilidad caracterstica. Pongamos el caso en que siete dcimas
partes de las personas que solicitaron cierto tipo de empleo pasaron la prueba. Diremos entonces que la
probabilidad caracterstica fue de 0.7 pero podemos describir los resultados de la prueba como un proceso de
Bernoulli slo si tenemos la seguridad de que la proporcin de los que fueron aprobados permaneci constante
con el tiempo.
Desde luego, la otra caracterstica del proceso de Bernoulli tambin deber ser satisfecha. Cada prueba deber
arrojar tan slo dos resultados (xito o fracaso = y los resultados de las pruebas habrn de ser estadsticamente
independientes.
En un lenguaje ms formal, el smbolo p representa la probabilidad de un xito y el smbolo q (1- p ) representa
la probabilidad de un fracaso. Para representar cierto nmero de xitos, utilizaremos el smbolo k y para
simbolizar el nmero total de ensayos emplearemos el smbolo n.
Frmulas de la distribucin binomial
n = es el nmero de pruebas.
k = es el nmero de xitos.
p = es la probabilidad de xito.
q = es la probabilidad de fracaso.
E l nm ero c om binator io
Varianza
Desviacin Tpica
np
= npq
npq
Ejemplo 1:
Un examen consta de 10 preguntas a las que hay que contestar SI o NO. Suponiendo que a las personas que
se le aplica no saben contestar a ninguna de las preguntas y, en consecuencia, contestan al azar, hallar.
a. Probabilidad de obtener cinco aciertos.
b. Probabilidad de obtener algn acierto.
c. Probabilidad de obtener al menos cinco aciertos.
En una distribucin binomial, la persona solo puede acertar o fallar la pregunta.
Suceso A (xito) = acertar la pregunta p = p(A) = 0.5
Suceso A = no acertar la pregunta = p(A) = 0.5
Distribucin binomial de parmetros n= 10, p= 0.5 B (10; 0.5)
a- Probabilidad de obtener cinco aciertos:
Obtener exactamente cinco aciertos k= 5, aplicamos la frmula:
Factorial = ( ! )
b- Probabilidad de obtener algn acierto
P(x ) = p (x = 1) + p (x = 2) + p (x =3) + P(x =4) + p(x =5) + p(x =6) + p( x=7) + p(x =8) + p(x 9) + p( x= 10)
Hacerlo de esta forma resulta muy pesado. Lo hacemos por sucesos contrarios.
El suceso obtener algn acierto es el suceso contrario a no obtener ningn acierto
P(x 1) = 1 p (x =0)
Calculemos la probabilidad de no obtener ningn acierto p (x =o)
Ejemplo 2
La probabilidad de que un estudiante obtenga el ttulo de licenciado en farmacia es 0.3.
Hallar la probabilidad de que un grupo de siete estudiantes matriculados en primer curso finalice la carrera:
a- Ninguno de los siete finalice la carrera.
b- Finalicen todos.
c- Al menos dos acaben la carrera.
d- Hallar la media y la desviacin tpica del nmero de alumnos que acaban la carrera.
A = Obtener el ttulo p = p (A) = 0.3
A = No obtener el ttulo
B (7; 0.3)
b- Finalicen todos. X = 7
Ejemplo3.
La probabilidad de que un alumno de 1 de bachillerato repita curso es de 0.3.
Elegimos 20 alumnos al azar. Cul es la probabilidad de que haya exactamente 4 alumnos repetidores.
Es una distribucin binomial, el alumno repite o pasa de curso.
- Consideremos suceso xito el ue nos preguntan El alumno repite curso P (A) = p = 0.3.
- El alumno no repite curso P( A) =1-p = q q = 1 0.3 = 0.7
- Elegimos 20 alumno n = 20
- Es una distribucin binomial de parmetros n= 20 , p = 0.3 B (n, p) B( 20, 0.3)
Probabilidad de ue haya exactamente 4 alumnos repetidores X = 4
Ejemplo 4.
Calcular la probabilidad de que una familia que tiene cuatro hijos, tres e ellos sean nios.
Es una distribucin binomial, los hijos solo pueden ser nios o ms.
- Suceso A (xito) tener un nio p (a) = 0.5 p = 0.5
- Suceso A tener una nia p( A) = 0.5 q = 0.5
- n = 4 (hijos) B (n, p) B ( 4; 0.5 )
Probabilidad de tener tres nios X = 3
http://gmein.uib.es/bioinformatica/estadistica/index.html
Dnde:
10
1- Ejemplo: Si el 1% de las bombillas fabricadas por una compaa son defectuosas, hallas la probabilidad de
que, en una muestra de 100 bombillas, 3 sean defectuosas.
Solucin:
=nxp
= 100 x (0,01)= 1
=1
X=3
e = 2,71828
3x
P(X=3)= 1
e -1 = 1 x (0.36788) = 0.06131
3!
P (X =3) = 6,13%
2- Ejemplo: Su pongamos que hay 300 errores de impresin distribuidos aleatoriamente a lo largo de un libro
de 500 pg.
Encuentre la probabilidad de que en una pg., dada contenga exactamente 2 errores de impresin.
Solucin:
n = 300 errores
P = _1_ es muy pequeo
500
X = 2 Dist. Poisson
= n x p
= 300 x _1_ = 0.6
500
= 0.6
- 0,6
P (x=2)= (0,6)2 x e
P (x=2)= (0,36) (0,549)
2!
2!
P (x=2)= 0,0988
P (x=2)= 9.88 %
3- Ejemplo: Un cajero automtico es utilizado cada 20 minutos por 6 personas. Se debe saber cul es la
probabilidad:
a. Que el cajero sea utilizado por 5 personas en 20 minutos.
b. Que el cajero sea utilizado por 10 personas en 20 minutos.
c. Que el cajero sea utilizado por 5 personas o menos en 20 minutos.
Solucin:
e = 2,71828
a) X=5
b) X=10
c) X= 5
11
a)- P(X=5) = 65 x e -6
5!
P(X=5)= 16,2 %
P(X=5)= 4,16 %
44.56%
Ejemplo: En un interseccin de la ciudad de Villahermosa, las autoridades de trnsito han reportado que
suceden en promedio 4 accidentes al mes, y la distribucin de este fenmeno est bajo un modelo de Poisson.
Las autoridades han declarado que mejorarn los sealamientos en la interseccin si se conociera que la
probabilidad de que ms de tres accidentes por mes, fuera mayor de 0.50 de acuerdo con esta informacin,
debern las autoridades mejorar los sealamientos en dicha interseccin?
Primero se requiere conocer la probabilidad de que sucedan 0, 1, 2, y 3 accidentes por mes.
P(x)= x e -
x!
P(0)= (4)0(2.71828)-4
0!
P(1)= (4)1(2.71828)-4
1!
P(2)= (4)2(2.71828)-4
2!
P(3)= (4)3(2.71828)-4
3!
Para contestar la pregunta se requiere conocer la suma de todas las probabilidades de ocurrencia de P(x=0),
P(x=1), P(x=2), P(x=3), la cual es de 0.43357, ste valor lo restamos de uno, y dar como resultado la
probabilidad que se est tratando contestar, que es de 0.56643, por lo que respondiendo a la interrogante de
las autoridades, se debe de mejorar los sealamientos ya que la probabilidad de que sucedan ms de tres
accidentes por mes es de 0.56.
La distribucin probabilstica de Poisson para este ejemplo es como se muestra.
Nmero de accidentes (x)
0
1
2
3
4
5
6
7
8
9
Total de 0 a 9
Probabilidad de ms de 10
Probabilidad exacta de x
0.01832
0.07328
0.14656
0.19541
0.19541
0.15630
0.10420
0.05955
0.02970
0.01323
0.99196
0.00804
12
13
R/T.
14
La curva normal, es una curva en forma de campana que se extiende indefinidamente en ambos
extremos, cada vez, pegndose ms al eje horizontal sin llegarlo a tocarlo.
Algunas caractersticas importantes de la distribucin normal, son las que se mencionan a
continuacin:
a. El rea total comprendida bajo la curva y por encima del eje horizontal, es igual a 1 (unidades
cuadradas).
b. La distribucin es simtrica al respecto de su media. Es decir, el 50% del rea est a la
derecha de la media y el 50% a la izquierda.
c. La media, la mediana y la moda son todas iguales.
4. La distancia horizontal, que hay desde el punto de inflexin de la curva (el punto donde la curva
deja de ser cncava hacia abajo y empieza a ser cncava hacia arriba), hasta una perpendicular
levantada sobre la media, es igual a la desviacin estndar , como se muestra en la siguiente figura:
15
Ahora se muestran, tres distribuciones normales con la misma media, pero con diferentes
desviaciones estndar. Aqu nos muestra, cmo mientras ms grande sea la distribucin estndar,
ms plana y ms extendida es la grfica de la distribucin.
Afortunadamente en la prctica, no es necesario alargar estas colas muy lejos, pues se encuentran
tan cerca del eje horizontal, que el rea bajo ellas es despreciable cuando nos alejamos ms de
cuatro o cinco desviaciones estndar de la media.
En la prctica, se pueden calcular las probabilidades de una variable X que est distribuida
normalmente, y que tenga valores entre ciertos nmeros Xa y Xb, utilizando la tabla reas bajo la
curva normal estndar (que se encuentra ms adelante), donde aparecen las reas entre los
valores 0 y Z, con Z > 0, para la curva normal estndar. ( = 0 y = 1 ).
Si utilizamos la simetra de la curva alrededor de la media, podemos calcular reas entre cualquiera
de los dos valores Xa y Xb. Para obtener reas bajo cualquier curva normal, efectuamos el cambio de
escala (ver la figura siguiente), que convierte las unidades de medida de la escala original o la escala
X, en unidades estndar por medio de la frmula:
Esta nueva escala o valor de Z simplemente, nos indica en cuntas desviaciones estndar por
encima o por debajo de la media de su distribucin, se desva el valor correspondiente de X. (La
anterior expresin tambin es conocida como desviacin normal).
Antes de utilizar la frmula para valores de Z, te invitamos a que reflexiones detenidamente unos
ejemplos y calculemos, las reas correspondientes a probabilidades de una variable aleatoria normal.
Modelos Inferenciales - 2014
16
17
Ejemplo: La media de un grupo de ingresos semanales con distribucin aproximadamente normal para un
conjunto de gerentes de nivel medio es de 1000 dlares y presenta una desviacin estndar de 100 dlares.
Cul es la probabilidad.
a. Que los gerentes tengan un ingreso semanal entre 840 y 1200 dlares.
b. Con ingresos semanales de 1245 dlares o ms.
18
Ejemplo: La panadera sureste elabora piezas de pan, la longitud de una pieza se distribuye de forma normal
con una media de 15 cm y una varianza de 2,25 cm. Determine:
a. Probabilidad de que una pieza exceda los 18 cm.
b. Probabilidad de que las piezas de pan estn entre 13 y 17 cm.
Datos:
X = 15 cm
= 2.25 cm
=
=1,5 cm
19
20
ACTIVIDADES DE APRENDIZAJE:
Les recomiendo ue utilices una curva normal por cada ejercicio, y apoyndote en la tabla reas bajo la curva
normal estndar, encuentres las respuestas correctas.
21
ACTIVIDADES DE APERTURA
OBSERVACIN
Revisin de contenido:
1. Lee de manera individual y cuidadosamente, los contenido
relacionados al problema en tu gua didctica:
La teora de muestreo.
El muestreo aleatorio simple.
Los nmeros aleatorios.
El muestreo con o sin remplazamiento.
Los diseos de muestras.
2. Junto con los integrantes de tu equipo, comenten las estrategias
para la solucin n de las preguntas antes sealadas.
3. Realicen otras consultas, en libros, internet, o apuntes diversos.
ACTIVIDADES DE CIERRE
Se considera conveniente
realizar un ejercicio similar
en tu programa, como
tarea.
22
2. LA TEORA DE MUESTREO
Recordemos que el objeto de un estudio estadstico es doble. Deseamos describir la muestra que tenemos a
mano y queremos sacar conclusiones o inferencias sobre la poblacin de donde hemos extrado dicha muestra.
Las decisiones tomadas respecto de la poblacin, a partir de la informacin de la muestra, se basan en la
probabilidad.
Aunque el objetivo al llevar a cabo una investigacin es, por lo general, conocer las caractersticas de los
individuos de una poblacin, en la prctica suele ser difcil, cuando no imposible.
Para obviar estos inconvenientes, se recurre al estudio de una muestra, a partir de la cual podemos inferir,
inducir o estimar las caractersticas de la poblacin entera de la cual aquella ha sido extrada. Por
consiguiente, en contraposicin a la estadstica descriptiva, a esta parte que vamos a estudiar la
denominaremos estadstica inferencial, inductiva o analtica.
Es el estudio de las relaciones existentes entre una poblacin y las muestras extradas de ellas. Es de gran
utilidad en muchos campos; por ejemplo, para ESTIMAR caractersticas desconocidas de poblaciones (como la
media y la varianza poblacionales), denominadas parmetros de la poblacin o simplemente parmetros, a
partir del conocimiento de las caractersticas muestrales correspondientes, nombradas estadsticos de la
muestra o, en forma sencilla, estadsticos.
A los valores (mu) y (ro) que son, respectivamente la media y la desviacin estndar poblacionales, se les
llama PARMETROS DE LA POBLACIN.
Como la media de la muestra ( ) nos da una idea del valor de , se dice que ESTIMA a o que es un
estimador del parmetro ; anlogamente, S (desviacin estndar) estima a (Desviacin estndar de la
poblacin), o de otra forma, que S es un estimador de .
23
La teora del muestreo tambin sirve para determinar si las diferencias observadas entre dos muestras se
deben a variaciones por el azar o si en realidad son significativas. Dichas cuestiones surgen, por ejemplo, al
probar un nuevo suero para el tratamiento de una enfermedad o al decidir si un proceso de produccin es mejor
que otro. Sus respuestas involucran el uso de las denominadas pruebas significativas y de hiptesis, que son
importantes en la teora de decisiones, la cual estudiaremos ms adelante.
2.1 TIPOS DE MUESTREO.
Como ya se seal al principio de este apartado; para que las conclusiones de la teora de muestreo y la
estadstica inferencial sean vlidas, se deben elegir muestras REPRESENTATIVAS de la poblacin.
Tamao de la muestra
Tamao de la Poblacin
24
n!
=
12 !
= 12 x 11x 10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2
(n r)! r! (12 2 )! 2!
(10 x 9 x 8 x 7 x 6 x 5 x 4 x 3 x 2 ) 2!
= 12 x 11
2!
= 66
En la calculadora 12C2:
12 tecla SHIFT y nCr queda 12C colocas el 2 queda 12C2 ubicas el signo = y te da la repuesta 66
Y cuando n = 3 y N = 100 Solucin; Hay 100C3 = 161,700 muestras distintas.
Ahora con poblacin infinita
Una muestra de tamao n de una poblacin infinita, es aleatoria si consta de
valores de variables aleatorias independientes, que tienen la misma distribucin.
Por independiente ueremos decir, ue las probabilidades relacionadas con cual uiera de las variables
aleatorias son las mismas, sin que tengan importancia los valores que se hayan observado, para las otras
variables aleatorias.
NMEROS ALEATORIOS:
Otro mtodo alternativo al muestreo aleatorio o al azar, es el uso de una tabla de nmeros aleatorios,
especialmente elaborados para dicho propsito (como la tabla siguiente), que contienen nmeros entre cero
y uno, distribuidos uniformemente.
Para obtener una muestra aleatoria, escogemos un nmero cualquiera de stos, digamos que elegimos en
la (Tabla N1 Nmeros Aleatorios) el sptimo nmero de la quinta columna (.266194) y a partir de l,
tomamos tantos nmeros como tenga la muestra. Para elegir una muestra de 6 de 20 individuos nos fijamos
en los siguientes cinco nmeros, los multiplicamos por 20, (el tamao de la poblacin), y redondeamos a
nmeros enteros.
En la siguiente tabla tenemos estos clculos:
ri
20 x ri
Redondeado
.246194
4.92388
5
.361474
7.22948
7
.721938
14.43876
14
.874239
17.48478
17
.588587
11.77174
12
.987107
19.74214
20
Esto significa que la muestra que obtuvimos, consiste de los individuos 5, 7, 14, 17, 12 y 20. En caso de que
despus de redondear, obtengamos un nmero repetido simplemente lo ignoramos y tomamos un nmero
aleatorio ms de la tabla. Existen tablas extensas de nmeros aleatorios que pueden consultarse en caso
necesario, o bien, es posible generar secuencias de nmeros aleatorios en hojas de clculo para
computadoras personales.
MUESTREO CON Y SIN REEMPLAZAMIENTO:
Si se saca un nmero de una urna, existe la opcin de reponer o no, el nmero en la urna antes de la
segunda extraccin. En el primer caso, el nmero puede salir una y otra vez, mientras que en el segundo
caso, esto pasara una vez. El muestreo en que cada miembro de la poblacin sera elegido ms de una vez,
se denomina MUESTREO CON REEMPLAZAMIENTO, mientras que si cada miembro no puede ser elegido
ms de una vez, se denomina MUESTREO SIN REEMPLAZAMIENTO.
Las poblaciones son finitas o infinitas. Si, por ejemplo, se extraen 10 bolas sucesivamente sin
reemplazamiento de una urna con 100 bolas, se hace un muestreo de una poblacin finita; mientras que si
Modelos Inferenciales - 2014
25
se lanza una moneda 50 veces y se cuenta el nmero de caras, el muestreo es de una poblacin infinita.
Una poblacin finita en la que se realiza un muestreo con reemplazamiento, puede considerarse
tericamente infinita, ya que es posible extraer cualquier nmero de muestras sin agotar la poblacin. Para
muchos propsitos prcticos, efectuar el muestreo de una poblacin finita muy grande, llega a tomarse como
muestreo de una poblacin infinita.
Guillermo Pastor. Estadstica Bsica. Editorial Trillas, Conalep. 1 Edicin 12 reimpresin enero 2003 .
DISEOS DE MUESTRAS:
Las clases de muestras que hasta ahora hemos estudiado, son las muestras aleatorias simples y nmeros
aleatorios y no hemos considerado la posibilidad, de que en ciertas condiciones, puede haber muestras que son
ms fciles de obtener, ms econmicas o ms informativas que las muestras aleatorias y no hemos entrado en
detalles sobre la pregunta de lo qu, podra hacerse, cuando el muestreo aleatorio es imposible.
Hay muchas otras maneras de seleccionar una muestra de la poblacin y hay gran cantidad de bibliografa
sobre el tema de los procedimientos del diseo del muestreo.
A continuacin estudiaremos brevemente, algunos diseos de muestras que no son ms que un plan
determinado, antes de recopilar cualquier dato, para tomar una muestra de una poblacin.
Modelos Inferenciales - 2014
26
Ejemplo: En una colonia de la ciudad de Jalisco, de 8060 habitantes segn el censo, se va a hacer una
encuesta, y se selecciona una muestra sistemtica de 20 personas, entre 1200 padres de familia, para conocer
el grado de aceptacin de la gestin administrativa de la ciudad, por parte del alcalde municipal.
Primero calculamos el factor de elevacin = N/n =1200/20 = 60 a continuacin seleccionamos un elemento,
AL AZAR, entre el 1 y el 60, supongamos que el seleccionado es el 27(este ser K), entonces, el primer
nmero ser 27; el segundo nmero ser 27+60= 87; el tercer nmero seleccionado ser 27+ 2(60) = 147; el
cuarto nmero 27+ 3(60)= 207 y as sucesivamente sern el 267, 327, 387, 447, 507, 567, 627, 687, 747, 807,
867, 927, 987, 1047, 1107, 1167. Se han seleccionado a 20 personas, a las que les corresponden los nmeros
citados.
Cuando el resultado de N/n no es entero, se redondea al entero menor, esto puede producir una pequea
dificultad que no afecta y debe despreciarse cuando n > 50.
El muestreo sistemtico es semejante al aleatorio simple, si se selecciona el elemento
inicial en forma aleatoria. Sus ventajas son: de fcil aplicacin y se extiende la muestra
a toda la poblacin. Sus desventajas son que se presentan dificultades al tratar de
calcular la varianza, y aumento de la varianza si existe periodicidad en la numeracin
de los elementos; adems, de posible presencia de periodicidades ocultas.
27
Para las personas jvenes su clculo ser: 300 (7800/17000) = 300 (0.4588) = 138
Para la tercera edad: 300 (2950/17000) = 300 (0.1735) = 52
Para los nios: 300 (6250/17000) = 300 (0.3674) = 110
Suma total = 300
Se contina con el muestreo aleatorio, para seleccionar las personas de cada estrato que van a hacer motivo
de la investigacin.
La ventaja del muestreo estratificado, es que permite obtener informacin, sobre las caractersticas motivo
de estudio y aumenta la precisin de las estimaciones sobre toda de la poblacin; y en general, da mejores
resultados que el muestreo aleatorio, mientras ms diferentes sean los estratos entre s y sean ms
homogneos internamente.
Sus desventajas son: dificultad para decidir a qu estrato se asigna cada uno de los elementos de la poblacin
y cmo elegir el tamao de la muestra de cada estrato, para que el total sea n.
28
29
A continuacin resuelve las siguientes actividades de aprendizaje para que reafirmes lo aprendido hasta el
momento
ACTIVIDADES DE APRENDIZAJE:
Contesta las siguientes preguntas?
1. Escribe el nombre y smbolo de los dos principales parmetros de la poblacin, as como sus dos estadsticos de la
muestra.
2. Cuntas muestras distintas de tamao n = 4, podemos escoger de una poblacin finita de tamao N = 30?
Respuesta: _________
3. Cuntas muestras distintas de tamao n =3, podemos tomar de una poblacin finita de tamao N = 110?,
Respuesta: _________
4. Cules son los tipos de errores que se pueden cometer cuando se trabaja con muestras?
___________________________ y ______________________ explcalos brevemente con tus palabras.
5. Asigna a cada uno de los integrantes de tu grupo un nmero y utiliza la Tabla N1 de nmeros aleatorios, a partir del
elemento 21 de la sexta columna hacia la derecha determina una muestra aleatoria de seis estudiantes. Realiza tus
clculos.
6. De los nmeros asignados en el ejercicio anterior, ahora a partir del 14 elemento de la primera columna hacia abajo
determina una muestra aleatoria de cuatro estudiantes.
7. Escribe que entiendes por MUESTREO ALEATORIO SIMPLE: __________________________________
8. Elabora un mapa conceptual o esquema, con los principales conceptos hasta aqu estudiados.
9. De la lista de tus compaeros del grupo, anota en un pedazo de papel el nmero que corresponde a cada uno de ellos.
Mezcla bien todos los papelitos en una caja o urna y extrae sin reemplazamiento 6 estudiantes para un muestra aleatoria
simple. Anota aqu tu resultado.
__________________
_________________
_________________
__________________
_________________
_________________
10. De la misma manera que el ejercicio anterior, Extrae una muestra aleatoria simple de 5 estudiantes con
reemplazamiento. Anota aqu tus resultados.
__________________
_________________
_________________
__________________
_________________
11. En la colonia 2 de agosto de Turbaco, de 1980 habitantes, se pretende realizar una encuesta y seleccionar a 16
personas entre 180 seoras, para conocer el grado de aceptacin de un nuevo producto de limpieza. De acuerdo al tipo de
muestreo sistemtico, calcula, cules sern las 16 personas seleccionadas para ser entrevistadas?
Realiza tus clculos.
12. A medida que se incrementa el tamao de la muestra, Se incrementa el error muestral?
SI___
NO____
Porque? _______________________________________________________
13. Observa detenidamente los siguientes datos y contesta Cul tendr mayor error muestral?
Poblacin 1 Universo (N = 350) y Muestra (n = 150)
Poblacin 2 Universo (N = 350) y Muestra (n = 250)
Qu poblacin tiene mayor error muestral? __________
14. Poblacin 1 N = 70 y n = 15
Poblacin 2 N = 800 y n = 150
Qu poblacin tiene mayor error muestral? ____________
30
2.3.1.
Con el propsito de familiarizarnos con la forma de estudiar estos problemas, analizaremos un caso muy
simple.
Ejemplo: Supongamos que tenemos una poblacin de N = 5 nios y que la nuestras son de tamao n = 2.
(Es claro que para un problema de este tamao simplemente tomamos las alturas de los cinco nios, las
sumamos, dividimos entre 5 y se acab)
El objetivo de ste anlisis, es entender algunos aspectos importantes de la distribucin muestral de medias a
travs de este ejemplo.
Nio
Altura
1
1.20
2
1.18
3
1.32
4
1.23
5
1.28
Ahora Cuntas muestras posibles hay en una poblacin ( N ) de 5 nios y queremos muestras ( n ) de
tamao 2, sin reemplazo? O dicho de otra manera, Cules son todas las muestras de tamao igual a 2, que
pueden obtenerse sin reemplazo de la poblacin de 5 nios?
Como es sin reemplazo, hay un total de 5C2 = (5) x (4)/ 2! = 10 muestras posibles.
Que son los NIOS: {1,2}, {1,3}, {1,4}, {1,5}, {2,3}, {2,4}, {2,5}, {3,4}, {3,5}, {4,5}.
Estas 10 muestras posibles, se pueden observar en la siguiente tabla
31
Ahora calculemos dos aspectos importantes de esta variable aleatoria, como son la MEDIA Y LA DESVIACION
ESTANDAR de la distribucin muestral de medias.
La media que denotamos por
las medias de cada muestra.
Su frmula es:
32
Ahora, la desviacin estndar, que denotamos y llamaremos ERROR ESTANDAR DE LA MEDIA, que es
la desviacin estndar de la distribucin muestral de medias; Calculemos, siguiendo los datos de la tabla y
posteriormente analizaremos otra manera ms fcil.
ERROR ESTNDAR DE LA MEDIA
Muestra
(1,2)
(1,3)
(1,4)
(1,5)
(2,3)
(2,4)
(2,5)
(3,4)
(3,5)
(4,5)
Total
Media
Medias al Cuadrado
1.19
1.26
1.215
1.24
1.25
1.205
1.23
1.275
1.30
1.255
12.45
1.4161
1.58761
1.476225
1.5376
1.5625
1.452025
1.5129
1.625625
1.69
1.575025
15.4356
Con los datos anteriores, podemos utilizar una formula y obtener el error estndar de la media que es:
, y se
y
Para el ejemplo que venimos desarrollando, utilizaremos la ltima frmula para estimar la desviacin estndar
de las medias muestrales o el error estndar de la media.
Coincide con el valor que obtuvimos antes para la desviacin estndar de la distribucin muestral de medias.
Modelos Inferenciales - 2014
33
la poblacin finita (cpf), ya que sin este, las dos frmulas (para poblaciones infinitas y finitas) son las mismas.
Una regla de uso muy frecuente, establece que el factor de correccin de poblacin finita (cpf), se puede pasar
por alto cuando n/N es menor o igual a 0.05, esto es, cuando la muestra contiene el 5% o menos de la
poblacin.
Por lo tanto, si la poblacin es infinita; o el muestreo se hace de una poblacin infinita con reemplazamiento; o
cuando N > 20n la frmula para encontrar el error estndar se reduce a
Para encontrar el error estndar de la media cuando la poblacin es finita y el muestreo se hace sin reemplazo;
o cuando N< 20n es:
ACTIVIDADES DE APRENDIZAJE:
Contesta adecuadamente las siguientes preguntas y completa los espacios correctamente:
34
para poblaciones______________
para poblaciones______________
Realiza un esquema, mapa conceptual, o formulario con los anteriores conceptos y frmulas, para que las
tengas a la mano y las utilices posteriormente.
Si el error estndar es bajo, hay buenas posibilidades de que el estadstico de una muestra se
aproxime al de la poblacin; en cambio.
Si el error estndar es alto es ms probable que obtengamos una muestra que difiera
considerablemente de la poblacin..
Ejemplo: Supngase que la estatura de 3000 estudiantes universitarios hombres, se distribuye normalmente,
con una media de 68 pulg. y una desviacin estndar de 3 pulg. Si se obtienen 80 muestras de 25 estudiantes
cada una.
Cules seran las medias y las desviaciones estndar (error estndar) esperadas de la distribucin
muestral de medias, si los muestreos se hubieran hecho:
a) Con reemplazamiento y
b) sin reemplazamiento?
El nmero de muestras de tamao 25 ue podran obtenerse tericamente de un grupo de 3,000 estudiantes
con reemplazamiento es de (3000)25 = 8.47x1086 y, sin reemplazamiento es de 3000C25=4.91x1061 que son
mucho mayores que 80.
35
Por tanto, no se obtiene una verdadera distribucin muestral de medias, sino slo una distribucin muestral
terica. Por tanto
= 68 pulg y
= 68 pulg y
Este ltimo resulto, es solo ligeramente menor que 0.6 pulg. y puede, para propsitos prcticos, considerarse
igual que el muestreo con reemplazamiento.
Por lo tanto, se esperara que la distribucin muestral de media este distribuida aproximadamente de manera
normal, con media de la distribucin muestral = 68.0 pulg, y el error estndar de la media = 0.6 pulg.
36
Siguiendo el mismo ejercicio de los 3000 estudiantes universitarios que se distribuyen normalmente con una
media =68.0 pulg y desviacin estndar
pul y donde calculamos un error estndar de la media
= 0.6 pulg. Ahora las preguntas sern
En cuntas muestras de las 80 del anterior problema, esperaramos encontrar la media
- a) entre 66.8 y 68.3 pulg y tambin
- b) Menor que 66.4 pulg.?
La media
Con base en el teorema del lmite central. Cul es la probabilidad de que el error de una variable aleatoria sea
menor que 5, cuando se usa la media de una muestra aleatoria de tamao n = 64 para estimar la media de una
poblacin infinita con = 20?
Aunque el valor de es desconocida, sabemos que la distribucin muestral de las medias es normal con la
media poblacional . Por lo tanto, la probabilidad se obtiene por medio del rea de la zona bajo la curva de
normal estndar, entre
37
Dado que la entrada de la tabla corresponde a Z = - 2.00 es 0.4772 y Z = 2.00 es 0.4772 la probabilidad que se
pide es 0.4772 + 0.4772 = 0.9544
Entonces afirmamos, la probabilidad de que una media de una muestra aleatoria de tamao n=64 de la
poblacin infinita con
, difiera de la poblacin por menos de 5 es de 0.9544 o el 95.44 %
ACTIVIDADES DE APRENDIZAJE:
Con el propsito que reafirmes lo aprendido, contesta utilizando tus palabras y criterio las siguientes
preguntas
1. Explica brevemente qu entiendes por distribucin muestral?
Respuesta: ______________________________________________________________________________
_______________________________________________________________________________________
38
3. Cul es el nmero de muestras de tamao 5, que podran obtenerse de un grupo de 200 estudiantes, con
reemplazo y sin reemplazo? Realiza tus clculos aqu. Por favor.
Con reemplazo: _________
Sin reemplazo: __________
4. Cul es el nmero de muestras de tamao 4, que podran obtenerse de un grupo de 30 personas, con
reemplazo y sin reemplazo?
Con reemplazo: __________
Sin reemplazo: __________
39
ACTIVIDADES DE APERTURA
Te invitamos a que reflexiones un momento sobre el tema de las RELACIONES
HUMANAS y la difcil tarea de tomar decisiones. Contesta honestamente
Cules son las personas que ms respetas y por qu?
Cules son las personas que menos toleras y por qu?
Por qu son importantes las relaciones humanas en la toma decisiones?
OBSERVACIN
Es conveniente un tiempo
aceptable para desarrollar
esta importante
introduccin.
Integrarse en equipos de
3 estudiantes.
ACTIVIDADES DE DESARROLLO
1. Consultar la presente gua didctica, en los temas correspondientes a:
Estimacin de parmetros.
Estimacin sin sesgo.
Estimacin puntual y estimacin por intervalos.
Estimacin por intervalos de confianza de los parmetros poblacionales:
para medias y de proporciones.
Error probable o error mximo y Tamao de la muestra.
2. Investigar de manera personal, otras fuentes de informacin a tu alcance para
enriquecer tus conocimientos de los temas antes mencionados.
3. Integrado en equipos de tres compaeros, comenten las estrategias para la
solucin de las preguntas antes sealadas.
4. Realicen esquemas, lminas, o presentaciones para su exposicin grupal en
el aula.
Consultar la presente
gua didctica para
argumentar su solucin y
otras bibliografas.
ACTIVIDADES DE CIERRE
En reunin plenaria, expondrn ya sea con, lminas, o presentaciones
PowerPoint; las vas de solucin que se hayan encontrado a dichos
preguntas.
En la plenaria, encontraras la solucin ms idnea entre todo el grupo.
De manera respetuosa podrs solicitar a todo el grupo, te disipen algunas
dudas que tengas respecto al tema y a la solucin del problema en general.
El tutor propiciar la exposicin libre de las emociones y sentimientos generados
durante el desarrollo del tema.
40
41
Debido a lo anterior, se llaman intervalos de confianza a 68.26%, 95.44% y 99.74% de estimacin para s.
Los nmeros extremos de estos intervalos, se denominan lmites de confianza. De forma similar, S 1.96 s
y S 2.58 s son los lmites de confianza a 95% y 99%, o (0.95 y 0.99) de S. El porcentaje de confianza suele
denominarse nivel de confianza.
Las cifras 1.96, 2.58, etctera, en los lmites de confianza; se llaman coeficientes de confianza o valores
crticos y se denotan por Zc. A partir de los niveles de confianza se pueden calcular los coeficientes de
confianza y viceversa.
En la tabla siguiente se muestran algunos de los valores crticos de Zc, correspondientes a diversos niveles de
confianza. Los valores de Zc, para los niveles de confianza, no incluidos en la tabla, pueden obtenerse en la
tabla reas bajo la curva normal estndar.
Completar la tabla, ejemplo: 95%/2 = 47.5 / 100 = 0.475 en la tabla Zc = 1.96
Nivel de
confianza
Zc
Nivel de
confianza
Zc
99.73%
99%
98%
96%
95.45%
2.575
95%
90%
1.96
1.645
80%
68.27%
50%
99.73%
99%
98%
96%
95.45%
95%
90%
80%
68.27%
50%
3.00
2.575
2.33
2.06
2.00
1.96
1.645
1.28
1.00
0.68
Denotamos con la letra griega (alfa) a la probabilidad con la que estamos dispuestos a cometer error (=0.10);
entonces, no cometer el error o confiabilidad ser: 1- (0.90), recordando que la probabilidad de un evento ms
la probabilidad de su complemento, es igual a 1; dicho de otra manera, como se ha definido como la
probabilidad de cometer el error y la probabilidad del evento complementario a este, es la probabilidad de NO
cometer error, esto es, la confiabilidad, entonces se tiene que la suma de estos eventos complementarios es 1.
42
190
203
227
228
215
211
211
226
195
187
231
202
165
209
212
172
220
219
244
258
216
229
278
204
208
235
193
Una estimacin por intervalo o un intervalo de confianza consta de 3 partes (primera ecuacin); que
estimador, Zc es el factor de confiabilidad y
es el
43
Los grados de confianza que ms emplearemos son 0.95 y 0.99 y sus correspondientes coeficientes de
confianza o valores crticos Zc que son 1.96 y 2.575, respectivamente. A estos intervalos, tambin se les
conoce, como los intervalos de confianza del 95% y 99%.
Para encontrar los intervalos de confianza al 95% de confianza, en el caso del nivel de contaminacin de ozono
tenemos:
la media poblacional () con grado de confianza , y puede ser usada para determinar el tamao de la
muestra, cuando se desea cierto grado de precisin; esto lo analizaremos un poco ms adelante.
Por lo tanto, el Error mximo del nivel de contaminacin de ozono al 95% de confianza es:
44
Consideremos de nuevo el ejemplo del captulo anterior de la regin agrcola de 200,000 hectreas, donde se
siembra trigo. Se realiz una muestra de 900 hectreas, con una productividad media de = 3.4 toneladas y
donde la desviacin estndar de la productividad del trigo, es de = 0.8 toneladas.
Obtengamos los intervalos de confianza de 90%, 95% y 99% y sus errores mximos
Como el nmero total de hectreas (200,000, N > 20n) es muy grande podemos emplear la frmula
Para obtener el intervalo de confianza del 90%, debemos encontrar el valor de Zc (de la tabla reas bajo la
curva normal estndar), que corresponde a 90/2 (dos colas)= 0.45 que es Zc = 1.645 debido a que 0.4495 =
1.64 y 0.4505 = 1.65 la parte media ser 0.45 =1.645. Por lo tanto, los intervalos al 90 % de confianza sern
3.4 1.645.(0.0267) = 3.4 0.0439 = 3.36 y 3.4 + 1.645. (0.0267) = 3.4 + 0.0439 = 3.44
El intervalo de confianza al 90% es 3.36 < < 3.44 y su error mximo de 0.0439
Como ya sabemos el valor de Zc=1.96 para el nivel de confianza de 95 %, por lo tanto, sus intervalos de
confianza sern
Representa el error
mximo al estimar la con un grado de confianza media poblacional (), por x y puede ser usada, para
determinar el tamao de la muestra, cuando se desea cierto grado de precisin.
Para comprender mejor, resolvamos un problema de un fabricante de llantas:
Un Fabricante de llantas, desea determinar la vida promedio de cierto tipo de llantas, con un grado de certeza
del 99% y con un error menor a 1000 Km. Por estudios previos, el fabricante sabe, que la desviacin estndar
para este tipo de llantas es de 3000 Km. Qu tan grande debe ser la muestra?
Si E, es el error mximo o error probable, entonces
y como deseamos
, que al resolver da
)(
45
Para obtener el valor de n, elevamos al cuadrado para llegar a n = 59.67, y como este nmero, no es entero
debemos redondear hacia arriba para tener n= 60 llantas.
Con un 99% de certeza, el fabricante de llantas, debe obtener una muestra de 60 llantas para tener un error
menor de 1000 Km.
Tambin se puede utilizar la siguiente frmula para calcular el tamao de la muestra, para estimar a como
sigue.
= 0.30
Como el tamao de la muestra tiene que ser un entero, el investigador necesitara tomar una muestra de
tamao 35, para lograr la confianza y la amplitud de intervalo deseado.
46
ACTIVIDADES DE APRENDIZAJE:
Resuelve adecuadamente los siguientes problemas.
1) Un centro de verificacin vehicular, efecta una muestra aleatoria de 50 vehculos para estimar el tiempo
promedio, que se requiere para efectuar la prueba obteniendo una media de 7.2 minutos y una desviacin
estndar s = 0.8 minutos. Determina los intervalos de confianza de la media del 95% y del 99%, as como
los errores mximos de estos grados de confianza.
Al 95%:
Al 99%:
2) Se desea estimar las horas que un amplificador de msica puede ser usado antes de necesitar alguna
reparacin. Si por estudios previos se sabe que = 500 horas, Qu tan grande debe ser el tamao de la
muestra, si necesitamos tener un grado de confianza del 95% y un error de 100 horas?
RESPUESTAS CORRECTA: ______________
3) Una compaa de reparto de paquetera, efecta una muestra tamao n = 60 del nmero de paquetes que
entrega por da una camioneta. Si se obtuvo una media de
= 26.8 paquetes y una desviacin estndar de s =
1.4 paquetes, construye los intervalos de confianza del 90% y del 95%, para el promedio de paquetes que
entrega una camioneta.
Al 95%:
Al 90%:
4) Una compaa de seguros efecta una muestra de tamao n = 80 reclamaciones hospitalarias, obteniendo
un periodo promedio de hospitalizacin de 4.5 das y una desviacin estndar de 0.81 das. Si = 4.5 das se
emplea como la estimacin del periodo promedio de hospitalizacin de sus asegurados
a) Cul es el error mximo en esta estimacin, si se desea tener un grado de confianza del 95% y cul
es el correspondiente intervalo de confianza?
RESPUESTAS CORRECTA: ________________
5) Cul es el error mximo en esta estimacin, si se desea tener un grado de confianza del 99% y cul
es el correspondiente intervalo de confianza?
RESPUESTAS CORRECTA: ___________________
6) Una empresa publicitaria, desea investigar el tiempo promedio semanal que las amas de casa, de cierta
regin dedican a ver telenovelas. Si saben que es razonable tomar =2.8 horas para estos estudios. Qu tan
grande debe ser la muestra, si desean tener un grado de confianza del 99% y un error mximo de media
hora?
RESPUESTAS CORRECTA: ____________________
7) El dimetro promedio de una muestra aleatoria de 40 balines, fue de = 0.998 pulgadas y su desviacin
estndar fue s = 0.002 pulgadas. Cul es el mximo error al estimar el dimetro promedio del lote de
balines en 0.998 pulgadas, si deseamos tener un grado de confianza del 95%?
RESPUESTAS CORRECTA: _____________________
8) Unos diseadores industriales, desean determinar el tiempo promedio que un adulto requiere para ensamblar
un juguete fcil de ensamblar, para lo cual obtuvieron una muestra de n = 36
X = 19.9 y S = 5.73 Encuentre un intervalo de confianza del 95% para el tiempo promedio que un adulto,
requiere ensamblar dicho juguete?.
RESPUESTAS CORRECTA: _____________________
9) Un profesor, quiere calcular el tamao de la muestra del tiempo promedio que los estudiantes necesitan para
pasar de una clase a otra, y quiere afirmar con una probabilidad de 0.95, que su error ser a l o sumo de 0.25
minutos. Cul es el tamao de la muestra que necesita, si sabe que en estudios similares = 1.50
minutos?
RESPUESTAS CORRECTA: _____________________
47
ACTIVIDADES DE APERTURA
Para contextualizar la presente secuencia didctica, se sugiere reflexionar sobre
los avances tecnolgicos en la salud humana; especficamente, en la importancia
de la estadstica inferencial en la longevidad de la vida humana. Algunas
preguntas podran ser; Por qu el promedio de vida es ms largo hoy, que en
siglos pasados? Cmo ha influido la estadstica inferencial, en ste importante
fenmeno?
ACTIVIDADES DE DESARROLLO
1. Integrado en equipos de 5 estudiantes, realizar una lectura comentada y
analtica de los contenidos de la presente gua didctica, correspondientes a
los temas:
Decisiones estadsticas.
Hiptesis estadsticas.
Estrategia de prueba.
Tipos de errores que se cometen.
Esquema general de la prueba de hiptesis.
2. Reflexionar y discutir los ejemplos del apartado referente a las pruebas de
hiptesis sobre una media poblacional de sta gua.
3. Consultar de manera personal, otras fuentes de informacin a tu alcance, para
enriquecer los conocimientos de los temas antes mencionados. Mnimo dos
citas.
4. Integrado en equipos, desarrollar las estrategias para la solucin de las
preguntas antes sealadas.
5. Realicen esquemas, lminas, o presentaciones para su exposicin grupal en
el aula.
ACTIVIDADES DE CIERRE
El tutor propiciar la exposicin libre de las inquietudes, e impresiones
generada durante el desarrollo del tema.
En reunin plenaria, expondrn ya sea con, lminas, o presentaciones
PowerPoint; las vas de solucin que hayan encontrado a dichos preguntas.
En la plenaria, encontraras la solucin ms idnea entre todo el grupo.
De manera respetuosa podrs solicitar a todo el grupo, te disipen algunas
dudas que tengas respecto al tema y a la solucin del problema en general.
OBSERVACIN
Proyectar videos, audio, o
presentaciones
estadsticas
Integrarse en equipos de
3 estudiantes para su
anlisis.
Consultar la presente
gua didctica y otras
bibliografas, para
argumentar la solucin.
48
= 7.86
49
Hinv: < u .
Como se indic anteriormente, al tomar una decisin, es til hacer suposiciones o conjeturas acerca de las
poblaciones implicadas. Dichas suposiciones, pueden o no ser verdaderas, a stas se les denominan
hiptesis estadsticas. Esto nos conduce a considerar DOS POSIBILIDADES; una coincide con la hiptesis de
investigacin y la otra la contradice.
La hiptesis que contradice a la hiptesis de investigacin se llama HIPTESIS NULA y se denota H0
La hiptesis que coincide con la hiptesis de investigacin se llama HIPTESIS ALTERNATIVA y se
denota H1
50
Ahondaremos ms en este aspecto, para ver cmo se generan las hiptesis estadsticas. Para ello,
consideremos las distintas modalidades que, segn se mencion anteriormente, puede adoptar la hiptesis de
investigacin.
CASO 1. En nuestro ejemplo se postul:
Hinv : 7.5
o bien
(Hinv : u ).
H0: = 7.5
o bien
(H0: = u)
H1: 7.5
o bien
(H1: u).
o bien
(Hinv: > u ).
H0: 7.5
o bien
(H0: u ).
o bien
(H1: > u ).
o bien
o bien
(H0: u).
H0: 7.5
La hiptesis alternativa sera:
o bien
51
ACTIVIDADES DE APRENDIZAJE:
1. Establezca las hiptesis nulas (H0) y las hiptesis alternativa (H1) en cada uno de los siguientes casos:
a) Hinv: > 0
H0: _______________
H1:______________
b) Hinv: 9.43
H0: _______________
H1:______________
H0: _______________
H1:______________
d) Hinv: -10.11< 0
H0: _______________
H1:______________
H0: _______________
H1:______________
Si se est trabajando con una variable categrica y el parmetro de la poblacin, que nos interesa, es la
proporcin poblacional P, con la que ocurre cierta categora, se puede hacer una hiptesis de investigacin
sobre P. En seguida te damos una lista de hiptesis de investigacin H inv. Establezca la hiptesis nula H0 y la
hiptesis alternativa H1 en cada uno de los casos:
a) Hinv: p .37
H0: _______________
H1:______________
b) Hinv: p < .5
H0: _______________
H1:______________
c) Hinv: p - .48 0
H0: _______________
H1:______________
H0: _______________
H1:______________
52
Si esta media muestral difiere MUCHO de 7.5, podemos considerar ue es distinto de 7.5 y la informacin
contenida en la muestra contradice, en este caso, a la hiptesis nula.
Si la media muestral difiere POCO de 7.5, estaremos inclinados a pensar ue es igual a 7.5 por lo que la
informacin contenida en la muestra no contradice, en este caso, a la hiptesis nula. Pero
Qu tanto es MUCHO y u tanto es POCO?.
Necesitamos un criterio que nos aclare estos trminos y
que nos indique si la diferencia u= 7.86 7.5 = 0.36 puede ser considerada GRANDE o PEQUEA.
Este criterio, que veremos ms adelante, recibe el nombre de regla de decisin y es el que nos permite llegar
a la conclusin de rechazar o no la hiptesis nula.
4.4. TIPOS DE ERRORES QUE SE COMETEN
1) Si la media muestral difiere MUCHO de 7.5, la conclusin estadstica ser rechazar H0. Ahora bien, en
realidad puede ocurrir una de dos situaciones:
a) H0 es verdadera: en este caso estaremos cometiendo un error, al rechazar una hiptesis nula, que es
verdadera;
b) H0 es falsa: en cuyo caso nuestra conclusin ser acertada.
2) Si la media muestral difiere POCO de 7.5, la conclusin ser no rechazar H0. Ahora bien, tambin aqu
puede ocurrir en realidad, una de las dos situaciones mencionadas.
a) H0 es verdadera: en este caso nuestra conclusin ser acertada.
b) H0 es falsa: en este caso estaremos cometiendo un error, al no rechazar una hiptesis nula, que es falsa.
Es decir, en cada posibilidad de conclusin estadstica podemos estar cometiendo un error. Estos errores
reciben los siguientes nombres:
1) El error que cometemos en caso de rechazar una hiptesis nula, que es verdadera se llama ERROR TIPO I
2) El error que cometemos en caso de no rechazar una hiptesis nula, que es falsa se llama ERROR TIPO II.
En la siguiente tabla se resume lo anteriormente sealado:
Antes de seguir adelante, veamos en qu consiste cada uno de estos dos errores, en los trminos de nuestro
ejemplo inicial. Hinv: 7.5 H0: = 7.5 H1: 7.5
Como vimos anteriormente, la estrategia de prueba ser considerar como verdadera, la hiptesis de
investigacin Hinv, slo si podemos rechazar la hiptesis nula H0. Entonces:
1) EL ERROR TIPO I consiste en rechazar la hiptesis H0: =7.5 cuando en realidad es verdadera. Dicho
en otras palabras, si en nuestro problema se cometiera el error de tipo I, esto equivaldra a considerar que el
nivel en matemticas, que tienen los jvenes de las zonas rurales del Departamento de Bolvar, difiere del que
tienen los de las zonas urbanas del Departamento, cuando en realidad, no difieren.
53
2) EL ERROR TIPO II consiste en no rechazar la hiptesis H0: =7.5 cuando en realidad es falsa. O sea, si
en nuestro problema se cometiera el error tipo II, esto equivaldra a no considerar que el nivel en matemticas,
que tienen los jvenes de las zonas rurales, del Departamento de Bolvar, difiera del que tienen los de las zonas
urbanas, cuando en realidad, si difieren.
La probabilidad de cometer el error de tipo I, lo llamaremos P(EI) y la probabilidad de cometer el error tipo II, lo
llamaremos, P(EII). Ahora, si deseamos tener el mnimo riesgo posible de cometer error, en caso de que
consideremos la hiptesis de investigacin como verdadera, entonces, lo que queremos es tener el mnimo
riesgo posible de cometer el error tipo I, por lo tanto, deseamos que P(EI) sea un nmero pequeo.
Los valores de P(EI) que se usan ms comnmente son: 0.10, 0.05, 0.01. Al decidir qu probabilidad de
cometer el error tipo I permitimos; estamos diciendo qu confianza queremos tener, en caso de considerar la
hiptesis de investigacin verdadera. Los valores de P(EI) que acabamos de dar, corresponden a
confiabilidades de 90%, 95% y 99% respectivamente.
ACTIVIDAD DE APRENDIZAJE:
La siguiente tabla es similar a la de la pgina anterior, en donde est expresada en trminos de H0. Ahora t
exprsala en trminos de la hiptesis alternativa, H1.
SITUACION REAL
(desconocida)
SITUACION
ESTADISTICA
4.4.1.
Los procedimientos que permiten determinar si las muestras observadas, difieren significativamente de los
resultados esperados y que, por lo tanto, ayudan a decidir si se aceptan o rechazan las hiptesis, se denominan
pruebas de decisin o significancia.
Regresemos a nuestro ejemplo, para esto, los profesores cuentan con una muestra de 30 calificaciones, en la
que se obtuvo un promedio muestral de 7.86, es decir: n = 30 y = 7.86.
La regla de decisin que queremos, nos debe indicar si la diferencia - u = 7.86 7.5 = 0.36 puede ser
considerada lo suficientemente GRANDE, como para rechazar la hiptesis nula, o si, por el contrario, debe ser
considerada los suficientemente PEQUEA, como para no rechazar H0. Tambin, que los valores de la media
de distintas muestras tienen una distribucin muestral, cuya dispersin estimamos mediante el error estndar
muestral,
si esta dispersin es grande, el promedio de cada muestra, puede alejarse bastante del
promedio poblacional , y si es pequea se espera que cada promedio est cercano a . Esto hace que
evaluemos la diferencia
muestral
Para ver cmo es la regla de decisin que nos permitir decir una cosa u otra, nuestro punto de partida ser, el
intervalo de confianza para que ya estudiamos en el tema anterior. Como sabemos, para hacer una
estimacin por intervalo de , decidiremos con qu probabilidad estamos dispuestos a cometer el error en la
estimacin.
Modelos Inferenciales - 2014
54
Por ejemplo si decidimos que = 0.05, sabemos que podemos encontrar un intervalo de (1 - ) 100% = 95%
confianza para . Debido a que no conocemos el valor de (desviacin estndar poblacional), tendremos que
calcular el de la muestra, el valor de s (desviacin estndar muestral) y hacer uso de la distribucin
t de Student para construir el intervalo de confianza;
Donde t (n -1) es el valor de la distribucin t de Student con n -1 grados de libertad** y en dos colas.
En nuestro ejemplo, t (n 1) es el valor de la distribucin t de Student con 30 1 = 29 grados de libertad y
= 0.05 en dos colas.
Entonces (ver la tablat de Student de la pgina siguiente), t (n 1) = t (29) = 2.045, y tenemos que, con una
probabilidad 1 = 0.95, est en el intervalo.
<<
Observemos que esta regla de decisin es precisamente la que desebamos obtener, ya que:
1) Si el valor de
difiere
2) Si el valor de
difiere
tal que tc si est en el intervalo < - 2.045, 2.045 >, no se rechaza Ho, por lo que el intervalo < - 2.045, 2.045 >,
se le denomina la regin de no rechazo de Ho. Si el valor de tc es tal que tc no est en el intervalo < - 2.045,
2.045 >, se rechaza Ho.
Sabemos que si rechazamos Ho, podemos estar cometiendo el error tipo I. Por lo tanto, se tiene que
probabilidad de que siendo Ho verdadera, tc no est en el intervalo y rechazo Ho
es la
55
** Grados de libertad: Es un parmetro de la distribucin t. para determinar un estimado de intervalo de una media de poblacin, tiene n
1 grados de libertad, siendo n el tamao de la muestra aleatoria.
56
Planteamiento de la hiptesis: El nivel de conocimiento que tienen los jvenes de las escuelas
secundarias de las zonas rurales del Departamento de Bolvar, es diferente del de los jvenes de las
escuelas secundarias de las zonas urbanas del estado.
Las Hiptesis estadsticas son:
Hinv: 7.5
Ho : = 7.5
H1 : 7.5
Recordando que es el promedio de calificaciones que se obtendran en las zonas rurales y u es el promedio
de calificaciones que se obtuvo en las zonas urbanas ( u = 7.5). Conocemos el valor de u, pero no el de .
57
2)
Estadstico de prueba y condiciones para su uso: El estadstico de prueba que usaremos es:
El cual se distribuye en forma t de Student con n 1 grados de libertad bajo el supuesto de que H0 es
cierta. La condicin para usar este estadstico de prueba es que la variable bajo estudio se distribuye
normalmente. Como el examen se construy de tal forma que la calificacin fuera una variable que se
distribuyera normalmente, esta condicin se cumple.
3) Regla de decisin: Como se desea probar H1: 7.5 ( u) con un nivel de significancia de 5%, se
tienen que =0.05 en dos colas. El valor en la tabla de la distribucin t de Student con 30 1 = 29 grados
de libertad es tc (29) = 2.045. A partir de este valor se definen las regiones de rechazo y no rechazo de H0,
como sigue
5) Decisin estadstica: Como tc = 2.778 no est en el intervalo < -2.045, 2.045>, se decide rechazar H0.
6) Interpretacin de los resultados: Como se rechaz la hiptesis nula, H0 : = 7.5 con = 0.05 se puede
sealar:
La muestra proporciona evidencia suficiente para considerar, con 95% de confianza, que la hiptesis de
investigacin es verdadera, o sea que los jvenes de las escuelas secundarias ubicadas en las zonas
rurales del Departamento de Bolvar, tienen un nivel de conocimientos en matemticas que es distinto del
que tienen los jvenes de las secundarias urbanas del mismo estado. Dicho de otra forma, podemos decir
que hay diferencias significativas del nivel de conocimientos en matemticas entre los jvenes de las
escuelas secundarias de las zonas rurales y los de las zonas urbanas del Departamento de Bolvar.
Si reflexionas y analizas detenidamente lo anterior, observaras que para llegar a stas conclusiones
estadsticas, intervinieron adems del valor de u (postulado por la hiptesis nula H0: = u ), los siguientes
nmeros;
El promedio muestral ( );
La desviacin estndar muestral (s);
El tamao de la muestra (n ); y
La probabilidad con la que se est dispuesto a cometer el error tipo I ().
En las siguientes actividades de aprendizaje te permitir reflexionar cmo influye cada uno de estos nmeros
en la conclusin estadstica de rechazar o no rechazar la hiptesis nula.
Hiptesis nula = H0 e Hiptesis alternativa = H1
58
ACTIVIDADES DE APRENDIZAJE:
1) En el ejercicio se trabaj con s = 0.71, n = 30 y = 0.05. Obtenga la conclusin estadstica si
cada uno de los indicados en la columna de la izquierda en la siguiente tabla:
hubiera sido
Qu relacin guarda la distancia entre y u=7.5 con la distancia entre tc y cero? Qu relacin guarda la
distancia entre y u con la conclusin estadstica?, analiza tus conclusiones.
_________________________________________________________________________________________
________________________________________________________________________________________
s hubiera sido
Qu relacin hay entre la dispersin de los datos de la muestra (s) y el valor tc del estadstico de prueba?
Qu relacin hay entre la dispersin de los datos de la muestra y la conclusin estadstica?
_________________________________________________________________________________________
_________________________________________________________________________________________
59
3) En el ejercicio se trabaj con = 7.86, s = 0.71 y = 0.05. Obtenga la conclusin estadstica si n hubiera
sido cada uno de los indicados en la columna de la izquierda en la siguiente tabla:
Qu relacin hay entre n y el intervalo; n con tc ; n y la conclusin estadstica?, analiza tus conclusiones
_____________________________________________________________________________________
_____________________________________________________________________________________
4) En el ejercicio se trabaj con = 7.86, s = 0.71 y n = 30. Obtenga la conclusin estadstica si n hubiera sido
cada uno de los indicados en la columna de la izquierda en la siguiente tabla:
Qu relacin hay entre y la amplitud de la regin de no rechazo de H0? Con cuanta confianza podemos
aceptar H1?, analiza tus conclusiones
_________________________________________________________________________________________
_________________________________________________________________________________________
60
4) Clculos:
Como n = 20, la media muestral es
Tenemos:
5) Decisin estadstica: Como tc = - 2.98 no se encuentra en el intervalo <-2.093, 2.093>, se debe rechazar la
H0 ( = 12.5%) dicho de otra manera, tc < -2.093 ya que -2.98 se encuentra a la izquierda de -2.093 en la recta
real, por lo tanto se debe rechazar la hiptesis nula.
6) Interpretacin de resultados: Como se rechaz la hiptesis nula nos indica lo siguiente:
Hay evidencia suficiente para considerar, con una confianza de 95% que el promedio del contenido de azcar
de las naranjas de las muestras (x = 11.9%) es significativamente diferente respecto al promedio del contenido
de azcar de las frutas que aseguraba el productor ( =12.5%). Por lo tanto, en respuesta a la pregunta inicial,
el gerente no debe aceptar la afirmacin del producto de que el promedio de azcar es del 12.5%; o lo que es
lo mismo, la diferencia en el porcentaje de azcar entre 12.5 y 11.9 es muy grande para deberse a la
variabilidad de las diferentes muestras.
61
Distribucin bidimensional
Idea de correlacin.
Medida de la correlacin.
OBSERVACIN
62
5.
INTRODUCCION
Si sobre una poblacin de nios entre 0 y 6 aos, estudiamos las variables peso y estatura, esperamos que en
general ocurra que a mayor estatura tambin encontremos mayor peso, aunque es posible que en algunos
pocos casos no ocurra as.
Vemos que existe una relacin entre las dos variables, aunque no es funcional, o sea, no puedo determinar con
exactitud el peso que corresponder a cada talla.
En este tema trataremos de describir y medir este tipo de relaciones, que aparecen en gran cantidad de
problemas.
a.
DISTRIBUCIONES BIDIMENSIONALES
Cuando sobre una poblacin estudiamos simultneamente los valores de dos variables estadsticas, el conjunto
de los pares de valores correspondientes a cada individuo se denomina distribucin bidimensional.
EJEMPLO:
Las notas de 10 alumnos en Matemticas y en Lengua vienen dadas en la siguiente tabla:
MATEMTICAS
LENGUA
10
b.
IDEA DE CORRELACION
Es frecuente que estudiemos sobre una misma poblacin los valores de dos variables estadsticas distintas, con
el fin de ver si existe alguna relacin entre ellas, es decir, si los cambios en una de ellas influyen en los valores
de la otra. Si ocurre esto decimos que las variables estn correlacionadas o bien que hay correlacin entre
ellas.
En el ejemplo anterior parece que hay cierta tendencia a que cuanto mejor es la nota en Matemticas, mejor es
la de lengua.
c.
La primera forma de describir una distribucin bidimensional es representar los pares de valores en el plano
cartesiano. El grfico obtenido recibe el nombre de nube de puntos o diagrama de dispersin.
63
d.
Cuando observamos una nube de puntos podemos apreciar si los puntos se agrupan cerca de alguna curva.
Aqu nos limitaremos a ver si los puntos se distribuyen alrededor de una recta. Si as ocurre diremos que
hay correlacin lineal. La recta se denomina recta de regresin.
Hablaremos de correlacin lineal fuerte cuando la nube se parezca mucho a una recta y ser cada vez ms
dbil (o menos fuerte) cuando la nube vaya desparramndose con respecto a la recta.
En el grfico observamos que en nuestro ejemplo la correlacin es bastante fuerte, ya que la recta que hemos
dibujado est prxima a los puntos de la nube.
Cuando la recta es creciente la correlacin es positiva o directa: al aumentar una variable, la otra tiene
tambin tendencia a aumentar, como en el ejemplo anterior. Cuando la recta es decreciente la correlacin es
negativa o inversa: al aumentar una variable, la otra tiene tendencia a disminuir.
EJEMPLO:
Una persona se entrena para obtener el carnet de conducir repitiendo un test de 50 preguntas. En la grfica se
describen el n de errores que corresponden a los intentos realizados.
Observa que hay una correlacin muy fuerte (los puntos estn "casi" alineados) y negativa (la recta es
decreciente).
64
EJEMPLO:
A 12 alumnos de un centro se les pregunt a qu distancia estaba su residencia del Instituto, con fin de estudiar
si esta variable estaba relacionada con la nota media obtenida. Se obtuvieron los datos que figuran en la
siguiente tabla:
Distancia (en km) 0,05 0,1 0,12 0,4 0,5 0,7 1
Nota media
8,4
5,7
Observamos una nube de puntos que no nos sugiere ninguna recta concreta, porque la correlacin es
prcticamente inexistente, es decir, no tiene nada que ver con el rendimiento acadmico la distancia del
domicilio al instituto.
e.
MEDIDA DE LA CORRELACION
Observa el valor de r, as como el ajuste de la nube a la recta. Intenta deducir las propiedades de r,
relacionando su valor con la forma de la nube y realizando los siguientes ejercicios.
Modelos Inferenciales - 2014
65
66
f.
Es evidente que no todos dibujaramos exactamente la misma recta para una nube de puntos, aunque la
correlacin fuera bastante fuerte.
De todas las rectas posibles los matemticos han elegido como la mejor aproximacin la llamada de los
mnimos cuadrticos, Su clculo es tambin algo mecnico que podemos hacer con calculadora o un
ordenador. En el siguiente apartado encontrars un ejercicio para estudiar sus propiedades.
La recta de regresin sirve para hacer estimaciones, teniendo en cuenta que:
Los valores obtenidos son aproximaciones en trminos de probabilidad: es probable que el valor
correspondiente a x0 sea y0.
La fiabilidad es mayor cuanto ms fuerte sea la correlacin.
La fiabilidad aumenta al aumentar el nmero de datos.
La estimacin es ms fiable para los valores de x prximos a la media.
EJEMPLO:
Con los datos del primer ejemplo, (las notas de 10 alumnos en Matemticas y en Lengua), podemos contestar
con aproximacin a la siguiente cuestin: si un alumno no realiz el examen de lengua, pero s el de
matemticas, obteniendo un 7, qu nota cabe esperar que obtuviera en lengua?
MATEMTICAS
LENGUA
10
Observa el punto amarillo, cuya abscisa corresponde a la nota de matemticas y su ordenada a la nota que
esperamos que tenga en lengua. Es resultado es aproximado y relativamente fiable, ya que la correlacin es
fuerte Y el valor de la nota no est muy prximo a la media, aunque el n de datos que tenemos no es muy alto.
Puedes cambiar el valor de la nota de matemticas sin ms que cambiar su valor en el recuadro de la parte
inferior.
67
g.
En la siguiente escena puedes comprobar las principales propiedades de la recta de regresin mnimocuadrtica.
1. Observa la recta blanca, cuyos coeficientes a y b puedes hacer variar en los recuadros inferiores de la
escena, bien con las flechas o introduciendo los valores deseados. Observa los segmentos
denominados di, que marcan las distancias de los puntos de la nube a la recta en la direccin del eje
OY.
Haz variar los valores de a y de b. Cuando la recta coincida con la recta de regresin mnimo-cuadrtica
(en color azul claro) la suma de los cuadrados de las distancias di es la mnima posible.
2. Observa el punto P(p,q), cuyas coordenadas puedes hacer variar en los recuadros correspondientes de
la parte inferior de la escena. Observa lo que ocurre si le das ap y a q los valores de las medias de la
distribucin (puedes escribir mx en la casilla de p y pulsar intro y escribir my en la casilla de q y pulsar
intro). Mueve ahora los puntos rojos y repite el ejercicio. qu propiedad puedes deducir?
ACTIVIDADES DE APRENDIZAJE
1. El coeficiente de correlacin de una distribucin bidimensional es 0,87. Si los valores de las variables se
multiplican por 10, cul ser el coeficiente de correlacin de esta nueva distribucin?
2. Hemos calculado la covarianza de una cierta distribucin y ha resultado negativa. Justifica por qu podemos
afirmar que, tanto el coeficiente de correlacin como las pendientes de las dos rectas de regresin, son
nmeros negativos.
3. Qu punto tienen en comn las dos rectas de regresin?
4. Qu condicin debe cumplir r para que las estimaciones hechas con la recta de regresin sean fiables?
Prueba que el producto de los coeficientes de regresin (correspondientes a cada uno de las rectas de
regresin) es igual al cuadrado del coeficiente de
68