Antologia Estadistica I..11123

ESTADISTICA INFERENCIAL I
INSTITUTO TECNOLGICO SUPERIOR DE

LERDO
ANTOLOGIA: ESTADISTICA INFERENCIAL I
COMPILADOR:
M.C. CECILIA GUADALUPE PALACIOS.
ASIGNATURA:
ESTADSTICA INFERENCIAL I.
DIVISIN:
INGENIERA INDUSTRIAL PARA MANUFACTURA AUTOMATIZADA.
2 DE DICIEMBRE DE 2011
INDICE
INTRODUCCION .............................................................................................................................. 1
UNIDAD 1. DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO ............................................. 2

1.1 Introduccin a la Estadstica Inferencial ................................................................................... 2
1.2 Muestreo: Introduccin al muestreo y tipos de muestreo ....................................................... 3
1.3 Teorema del lmite central ........................................................................................................ 4
1.4 Distribuciones fundamentales para el muestreo ...................................................................... 5
1.4.1 Distribucin muestral de la media ..................................................................................... 6
1.4.2 Distribucin muestral de la diferencia de medias.............................................................. 6
1.4.3 Distribucin muestral de la proporcin ............................................................................. 8
1.4.4 Distribucin muestral de la diferencia de proporciones .................................................... 9
1.4.5 Distribucin t-student ...................................................................................................... 11
1.4.6 Distribucin muestral de la varianza ................................................................................ 12
1.4.7 Distribucin muestral de la relacin de varianzas ........................................................... 12
UNIDAD 2. ESTIMACION ................................................................................................................... 13

2.1 Introduccin 13
2.2 Caractersticas de un estimador .............................................................................................. 14
2.3 Estimacin puntual .................................................................................................................. 16
2.4 Estimacin por intervalos ........................................................................................................ 18
2.4.1 Intervalo de confianza para la media ............................................................................... 20
2.4.2 Intervalo de confianza para la diferencia de medias ....................................................... 24
2.4.3 Intervalos de confianza para la proporcin...................................................................... 25
2.4.4 Intervalos de confianza para la diferencia de proporciones ............................................ 28
2.4.5 Intervalos de confianza para la varianza .......................................................................... 31
2.4.6 Intervalos de confianza para la relacin de varianzas...................................................... 35
2.5 Determinacin del tamao de muestra .................................................................................. 37
2.5.1 Basado en la media de la Poblacin ................................................................................. 38
2.5.2 Basado en la proporcin de la Poblacin ......................................................................... 39
2.5.3 Basado en la diferencia entre las medias de la Poblacin ............................................... 41
UNIDAD 3. PRUEBA DE HIPOTESIS ................................................................................................... 42

3.1 Introduccin 42
3.2 Confiabilidad y significancia .................................................................................................... 43
3.3 Errores tipo I y tipo II ............................................................................................................... 46
3.4 Potencia de la prueba ............................................................................................................. 48
3.5 Formulacin de Hiptesis estadsticas .................................................................................... 49
3.6 Prueba de hiptesis para la media .......................................................................................... 52
3.7 Prueba de hiptesis para la diferencia de medias .................................................................. 55
3.8 Prueba de hiptesis para la proporcin .................................................................................. 55
3.9 Prueba de hiptesis para la diferencia de proporciones ........................................................ 59
3.10 Prueba de hiptesis para la varianza .................................................................................... 63
3.11 Prueba de hiptesis para la relacin de varianzas. ............................................................... 66
3.12 Uso de software estadstico .................................................................................................. 66
UNIDAD 4. PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMTRICAS ............................ 69

4.1 Bondad de ajuste..................................................................................................................... 69
4.1.1 Anlisis Ji-Cuadrada .......................................................................................................... 69
4.1.2 Prueba de independencia ................................................................................................ 71
4.1.3 Prueba de la bondad del ajuste........................................................................................ 72
4.1.4 Tablas de contingencia ..................................................................................................... 76
4.1.5 Uso del software estadstico. ........................................................................................... 79
4.2 Pruebas no paramtricas ........................................................................................................ 80
4.2.1 Escala de medicin ........................................................................................................... 81
4.2.2 Mtodos estadsticos contra no paramtricos ................................................................ 82
4.2.3 Prueba de Kolmogorov Smirnov.................................................................................... 83
4.2.4 Prueba de Anderson Darling ......................................................................................... 84
4.2.5 Prueba de Ryan Joiner ................................................................................................... 84
4.2.6 Prueba de Shappiro Wilk. .............................................................................................. 90
4.2.7 Aplicaciones del paquete computacional. ....................................................................... 92
UNIDAD 5. REGRESIN LINEAL SIMPLE Y MLTIPLE. ...................................................................... 93

5.1 Regresin Lineal simple. .......................................................................................................... 93
5.1.1 Prueba de hiptesis en la regresin lineal simple. ........................................................... 95
5.1.2 Calidad del ajuste en regresin lineal simple ................................................................... 97
5.1.3 Estimacin y prediccin por intervalo en regresin lineal simple ................................. 101
5.1.4 Uso de software estadstico ........................................................................................... 104
5.2 Regresin lineal mltiple ....................................................................................................... 105
5.2.2 Pruebas de hiptesis en regresin lineal mltiple ......................................................... 108
5.2.3 Intervalos de confianza y prediccin en regresin mltiple .......................................... 108
5.2.4 Uso de un software estadstico. ..................................................................................... 108
5.3 Regresin no lineal. ............................................................................................................... 109
REFERENCIAS BIBLIOGRAFCAS. ..................................................................................................... 112

REFERENCIAS ELECTRONICAS ......................................................................................................... 112
INTRODUCCION
El presente trabajo esta dirigido a los estudiantes del ITSL que cursan la Carrera
de Ingeniera Industrial bajo el enfoque de estrategias educativas centradas
en el aprendizaje, con el firme propsito de que sirva de gua y q u e c o n
las
actividades
que
desarrollaras
durante
cada
unidad,
te
permitirn adquirir y reafirmar los conocimientos que competen a

l o s contenidos del programa de estudios de la asignatura de Estadstica
Inferencial I.
Con el desarrollo de los contenidos programticos dentro y
fuera del aula, t como participante entusiasta y responsable de
tu propio aprendizaje, te permitir comprender los conceptos
a n a l i z a d o s y l a aplicacin significativa para resolver problemas de la vida
cotidiana.
La meta se lograr con t valiosa participacin porque eres el principal actor de tu

propio aprendizaje y que con el apoyo de tu facilitador determinars el xito en t
desempeo escolar, familiar y laboral.
UNIDAD 1. DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO
1.1 Introduccin a la Estadstica Inferencial

La estadstica inferencial no es ms que un argumento. Un buen argumento hace creble una
afirmacin. En nuestro caso, cualquier estudio necesitar, al menos dos argumentos slidos: el
estadstico y el relativo al diseo de. Desde este punto de vista, nuestra tarea es poder entender (y
calibrar) los argumentos estadsticos y tambin poder construirlos nosotros mismos.
La estadstica inferencial es necesaria cuando queremos hacer alguna afirmacin sobre ms
elementos de los que vamos a medir. La estadstica inferencial hace que ese salto de la parte al todo
se haga de una manera controlada. Aunque nunca nos ofrecer seguridad absoluta, s nos ofrecer
una respuesta probabilstica. Esto es importante: la estadstica no decide; slo ofrece elementos para
que el investigador o el lector decidan.
En muchos casos, distintas personas perciben diferentes conclusiones de los mismos datos.
El proceso ser siempre similar. La estadstica dispone de multitud de modelos que estn a nuestra
disposicin. Para poder usarlos hemos de formular, en primer lugar, una pregunta en trminos
estadsticos. Luego hemos de comprobar que nuestra situacin se ajusta a algn modelo (si no se
ajusta no tendra sentido usarlo). Pero si se ajusta, el modelo nos ofrecer una respuesta estadstica a
nuestra pregunta estadstica.
Es tarea nuestra devolver a la psicologa esa respuesta, llenndola de contenido psicolgico.
Cundo es necesaria la estadstica inferencial? Cuando queremos hacer alguna afirmacin sobre
ms elementos de los que vamos a medir.
La estadstica descriptiva, como indica su nombre, tiene por finalidad describir.
As, si queremos estudiar diferentes aspectos de, por ejemplo, un grupo de personas, la estadstica
descriptiva nos puede ayudar. Lo primero ser tomar medidas, en todos los miembros del grupo, de
esos aspectos o variables para, posteriormente, indagar en lo que nos interese.
La estadstica inferencial resulta de aplicar la probabilidad a los estadsticos que ya conocemos por
la estadstica descriptiva. Los resultados de esa aplicacin vendrn expresados, pues, en lenguaje
probabilstico.
Y esto no ayuda precisamente a sentirse cmodo con la estadstica inferencial.
Adems de ser matemtica, tiene la fea costumbre de no decir s o no. En lugar de ello, sus
respuestas suenan a veces a excusas, eso s, muy diplomticas, como no hay suficiente evidencia
o esa afirmacin es altamente improbable. Pero en lenguaje matemtico. El resultado es quizs
extrao, difuso pero preciso; no se decanta pero nos da cuatro decimales: a partir de los datos que
me ofrece, la probabilidad de que ocurra eso que usted afirma es 0.23811.
Pero aun as nos permite incrementar nuestro conocimiento. Las afirmaciones anteriores pretenden
ilustrar algo fundamental: las afirmaciones que nos permite hacer la estadstica inferencial tienen un
riesgo, y quien la usa debe saberlo. No es difcil, de todas maneras, porque todas estas afirmaciones
estn formuladas en trminos de riesgo, de seguridad e inseguridad: de probabilidad.
El azar es, por definicin, lo impredecible. Cmo es posible entonces utilizar lo impredecible para
obtener informacin? La clave est en que incluso lo impredecible, para poder serlo, ha de cumplir
algunas normas. El conjunto de esas normas, y las tcnicas para extraer informacin del azar, es lo
que llamamos probabilidad.
No hay nada mgico en el azar; resulta de una sucesin de circunstancias no controlables que lleva
a no poder predecir el resultado. Fijmonos en la moneda de toda la vida. Lo que hace que lanzarla
sea un experimento aleatorio es que es imposible controlar la fuerza con la que se lanza, los giros
que da y los ngulos con que golpea el suelo una y otra vez hasta detenerse2. Basta situar la moneda
de canto en una mesa y empujarla deliberadamente en una direccin para que desaparezca el azar.
Pero si estando de canto la hacemos girar rpidamente volvemos a disponer de un experimento
aleatorio.
1.2 Muestreo: Introduccin al muestreo y tipos de muestreo
Para extraer conclusiones de una poblacin a partir de una muestra, es vital que la muestra sea
representativa.
Hay dos tipos de muestreo: probabilstico (se conoce, o puede calcularse, la probabilidad de cada
elemento, por tanto, de cada muestra posible) y no probabilstico (se desconoce o no interesa la
probabilidad de cada elemento; el investigador selecciona aquella muestra que considera ms
representativa o que le resulta ms fcil).
Cuidado: no es que el muestreo no probabilstico no permita generar muestras representativas; lo
que ocurre es que no tenemos ninguna informacin sobre el grado de representatividad de la
muestra elegida.
El muestreo probabilstico puede darse de diferentes formas, segn estemos considerando
poblaciones finitas (los votantes de la Comunidad de Madrid, los pacientes con insomnio) o
infinitas (los posibles tiempos de reaccin ante una tarea de bsqueda visual), y segn consideremos
(en las finitas) un muestreo con o sin reposicin.
El muestreo aleatorio simple se da cuando se cumple la igualdad de distribuciones (cualquier valor
tiene la misma probabilidad de salir en cada extraccin) e independencia (la probabilidad de obtener
un determinado valor no se modifica por los valores ya obtenidos).
Otros tipos de muestreo probabilstico son el m. a. sistemtico, el m. a. estratificado y el m. a. por
conglomerados.
1.3 Teorema del lmite central
El Teorema del Lmite Central o Teorema Central del Lmite indica que, bajo condiciones muy
generales, la distribucin de la suma de variables aleatorias tiende a una distribucin gaussiana
cuando la cantidad de variables es muy grande.
Existen diferentes versiones del teorema, en funcin de las condiciones utilizadas para asegurar la
convergencia. Una de las ms simples establece que es suficiente que las variables que se suman
sean independientes, idnticamente distribuidas, con valor esperado y varianza finitas.
La aproximacin entre las dos distribuciones es en general mayor en el centro de las mismas que en
sus extremos o colas, motivo por el cual se prefiere el nombre Teorema del Lmite Central
(central califica al lmite, ms que al teorema).
Esta relacin entre la forma de la distribucin de la poblacin y la forma de la distribucin de
muestreo se denomina teorema del lmite central, que es tal vez el ms importante de toda la
inferencia estadstica. Nos asegura que la distribucin de muestreo de la media se aproxima a la
normal al incrementarse el tamao de la muestra. Hay situaciones tericas en las que el teorema del
lmite central no se cumple, pero casi nunca se encuentran en la toma de decisiones prctica. Una
muestra no tiene que ser muy grande para que la distribucin de muestreo de la media se acerque a
la normal. Los estadsticos utilizan la distribucin normal como una aproximacin a la distribucin
de muestreo siempre que el tamao de la muestra sea al menos de 30, pero la distribucin de
muestreo de la media puede ser casi normal con muestras incluso de la mitad de ese tamao. La
importancia del teorema del lmite central es que nos permite usar estadsticas de muestra para
hacer inferencias con respecto a los parmetros de poblacin sin saber nada sobre la forma de la
distribucin de frecuencias de esa poblacin ms que lo que podamos obtener de la muestra.
Lo que hemos visto hasta el momento parece bastante restrictivo ya que hemos supuesto, de
entrada, que la distribucin en la poblacin es normal, pero existen muchos casos en los que no es
posible suponer distribucin Normal. El siguiente resultado permite trabajar con la normal para la
distribucin muestral de medias aunque la poblacin no lo sea, y es conocido como Teorema
Central del Lmite.
Sea X1, X2, ... , Xn , una muestra aleatoria de una poblacin X con una distribucin de probabilidad
muestral tiene una distribucin

cuando n tiende a infinito.
La demostracin del resultado excede los lmites de un curso introductorio.
La aproximacin a la distribucin normal es mejor para n grande ya que se trata de una
aproximacin y no de una distribucin exacta como en el caso de poblaciones normales.
En Estadstica consideramos n grande cuando es mayor de 30.
Una consecuencia directa del teorema es que la suma de los valores mustrales sigue una
distribucin normal
El teorema de De Moivre que se explic en el apartado de la normal puede entenderse tambin
como un caso particular del Teorema Central del Lmite.
Sea una poblacin en la que se mide una v.a. X con distribucin binomial B(1,p), es decir, toma el
valor 1 con probabilidad p y el valor 0 con probabilidad q, tiene una media p y una varianza pq. Una
distribucin B(n,p) puede entenderse como la suma de n binomiales B(1,p), luego aplicando el
TCL, si n es grande la distribucin B(n,p) se puede aproximar por una normal que tiene como
media a np y como varianza npq.
1.4 Distribuciones fundamentales para el muestreo
La comprensin del concepto de la distribucin de muestreo es fundamental para el correcto
entendimiento de la inferencia estadstica.
Una distribucin de la poblacin es la distribucin de la totalidad de las medidas individuales de
una poblacin, en tanto que una distribucin muestral es la distribucin de los valores individuales
incluidos en una muestra.
En contraste con estas distribuciones de medidas individuales, una distribucin de muestreo se
refiere a la distribucin de los diferentes valores que una estadstica muestral, o estimador, podra
adoptar en muchas muestras del mismo tamao.
As, aunque por lo general disponemos nicamente de una muestra aleatoria o subgrupo racional,
reconocemos que la estadstica muestral particular que determinamos, como la media o mediana de
la muestra, no es exactamente igual al respectivo parmetro de la poblacin.
Ms an, el valor de una estadstica muestral variar de una muestra a otra, a causa de la
variabilidad del muestreo aleatorio, o error de muestreo. sta es la idea en la que se apoya el
concepto de que toda estadstica maestral es de hecho un tipo de variable cuya distribucin de
valores est representada por una distribucin de muestreo.
1.4.1 Distribucin muestral de la media
Si tenemos una muestra aleatoria de una poblacin N(m,s ), se sabe (Teorema del lmite central) que
la fdp de la media muestral es tambin normal con media m y varianza s2/n. Esto es exacto para
poblaciones normales y aproximado (buena aproximacin con n>30) para poblaciones cualesquiera.
Es decir es el error tpico, o error estndar de la media.
Cmo usamos esto en nuestro problema de estimacin? 1 problema: No hay tablas para cualquier
normal, slo para la normal m=0 y s=1 (la llamada z); pero haciendo la transformacin (llamada
tipificacin) una normal de media m y desviacin s se transforma en una z.
Llamando za al valor de una variable normal tipificada que deja a su derecha un rea bajo la curva
de a, es decir, que la probabilidad que la variable sea mayor que ese valor es a (estos son los valores
que ofrece la tabla de la normal) podremos construir intervalos de la forma para los que la
probabilidad es 1 - a.
Teniendo en cuenta la simetra de la normal y manipulando algebraicamente que tambin se puede
escribir o, haciendo nfasis en que es el error estndar de la media,
Recurdese que la probabilidad de que m est en este intervalo es 1 - a. A un intervalo de este tipo
se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, o nivel de
significacin de 100a%. El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96.
Al valor se le denomina estimacin puntual y se dice que es un estimador de m.
Ejemplo: Si de una poblacin normal con varianza 4 se extrae una muestra aleatoria de tamao 20
en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar comprendida en el
intervalo que sera el intervalo de confianza al 95% para m
En general esto es poco til, en los casos en que no se conoce m tampoco suele conocerse s2; en el
caso ms realista de s2 desconocida los intervalos de confianza se construyen con la t de Student
(otra fdp continua para la que hay tablas) en lugar de la z. o, haciendo nfasis en que es el error
estndar estimado de la media, esta manera de construir los intervalos de confianza slo es vlido si
la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error.
1.4.2 Distribucin muestral de la diferencia de medias
Sean X1 y X2 dos variables aleatorias con valores esperados m1 y m2 y varianzas y ,
respectivamente. Por ejemplo, X1 puede ser la duracin de una batera para carro de una marca, y
X2 la duracin de una batera de otra marca diferente. Si los medias m1 y m2 son desconocidas,
podramos estar interesados en conocer si ambas bateras tienen la misma duracin media. En forma
similar, si las varianzas son desconocidas, podramos estar interesados en saber si son iguales o no.
Para realizar estas inferencias, se pueden someter a pruebas idnticas diferentes bateras,
controlando los factores externos, de tal forma que las diferencias se deban exclusivamente a la
clase de marca probada.
Inicialmente estaremos interesados en verificar si ambas distribuciones tienen la misma media
poblacional, es decir si m1 = m2 equivalentemente m1 - m2 = 0.
Suponga que es una muestra aleatoria de tamao n1 tomada de una poblacin con media m1 y
varianza, es otra muestra aleatoria de tamao n2 tomada de una poblacin con media m2 y varianza.
Si deseamos realizar alguna inferencia sobre m1 - m2, nos podemos basar en la distribucin de la
diferencia de las medias mustrales
Ahora bien, para la diferencia de las medias mustrales se tiene:
Para conocer la distribucin muestral de las diferencias entre las medias se debe saber si las
varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe
saber si son iguales o diferentes. Cada uno de estos tres casos se analizar por separado.
a) Distribucin de la diferencia entre dos medias cuando las varianzas son conocidas. Si las
varianzas y son conocidas, tanto como se distribuyen normalmente. Por lo tanto la distribucin de la
diferencia entre las medias mustrales es normal con el valor esperado y la varianza dados
anteriormente, es decir,
De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribucin normal estndar:
Por lo tanto, con base en la expresin anterior se pueden realizar inferencias con respecto a la
diferencia de medias poblacionales, bajo el supuesto de que las varianzas sean conocidas. Si
adems, son iguales, la expresin anterior se puede expresar como:
b) Distribucin de la diferencia entre dos medias cuando las varianzas son desconocidas pero
iguales.
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadstica para
verificar si stas son iguales o diferentes. Para realizar esta prueba debemos hacer uso de la
distribucin F para verificar si la relacin de varianzas es igual a uno o diferente de uno.
Adems tienen distribuciones chi cuadrado con n11 y n21 grados de libertad respectivamente.
Por lo tanto su suma tambin sigue otra distribucin chi cuadrado con n1+n22 grados de libertad.
Ejemplo. El gerente de una refinera piensa modificar el proceso para producir gasolina a partir de
petrleo crudo. El gerente har la modificacin slo si la gasolina promedio que se obtiene por este
nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor con respecto al proceso
en uso. Con base en un experimento de laboratorio y mediante el empleo de dos muestras aleatorias
de tamao 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de
24.6 con una desviacin estndar de 2.3, y para el proceso propuesto fue de 28.2 con una desviacin
estndar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son
variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en
esta evidencia, debe adoptarse el nuevo proceso?
1.4.3 Distribucin muestral de la proporcin
La distribucin muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta
distribucin se genera de igual manera que la distribucin muestral de medias, a excepcin de que
al extraer las muestras de la poblacin se calcula el estadstico proporcin (p=x/n en donde x es el
nmero de xitos u observaciones de inters y n el tamao de la muestra) en lugar del estadstico
media.
Una poblacin binomial est estrechamente relacionada con la distribucin muestral de
proporciones; una poblacin binomial es una coleccin de xitos y fracasos, mientras que una
distribucin muestral de proporciones contiene las posibilidades o proporciones de todos los
nmeros posibles de xitos en un experimento binomial, y como consecuencia de esta relacin, las
afirmaciones probabilsticas referentes a la proporcin muestral pueden evaluarse usando la
aproximacin normal a la binomial, siempre que np5 y n(1-p) 5. Cualquier evento se puede
convertir en una proporcin si se divide el nmero obtenido entre el nmero de intentos.
Sea una poblacin formada por n elementos, de los cuales algunos poseen una determinada
caracterstica y otros no (llamaremos p a la proporcin de los elementos que poseen la
caracterstica, y q = 1 - p a la de los restantes elementos). Entonces, es posible extraer muestras de
la poblacin de manera que a cada una se asocie como valor la proporcin de la caracterstica
analizada.
Por ejemplo, en la poblacin {1, 2, 3}, la caracterstica par tiene un valor p = 1 / 3, mientras que la
impar es q = 2 / 3. Mediante la tabla siguiente de muestras se construye una nueva distribucin
muestral de las proporciones.
Muestra 1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3
Proporcin f/n 0 0,5 0 0,5 0 0,5 0 0,5 0
Parmetros estadsticos de una distribucin muestral de las proporciones de tamao n:
Una distribucin muestral de las proporciones se comporta como una distribucin normal descrita
por los parmetros N.
1.4.4 Distribucin muestral de la diferencia de proporciones
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones
mustrales, la distribucin muestral de diferencia de proporciones es aproximadamente normal para
tamaos de muestra grande (n1p1 5, n1q1 5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen
distribuciones mustrales aproximadamente normales, as que su diferencia p1-p2 tambin tiene una
distribucin muestral aproximadamente normal.
Cuando se estudi a la distribucin muestral de proporciones se comprob que y que, por lo que no
es difcil deducir que y que.
Suponga que se tienen dos poblaciones distintas, la primera con media
1,
y la segunda con media
y desviacin estndar
2.
y desviacin estndar
Ms an, se elige una muestra
aleatoria de tamao n1 de la primera poblacin y una muestra independiente aleatoria de tamao

n2 de la segunda poblacin; se calcula la media muestral para cada muestra y la diferencia entre
dichas medias. La coleccin de todas esas diferencias se llama distribucin muestral de las
diferencias entre medias o la distribucin muestral del estadstico
La distribucin es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales,

entonces la distribucin muestral de medias es normal sin importar los tamaos de las muestras.
En ejercicios anteriores se haba demostrado que
deducir que
y que
y que
, por lo que no es difcil
La frmula que se utilizar para el clculo de probabilidad del estadstico de diferencia de medias
es:
Ejemplo:
En un estudio para comparar los pesos promedio de nios y nias de sexto grado en una escuela
primaria se usar una muestra aleatoria de 20 nios y otra de 25 nias. Se sabe que tanto para nios
como para nias los pesos siguen una distribucin normal. El promedio de los pesos de todos los
nios de sexto grado de esa escuela es de 100 libras y su desviacin estndar es de 14.142, mientras
que el promedio de los pesos de todas las nias del sexto grado de esa escuela es de 85 libras y su
desviacin estndar es de 12.247 libras. Si
representa el promedio de los pesos de 20 nios y
es el promedio de los pesos de una muestra de 25 nias, encuentre la probabilidad de que el

promedio de los pesos de los 20 nios sea al menos 20 libras ms grande que el de las 25 nias.
Solucin:
Datos:
1=
2
100 libras
= 85 libras
1=
14.142 libras
2=
12.247 libras
n1 = 20 nios
n2 = 25 nias
=?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de nios sea al menos 20
libras ms grande que el de la muestra de las nias es 0.1056.
10
1.4.5 Distribucin t-student

La Distribucin t de Student, tiene por funcin de densidad:
Donde el parmetro n de
, se denomina grados de libertad de la distribucin.
La distribucin t de Student existe para todos los valores de x reales, y es simtrica respecto al eje y.
La distribucin de probabilidad de esta funcin para valores menores de un x dado, que
representamos por
Dnde:
11
Para el clculo de esta integral existen distintos tipos de Tabla de distribucin t de Student, en la
que para distintos valores de n y de x se puede buscar su probabilidad acumulada p, veamos una de
esas tablas.
1.4.6 Distribucin muestral de la varianza
La varianza de las muestras sigue un proceso distinto a los de la media y proporcin. La causa es
que el promedio de todas las varianzas de las muestras no coincide con la varianza de la poblacin
s2. Se queda un poco por debajo. En concreto, se verifica que
Hemos usado el subndice n para recordar que en la varianza se divide entre n.
Si deseamos que la media de la varianza coincida con la varianza de la poblacin, tenemos que
acudir a la cuasivarianza o varianza insesgada, que es similar a la varianza, pero dividiendo las
sumas de cuadrados entre n-1.
Su raz cuadrada es la cuasidesviacin tpica o desviacin estndar.
Si se usa esta varianza, si coinciden su media y la varianza de la poblacin lo que nos indica que la
cuasivarianza es un estimador insesgado, y la varianza lo es sesgado.
La suma de cuadrados de la varianza, dividida entre la varianza de la poblacin se distribuye segn
una chi-cuadrado c2 con n-1 grados de libertad
1.4.7 Distribucin muestral de la relacin de varianzas
12
UNIDAD 2. ESTIMACION
2.1 Introduccin
En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos

conocer la familia (normal, binomial,) pero no los parmetros. Para calcularlos necesitaramos
tener todos los posibles valores de la variable, lo que no suele ser posible.
La inferencia estadstica trata de cmo obtener informacin (inferir) sobre los parmetros a partir de
subconjuntos de valores (muestras) de la variable.
Estadstico: variable aleatoria que slo depende de la muestra aleatoria elegida para calcularla.
Estimacin: Proceso por el que se trata de averiguar un parmetro de la poblacin representado, en
general, por a partir del valor de un estadstico llamado estimador y representado por El problema
se resuelve en base al conocimiento de la distribucin muestral del estadstico que se use.
Qu es esto? Concretemos, p.e. en la media (. Si para cada muestra posible calculamos la media
muestral ( ) obtenemos un valor distinto ( es un estadstico: es una variable aleatoria y slo depende
de la muestra), habr por tanto una fpd para, llamada distribucin muestral de medias. La
desviacin tpica de esta distribucin se denomina error tpico de la media. Evidentemente, habr
una distribucin muestral para cada estadstico, no slo para la media, y en consecuencia un error
tpico para cada estadstico.
Si la distribucin muestral de un estadstico estuviera relacionada con algn parmetro de inters,
ese estadstico podra ser un estimador del parmetro.
Existen dos formas de hacer Inferencia Estadstica:
- La estimacin de parmetros.
- Las pruebas de hiptesis.
En la Inferencia Estadstica hay varios mtodos, pero en cualquier caso es necesario utilizar una
muestra que represente a la poblacin, esto se consigue con las Tcnicas de muestreo.
A partir de una muestra nos proponemos dos objetivos:
- Obtener valores aproximados de parmetros poblacionales: Estimacin puntual.
- La estimacin por intervalos de confianza tiene por objeto proporcionar, a partir de la informacin
recogida en la muestra, un intervalo que contenga con alto nivel de confianza (probabilidad), al
parmetro objeto de nuestro inters. A partir de dicho intervalo obtendremos una medida del error
mximo cometido al aproximar puntualmente el parmetro.
13
2.2 Caractersticas de un estimador
En estadstica, un estimador es un estadstico (esto es, una funcin de la muestra) usado para
estimar un parmetro desconocido de la poblacin. Por ejemplo, si se desea conocer el precio medio
de un artculo (el parmetro desconocido) se recogern observaciones del precio de dicho artculo
en diversos establecimientos (la muestra) y la media aritmtica de las observaciones puede
utilizarse como estimador del precio medio.
Para cada parmetro pueden existir varios estimadores diferentes. En general, escogeremos el
estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).
El valor de un estimador proporciona lo que se denomina en estadstica una estimacin puntual del
valor del parmetro en estudio. En general, se suele preferir realizar una estimacin mediante un
intervalo, esto es, obtener un intervalo [a,b] dentro del cual se espera est el valor real del
parmetro con un cierto nivel de confianza. Utilizar un intervalo resulta ms informativo, al
proporcionar informacin sobre el posible error de estimacin, asociado con la amplitud de dicho
intervalo. El nivel de confianza es la probabilidad de que a priori el verdadero valor del parmetro
quede contenido en el intervalo.
En la prctica, los intervalos suelen indicarse dando el valor del estimador puntual utilizado como
centro del intervalo y un valor que debe sumarse y restarse para obtener el lmite superior e inferior;
por ejemplo:
equivale a
Propiedades de los estimadores:
Sesgo:
Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del
estimador y el verdadero valor del parmetro a estimar. Es deseable que un estimador sea insesgado
o centrado, es decir, que su sesgo sea nulo por ser su esperanza igual al parmetro que se desea
estimar.
Por ejemplo, si se desea estimar la media de una poblacin, la media aritmtica de la muestra es un
estimador insesgado de la misma, ya que su esperanza (valor esperado) es igual a la media de la
poblacin.
En efecto, si una muestra X=(X1,X2,...,Xn)t procede de una poblacin de media , quiere decir que:
E[Xi] = para cualquier i=1...n
14
La media aritmtica o media muestral,
, con lo que, al aplicar las propiedades de linealidad de la esperanza matemtica

se tiene que:
Eficiencia:
Diremos que un estimador es ms eficiente o ms preciso que otro estimador, si la varianza del
primero es menor que la del segundo. Por ejemplo, si
Diremos que
es ms eficiente que
son ambos estimadores de y
. Un estimador es ms eficiente (ms preciso), por tanto,
cuanto menor es su varianza.

La eficiencia de los estimadores est limitada por las caractersticas de la distribucin de
probabilidad de la muestra de la que proceden. El teorema de Cramr-Rao determina que la
varianza de un estimador insesgado de un parmetro es, como mnimo,
donde
f(X;)
es
la
funcin
de
en
funcin
densidad
del
15
de
parmetro
probabilidad
,
de
(denominada
la
muestra
funcin
de
verosimilitud). Si un estimador alcanza esta cota mnima, entonces se dice que el estimador es de
mnima varianza.
Consistencia:
Si no es posible emplear estimadores de mnima varianza, el requisito mnimo deseable para un
estimador es que a medida que el tamao de la muestra crece, el valor del estimador tienda a ser el
valor del parmetro, propiedad que se denomina consistencia. Existen diversas definiciones de
consistencia, ms o menos restrictivas, pero la ms utilizada es la denominada consistencia en
media cuadrtica que exige que:
1.
cuando
2.
cuando
Robustez:
El estimador ser un estimador robusto del parmetro si la violacin de los supuestos de partida
en los que se basa la estimacin (normalmente, atribuir a la poblacin un determinado tipo de
funcin de distribucin que, en realidad, no es la correcta), no altera de manera significativa los
resultados que ste proporciona.
Suficiencia
Se dice que un estimador es suficiente cuando resume toda la informacin relevante contenida en la
muestra, de forma que ningn otro estimador pueda proporcionar informacin adicional sobre el
parmetro desconocido de la poblacin.
Invarianza
Se dice que un estimador es invariante cuando el estimador de la funcin del parmetro coincide
con la funcin del estimador del parmetro,
2.3 Estimacin puntual
Si a partir de las observaciones de una muestra se calcula un solo valor como estimacin de un
parmetro de la poblacin desconocido, el procedimiento se denomina estimacin puntual.
Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la asignatura de
matemticas que notaremos. Sea X la variable aleatoria que indica la nota obtenida por cada
16
estudiante. Tomamos una muestra de tamao n y denotamos la nota media de la muestra. Si al
tomar una muestra de 100 estudiantes obtenemos que la media es 62, este nmero lo tomaramos
como estimativo de. Decimos que 62 es una estimacin puntual de.
Un estimador puntual T de un parmetro es cualquier estadstica que nos permita a partir de los
datos mustrales obtener valores aproximados del parmetro.
Para indicar que T es un estimador del parmetro escribimos =T.
Con esto queremos decir que empleamos la expresin dada mediante T para obtener valores
prximos al valor del parmetro.
Es muy probable que haya error cuando un parmetro es estimado. Es cierto que si el nmero de
observaciones al azar se hace suficientemente grande, stas proporcionaran un valor que casi sera
semejante al parmetro; pero a menudo hay limitaciones de tiempo y de recursos y se tendr que
trabajar con unas cuntas observaciones. Para poder utilizar la informacin que se tenga de la mejor
forma posible, se necesita identificar las estadsticas que sean buenos estimadores. Hay cuatro
criterios que se suelen aplicar para determinar si una estadstica es un buen estimador:
Insesgamiento, eficiencia, consistencia y suficiencia
Esencialmente son tres los parmetros de inters:

- En el caso de que investiguemos una variable cuantitativa:
a) Para la media de la poblacin tomaremos como aproximacin la media de la muestra.
b) Para la varianza de la poblacin 2 tomaremos la cuasivarianza de la muestra.
Si el estudio se centra en el estudio de un carcter cualitativo el parmetro de inters ser la

proporcin de elementos de la poblacin que pertenecen a cierta categora C que lo aproximaremos
con la correspondiente proporcin en la muestra.
17
2.4 Estimacin por intervalos

Nos proponemos determinar dos nmeros entre los cuales se halla el parmetro estudiado con cierta
certeza.
18
El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media , por
ejemplo, requiere de la determinacin de un estimador del parmetro y de la distribucin del
estimador.
Un intervalo de confianza para un parmetro es un intervalo construido alrededor del estimador
del parmetro de tal manera que podemos esperar que el verdadero valor del parmetro quede
incluido en dicho intervalo.
El nivel de confianza de un intervalo es una probabilidad (expresada en porcentaje) que representa
la seguridad de que el intervalo encierra el verdadero valor del parmetro.
Para cada nivel de confianza existe un valor de tabla ( normal, t , , F) asociado al nivel de confianza
dado.
Este
valor
se
llama
coeficiente
de
confiabilidad
y
se
denota:
DISTRIBUCIN F
NORMAL
DISTRIBUCIN T
JI CUADRADO
Si queremos un intervalo con un nivel de confianza de 100(1- ) %, en la tabla correspondiente

buscaremos un valor de variable para el que el rea de cola superior (tambin inferior) sea del
100(1- /2) % ya que la porcin de rea que no ser cubierta por el intervalo debe tener una medida
de tamao y se toma como norma general de procedimiento que se reparta en partes iguales entre
las dos colas.
Los tres conceptos bsicos que encierra un intervalo quedan resumidos en la expresin general
para un intervalo de confianza:
ESTIMADOR (COEF. DE CONF.) . (ERROR ESTNDAR)
Ejemplo:
Sea X la variable aleatoria que se utiliza para designar el peso de un pasajero de avin y que
interesa conocer, el peso medio de todos los pasajeros. Para ello tomamos una muestra de 36
pasajeros y obtenemos una media muestral de 160 libras. Supongamos que la distribucin de los
pasajeros sea normal con desviacin estndar 36. Calcula el intervalo del 95% de confianza...
El intervalo est dado por la expresin, reemplazamos los valores y obtenemos 160 (196). (30/6).
Por lo tanto el intervalo pedido es: [1502,1698].
Si nos hubieran pedido un intervalo del 90% de confianza tendramos 160 (1645). (30/6). Y el
intervalo pedido es [15178,16823].
Podramos construir tambin un intervalo de confianza del 99% obteniendo 160 (2575). (30/6). Y
el intervalo sera [14713,17288].
Al observar los intervalos podemos notar que a medida que se aumenta el nivel de confianza la
longitud del intervalo tambin aumenta como podemos ver en la figura.
19
Tenemos las siguientes propiedades sobre la longitud del intervalo:
PROPIEDAD 1. Para un tamao de muestra y una varianza dada a medida que aumenta el nivel de
confianza tambin lo hace la longitud del intervalo
PROPIEDAD 2. Para un nivel de confianza y una varianza dadas cuando el tamao de la muestra
aumenta la longitud del intervalo disminuye.
Estas propiedades se deducen de la expresin de la longitud del intervalo L=. Como podemos ver si
la varianza se considera fija la frmula est sujeta a dos nmeros cuyas acciones se contraponen en
cuanto a la longitud, el nivel de confianza y el tamao de la muestra.
Para que un intervalo sea tomado en cuenta con algn inters, el nivel de confianza debe ser alto.
Suelen presentarse dos interpretaciones para un intervalo de confianza, una probabilstica y
otra prctica. Veamos cmo son en el caso de la media:
Desde un punto de vista de la probabilidad se dice: En el muestreo aleatorio simple de una
poblacin
normal
de
media
y
varianza
conocida,
el
100(1- ) % de todos los intervalos de la forma incluir la media desconocida.
Aplicando esto al ejemplo anterior podemos decir que de 100 muestras de tamao 36 que escojamos
de los pasajeros del avin, 95 de ellas (aproximadamente) producirn intervalos que contendrn el
verdadero peso promedio. O lo que es lo mismo, de 100 intervalos obtenidos por la frmula anterior
95 de ellos contendrn el verdadero valor del parmetro.
De la interpretacin probabilstica se desprende la prctica que se establece as:Si se realiza un
muestreo aleatorio simple en una poblacin normal con media y varianza conocida, se tiene el
100(1- ) % de confianza de que el intervalo particular contendr el verdadero valor del parmetro
desconocido
En el ejemplo diremos que tenemos una confianza o certeza del 95% de que el verdadero peso
promedio de los pasajeros del avin est entre 1502 y 1698 libras.
2.4.1 Intervalo de confianza para la media
En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima que
estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos
nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor
desconocido es un parmetro poblacional. La probabilidad de xito en la estimacin se representa
con 1 - y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o
nivel de significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante
tal intervalo.
20
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo
ms amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un
intervalo ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer la distribucin
terica que sigue el parmetro a estimar, . Es habitual que el parmetro presente una distribucin
normal. Tambin pueden construirse intervalos de confianza con la desigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro
poblacional que sigue una determinada distribucin de probabilidad, es una expresin del tipo [1,
2] tal que P [1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de .
En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de
valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con
una probabilidad determinada.
La probabilidad de que el verdadero valor del parmetro se encuentre en el intervalo construido se
denomina nivel de confianza, y se denota 1. La probabilidad de equivocarnos se llama nivel de
significancia y se simboliza. Generalmente se construyen intervalos con confianza 1- =95% (o
significancia =5%). Menos frecuentes son los intervalos con =10% o =1%.
Para construir un intervalo de confianza, se puede comprobar que la distribucin Normal Estndar
cumple
P (-1.96 < z < 1.96) = 0.95
(Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que
calcule probabilidades normales).
Luego, si una variable X tiene distribucin N (,), entonces el 95% de las veces se cumple:
Despejando en la ecuacin se tiene:
El resultado es un intervalo que incluye al
el 95% de las veces. Es decir, es un intervalo de
confianza al 95% para la media cuando la variable X es normal y es conocido.
Ejemplo:
21
Intervalo de confianza para la media de una poblacin
De una poblacin de media y desviacin tpica se pueden tomar muestras de n elementos. Cada
una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las
medias mustrales coincide con la media poblacional:
Pero adems, si el tamao de las muestras es lo suficientemente grande, 3 la distribucin de medias
mustrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin
tpica dada por la siguiente expresin:
. Esto se representa como sigue:
. Si estandarizamos, se sigue que:
En una distribucin Z ~ N (0, 1) puede calcularse fcilmente un intervalo dentro del cual caigan un
determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P [z1 z
z2] = 1 - , donde (1 - ) 100 es el porcentaje deseado (vase el uso de las tablas en una
distribucin normal).
Se desea obtener una expresin tal que

En esta distribucin normal de medias se puede calcular el intervalo de confianza donde se
encontrar la media poblacional si slo se conoce una media muestral ( ), con una confianza
determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este
valor se le llamar 1 (debido a que es el error que se cometer, un trmino opuesto).
Para ello se necesita calcular el punto X / 2 o, mejor dicho, su versin estandarizada Z / 2 o valor
crtico junto con su "opuesto en la distribucin" X
/ 2.
para el intervalo, como se muestra en la siguiente imagen:
22
Estos puntos delimitan la probabilidad
Dicho punto es el nmero tal que:
Y en la versin estandarizada se cumple que:

Z / 2 = z / 2
As:
Haciendo operaciones es posible despejar para obtener el intervalo:
De lo cual se obtendr el intervalo de confianza:
Obsrvese que el intervalo de confianza viene dado por la media muestral
valor crtico Z / 2 por el error estndar
23
el producto del
Si no se conoce y n es grande (habitualmente se toma n 30).
, donde s es la desviacin tpica de una muestra.

Aproximaciones para el valor z / 2 para los niveles de confianza estndar son 1,96 para 1 = 95%
y 2,576 para 1 = 99%.
2.4.2 Intervalo de confianza para la diferencia de medias
En esta seccin se ver el caso en donde se tienen dos poblaciones con medias y varianzas
desconocidas, y se desea encontrar un intervalo de confianza para la diferencia de dos medias
1-
2.
Si los tamaos de muestras n1 y n2 son mayores que 30, entonces, puede emplearse el
intervalo de confianza de la distribucin normal. Sin embargo, cuando se toman muestras

pequeas se supone que las poblaciones de inters estn distribuidas de manera normal, y los
intervalos de confianza se basan en la distribucin t.
Si
s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamao n1 y n2,
respectivamente, tomadas de dos poblaciones normales e independientes con varianzas

desconocidas pero iguales, entonces un intervalo de confianza del 100(
) por ciento para la
diferencia entre medias es:
En donde:
es el estimador combinado de la desviacin estndar comn de la poblacin con n1+n2 2 grados de

libertad.
Sean X11, X12, X1n1, una muestra aleatoria de n1 observaciones tomadas de una
primera poblacin con valor esperado 1 y varianza s
24
1, y X21, X22, X2n2 una muestra aleatoria de n2 observaciones tomada de la segunda poblacin
con valor esperado 2 y varianza s.
2. Si son las medias mustrales, la estadstica es un estimador puntual de 1 - 2, y tiene una
distribucin normal si las dos poblaciones son normales, o aproximadamente normal si cumple con
las condiciones del teorema del lmite central (tamaos de muestras relativamente grandes). Es
decir, Por lo tanto, para calcular el intervalo de confianza para la diferencia de dos medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean
desconocidas, se debe probar si son iguales o diferentes. Cada uno de estos tres casos se analizarn
por separado
Varianzas conocidas
Si las varianzas poblacionales son conocidas, los pasos a seguir para encontrar el intervalo de
confianza son los siguientes:
a) El estadstico usado como estimador puntual de la diferencia de medias 1 - 2 ser T =, que es
un estimador suficiente b) La variable aleatoria asociada con el estimador ser la variable normal
estndar dada por:
c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente probabilidad:
Manipulando la expresin anterior en forma similar a como se hizo en los casos de una sola muestra
se llega al siguiente teorema que nos define el intervalo de confianza para la diferencia entre dos
medias 1 - 2 con varianzas conocidas s1 y s2.
Teorema
Si son las medias de dos muestras aleatorias independientes de tamao n1 y n2 tomadas de
poblaciones que tienen varianzas conocidas s 1 y s 2.
2.4.3 Intervalos de confianza para la proporcin
En este caso, interesa construir un intervalo de confianza para una proporcin o un porcentaje
poblacional (por ejemplo, el porcentaje de personas con hipertensin, fumadoras, etc.)
Si el tamao muestral n es grande, el Teorema Central del Lmite nos asegura que:
O bien:
25
Donde p es el porcentaje de personas con la caracterstica de inters en la poblacin (o sea, es el
parmetro de inters) y p es su estimador muestral.
Luego, procediendo en forma anloga al caso de la media, podemos construir un intervalo de 95%
de confianza para la proporcin poblacional p.
Ejemplo:
En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15
aos en la Regin Metropolitana, se encontr que el 17.6% eran hipertensas. Un intervalo de 95%
de confianza para la proporcin de mujeres hipertensas en la Regin Metropolitana est dado por:
Luego, la proporcin de hipertensas vara entre (0,139, 0,212) con una confianza de 95%.
Si el estadstico S es la proporcin de xitos en una muestra de tamao n>= 30 extrada

de una poblacin binomial en la que p es la proporcin de xito (es decir, la probabilidad de
xito), los lmites de confianza para p vienen dados por P + z o p, donde P es la proporcin
de xitos en la muestra de tamao n. Con los valores obtenidos, se tiene que los lmites de
confianza para la proporcin poblacional son dados por
P () Z la raz de (pq)/n ser igual a p () Z la raz de p (1-q)/n
Para el caso de muestreo en una poblacin infinita, o con reemplazamiento en una poblacin finita.
Anlogamente los lmites de confianza son
P () Z la raz de pq/n por la raz de (N-n)/(N-1)
Si el muestreo es sin reemplazamiento en una poblacin finita de tamao N. Obsrvese que estos
resultados se obtienen de (1) y (2) reemplazando X por P y desviacin por la raz del producto pq.
Para calcular estos lmites de confianza puede utilizarse la estima muestral P para p .
Intervalo de confianza para una proporcin.
El intervalo de confianza para estimar una proporcin p, conocida una proporcin muestral pn de
una muestra de tamao n, a un nivel de confianza del (1-) 100% es:
26
Dada una variable aleatoria con distribucin Binomial B(n, p), el objetivo es la construccin de un
intervalo de confianza para el parmetro p, basada en una observacin de la variable que ha dado
como valor x. El mismo caso se aplica si estudiamos una Binomial B (1, p) y consideramos el
nmero de veces que ocurre el suceso que define la variable al repetir el experimento n veces en
condiciones de independencia.
Existen dos alternativas a la hora de construir un intervalo de confianza para p:
Considerar la aproximacin asinttica de la distribucin Binomial en la distribucin

Normal.
Utilizar un mtodo exacto.
Aproximacin asinttica
Tiene la ventaja de la simplicidad en la expresin y en los clculos, y es la ms referenciada en la
mayora de textos de estadstica. Se basa en la aproximacin
Que, trasladada a la frecuencia relativa, resulta
Tomando como estadstico pivote
que sigue una distribucin N(0, 1), y aadiendo una correccin por continuidad al pasar de una
variable discreta a una continua, se obtiene el intervalo de confianza asinttico:
Donde z/2 es el valor de una distribucin Normal estndar que deja a su derecha una probabilidad
aceptadas para considerar vlida la aproximacin asinttica anterior son:
27
El intervalo obtenido es un intervalo asinttico y por tanto condicionado a la validez de la

aproximacin utilizada.
Intervalo exacto
Aun cuando las condiciones anteriores no se verifiquen, es posible la construccin de un intervalo
exacto, vlido siempre pero algo ms complicado en los clculos. Es posible demostrar que un
intervalo exacto para el parmetro p viene dado por los valores siguientes:
Donde F
a, b
es el valor de una distribucin F de Fisher-Snedecor con a y b grados de libertad que

(1 ) 100 %.
En el programa siguiente se pueden calcular los intervalos de confianza asinttica y, si n es

menor de 100, tambin el exacto para una proporcin.
2.4.4 Intervalos de confianza para la diferencia de proporciones
Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una
v.a. dicotmica (Bernoulli) de parmetros respectivos p1 y p2. De cada poblacin vamos a extraer
muestras de tamao n1 y n2
Entonces:
Si las muestras son suficientemente grandes

que
28
ocurre
Esta ltima relacin se puede aproximar por otra que simplifica bastante los clculos:
Por el mismo razonamiento que en el caso de una poblacin llegamos a que una aproximacin para
un intervalo de confianza al nivel para la diferencia de proporciones de dos poblaciones es:
Sea X1 el nmero de eventos de cierto tipo observado en una primera muestra de tamao n1 tomada
de una poblacin binomial, y sea X2 el nmero de eventos observado en otra muestra de tamao n2.
Entonces X1 y X2 son variables aleatorias binomiales independientes con parmetros (n1, 1) y
(n2, 2), tomadas de dos poblaciones grandes, y 1 y 2 son sus dos proporciones respectivas.
Adems, P1= X1/ n1 y P2= X2/ n2 son estimadores independientes de 1 y 2, respectivamente, y
tienden a distribuirse normalmente. Si los tamaos de muestra son suficientemente grandes, la
siguiente variable tiene una distribucin que es aproximadamente normal estndar.
Para encontrar un intervalo de confianza para la diferencia de proporciones 1- 2, el estimador
puntual estar dado por P1 - P2, la variable aleatoria asociada ser la normal estndar, de acuerdo a
lo explicado antes, y el intervalo de confianza estar dado por el siguiente teorema.
Teorema. Si P1 y P2 son las proporciones muestrales de dos muestras aleatorias independientes de
tamao n1 y n2 que pertenecen a una clase de inters, entonces un intervalo de confianza
aproximado del 100(1-) % para la diferencia de las proporciones verdaderas 1 - 2 es:
29
Ejemplo:
Considere un proceso de produccin que tiene una fraccin defectuosa 1, desconocida. A este
proceso se le realizan unas mejoras para reducir el porcentaje de defectuosos que est produciendo,
y queremos saber si estos cambios s reducen sustancialmente la proporcin de artculos
defectuosos del proceso. Para ello, se toma una muestra de 200 artculos del proceso original, y se
encuentran 12 defectuosos, y se examinan 150 artculos del nuevo proceso y se observan 6
defectuosos. Cree Usted que los cambios efectuados al proceso han reducido el porcentaje de
artculos defectuosos? Use un nivel de confianza del 95%.
Tenemos:
n1 = 200, x1 = 12 p1 = 12/200 = 0.06
n2 = 150, x2 = 6 p2 = 6/150 = 0.04
El intervalo de confianza del 95% para la diferencia entre las fracciones defectuosas antes y despus
de las mejoras realizadas al proceso est dado por:
Como la diferencia de cero est incluida en el intervalo de confianza, concluimos que no tenemos
evidencia para afirmar que los cambios efectuados al proceso contribuyen a reducir el porcentaje de
artculos defectuosos.
Cul hubiera sido la conclusin si las muestras y los resultados hubieran sido los siguientes
(observe que las proporciones defectuosas mustrales son las mismas):
Tenemos:
n1 = 1000, x1 = 60 p1 = 60/1000 = 0.06
n2 = 750, x2 = 30 p2 = 30/750 = 0.04
El intervalo de confianza del 95% est dado por
En este caso, aunque las proporciones mustrales son las mismas, el tener tamaos de muestra
mucho mayores, nos permite concluir que efectivamente los cambios realizados al proceso
redujeron la fraccin defectuosa (1>2).
Problema. Un artculo del New York Times en 1987 report que se puede reducir el riesgo de sufrir
ataques al corazn ingiriendo aspirina. Para llegar a esta conclusin el cronista se bas en los
resultados de un experimento diseado, en donde participaron dos grupos de personas. A un grupo
de 11,034 personas se le suministr una dosis diaria de una pastilla que no contena ninguna droga
(un placebo), y de estos 189 sufrieron posteriormente ataques al corazn, mientras que al otro grupo
de 11,037 se les suministr una aspirina, y slo 104 lo sufrieron.
Considera Usted que el cronista del New York Times estaba en lo correcto? Use un intervalo de
confianza. Haga explcitas las suposiciones que considere necesarias.
30
Vamos a considerar que tenemos dos poblaciones de modo que en cada
Una de ellas estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos
p1 y p2. De cada poblacin vamos a extraer muestras de tamao
n1 y n2
Entonces
Si las muestras son suficientemente grandes ocurre que una aproximacin para un intervalo de
confianza al nivel 1 para la diferencia de proporciones de dos poblaciones es:
2.4.5 Intervalos de confianza para la varianza

Si deseamos estimar la proporcin p con que una determinada caracterstica se da en una poblacin,
a partir de la proporcin p observada en una muestra de tamao n, sabemos que
La distribucin muestral de proporciones sigue una distribucin normal con q=1-p
Como la proporcin p de la poblacin es desconocida, se aproxima por la de la muestra siempre que
n>100.
Entonces para un nivel de confianza 1-a, p pertenece al intervalo:
31
En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de
valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con
una probabilidad determinada.
Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente propiedad
de la distribucin
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad
``zona central'' de la distribucin:
Figura: Cuantiles de la distribucin
32
en la
Entonces un intervalo de confianza al nivel
para la varianza de una distribucin gaussiana
(cuyos parmetros desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad
de que:
Por tanto el intervalo que buscamos es
Ejemplo:
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obtenindose en una
muestra de tamao 25 los siguientes valores:
Calcular un intervalo de confianza con
para la varianza
de la altura de los individuos
de la ciudad.
Solucin:
Para estimar un intervalo de confianza para
(varianza poblacional) el estadstico que nos resulta
til es:
33
Entonces el intervalo de confianza que buscamos lo obtenemos mediante
Percentiles del 2,5% y del 97,5% para la distribucin
Por tanto, para el valor poblacional de la desviacin tpica tenemos que
Con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales
calculados sobre la muestra.
34
2.4.6 Intervalos de confianza para la relacin de varianzas
Se tienen dos poblaciones normales e independientes con varianzas desconocidas s 1 y s 2,
respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de
tamaos n1 y n2, respectivamente; sean S1 y S2.
Las varianzas mustrales respectivas. Para hallar el intervalo de confianza del 100(1-a) % para el
cociente de dos varianzas sabemos que la siguiente relacin tiene una distribucin muestral F con
n11 y n21 grados de libertad.
Usando el hecho de que obtenemos el siguiente intervalo de confianza para la relacin de dos
varianzas.
Se tienen dos poblaciones normales e independientes con varianzas desconocidas s1 y s2,
respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de
tamaos n1 y n2, respectivamente; sean S1 y S2 las varianzas mustrales respectivas. Para hallar el
intervalo de confianza del 100(1-a) % para el cociente de dos varianzas sabemos que la siguiente
relacin tiene una distribucin muestral F con n11 y n21 grados de libertad.
Si X1, X2, Xn es una muestra aleatoria de tamao n tomada de una poblacin normal, y si S es la
varianza muestral, entonces S es un estimador puntual razonable de la varianza poblacional s. Por
otra parte, si la poblacin es normal, la distribucin muestral de la siguiente variable es una
distribucin ji-cuadrado con n-1 grados de libertad. Por lo tanto, para obtener un intervalo de
confianza del 100(1-a) % para la varianza s2 nos basamos en el estadstico S y en la distribucin chi
cuadrado.
Intervalo de confianza para la varianza de una distribucin normal.

Si X1, X2, Xn es una muestra aleatoria de tamao n tomada de una poblacin normal, y si S es la
varianza muestral, entonces S es un estimador puntual razonable de la varianza poblacional s. Por
35
otra parte, si la poblacin es normal, la distribucin muestral de la siguiente variable es una
distribucin ji-cuadrado con n-1 grados de libertad.
Por lo tanto, para obtener un intervalo de confianza del 100(1-a)% para la varianza s2 nos basamos
en el estadstico S y en la distribucin chi cuadrado.
Ejemplo:
Un proceso produce cierta clase de cojinetes de bola cuyo dimetro interior es de 3 cm. Se
seleccionan en forma aleatoria 12 de estos cojinetes y se miden sus dimetros interiores, y los
valores resultantes son los siguientes: 3.01, 3.05, 2.99, 2.99, 3.02, 3.00, 2.98, 2.99, 2.97, 2.97, 3.02
y 3.01. Suponiendo que el dimetro es una variable aleatoria normal, determine un intervalo de
confianza para la varianza poblacional. Use un intervalo de confianza del 99%.
Solucin.
En el intervalo de confianza para la varianza, el punto medio del intervalo (0.001266) no coincide
con el estimador puntual, debido a la no simetra de la distribucin chi cuadrado.
36
2.5 Determinacin del tamao de muestra

A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios
factores: el tipo de muestreo, el parmetro a estimar, el error muestral admisible, la varianza
poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de clculo
del tamao muestral delimitemos estos factores.
Parmetro. Son las medidas o datos que se obtienen sobre la poblacin.
Estadstico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimacin
de los parmetros.
Error Muestral, de estimacin o estndar. Es la diferencia entre un estadstico y su parmetro
correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en
torno al valor de la poblacin, nos da una nocin clara de hasta dnde y con qu probabilidad una
estimacin basada en una muestra se aleja del valor que se hubiera obtenido por medio de un
censo completo. Siempre se comete un error, pero la naturaleza de la investigacin nos indicar
hasta qu medida podemos cometerlo (los resultados se someten a error muestral e intervalos de
confianza que varan muestra a muestra). Vara segn se calcule al principio o al final. Un
estadstico ser ms preciso en cuanto y tanto su error es ms pequeo. Podramos decir que es la
desviacin de la distribucin muestral de un estadstico y su fiabilidad.
Nivel de Confianza. Probabilidad de que la estimacin efectuada se ajuste a la realidad. Cualquier
informacin que queremos recoger est distribuida segn una ley de probabilidad (Gauss o
Student), as llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno
a un estadstico capte el verdadero valor del parmetro.
Varianza Poblacional. Cuando una poblacin es ms homognea la varianza es menor y el nmero
de entrevistas necesarias para construir un modelo reducido del universo, o de la poblacin, ser
ms pequeo. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de
estudios previos.
37
2.5.1 Basado en la media de la Poblacin
Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo
aleatorio simple. Para ello es
necesario partir de dos supuestos: en
primer lugar el nivel de confianza
al que queremos trabajar; en segundo
lugar, cual es el error mximo que
estamos dispuestos a admitir en nuestra
estimacin. As pues los pasos a
seguir
1.- Obtener el tamao muestral imaginando que
son:
Dnde:
: z correspondiente al nivel de confianza elegido
: varianza poblacional
e: error mximo
2.-Comprobar si se cumple
si esta condicin se cumple el proceso termina aqu, y ese es el tamao adecuado que debemos
muestrear.
Si no se cumple, pasamos a una tercera fase:
3.- Obtener el tamao de la muestra segn la siguiente frmula:
Veamos un ejemplo: La Consejera de Trabajo planea un estudio con el inters de conocer el

promedio de horas semanales trabajadas por las mujeres del servicio domstico. La muestra ser
extrada de una poblacin de 10000 mujeres que figuran en los registros de la Seguridad Social y de
las cuales se conoce a travs de un estudio piloto que su varianza es de 9.648. Trabajando con un
38
nivel de confianza de 0.95 y estando dispuestos a admitir un error mximo de 0,1, cul debe ser el
tamao muestral que empleemos?.
Buscamos en las tablas de la curva normal el valor de

confianza elegido:
que corresponde con el nivel de
= 1.96 y seguimos los pasos propuestos arriba.
Comprobamos que no se cumple
, pues en este caso
10000 < 3706 (3706 - 1); 10000 < 13730730
2.5.2 Basado en la proporcin de la Poblacin

Para calcular el tamao de muestra para la estimacin de proporciones poblacionales hemos de
tener en cuenta los mismos factores que en el caso de la media. La frmula que nos permitir
determinar el tamao muestral es la siguiente:
Donde:
: z correspondiente al nivel de confianza elegido
P: proporcin de una categora de la variable
e: error mximo
N: tamao de la poblacin
39
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la
proporcin de mujeres que trabajan diariamente 10 horas o ms. De un estudio piloto se dedujo que
P=0.30, fijamos el nivel de confianza en 0.95 y el error mximo 0.02.
Si conoces el valor del error muestral y la confianza de estimacin, adems de las varianzas
estimadas entonces resulta algo ms leve el trabajo
E = Z [( 1/n1) + ( 2/n2)]
Hay dos casos, si n1=n2=n o si n1 es diferente a n2 ( n= n1 = k n2)
Luego se despeja el "n" que es el tamao de la muestra pedido
Si en caso son del mismo tamao sera as:
n = Z ( 1 + 2) / E
Previamente debers conocer el error de estima E y la Z mediante la confianza, si no conoces las
desviaciones poblacionales puedes estimarla con las mustrales.
40
2.5.3 Basado en la diferencia entre las medias de la Poblacin
41
UNIDAD 3. PRUEBA DE HIPOTESIS

3.1 Introduccin
Prueba de hiptesis En esta unidad nos concentraremos en la prueba de hiptesis, otro aspecto de la
inferencia estadstica que al igual que la estimacin del intervalo de confianza, se basa en la
informacin de la muestra. Se desarrolla una metodologa paso a paso que le permita hacer
inferencias sobre un parmetro poblacional mediante el anlisis diferencial entre los resultados
observados (estadstico de la muestra) y los resultados de la muestra esperados si la hiptesis
subyacente es realmente cierta. En el problema de estimacin se trata de elegir el valor de un
parmetro de la poblacin, mientras que en las pruebas de hiptesis se trata de decidir entre aceptar
o rechazar un valor especificado (por ejemplo, si el nivel de centramiento de un proceso es o no lo
es). Prueba de hiptesis: Estadsticamente una prueba de hiptesis es cualquier afirmacin acerca de
una poblacin y/o sus parmetros.
Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal contraste involucra la
toma de decisin acerca de las hiptesis. La decisin consiste en rechazar o no una hiptesis en
favor de la otra. Una hiptesis estadstica se denota por H y son dos: - Ho: hiptesis nula - H1:
hiptesis alternativa Partes de una hiptesis 1-La hiptesis nula Ho 2-La hiptesis alternativa
H1 3-El estadstico de prueba 4-Errores tipo I y II 5-La regin de rechazo (crtica) 6-La toma de
decisin 1. Concepto: Una prueba de hiptesis estadstica es una conjetura de una o ms
poblaciones. Nunca se sabe con absoluta certeza la verdad o falsedad de una hiptesis estadstica, a
no ser que se examine la poblacin entera. Esto por su puesto sera imprctico en la mayora de las
situaciones. En su lugar, se toma una muestra aleatoria de la poblacin de inters y se utilizan los
datos que contiene tal muestra para proporcionar evidencia que confirme o no la hiptesis. La
evidencia de la muestra que es un constante con la hiptesis planteada conduce a un rechazo de la
misma mientras que la evidencia que apoya la hiptesis conduce a su aceptacin.
Definicin de prueba de hiptesis estadstica es que cuantifica el proceso de toma de decisiones.
Por cada tipo de prueba de hiptesis se puede calcular una prueba estadstica apropiada. Esta prueba
estadstica mide el acercamiento del calor de la muestra (como un promedio) a la hiptesis nula. La
prueba estadstica, sigue una distribucin estadstica bien conocida (normal, etc.) o se puede
desarrollar una distribucin para la prueba estadstica particular.
La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin de rechazo
y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no se puede rechazar la
hiptesis nula y se llega a la conclusin de que el proceso funciona correctamente.
42
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en la
distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no se puede
rechazar) de la regin de rechazo. A hora bien el valor crtico depende del tamao de la regin de
rechazo.
Mtodo de seis pasos de la prueba de hiptesis.
1. Prepare la hiptesis nula, y la hiptesis alternativa . 2. Seleccione el nivel de significancia
, y el tamao de la muestra n. el nivel de significancia se especifica de acuerdo con la
importancia relativa de los riesgos de cometer errores de tipo I y tipo II en el problema. 3.
Determine el estadstico de prueba y la distribucin muestral apropiados. 4. Determine los
valores crticos que dividen las zonas de rechazo y aceptacin. 5. Recopile los datos y
calcule el valor del estadstico de prueba. 6. Tome la decisin estadstica y establezca la
conclusin administrativa que se escribe en el contexto de problema real.
3.2 Confiabilidad y significancia
El propsito de la prueba de hiptesis no es cuestionar el valor calculado de la estadstica de
muestra, sino hacer un juicio respecto a la diferencia entre esa estadstica de muestra y un parmetro
de poblacin hipotetizado. El siguiente paso despus de establecer la hiptesis nula alternativa
consiste en decidir qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula.
Si suponemos que la hiptesis es correcta, entonces el nivel de significancia indicar el porcentaje
de medias de muestra que est fuera de ciertos lmites.
Siempre que afirmemos que aceptamos la hiptesis nula, en realidad lo que queremos decir es que
no hay suficiente evidencia estadstica para rechazarla. El empleo del trmino aceptar, en lugar de
rechazar, se ha vuelto de uso comn. Significa simplemente que cuando los datos de la muestra n
hacen que rechacemos una hiptesis nula, nos comportamos como si fuera cierta.
Seleccin del nivel de significancia.
Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de significancia,
es tambin el riesgo que asumimos al rechazar una hiptesis nula cuando es cierta. Mientras ms
alto sea el nivel de significancia que utilizamos para probar una hiptesis, mayor ser la
probabilidad de rechazar una hiptesis nula cuando es cierta.
Nivel de significancia: Probabilidad de rechazar la hiptesis nula cuando es verdadera. Se le denota
mediante la letra griega , tambin es denominada como nivel de riesgo, este trmino es ms
adecuado ya que se corre el riesgo de rechazar la hiptesis nula, cuando en realidad es verdadera.
Este nivel est bajo el control de la persona que realiza la prueba.
43
Si suponemos que la hiptesis planteada es verdadera, entonces, el nivel de significacin indicar la
probabilidad de no aceptarla, es decir, estn fuera de rea de aceptacin. El nivel de confianza (1-),
indica la probabilidad de aceptar la hiptesis planteada, cuando es verdadera en la poblacin.
La distribucin de muestreo de la estadstica de prueba se divide en dos regiones, una regin de

rechazo (conocida como regin crtica) y una regin de no rechazo (aceptacin). Si la estadstica de
prueba cae dentro de la regin de aceptacin, no se puede rechazar la hiptesis nula.
La regin de rechazo puede considerarse como el conjunto de valores de la estadstica de prueba
que no tienen posibilidad de presentarse si la hiptesis nula es verdadera. Por otro lado, estos
valores no son tan improbables de presentarse si la hiptesis nula es falsa. El valor crtico separa la
regin de no rechazo de la de rechazo.
El nivel de confianza es la probabilidad a priori de que el intervalo de confianza a calcular contenga
al verdadero valor del parmetro. Se indica por 1- y habitualmente se da en porcentaje (1-)%.
Hablamos de nivel de confianza y no de probabilidad ya que una vez extrada la muestra, el
intervalo de confianza contendr al verdadero valor del parmetro o no, lo que sabemos es que si
repitisemos el proceso con muchas muestras podramos afirmar que el (1-)% de los intervalos as
construidos contendra al verdadero valor del parmetro.
Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%
Ejemplo:
Para un nivel de confianza del 88%,
1- = 0.88
= 0.12
/2 = 0.06
Z / 2 = Z 0.06
44
P(Z Z 0.06) =0.94 (1-/2)
Z(0.94)=1.56
Para un nivel de confianza del 98%,
1-=0.98
=0.02
/2=0.01
Z / 2 = Z 0.01
P(Z Z 0.01) =0.99 (1-/2)
Z(0.99)=2.35
E l n i ve l d e co n f i a n za e s l a pr o b ab i l i da d d e q u e el p a r me t r o a e s t i ma r s e
e n c u e nt r e e n e l i nt e r va l o de c o nf i a n za .
E l n i ve l d e c o nf i an za ( p) se d es i gn a me d i a nt e 1 , y s e s u el e t o ma r en
t a nt o p or c i e n t o .
L o s n i ve l e s d e c o nf i an za m s u s u a l e s s o n: 9 0 % ; 9 5% y 9 9 % .
E l n i ve l d e si gn i f i c aci n se d e si gn a me d i a nt e .
E l va l o r c r t i c o ( k) c omo z
P ( Z> z
/2)
= /2
/2
P[ - z
/2
< z < z
1 -
/2
0.90
0.05
1.645
0.95
0.025
1.96
0.99
0.005
2.575
/2]
= 1 -
/2
E n u n a d i s t r i bu c i n N ( , ) e l i n t e r va l o c a r ac t e r s t i c o c o r r e sp o n d i en t e a
u n a p r o b a bi l i d a d p = 1 - e s :
( - Z
/2
, + z
45
/2
Ejemplo:
L a me d i a d e l a s e s t at u r a s d e u n a mu e s t r a a l e at or i a d e 4 0 0 p er so n a s d e u na
c i u d ad e s 1 , 7 5 m. S e s a b e q u e l a e s t a t ur a d e l a s p er s on a s d e esa c i u d ad e s
u n a va r i a bl e a l e at o r i a q u e s i gu e u n a d i s t r i b u ci n n o r ma l c o n va r i a n za 2 =
0,16 m2.
C o n s t r u ye u n i nt e r va l o , de u n 9 5% d e c o n f i a n za , p ar a l a me d i a d e l as
e s t at ur a s d e l a p o bl a ci n .
n = 400
= 0.4
x = 1. 7 5
1- = 0.95
( 1 . 7 5 1 . 9 6 0 . 4/ 2 0)
/2
= 1.96
( 1 . 7 1 0 8 , 1 . 7 89 2 )
3.3 Errores tipo I y tipo II

Cualquiera sea la decisin tomada a partir de una prueba de hiptesis, ya sea de aceptacin de la Ho
o de la Ha, puede incurrirse en error:
Un error tipo I se presenta si la hiptesis nula Ho es rechazada cuando es verdadera y deba ser
aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa
Un error tipo II, se denota con la letra griega se presenta si la hiptesis nula es aceptada cuando
de hecho es falsa y deba ser rechazada.
En cualquiera de los dos casos se comete un error al tomar una decisin equivocada.
En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las
consecuencias posibles.
46
Para que cualquier ensayo de hiptesis sea bueno, debe disearse de forma que minimice los errores
de decisin. En la prctica un tipo de error puede tener ms importancia que el otro, y as se tiene a
conseguir poner una limitacin al error de mayor importancia. La nica forma de reducir ambos
tipos de errores es incrementar el tamao de la muestra, lo cual puede ser o no ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta , depende de la
diferencia entre los valores supuesto y real del parmetro de la poblacin. Como es ms fcil
encontrar diferencias grandes, si la diferencia entre la estadstica de muestra y el correspondiente
parmetro de poblacin es grande, la probabilidad de cometer un error de tipo II, probablemente sea
pequea.
El estudio y las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado
exclusivamente en el anlisis de una parte de sta. De la probabilidad con la que estemos dispuestos
a asumir estos errores, depender, por ejemplo, el tamao de la muestra requerida. Las
contrastaciones se apoyan en que los datos de partida siguen una distribucin normal
Existe una relacin inversa entre la magnitud de los errores y : conforme a aumenta,
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadsticas. Lo ideal
sera establecer y . En la prctica se establece el nivel y para disminuir el Error se incrementa
el nmero de observaciones en la muestra, pues as se acortan los lmites de confianza respecto a la
hiptesis planteada. La meta de las pruebas estadsticas es rechazar la hiptesis planteada. En otras
palabras, es deseable aumentar cuando sta es verdadera, o sea, incrementar lo que se llama poder
47
de la prueba (1- ) La aceptacin de la hiptesis planteada debe interpretarse como que la
informacin aleatoria de la muestra disponible no permite detectar la falsedad de esta hiptesis.
El rechazo de una hiptesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que
es tambin el nivel de significancia) se simboliza como . El hecho de aceptar una hiptesis nula
cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como . La
probabilidad de cometer un tipo de error puede reducirse slo si deseamos incrementar la
probabilidad de cometer el otro tipo de error. Con el propsito de obtener una baja, tendremos que
tolerar una alta. Los responsables de la toma de decisiones deciden el nivel de significancia
adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.
3.4 Potencia de la prueba
El complemento (1-) de la probabilidad de cometer un error del tipo II se conoce como potencia de
una prueba estadstica. La potencia de una prueba es la probabilidad de rechazar la hiptesis nula
cuando de hecho esta es falsa y debera ser rechazada. Una manera en que podemos controlar la
probabilidad de cometer un error del tipo II en un estudio, consiste en aumentar el tamao de la
muestra. Tamaos ms grandes de muestra, nos permitirn detectar diferencias incluso muy
pequeas entre las estadsticas de muestra y los parmetros de la poblacin. Cuando se disminuye
, aumentar de modo que una reduccin en el riesgo de cometer un error de tipo I tendr como
resultado un aumento en el riesgo de cometer un error tipo II. Prueba de hiptesis Z para la media
(desvo de la poblacin conocido) El estadstico de prueba a utilizar es:
La Potencia de una prueba representa la probabilidad de que la hiptesis nula no sea rechazada
cuando de hecho es falsa y debera rechazrsele. La potencia de prueba 1- representa la
sensibilidad de la prueba estadstica para detectar cambios que se presentan al medir la probabilidad
de rechazar la hiptesis nula cuando de hecho es falsa y debera ser rechazada. La potencia de
prueba estadstica depende de qu tan diferente en realidad es la media verdadera de la poblacin
del valor supuesto. Una prueba de un extremo es ms poderosa que una de dos extremos, y se
debera utilizar siempre que sea adecuado especificar la direccin de la hiptesis alternativa. Puesto
que la probabilidad de cometer un error tipo I y la probabilidad de cometer un error tipo II tienen
una relacin inversa y esta ltima es el complemento de la potencia de prueba (1-), entonces y la
potencia de la prueba varan en proporcin directa. Un aumento en el valor del nivel de
significacin escogido, tendra como resultado un aumento en la potencia y una disminucin en
tendra como resultado una disminucin en la potencia. Un aumento en el tamao de la muestra
48
escogida tendra como resultado un aumento en la potencia de la prueba, una disminucin en el
tamao de la muestra seleccionada tendra como resultado una disminucin en la potencia.
Ejemplo:
Se realizan controles de calidad y de eficacia de vacunas contra herpes virus bovino-1 (HVB-1)
aplicando un novedoso modelo de anlisis que incluye una etapa de estudio en ratones y otra
posterior en bovinos. En la segunda etapa se le aplica la vacuna a un grupo de bovinos. Ms tarde se
lo desafa con el herpes virus infeccioso, bajo estrictas normas de seguridad, para evaluar si la
vacuna ha resultado protectiva. Este mtodo se denomina prueba de potencia, y ya ha sido
realizado con xito para la empresa farmacutica Biognesis para controlar vacunas de serie contra
HVB-1. El servicio a esta empresa en particular contina en la actualidad. Potencia de la prueba La
potencia de una prueba es la probabilidad de rechazar la hiptesis nula cuando sta sea falsa. Se
suele simbolizar como 1-. Se suele considerar OK una potencia de al menos 080 (es decir,
asumiendo 100 experimentos en que hay un efecto real, lo detectaramos -en promedio- 80 veces.)
La potencia de una prueba aumenta cuando aumentamos el tamao muestral. (Por ejemplo, en la
prueba t para la diferencia de medias, ello se observa por cuanto n incrementa el valor de la t
emprica.) La potencia de una prueba aumenta cuando el tamao del efecto aumenta. (Por ejemplo,
en la prueba t para la diferencia de medias, cuanto mayor sea la diferencia de medias, mayor ser el
valor de la t emprica.) La potencia de una prueba disminuye cuando reducimos la probabilidad de
error de tipo I (alpha o ). Es decir, si alpha es de 001 en lugar de 005, los valores crticos (v.g., las
t tericas en el caso de la prueba de diferencia de medias) son algo ms extremos y necesitaremos
un valor del estadstico de contraste (v.g., t emprica) mayor para rechazar la hiptesis nula.
Potencia de la prueba Hay frmulas estadsticas (y programas en la internet) que permiten
determinar la potencia de una prueba dado cierto tamao muestral, y la inversa, es decir, determinar
el tamao muestral para una potencia dada. (Claro, que hemos de ser precavidos: para obtener tales
valores necesitamos indicar lo que pensamos que sern los parmetros poblacionalesalgo que en
realidad no sabemos.
3.5 Formulacin de Hiptesis estadsticas
Despus de que el PON se ha definido y precisado, el siguiente paso en el proceso de investigacin
es establecer la hiptesis de investigacin. En trminos generales el trmino hiptesis se define
como una respuesta probable de carcter tentativo a un problema de investigacin y que es factible
de verificacin emprica. La hiptesis expresa la relacin entre dos o ms variables que son
49
susceptibles de medicin. Una hiptesis planteada correctamente debe poderse verificar o contrastar
contra la evidencia emprica.
Lo que se somete a comprobacin no es exactamente la hiptesis ni las variables que la integran,
sino la relacin que expresan entre s las variables estudiadas en la investigacin. De acuerdo con
Zorrilla (1985) una hiptesis se estructura con tres elementos:
a) Unidades de Anlisis. Tambin conocidas como unidades de observacin y representan el objeto
de estudio, son ejemplos, las personas, las empresas, los movimientos sociales, los fenmenos
naturales, etc. que se someten a investigacin.
b) Las Variables. Que son los atributos, caractersticas o propiedades que presentan las unidades de
anlisis y que sern sometidas a medicin.
c) Enlace Lgico. Son trminos de relacin o enlace entre las unidades de anlisis y las variables,
por ejemplo, las expresiones: sientonces, existe relacin entreyetc.
De acuerdo con Kerlinger (1983) las hiptesis deben cubrir dos requisitos:
a) Expresar la relacin entre una variable y otra.
b) Indicar la necesidad de verificar la relacin entre las variables
Si no se cumplen ambos requisitos no se tiene una verdadera hiptesis cientfica. La hiptesis es
importante porque ayuda a darle una direccin a la investigacin, adems es tambin una prediccin
que puede ser probada y que se deriva lgicamente del problema de investigacin. De acuerdo con
Therese L. Baker (1997) si el objetivo del estudio es una explicacin entonces una pregunta de
investigacin puede ser la base para formular una o ms hiptesis.
La abundante literatura existente sobre metodologa de la investigacin, describe una gran variedad
de tipos de hiptesis, no obstante, en la presente seccin nicamente se explicarn las siguientes:
hiptesis de investigacin, hiptesis de nulidad, hiptesis alternativa e hiptesis estadstica.
a) Hiptesis de Investigacin. Es el tipo de hiptesis al que nos hemos referido anteriormente y se le

define como una aseveracin, conjetura o proposicin sobre las probables relaciones entre dos o
ms variables. Con frecuencia se pueden expresar en forma descriptiva, correlacionar, de
causalidad, de nulidad, etc. dependiendo del propsito y naturaleza de la investigacin que se
intenta desarrollar.
a1) Hiptesis Descriptiva. La hiptesis descriptiva como su nombre lo indica describe una situacin
relacional entre las variables que se someten a estudio. Se utiliza en investigaciones de tipo
descriptivo, como pudieran ser los estudios por encuesta.
Son ejemplos de hiptesis descriptiva los siguientes:
El periodo de recuperacin de la inversin del proyecto Duply Office es de dos aos.
50
Los productos de consumo domstico en Mxico aumentarn un 18 % en los prximos seis meses.
a2) Hiptesis Correlacionar. La palabra correlacin es un trmino estadstico que expresa una
posible asociacin o relacin entre dos o ms variables, sin que sea importante el orden de
presentacin de las variables, ya que no expresan una relacin de causalidad. Para verificarlas se
utilizan pruebas estadsticas de correlacin.
Son ejemplos de hiptesis correlacionar los siguientes:
A mayor apreciacin del dlar norteamericano, mayor depreciacin del peso mexicano.
El volumen de importaciones en Mxico disminuye con el aumento en el tipo de cambio peso-dlar.
a3) Hiptesis de Causalidad. Las hiptesis de causalidad se formulan para investigaciones
experimentales. Expresan una relacin de causa-efecto entre las variables que se someten a estudio.
Una hiptesis de causalidad puede expresar una relacin causal entre una variable independiente y
una variable dependiente, o bien, puede hacerlo entre ms de una variable independiente y una
variable dependiente. Son ejemplos de hiptesis de causalidad: El elevado ndice de inflacin en
Mxico es causa del bajo poder adquisitivo del peso mexicano.
Los factores de productividad total (insumo humano, materia prima, energa, capital y otros gastos)
del sector manufacturero mexicano son los determinantes de la productividad total.
b) Hiptesis de Nulidad. Este tipo de hiptesis expresa la ausencia de relacin, diferencia,
causalidad, etc. entre dos o ms variables. De acuerdo con DAry, Jacobs y Razavieh (1982) la
hiptesis de nulidad permite comparar los descubrimientos con las expectativas mediante
mtodos estadsticos, (p. 85). Son ejemplos de hiptesis de nulidad:
La oferta de carreras profesionales del Instituto Tecnolgico de Cd.
Cuauhtmoc no satisface la demanda de formacin acadmica profesional de los egresados de nivel
medio superior en la regin.
La tecnologa de punta no representa una ventaja competitiva definitiva de la empresa A al
disminuir sus costos de produccin y hacer mas eficientes los procesos productivos.
c) Hiptesis Estadsticas. Una hiptesis estadstica expresa en trminos o smbolos estadsticos los
anteriores tipos de hiptesis. Se pueden expresar en trminos de:
c1) Estadsticas de Estimacin. Diseadas para evaluar la suposicin respecto al valor de alguna
caracterstica de una muestra de individuos o unidades de anlisis.
c2) Estadsticas de Correlacin. Traduce o transforma una situacin de correlacin entre dos o ms
variables a la simbologa estadstica
Propia de las pruebas estadsticas de correlacin.
c3) Estadsticas de la Diferencia de Medias u otros Valores. En este tipo de hiptesis se compara
una estadstica entre dos o ms grupos.
51
Es un ejemplo de hiptesis estadstica la siguiente:
La hiptesis No hay relacin entre el aprendizaje (mayor cantidad de impresiones por hora) y el
costo por unidad impresa en la compaa Ediciones Tarahumara, se expresa como una hiptesis
estadstica de la siguiente manera:
Hiptesis nula: Ho: rxy = 0 (no hay relacin entre)
Hiptesis alternativa: H1: rxy 0 (existe relacin entre)
3.6 Prueba de hiptesis para la media
Cuando se van a realizar pruebas de hiptesis relativas a la media poblacional m se debe saber si la
varianza poblacional s es conocida o desconocida, ya que la distribucin subyacente al estadstico
de prueba ser la normal estndar si la varianza es conocida, y la distribucin t en caso contrario.
Las diferentes hiptesis que se pueden presentar son las siguientes:
1) Ho: m = m0 H1: m > m0
2) Ho: m = m0 H1: m < m0
3) Ho: m = m0 H1: m m0
Las pruebas de hiptesis para la media se basan en el estadstico dado por la media muestral cuya
distribucin tiende a la distribucin normal (m, s
/n) para muestras grandes.
Prueba de hiptesis para la media con varianza conocida
Cuando la varianza s es conocida, las pruebas de hiptesis se basan en el hecho de que la variable
aleatoria Z definida como , se distribuye normalmente con media cero y varianza unitaria.
Para el caso de las hiptesis Ho: m = m0 contra H1: m > m0 vimos, al analizar las mejores pruebas,
que la mejor regin crtica de tamao a consista en rechazar H0 si la media muestral era mayor o
igual que una constante c dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores
x1, x2,, xn.
Y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c, donde. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si
Z Za. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin normal
estndar a la derecha del valor Z calculado, y rechace Ho: m = m0 si P < a.
Para el caso de las hiptesis Ho: m = m0 contra H1: m < m0 la mejor regin crtica de tamao a
consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por. Por lo
tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calcula la media muestral,
y los criterios de decisin sera los siguientes:
52
a) Rechace Ho: m = m0 si c, donde . b) Calcule el estadstico de prueba y rechace Ho: m = m0
si Z Z1-a. Como Za = -Z1-a se rechaza Ho si Z -Za o equivalentemente, si Z Z a. c) Calcule
el estadstico de prueba y estime P como el rea en la distribucin normal estndar a la izquierda
del valor Z calculado, y rechace Ho: m = m0 si P < a.
Por ltimo, si las hiptesis fueran Ho: m = m0 contra H1: m m0 la mejor regin crtica de tamao
a (aunque no es uniformemente ms potente como en el caso de las dos anteriores) consiste en
rechazar H0 si la media muestral es menor o igual que una constante c1 mayor igual que otra
constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se
calcula la media muestral, y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c1 c2, donde y . b) Calcule el estadstico de prueba y
rechace Ho: m = m0 si Z -Za/2 Z Za/2, simplemente, si Z Z a/2. c) Calcule el
estadstico de prueba y estime P como el rea en la distribucin normal estndar a la
izquierda del valor Z calculado si Z es negativo, o a la derecha del valor de Z si Z es
positivo, y rechace Ho: m = m0 si P < a. Tambin P se puede calcular como el rea a
derecha del valor absoluto de Z.
Ejemplo:
Un inspector de pesos y medidas visita una planta de empacado para verificar que el peso neto de
las cajas sea el indicado en la etiqueta. El gerente de la planta asegura al inspector que el peso
promedio de cada caja es de 750 gramos con una desviacin estndar de 5 gr. El inspector
selecciona, al azar, 100 cajas y encuentra que el peso promedio es de 748 gr. Bajo estas condiciones
y usando un nivel de significancia de 0.05, Qu actitud debe tomar el inspector?
Solucin. Este problema lo podemos plantear como una prueba de hiptesis del siguiente tipo:
1) Ho: m = m0 = 750 H1: m < m0 (hay preocupacin si el peso medio es inferior al especificado)
Con n = 100, a = 0.05, s = 5 gramos. Se tiene que Z0.05 = 1.645. Por lo tanto, la regin crtica est
dada por = 750 - 1.645 x 5/10 =749.18. Por lo tanto como la media muestral es 748 gramos, se
rechaza la hiptesis de que el promedio de cada caja sea 750 gramos. Por lo tanto, deben tomarse
las medias necesarias para corregir esta situacin, que va en contra de los intereses del consumidor.
Usando los otros criterios de aceptacin tenemos que Z = - 4.0 y el valor P es aproximadamente
cero (P = 0.0).
Prueba de hiptesis para la media con varianza desconocida
Cuando la varianza s no es conocida, las pruebas de hiptesis se basan en el hecho de que la
variable aleatoria T definida como tiene una distribucin t con n-1 grados de libertad. Por lo tanto,
53
al analizar los diferentes casos presentados anteriormente para las pruebas de hiptesis con respecto
a la media, bastar con cambiar la varianza poblacional s por su estimativo muestral S y la
distribucin normal estndar por la distribucin t. En consecuencia los diferentes casos a analizar
sern los siguientes:
Si tenemos las hiptesis Ho: m = m0 contra H1: m > m0 la mejor regin crtica de tamao a
consiste en rechazar H0 si la media muestral es mayor o igual que la constante c, que en este caso
est dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se
calculan la media muestral y la varianza muestral s dados por:
, y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c, donde. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si
T tn - 1, a. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin t a la
derecha del valor T calculado, y rechace Ho: m = m0 si P < a.
Para el caso de las hiptesis Ho: m = m0 contra H1: m < m0 la mejor regin crtica de tamao a
consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por. Por lo
tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calculan la media
muestral y la varianza muestral S, y los criterios de decisin sera los siguientes:
a) Rechace Ho: m = m0 si c, donde.
b) Calcule el estadstico de prueba y rechace Ho: m = m0 si T tn - 1, a.
c) Calcule el estadstico de prueba y estime P como el rea en la distribucin t a la izquierda del
valor T calculado, y rechace Ho: m = m0 si P < a.
Por ltimo, si las hiptesis fueran Ho: m = m0 contra H1: m m0 la mejor regin crtica de tamao
a (aunque no es uniformemente ms potente como en el caso de las dos anteriores) consiste en
rechazar H0 si la media muestral es menor o igual que una constante c1 mayor igual que otra
constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se
calcula la media muestral, y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c1 c2, donde y. b) Calcule el estadstico de prueba y rechace Ho: m
= m0 si T tn - 1, a/2. c) Calcule el estadstico de prueba y estime P como el rea en la
distribucin t a la izquierda del valor T calculado si T es negativo, o a la derecha del valor de T si T
es positivo, y rechace Ho: m = m0 si P < a. Tambin P se puede calcular como el rea a derecha del
valor absoluto de T.
54
3.7 Prueba de hiptesis para la diferencia de medias
Prueba de hiptesis para la diferencia de medias. Supongamos que se toma una muestra aleatoria de
n1 de la primera poblacin y una muestra aleatoria de n2, y los datos recolectados provienen de una
variable numrica. En la primera poblacin, la media se representa con el smbolo y la desviacin
estndar con el smbolo: en la segunda poblacin, la media se representa con el smbolo y la
desviacin estndar con el smbolo. El estadstico de prueba usado para determinar la diferencia
entre dos medias poblacionales se basa en la diferencia entre las medias de muestras. Si se supone
que las muestras son aleatorias y seleccionadas independientemente de las poblaciones que estn
distribuidas de forma normal, este estadstico seguir la distribucin normal estandarizada. Si las
poblaciones no estn distribuidas de forma normal, la prueba Z sigue siendo la adecuada si las
muestras son lo suficientemente grandes (generalmente n1 y n2 30. La siguiente ecuacin define la
prueba Z para la diferencia entre dos medias.
3.8 Prueba de hiptesis para la proporcin
Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma utilizada
cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso.
Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situacin particular.
La proporcin de una poblacin
Las hiptesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p p0
Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o unilateral), lo
cual puedes fcilmente hacerlo auxilindote de la tabla 4.4.1.
En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo abordaremos por ser
complicado y poco frecuente su uso.
Diferencia entre las proporciones de dos poblaciones
La situacin ms frecuente es suponer que existen diferencias entre las proporciones de dos
poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso de las medias:
Ho: p1 = p2 p1 - p2 = 0
H1: p1 p2
Puede la hiptesis alternativa enunciarse unilateralmente.
Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las muestras 1 y 2
respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p
55
conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y
as se obtiene la varianza conjunta. Recuerda que q = 1-p.
Est de ms que te diga que este estadgrafo se distribuye normal estndar.
La regla de decisin se determina de manera similar a los casos ya vistos anteriormente.
El objetivo de la prueba es comparar estas dos proporciones, como estimadores
H1: p1 p2
Recuerda que la H1 tambin puede plantearse de forma unilateral.
Pruebas de hiptesis para proporciones
En el caso de proporciones se mostrara mediante un ejemplo como realizar pruebas de hiptesis
para muestras grandes (mayores a 30 elementos).
Ejemplo:
El dueo de un caf desea saber si la proporcin de mujeres que entran a su negocio es igual al
60%. Para hacer lo anterior se realiza un muestreo aleatorio de 40 personas, dando un promedio de
la muestra de 58%.
Paso 1. Determinar la hiptesis Nula Ho y Alternativa Ha.
Ho: La cantidad de mujeres que entra al negocio es del 60%.
Ha: La cantidad de mujeres que entran al negocio NO ES del 60%
(El estudiante debe describir la Ha)
Ntese que la hiptesis nula considera IGUAL al 60% por lo tanto es una prueba de hiptesis de dos
colas.
Paso 2. Determinar el nivel de significancia.
Este nivel representa la probabilidad de rechazar una hiptesis nula verdadera, matemticamente se
puede considerar cualquier valor entre cero y uno; pero para estudios de pruebas de hiptesis
normalmente est entre 0.05 y 0.1. Este nivel est determinado por el analista y debe basarse en las
caractersticas del estudio y el riesgo que se considere aceptable de cometer el error tipo I.
Nivel de significancia del estudio para el ejemplo: = 0.1
Grficamente el nivel de significancia se distribuye en la curva de distribucin normal tal como se
muestra en la figura, ntese que en el caso de pruebas de hiptesis de medias, sta se ubica en la
parte media de la distribucin de probabilidad:
56
Paso 3. Calcular los intervalos que implican ese nivel de significancia.

Para dicho nivel de significancia (equivale a un nivel de confianza del 90%) los valores de Z son: Z
= +/- 1.6448 Grficamente queda de la siguiente manera:
Paso 4. Calcular el estadstico de la prueba.

El estadstico Z se calcula de la siguiente manera:
En el caso de pruebas de hiptesis para proporciones la ecuacin que se usa es la siguiente:
Dnde:
57
p Proporcin muestral
p Proporcin poblacional (considerado en la hiptesis nula)
q 1- p Inverso de p.
n Nmero de elementos muestreados.
z Valor de Z tipificado
Para el caso del presente ejemplo:
Paso 5. Determinar si el estadstico cae dentro de la regin que hace la

Hiptesis nula verdadera.
Podr notarse, el estadstico esta dentro de la regin que hace verdadera la hiptesis nula.
Paso 6. Aceptar o rechazar la hiptesis nula.
En este caso como el estadstico de la prueba cae dentro de la regin que hace verdadera la hiptesis
nula, sta se ACEPTA y se toma como falsa la hiptesis alternativa:
Ho: La cantidad de mujeres que entra al negocio es del 60%. (VERDADERO)
Ha: La cantidad de mujeres que entra al negocio NO es del 60%. (FALSO)
58
3.9 Prueba de hiptesis para la diferencia de proporciones

En algunos diseos de investigacin, el plan muestral requiere seleccionar dos muestras
independientes, calcular las proporciones mustrales y usar la diferencia de las dos proporciones
para estimar o probar una diferencia entre las mismas.
Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas consultoras
ofrecen datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios
diferentes salen resultados ligeramente diferentes pero qu tanta diferencia se requiere para que sea
estadsticamente significativo? De eso se tratan las pruebas estadsticas de diferencias de
proporciones.
El estadstico Z para estos casos se calcula de la siguiente manera:
Dnde:
59
Ejemplo:
Una muestra de 87 mujeres trabajadoras profesionales mostr que la cantidad promedio que pagan a
un fondo de pensin privado el 5% de su sueldo. Una muestra de 76 hombres trabajadores
profesionales muestra que la cantidad que paga a un fondo de pensin privado es el 6.1% de su
sueldo. Un grupo activista de mujeres desea demostrar que las mujeres no pagan tanto como los
hombres en fondos de pensin privados. Si se usa alfa = 0.01 Se confirma lo que el grupo activista
de mujeres desea demostrar o no?
Paso 1. Determinar la hiptesis Nula Ho y Alternativa Ha.
Ntese que este problema es de una cola.
Ho: Lo que pagan las mujeres en el fondo de pensin es igual o mayor a lo que pagan los hombres
(algunos autores solo le colocan igual).
Ha: _______________________________________
(El estudiante debe describir la Ha)
La hiptesis alternativa es lo que las mujeres del grupo activista desea demostrar.
Paso 2. Determinar el nivel de significancia. Definido por el analista, en este caso se desea usar =
0.01
Grficamente el nivel de significancia se distribuye en la curva de distribucin normal tal como se
muestra en la figura:
Paso 3. Calcular los intervalos que implican ese nivel de significancia.

Para dicho nivel de significancia el valor de Z es: Z=-2.326
60
Grficamente queda de la siguiente manera:
Paso 4. Calcular el estadstico de la prueba.

El estadstico Z para estos casos se calcula de la siguiente manera:
Para el caso del presente ejemplo: considerando la poblacin de mujeres como 1 y la de hombres
como 2 tenemos la siguiente sustitucin:
61
Paso 5. Determinar si el estadstico cae dentro de la regin que hace la

Hiptesis nula verdadera.
Estadstico de prueba z = -0.3069

Como podr notarse, el estadstico est DENTRO de la regin que hace verdadera la hiptesis nula.
Paso 6. Aceptar o rechazar la hiptesis nula.
En este caso como el estadstico de la prueba cae DENTRO de la regin que hace verdadera la
hiptesis nula, dicha hiptesis se ACEPTA y se toma como falsa la hiptesis alternativa:
Ho: El porcentaje de su sueldo que pagan las mujeres en el fondo de pensin es igual a lo que pagan
los hombres. (VERDADERO)
Ha: El porcentaje del sueldo que pagan las mujeres en el fondo de pensin privado es menor a lo
que pagan los hombres. (FALSO)
62
3.10 Prueba de hiptesis para la varianza

Es frecuente que se desee comprobar si la variacin o dispersin de una variable ha tenido alguna
modificacin, lo cual se hace con la prueba de hiptesis para la varianza.
Hiptesis
Se puede plantear uno de los siguientes tres tipos de hiptesis:
- Prueba de hiptesis a dos colas
H0 :
=k
H1 :
- Prueba de hiptesis a una cola superior

H0 :
=k
H0 :
H1 :
>k
H1 :
>k
- Prueba de hiptesis a una cola inferior

H0 :
=k
H1 :
H1 :
<k
H1 :
<k
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir
o corregida.
Si se utiliza la varianza sin corregir (
) la estadstica de trabajo es la expresin (1.4):
(3.6)
Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):
(3.7)
Regla de decisin
-Si se ha planteado la hiptesis alternativa como:
63
H1 :
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se
divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se
aprecia en la figura.
Regla de decisin para una prueba de hiptesis a dos colas

y
pertenecen a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica
de trabajo (T) est entre
no se rechaza la hiptesis nula, en caso contrario se rechaza H0
lo cual implica aceptar H1 . Es decir, si
<T<
no se rechaza H0.
- Si se ha planteado la hiptesis alternativa como:

H1 :
> k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia
( ) en la parte superior de la distribucin, vase figura .
Regla de decisin para una prueba de hiptesis a una cola superior

Z1-
pertenece a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de
trabajo (T) es menor que
no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo
cual implica aceptar H1 . Es decir, si T <
no se rechaza H0 .
- Si se ha planteado la hiptesis alternativa como:
64
H1 :
< k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia (
) en la parte inferior de la distribucin, vase figura.
Regla de decisin para una prueba de hiptesis a una cola inferior

Z
pertenece a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de
trabajo (T) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual
implica aceptar H1 . Es decir, si T >Z no se rechaza H0.
Ejemplo:
Se supone que los dimetros de cierta marca de vlvulas estn distribudos normalmente con una
varianza poblacional de 0,2 pulgadas 2 , pero se cree que ltimamente ha aumentado. Se toma una
muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose los siguientes
resultados en pulgadas: 5,5
5,4
5,4
5,6
5,8
5,4
5,5
5,4
5,6
5,7
Con sta informacin pruebe si lo que se cree es cierto.

Solucin
Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto:
H0 :
= 0,2
H1 :
> 0,2
Para realizar esta prueba de hiptesis se utiliza la expresin 3.6
Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 9
grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura, el
valor de la estadstica de trabajo se ubica en la zona de no rechazo de la hiptesis nula, por
65
consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional
no ha aumentado.
Regla de decisin para una prueba de hiptesis a una cola superior

3.11 Prueba de hiptesis para la relacin de varianzas.
3.12 Uso de software estadstico
El uso de ordenadores y calculadoras facilita el que los alumnos comprendan mejor temas
complejos de matemticas. Es evidente que en muchos casos la tecnologa agiliza y supera, la
capacidad de clculo de la mente humana, con ayuda de la tecnologa, los alumnos tienen ms
tiempo para concentrarse en enriquecer su aprendizaje matemtico.
Las nuevas tecnologas han venido a cambiar por completo el panorama tradicional de como se
hacan, se vean y se enseaban las matemticas. Introducirse en este nuevo panorama implica
realizar profundos cambios en nuestros programas educativos.
Es muy amplia la variedad de aplicaciones informticas disponibles para estadstica y probabilidad:
Excel o Calc
Javascript
Applet de Java, Geogebra
Proyecto Descartes
Software Libre
Otros Software
Excel/Calc
La hoja de clculo Excel o Calc (OpenOffice) es un software considerado como estndar en todos
los entornos(educativo, profesional, familiar, etc), que posee la virtud de presentar una interfaz
66
agradable, una facilidad de uso digna de elogio y permite realizar anlisis estadsticos simples o
ms complejos y avanzados.
Javascript
JavaScript, es un lenguaje de programacin de pginas web de lado del cliente, nos permite aadir a
las pginas web efectos y funciones adicionales a los contemplados en el estndar HTML. Gracias a
que se ejecuta en el navegador(localmente), JavaScript, nos permite responder de manera rpida y
eficaz a las acciones del usuario, creando de esta manera aplicaciones interactivas
Applet de Java
El lenguaje Java se puede usar para crear los applets de Java. Un applet es un elemento ms de una
pgina web, como una imagen o una porcin de texto. Cuando el navegador carga la pgina web, el
applet insertado en dicha pgina se carga y se ejecuta.
Proyecto Descartes
Descartes (M.E.C.) es un programa realizado en lenguaje applet de java que se caracterizan porque
crean "escenas" que se pueden insertar en las pginas web. Descartes no slo convierte una web en
una web interactiva sino que, adems, es configurable, es decir, que los usuarios (profesores)
pueden "programarlo" para que aparezcan diferentes elementos y distintos tipos de interaccin.
Software Libre
"Software Libre" es un asunto de libertad, no de precio.`Software Libre'' se refiere a la libertad de
los usuarios para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software.
Ejemplo:
Comprobacin de un estadstico de prueba calculado mediante el Software Minitab que es igual a Z
= 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadstico de prueba calculado
cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el supuesto del Jefe
de la Biblioteca.
One-Sample Z
Test of mu = 350 vs not = 350
The assumed standard deviation = 52.414
N Mean SE Mean 95% CI Z P
30 372.800 9.569 (354.044, 391.556) 2.38 0.017
67
68
UNIDAD 4. PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMTRICAS
4.1 Bondad de ajuste
La bondad de ajuste o coeficiente de determinacin (R2) es una manera de medir la aproximacin
de la recta a la nube de puntos.
R2 puede tomar valores entre 0 y 1 (0 y 100 en trminos de tanto por ciento). Cuanto ms se
aproxime a 1 mejor ser el ajuste a la nube de puntos y ms fuerte ser la relacin entre las variables
que el modelo quiere captar.
No se debe confundir con el coeficiente de Pearson (r).
4.1.1 Anlisis Ji-Cuadrada
En realidad la distribucin ji-cuadrada es la distribucin muestral de s2. O sea que si se extraen
todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se
obtendr la distribucin muestral de varianzas.
Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer el estadstico X 2.
Si se elige una muestra de tamao n de una poblacin normal con varianza
, el estadstico:
tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1 grados de libertad y
se denota X2 (X es la minscula de la letra griega ji). El estadstico ji-cuadrada esta dado por:
donde n es el tamao de la muestra, s2 la varianza muestral y
la varianza de la poblacin de
donde se extrajo la muestra. El estadstico ji-cuadrada tambin se puede dar con la siguiente
expresin:
Propiedades de las distribuciones ji-cuadrada
69
1. Los valores de X2 son mayores o iguales que 0.
2. La forma de una distribucin X2 depende del gl=n-1. En consecuencia, hay un nmero
infinito de distribuciones X2.
3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se extienden a la
derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribucin X2 se da en el valor (n-3).
La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el valor (n-3) =
(gl-2).
La funcin de densidad de la distribucin X2 est dada por:
Para x>0
La tabla que se utilizar para estos apuntes es la del libro de probabilidad y estadstica de Walpole,
la cual da valores crticos
(gl) para veinte valores especiales de
. Para denotar el valor
crtico de una distribucin X2 con gl grados de libertad se usa el smbolo

crtico determina a su derecha un rea de
(gl); este valor
bajo la curva X2 y sobre el eje horizontal. Por ejemplo
para encontrar X20.05(6) en la tabla se localiza 6 gl en el lado izquierdo y

lado superior de la misma tabla.
70
a o largo del
4.1.2 Prueba de independencia

Cuando cada individuo de la poblacin a estudio se puede clasificar segn dos criterios A y B,
admitiendo el primero a posibilidades diferentes y b el segundo, la representacin de las frecuencias
observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se
disponen de la forma siendo nij el nmero de individuos que presentan simultneamente la isima modalidad del carcter A y la j-sima del B.
La hiptesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma
independiente en los individuos de la poblacin de la cual se extrae la muestra; siendo la
alternativa la dependencia estocstica entre ambos caracteres. La realizacin de esta prueba
requiere el clculo del estadstico donde: y son las frecuencias absolutas marginales y el tamao
muestral total.
El estadstico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se realiza
con un nivel de significacin del 5%.
71
Ejemplo:
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una
muestra aleatoria simple de 100 jvenes, con los siguientes resultados:
Sin
Con
depresin
depresin
38
31
22
69
31
Deportista
No
deportista
total
47
53
100
L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43

= 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi Cuadrado para 1
grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hiptesis de
independencia de caracteres con un nivel de significacin del 5%, admitiendo por tanto que la
prctica deportiva disminuye el riesgo de depresin.
4.1.3 Prueba de la bondad del ajuste

Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una
determinada distribucin, esta distribucin puede estar completamente especificada (hiptesis
simple) o perteneciente a una clase paramtrica (hiptesis compuesta).
Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la distribucin f(x,q)
de una o ms variables aleatorias. Igualmente se plante que la distribucin poda tener uno o ms
parmetros desconocidos, que denotamos por q y que la hiptesis se relaciona con este parmetro o
conjunto de parmetros En otros casos, se desconoce por completo la forma de la distribucin y la
hiptesis entonces se relaciona con una distribucin especfica f(x,q) que podamos asignarle al
conjunto de datos de la muestra. El primer problema, relacionado con los parmetros de una
distribucin conocida o supuesta es el problema que hemos analizado en los prrafos anteriores.
Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que
72
proviene de una determinada distribucin. Las pruebas estadsticas que tratan este problema reciben
el nombre general de Pruebas de Bondad de Ajuste.
Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de
Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan
pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe
entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe
seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias
significativas entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las
siguientes hiptesis
H0: f(x,q) = f0(x,q)
H1: f(x,q) f0(x,q)
Donde f0(x,q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa
siempre se enuncia como que los datos no siguen la distribucin supuesta. Si se desea examinar otra
distribucin especfica, deber realizarse de nuevo la otra prueba suponiendo que la hiptesis nula
es esta nueva distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos por
q puede ser conocido o desconocido. En caso de que los parmetros sean desconocidos, es necesario
estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribucin que
siguen los tiempos de falla de unos componentes, podramos pensar en una distribucin
exponencial, o una distribucin gama o una distribucin Weibull, pero en principio no
consideraramos una distribucin normal. Si estamos analizando los caudales de un ro en un
determinado sitio, podramos pensar en una distribucin logartmica normal, pero no en una
distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor indicacin del
tipo de distribucin a considerar TEST
Estn diseados para variables aleatorias discretas con
un numero finito de valores, si esto no ocurriese los valores de la variable se agrupan en un numero
finito de clases.
1. Hiptesis nula simple
73
Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las clases C1; : :
: ;Ck ,sea Oi = no de individuos de la muestra en la clase
La idea de una prueba de bondad de ajuste es comparar el histograma,
,con la mejor
densidad de Poisson que le queda a los datos. Si la discrepancia entre stos es demasiado grande,
entonces se habla de evidencia en contra del hecho de que f(x) sea Poisson (recuerda que por la Ley
de los Grandes Nmeros,
siempre se parece a f(x), sin importar si sta ltima es o no
de Poisson).
Hay teora matemtica (llamada mxima verosimilitud) que dice que, en cierto sentido, la mejor
densidad de Poisson que le queda a los datos es aquella que tiene parmetro dado por Es decir, el
problema se reduce a comparar
con
Cmo comparar entre s las dos funciones y ? Esto es equivalente a comparar entre s
y
(la letra e es por frecuencia ``esperada'' bajo la densidad de Poisson).
Una forma de comparar las ox con las ex es calculando el valor de
La cantidad
se llama estadstica de prueba para bondad de ajuste
intuitivamente, debes notar que
es una cantidad positiva o cero.
74
. Para entenderla
Si las ox las ex se parecen mucho, entonces la cantidad
ser pequea (y
en el
caso de que todas las ox sean iguales a las ex).
Entre ms sean las ox y ex las distintas entre s, mayor es el valor de
La moraleja es que
es una medida de discrepancia entre las ox y ex las que se esperaran bajo
una densidad de Poisson.
Se dice que
es demasiado grande si excede cierto valor C que depende de cuntas categoras
de x hubo (los valores de C se encuentran calculados por teora estadstica y se anotan en tablas).
Un resultado matemtico establece lo siguiente:
Si la densidad f(x) es Poisson, entonces la probabilidad de que
exceda C es solo del 5%.
Esto quiere decir que si se obtiene una muestra de X, y se calcula un valor de que resulta demasiado
grande, entonces hay dos posibles explicaciones para ello:
A f(x) es Poisson y tuve buensima suerte, pues me ocurri algo que tena slo probabilidad 5% de
ocurrir
B f(x) no es Poisson, y por eso me sali un valor de
demasiado grande
Asumir la explicacin A es creer que slo la suerte explica las cosas y que la naturaleza nos juega
bromas con cosas poco probables. La explicacin B es mucho ms razonable. La explicacin A es
posible, pero poco probable.
De hecho, se trata exactamente del razonamiento que usamos en las siguientes dos situaciones:
Situacin anloga #1: Suponer que el director de la Lotera Nacional se gan dos veces seguidas el
Premio Mayor. Hay dos posibles explicaciones para ello:
A El Director de la LN tuvo una suerte tremenda, pues le ocurri algo que tena slo probabilidad
.0000000004 de ocurrir
B La urna de la LN estuvo intervenida, y por eso ocurri que el Director de la LN gan dos veces
seguidas
Estarn de acuerdo que B es la explicacin natural que elegimos.
75
Situacin anloga #2: El mago me adivin la carta que secretamente eleg. Hay dos explicaciones
para ello:
A
El mago tuvo mucha suerte, pues en realidad me la adivin al azar, lo cual tiene slo
probabilidad 1/52=.019 de ocurrir

B El mago tiene poderes mgicos legtimos, y por eso me la pudo adivinar
La explicacin B es la que siempre preferimos; por eso nos maravillamos ante el truco del mago.
Conclusin: si
, se interpreta como evidencia en contra de la suposicin de que
f(x) sea Poisson, y si
entonces se concluye que no hay razn para sospechar que
f(x) no sea de Poisson. La posibilidad de que yo concluya errneamente que f(x) no es de Poisson
cuando realmente s lo sea, es slo del 5%.
4.1.4 Tablas de contingencia

Se emplean para registrar y analizar la relacin entre dos o ms variables, habitualmente de
naturaleza cualitativa (nominales u ordinales).
Supngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda
recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra
aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relacin
entre estas dos variables, del siguiente modo:
Diestro Zurdo TOTAL
Hombre 43
52
Mujer
48
13
100
44
TOTAL 87
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias

marginales y la cifra situada en la esquina inferior derecha es el gran total.
La tabla nos permite ver de un vistazo que la proporcin de hombres diestros es aproximadamente
igual a la proporcin de mujeres diestras. Sin embargo, ambas proporciones no son idnticas y la
significacin estadstica de la diferencia entre ellas puede ser evaluada con la prueba de Pearson,
supuesto que las cifras de la tabla son una muestra aleatoria de una poblacin. Si la proporcin de
76
individuos en cada columna vara entre las diversas filas y viceversa, se dice que existe asociacin
entre las dos variables. Si no existe asociacin se dice que ambas variables son independientes.
El grado de asociacin entre dos variables se puede evaluar empleando distintos coeficientes: el ms
simple es el coeficiente phi que se define por = (2 / N) donde 2 se deriva del test de Pearson, y
N es el total de observaciones -el gran total-. puede oscilar entre 0 (que indica que no existe
asociacin entre las variables) e infinito. A diferencia de otras medidas de asociacin, el coeficiente
de Cramer no est acotado.
Ejemplo:
Supngase que la Federal Correction Agency (de Estados Unidos) desea investigar el interrogante
indicado antes: hay diferencia en la readaptacin de la vida civil, de un hombre liberado de una
prisin federal, si regresa a vivir a su ciudad natal o se va a vivir a otra parte? En otras palabras,
existe relacin entre la readaptacin de la vida civil y el lugar de residencia despus de ser liberado
de la prisin?
El primer paso en la prueba de hiptesis es establecer las hiptesis nula y alternativa:
Ho
No existe relacin entre la readaptacin a la vida civil y el lugar de residencia de un
individuo despus de ser liberado de la prisin.

H1
existe relacin entre la readaptacin a la vida civil y el lugar donde resida la persona
despus de salir de prisin.

Se usar el nivel de significancia de 0.01 para probar la hiptesis. Recuerdese que esto es la
probabilidad de un error de tipo I (es decir, que existe la probabilidad de 0.01 de que se rechace una
hiptesis nula verdadera).
Los psiclogos de la agencia entrevistaron a 200 ex convictos seleccionados aleatoriamente.
Utilizando una serie de preguntas, los psiclogos clasificaron la readaptacin a la vida civil de cada
individuo como excelente, buena regular o insatisfactoria. Las clasificaciones de los 200 ex
convictos fueron cuantificadas como se muestra a continuacin. Por ejemplo, Joseph Camden
volvi a su ciudad natal y mostr una excelente readaptacin a la vida civil. Su caso corresponde a
una de las 27 marcas que se tienen en la casilla superior de la izquierda, en el cuadro.
77
Se contaron os registros en cada casilla o celda. Los conteos se muestran la siguiente tabla de
contingencia. En este caso, a la Federal Correction Agency le interesaba determinar si la
readaptacin a la vida civil es contingente o no con respecto al lugar a donde valla a vivir el ex
convicto despus de ser liberado.
gl= (nmero de renglones - 1)(nmero de columnas 1)

gl= (r - 1)(c - 1) = (2-1)(4-1) =3
Para determinar el valor crtico para 3 grados de libertad y el nivel de 0.01 (seleccionado antes), se
consulta el apndice I, y se obtiene 11.345. en consecuencia la regla de decisin es: se rechaza la
hiptesis nula si el valor calculado de X2 es mayor que 11.345.
78
Ahora se determinara el valor calculado de X2 las frecuencias observadas se presentan en esta
tabla:
Frecuencia esperada fe para la casilla superior izquierda es:

60 x 40 = 24
Puesto que el valor calculado de ji cuadrada 5.729 se encuentra en la regin ubicada a la izquierda
de 11.345 se acepta la hiptesis nula al nivel de 0.01. Se concluye que no hay relacin entre la
readaptacin a la vida civil y el lugar donde resida el prisionero despus de haber alcanzado su
libertad.
4.1.5 Uso del software estadstico.

En prctica.
79
4.2 Pruebas no paramtricas

Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas estadsticas de
estimacin y contraste frecuentemente empleadas se basan en suponer que se ha obtenido una
muestra aleatoria de una distribucin de probabilidad de tipo normal o de Gauss. Pero en muchas
ocasiones esta suposicin no resulta vlida, y en otras la sospecha de que no sea adecuada no resulta
fcil de comprobar, por tratarse de muestras pequeas. En estos casos disponemos de dos posibles
mecanismos: los datos se pueden transformar de tal manera que sigan una distribucin normal, o
bien se puede acudir a pruebas estadsticas que no se basan en ninguna suposicin en cuanto a la
distribucin de probabilidad a partir de la que fueron obtenidos los datos, y por ello se denominan
pruebas no paramtricas (distribution free), mientras que las pruebas que suponen una distribucin
de probabilidad determinada para los datos se denominan pruebas paramtricas.
Dentro de las pruebas paramtricas, las ms habituales se basan en la distribucin de probabilidad
normal, y al estimar los parmetros del modelo se supone que los datos constituyen una muestra
aleatoria de esa distribucin, por lo que la eleccin del estimador y el clculo de la precisin de la
estimacin, elementos bsicos para construir intervalos de confianza y contrastar hiptesis,
dependen del modelo probabilstico supuesto.
Cuando un procedimiento estadstico es poco sensible a alteraciones en el modelo probabilstico
supuesto, es decir que los resultados obtenidos son aproximadamente vlidos cuando ste vara, se
dice que es un procedimiento robusto.
Las inferencias en cuanto a las medias son en general robustas, por lo que si el tamao de muestra
es grande, los intervalos de confianza y contrastes basados en la t de Student son aproximadamente
vlidos, con independencia de la verdadera distribucin de probabilidad de los datos; pero si sta
distribucin no es normal, los resultados de la estimacin sern poco precisos.
Se deben de usar con:
Datos de distribucin libre (no necesariamente normal). Si un grupo tiene distribucin normal
mientras el otro no.
Si se trata de datos cuantittivos, ordinales o nominales.
Con varianza grande, un grupo con varianza de 0 y el otro no.
Al trabajar con muestras pequeas.
Algunas de las pruebas no paramtricas son las siguientes:
Chi cuadrado de Pearson (independencia, bondad de ajuste, homogeneidad)
80
Prueba exacta de Fisher
U de mann whitney-w de wilcoxon
T de Wilcoxon
Mac nemar
Kruskall wallis
Friedman
Q de cichran.
4.2.1 Escala de medicin

Se define como un patrn convencional de medicin, y bsicamente consiste en un instrumento
capaz de representar con gran fidelidad verbal, grafica o simblicamente el estado de una variable.
Hay varios tipos de escalas: nominal, ordinal, intervalo y razn.
NOMINALES
Una variable esta medida en la escala nominal cuando utilizan nombre para establecer categoras.
Para distinguir los agrupamientos se emplean smbolos, letras e incluso nmeros, aunque estos
ltimos solo cumplen una funcin de carcter simblico y no numrico. Los clculos matemticos
con estos nmeros no tendrn sentido.
ORDINALES
En este nivel se definen varias categoras, pero adems de mostrar un ordenamientos existe una
relacin de mayor o menor que entre ellas. Las etiquetas, smbolos o nmeros asignados si indican
jerarqua, aunque n es posible conocer la magnitud de la diferencia entre cada una de las categoras.
INTERVALO
Esta escala mide las variables de manera numrica. Los nmeros de esta escala permiten establecer
distancias entre dos individuos y las operaciones aritmticas de suma y resta son perfectamente
realizables y significativas, no as la multiplicacin y divisin.
En esta escala el cero es un valor que no indica ausencia de la caracterstica o variable medida, y es
colocado arbitrariamente en algn lugar de la escala.
81
DE RAZON
Es la escala mas fuerte, dado que usa un sistema numerico en el que el cero es un valor que indica
ausencia de la caracteristica que se esta midiendo. Las operaciones aristmeticas de multiplicacion y
division adquieren significacion. La diferencia entre dos valores es importante y de magnitd
definida.
4.2.2 Mtodos estadsticos contra no paramtricos
Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin de los datos
poblacionales. Las pruebas no paramtricas son de uso comn:
1.- Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas, por lo general
llamadas pruebas paramtricas.
2.- Cuando es necesario usar un tamao de muestra pequeo y no es posible verificar que se
cumplan ciertas suposiciones clave.
3.- Cuando se necesita convertir datos cualitativos a informacin til para la toma de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala nominal u ordinal.
Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos datos se usan de
manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas paramtricas:
1.- Por lo general, son fciles de usar y entender.
2.- Eliminan la necesidad de suposiciones restrictivas de las pruebas paramtricas.
3.- Se pueden usar con muestras pequeas.
4.- Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1.- A veces, ignoran, desperdician o pierden informacin.
2.- No son tan eficientes como las paramtricas.
3.- Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa (incurriendo en un error
de tipo II).
Las pruebas no paramtricas son pruebas estadsticas que no hacen suposiciones sobre la
constitucin de los datos de la poblacin.
Por lo general, las pruebas paramtricas son mas poderosas que las pruebas no paramtricas y deben
usarse siempre que sea posible. Es importante observar, que aunque las pruebas no paramtricas no
hacen suposiciones sobre la distribucin de la poblacin que se muestrea, muchas veces se apoyan
en distribuciones mustrales como la normal o la ji cuadrada.
82
4.2.3 Prueba de Kolmogorov Smirnov
Este contraste, que es vlido nicamente para variables continuas, compara la funcin de
distribucin (probabilidad acumulada) terica con la observada, y calcula un valor de discrepancia,
representado habitualmente como D, que corresponde a la discrepancia mxima en valor absoluto
entre la distribucin observada y la distribucin terica, proporcionando asimismo un valor de
probabilidad P, que corresponde, si estamos verificando un ajuste a la distribucin normal, a la
probabilidad de obtener una distribucin que discrepe tanto como la observada si verdaderamente se
hubiera obtenido una muestra aleatoria, de tamao n, de una distribucin normal. Si esa
probabilidad es grande no habr por tanto razones estadsticas para suponer que nuestros datos no
proceden de una distribucin, mientras que si es muy pequea, no ser aceptable suponer ese
modelo probabilstico para los datos.
En estadstica, la prueba de Kolmogrov-Smirnov (tambin prueba K-S) es una prueba no
paramtrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad
entre s.
En el caso de que queramos verificar la normalidad de una distribucin, la prueba de Lilliefors
conlleva algunas mejoras con respecto a la de Kolmogrov-Smirnov; y, en general, el test de
ShapiroWilk o la prueba de Anderson-Darling son alternativas ms potentes.
Conviene tener en cuenta que la prueba Kolmogrov-Smirnov es ms sensible a los valores
cercanos a la mediana que a los extremos de la distribucin. La prueba de Anderson-Darling
proporciona igual sensibilidad con valores extremos.
Estadstico
La distribucin de los datos Fn para n observaciones yi se define como
Para dos colas el estadstico viene dado por
83
Donde F(x) es la distribucin presentada como hiptesis.
4.2.4 Prueba de Anderson Darling
La prueba de Anderson-Darling es usada para probar si una muestra viene de una distribucin
especifica. Esta prueba es una modificacin de la prueba de Kolmogorov- Smirnov donde se le da
ms peso a las colas de la distribucin que la prueba de Kolmogorov-Smirnov.
En estadstica, la prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de
una muestra provienen de una distribucin especfica. La frmula para el estadstico A determina
si los datos
(observar que los datos se deben ordenar) vienen de una
distribucin con funcin acumulativa F

A2 = N S
Donde
El estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de
prueba (dependiendo que F se utiliza) para determinar el P-valor.
4.2.5 Prueba de Ryan Joiner
Esta prueba evala la normalidad calculando la correlacin entre sus datos y las puntuaciones
normales de sus datos. Si el coeficiente de correlacin se encuentra cerca de 1, es probable que la
poblacin sea normal.
La estadstica de Ryan-Joiner evala la solidez de esta correlacin; si se encuentra por debajo del
valor crtico apropiado, usted rechazar la hiptesis nula de normalidad en la poblacin. Esta prueba
es similar a la prueba de normalidad de Shapiro-Wilk.
Ejemplo:
Se realiza un experimento para un instrumento electrnico que mide de humedad de un producto
alimenticio.
Las investigaciones toman lecturas del instrumento para valores seleccionando de humedad.
Analice los datos y determine lo siguiente:
a) Grafica de dispersin de datos.
84
b) Determine la ecuacin de la regresin para mnimos cuadrados y realice las operaciones
correspondientes la Y de ajuste de cada uno de los puntos.
c) Vuelva a graficar y elabore la lnea de regresin ajustada.
Datos:
85
Formulas a utilizar:
Procedimiento:
86
Llenado de tabla:
87
Procedimiento:
Tabla para encontrar el valor de r
88
EJEMPLO CON MINITAB
Los datos tienen que ser introducidos de la

siguiente manera:
Se sigue el siguiente procedimiento:
Seleccionamos:
Estadsticas tablas prueba chi - cuadrada
89
Y nos queda as:
4.2.6 Prueba de Shappiro Wilk.

Aunque esta prueba es menos conocida es la que se recomienda para contrastar el ajuste de nuestros
datos a una distribucin normal, sobre todo cuando la muestra es pequea (n<30).
Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilstico normal. Este tipo de
representacin tambin lo proporcionan algunos programas de estadstica, de tal manera que nos
permite adems apreciar el ajuste o desajuste de forma visual:
.
90
En escala probabilstica normal se representa en el eje horizontal, para cada valor observado en
nuestros datos, la funcin de distribucin o probabilidad acumulada observada, y en el eje vertical
la prevista por el modelo de distribucin normal. Si el ajuste es bueno, los puntos se deben distribuir
aproximadamente segn una recta a 45. En la imagen vemos que en este ejemplo existe cierta
discrepancia.
En cualquier caso siempre es adecuado efectuar una representacin grfica de tipo histograma de
los datos, y comparar el valor de la media y la mediana, as como evaluar el coeficiente de asimetra
y apuntamiento, adems de llevar a cabo una representacin en escala probabilstica de la
distribucin de probabilidad esperada versus observada, como la de la figura.
En estadstica, el Test de ShapiroWilk, se usa para contrastar la normalidad de un conjunto de
datos. Se plantea como hiptesis nula que una muestra x1, ..., xn proviene de una poblacin
normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk.1Se considera
uno de los test ms potentes para el contraste de normalidad, sobre todo para muestras pequeas
(n<30). El estadstico del test es:
91
Donde
x(i) (con el subndice i entre parntesis) es el nmero que ocupa la i-sima posicin en la
muestra;
= (x1 + ... + xn) / n es la media muestral;

las constantes ai se calculan2
Donde
Siendo m1, ..., mn son los valores medios del estadstico ordenado, de variables aleatorias
independientes e identicamente distribuidas, muestreadas de distribuciones normales. V es la matriz
de covarianzas de ese estadstico de orden.
La hiptesis nula se rechazar si W es demasiado pequeo.
El test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos

datos determinados (X1, X2,, Xn) han sido extrados de una poblacin normal. Los
parmetros de la distribucin no tienen por qu ser conocidos. Un contraste de ajuste tiene
como objetivo comprobar si con base en la informacin suministrada por una muestra se
puede aceptar que la poblacin de origen sigue una determinada distribucin de
probabilidad, en nuestro caso, la distribucin normal. y est adecuado para muestras
pequeas (n<50).
4.2.7 Aplicaciones del paquete computacional.
En prctica.
92
UNIDAD 5. REGRESIN LINEAL SIMPLE Y MLTIPLE.

5.1 Regresin Lineal simple.
El anlisis de regresin se usa con propsito de prediccin. La meta del anlisis de regresin es
desarrollar un modelo estadstico que se puede usar para predecir los valores de una variable
dependiente o de respuesta basados en los valores de al menos una variable independiente o
explicativa.
En el anlisis de regresin se emplea el diagrama de dispersin para graficar la variable
independiente en el eje X y la variable de pendiente en el eje Y. La naturaleza de la relacin entre
dos variables puede tomar muchas formas, que van desde algunas funciones matemticas sencillas a
otras en extremo complicadas. La relacin ms elemental consiste en una lnea recta o relacin
lineal.
Se desea estudiar la posible relacin entre los gastos en material informtico, en mltiplos de cien
mil euros, de una empresa y sus ingresos globales, en millones de euros. Para ello se recoge una
muestra de datos anuales de gastos e ingresos de 65 empresas, los datos mustrales son los de la
tabla adjunta. Estudiar la posible existencia de una relacin lineal entre la variable respuesta gasto
en material informtico y la variable regresora ingreso global.
Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes
supuestos.
1. La relacin entre las variables es lineal.
2. Los errores en la medicin de las variables explicativas son independientes entre s.
3. Los errores tienen varianza constante. (Homocedasticidad)
4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma
magnitud y distinto signo son equiprobables).
5. El error total es la suma de todos los errores.
6. Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros:
Regresin lineal simple
Slo se maneja una variable independiente por lo que slo cuenta con dos parmetros. Son de la
forma.
Yi = 0 + 1Xi + i
93
Donde i es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que
iN(0,2) (media cero, varianza constante e igual a un y
con
).
Anlisis
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se
obtiene:
Derivando respecto a
e igualando a cero, se obtiene:
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin
para ambos parmetros:
La interpretacin del parmetro 1 es que un incremento en Xi de una unidad, Yi incrementar en 1
94
5.1.1 Prueba de hiptesis en la regresin lineal simple.
Una parte importante al evaluar la adecuacin de un modelo de regresin lineal es la prueba
de hiptesis sobre los parmetros del modelo y la construccin de ciertos intervalos de
confianza.
Supongamos que se desea probar la hiptesis de la pendiente es igual a una constante una
hiptesis apropiada seria.
Ho: 1=0
H1: 10
De modo que ele estadstico T es:
To=1//Sxx
Sigue la distribucin T con N-2 grados de libertad.

Puede rechazarse H0 si:
|To|>Talf/2.N-2
N de observacin
Nivel de hidrocarburo (x)
Pureza ( y)
.99
90.01
1.02
89.05
1.15
91.43
1.29
93.74
1.46
96.73
1.36
94.45
0.87
87.59
1.23
91.77
1.55
99.42
95
10
1.40
93.65
11
1.19
93.54
12
1.15
92.52
13
0.98
90.56
14
1.01
89.54
15
1.11
89.85
16
1.20
90.39
17
1.26
93.25
18
1.32
93.41
19
1.43
94.98
20
0.95
87.33
Ejemplo:
De los datos de pureza del oxgeno segn la tabla con estos datos se pueden calcular las siguientes
cantidades.
N=20
xy=2214.66
x=23.92
alf =.001
y=1843.21
1=14.97
y=170044.53
Sxx=0.86
x=29.29
=1.17
0=74.20
x =1.21
=92.16
Sxx= x- (x)/20
1= Sxy/Sxx
o= - (B1) (x)
Sxy= xy (x)(y)/20
De modo que el estadstico T es:
To=1//Sxx = 14.97/1.17/0.68=11.41
96
|To|>T alf/2.N-2
11.41>2.88
Como se cumple la funcin:
Ho=0------ R
H10------ A
Puesto que el valor de referencia de T es T.005= 2.88el valor estadstico de la prueba est muy lejos
de la regin critica lo que implica que debe rechazar Ho.
5.1.2 Calidad del ajuste en regresin lineal simple

El ajuste del modelo de regresin requiere varias suposiciones.
1) La estimacin de los parmetros del modelo requiere la suposicin de que los errores son
variables aleatorias con media cero y varianza constante.
2) Las pruebas de hiptesis y la estimacin de los intervalos requieren que los errores estn
distribuidos de manera normal.
3) Los datos se ajustan a un modelo lineal; Es decir, el comportamiento de las variables es o se

aproxima a una relacin lineal
97
Y=Bo+B1X
9.3
11.82
6.15
8.04
8.67
98
10.56
5.52
7.41
9.93
11.19
6.78
95,73
FORMULA
Y= B0 + B1(x)
donde:
* Y: es un valor predicho de la variable dependiente
* B0: es una constante llamada ordenada
* B1: es una constante llamada pendiente
* X: es una variable independientes
99
100
5.1.3 Estimacin y prediccin por intervalo en regresin lineal simple
Hay dos objetivos bsicos en el ajuste de un modelo de regresin:
- Conocer la relacin existente entre la variable respuesta y las variables regresoras.

En el caso de la regresin lineal simple se estima la mejor recta de regresin que
relaciona la variable Y con la variable X y se cuantifica la importancia de dicha
relacin por medio del coeficiente de correlacin, r.
- Utilizar el modelo de regresin ajustado para predecir el valor de la variable
respuesta Y cuando la variable regresora toma un valor determinado, X = xt.
En esta seccin se estudia este segundo objetivo. Esto es, estimada la recta de regresin, cmo
predecir el valor de Y sabiendo que la variable regresora toma el valor X = xt? Ante esta pregunta, se
deben distinguir dos situaciones diferentes:
Estimar la media de la distribucin condicionada de
Y/X = xt : E
= mt.
Se quiere responder a preguntas del tipo: cul es el gasto medio en material informtico
de las empresas que tienen unos ingresos globales de 300 millones anuales?.
Predecir el valor de la variable respuesta en un individuo de la poblacin en estudio del que se sabe
que X = xt. Esto es, predecir un valor de la variable condicionada Y/X=xt
Se quiere responder a preguntas del tipo: La empresa MEGA tiene unos ingresos anuales de
300 millones, cul ser el gasto en material informtico de esta empresa?.
Estimacin de las medias condicionadas.

Una vez calculada la recta de regresin de la variable Y respecto a X,
se quiere estimar el parmetro mt = E
. Para ello, como estimador se utiliza el que
proporciona la recta de regresin, sustituyendo xt por x en la ecuacin de la recta,
101
Este estimador verifica las siguientes propiedades:

1. Es centrado o insesgado, E
= mt.
2. La varianza es,
3. donde
4. nt se denomina nmero equivalente de observaciones para estimar mt.

5. Teniendo en cuenta que en una muestra de tamao n, la varianza de la media muestral es
V ar
/n, la interpretacin de nt es la siguiente: la informacin que proporciona la
muestra, de tamao n, de datos bivariantes
n
i = 1
para estimar mt es la misma
que proporcionara una muestra de tamao nt de observaciones univariantes de una

poblacin con distribucin igual a la de Y/X = xt.
6. De la expresin de nt se deduce que este valor ser mayor cuanto ms prximo est xt de
. Y si xt = se verifica que nt = n.
7. La inversa de nt, htt = 1/nt se denomina valor de influencia de la observacin xt (muy
utilizado el nombre en ingls leverage) y se ver ms adelante que es una medida de la
influencia de la observacin
(si este es uno de los datos muestrales) en el clculo
de la recta de regresin.
8. La distribucin del estimador
es normal,
102
9.
En la prctica el estadstico anterior no se puede utilizar para calcular intervalos de
confianza de mt porque
es desconocido. Por ello, se sustituye
por su estimador
bajo la hiptesis de normalidad se obtiene la siguiente distribucin,
Al utilizar el modelo de regresin lineal para estimar una media condicionada o predecir una
observacin debe de tenerse en cuenta que el mtodo proporciona resultados aceptables dentro del
rango de valores muestrales de la X (interpolar), aqu est garantizado que 1 < nt < n. Si xt es un
punto muy alejado de (an estando dentro de la nube de observaciones est muy alejado del centro
de la misma) entonces nt 1 y la varianza de
ser muy grande con lo que se obtienen
estimaciones con poca precisin (mucha variabilidad). El caso opuesto es que xt = y, por tanto, nt
= n, ahora la varianza de
es
/n, la menor posible.
Por otra parte, si se quiere predecir fuera del rango de valores mustrales de X (extrapolar), entonces
xt - puede ser muy grande y, en consecuencia, nt 0, lo que hace que la precisin de la estimacin
de mt sea muy pequea por tener el estimador
una varianza muy grande y, por tanto, obtener
resultados con muy poca validez.
Prediccin de una observacin.

Se quiere predecir el valor de la variable aleatoria Y/X = xt teniendo en cuenta que se ha ajustado
una recta de regresin. El problema es conceptualmente diferente del anterior, ya que en el apartado
anterior se estima un parmetro (la media condicionada) y ahora se quiere predecir el resultado de
una variable aleatoria. El predictor que se utiliza
Cuadrtico Medio de Prediccin. Esto es,
se obtiene como aquel que minimize el Error
se obtiene como el valor que minimiza la siguiente
funcin
Al resolver este problema de minimizacin se obtiene como predictor el resultado de sustituir el

valor de xt en la recta de regresin calculada,
103
Por tanto, la prediccin de Y/X = xt es la misma que la estimacin de mt pero su varianza aumenta ya
que la variabilidad debida a la muestra
variable aleatoria que se quiere predecir
Var(
se incrementa con la variabilidad propia de la

. Ahora la varianza de la prediccin es
- yt) =
Por la hiptesis de normalidad y razonando como en el apartado anterior se obtiene
5.1.4 Uso de software estadstico

En practica.
104
5.2 Regresin lineal mltiple

En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a
ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente,
realizar estimaciones ms precisas.
Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn
algunas diferencias con el modelo de regresin lineal simple.
Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto conjunto de
variables explicativas: x , x , , xk, cules son las que ms influyen en la variable dependiente Y.
1
En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los valores de la
variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms
variables explicativas y un trmino aleatorio:
uxbxbxbbykk+++++=...22110
Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los
pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
Esta ecuacin recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en
vez de recta de regresin tenemos un plano:
Con tres variables explicativas tendramos un espacio de tres dimensiones, y as sucesivamente.

Vamos a ir introduciendo los elementos de este anlisis a travs de un sencillo ejemplo.
105
Consideramos una muestra de personas como la que sigue a continuacin:

Registro
X
sexo
X
estatura
X
l_roxto
pie
X
l_brazo
X
a_espald
X
d_crne
peso
o
Y
mujer
158
39
36
68
43
55
43
mujer
152
38
34
66
40
55
45
mujer
168
43
39
72.5
41
54.5
48
mujer
159
40
36
68.5
42
57
49
mujer
158
41
36
68.5
44
57
50
mujer
164
40
36
71
44.5
54
51
mujer
156
41
36
67
36
56
52
mujer
167
44
37
73
41.5
58
52
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto
equivale a estudiar la relacin existente entre este conjunto de variables y la variable peso
En primer lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar
para predecir el peso reciben el nombre de variables independientes o explicativas.
En la prctica deberemos de elegir cuidadosamente qu variables vamos a considerar como
explicativas. Algunos criterios que deben de cumplir sern los siguientes:
Tener sentido numrico.
No deber de haber variables repetidas o redundantes
Las variables introducidas en el modelo debern de tener una cierta justificacin

terica.
La relacin entre variables explicativas en el modelo y casos debe de ser como

mnimo de 1 a 10.
La relacin de las variables explicativas con la variable dependiente debe de ser

lineal, es decir, proporcional.
106
El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica
diferencia de que aparecen ms variables explicativas:
Modelo de regresin simple:
Modelo de regresin mltiple:
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles
variables explicativas:
estatura
pie
l_brazo
a_espald
d_craneo
El modelo que deseamos construir es:
Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por
el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van
a tener las correspondientes unidades de medida.
107
5.2.2 Pruebas de hiptesis en regresin lineal mltiple

Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre
los datos:
a) Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo
lineal:
b) Homocedasticidad: todas las perturbaciones tienen las misma varianza:
c) Independencia: las perturbaciones aleatorias son independientes entre s:
d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin normal:
Las variables explicativas X se obtienen sin errores de medida.
k
Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov
establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en
el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
5.2.3 Intervalos de confianza y prediccin en regresin mltiple

Razonando como en el modelo de regresin lineal simple, se deben distinguir dos problemas
diferentes:
Estimar la media de la distribucin condicionada de Y/
parmetro
t.
Esto es, se quiere estimar el
Y poder responder a preguntas como la siguiente: cul es el volumen medio de los rboles de
dimetro 10 u. y altura 80 u.?.
Predecir el valor de la variable respuesta en un individuo del que se conoce que
quiere predecir un valor de la variable condicionada Y/ = h.
h.
Esto es, se
Se quiere responder a preguntas como la siguiente: conociendo que un determinado rbol tiene un
dimetro 10 u. y una altura de 80 u. qu volumen se predice para este rbol?
5.2.4 Uso de un software estadstico.
En prctica.
108
5.3 Regresin no lineal.
En estadstica, la regresin no lineal es un problema de inferencia para un modelo tipo:

y = f(x,) +
basado en datos multidimensionales x,y, donde f es alguna funcin no lineal respecto a

algunos parmetros desconocidos . Como mnimo, se pretende obtener los valores de los
parmetros asociados con la mejor curva de ajuste (habitualmente, con el mtodo de los
mnimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser
necesario utilizar conceptos de inferencia estadstica tales como intervalos de confianza
para los parmetros as como pruebas de bondad de ajuste.
El objetivo de la regresin no lineal se puede clarificar al considerar el caso de la regresin
polinomial, la cual es mejor no tratar como un caso de regresin no lineal. Cuando la
funcin f toma la forma:
f(x) = ax2 + bx + c
la funcin f es no lineal en funcin de x pero lineal en funcin de los parmetros

desconocidos a, b, yc. Este es el sentido del trmino "lineal" en el contexto de la regresin
estadstica. Los procedimientos computacionales para la regresin polinomial son
procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras x y
x2. Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para ajustar
polinomios. Las consecuencias prcticas de esta mala interpretacin conducen a que un
procedimiento de optimizacin no lineal sea usado cuando en realidad hay una solucin
disponible en trminos de regresin lineal. Paquetes (software) estadsticos consideran, por
lo general, ms alternativas de regresin lineal que de regresin no lineal en sus
procedimientos.
109
110
111
REFERENCIAS BIBLIOGRAFCAS.
Johnson Richard . Probabilidad y estadstica para ingenieros. Quinta edicin. Editorial Prentice
Hall. Mxico 1997
Levin, Richard. Rubin, David. Estadstica para administradores. Sexta edicin Editorial Prentice
Hall. Mxico 1996
Mendelhall, William. Reinmuth, James. Estadstica para administracin de economa. editorial:
Iberoamrica, Mxico 1978
Montgomery, Douglas C. probabilidad y estadstica para ingeniera. Tercera edicin. Editorial
Continental CECSA. Ao 1993. Pginas 263-278.
Myers. Probabilidad y estadstica para ingenieros. Sexta edicin. Editorial Pearson
Probabilidad y estadistica para ingenieros de Miller y Freund. Richard A. Johnson. 14/11/2011
Quinta Edicin
Stevenson, William. Estadistica para administracin y economa: conceptos y aplicaciones.
Editorial Alfa Omega. Mxico 1981
Triola, Mario F. estadstica. 9 Edicin. Editorial Pearson, Mxico, 2004
Walpole, Ronald E. probabilidad y estadstica para ingenieros. Sexta edicin. Editorial PrenticeHall Iberoamericana. Mxico 1999. Pginas 198-232.
Weimer, Richard. Estadistica. Editorial cecsa. Mxico 2004.
REFERENCIAS ELECTRONICAS
http://esta2.galeon.com/Temas1-3.pdf
http://esta2.galeon.com/Temas1-3.pdf
http://biplot.usal.es/problemas/confianza/INFERENCIA.pdf
https://www.u-cursos.cl/ingenieria/2009/2/MA3401/1/material_docente/bajar?id_material=260765
http://biplot.usal.es/problemas/confianza/INFERENCIA.pdf
http://www.mitecnologico.com/Main/EstadisticaI
http://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Distribuci%C3%B3n_t_de_Student
http://www.itch.edu.mx/academic/industrial/estadistica1/cap01c.html
www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r51656.PDF
112
http://thales.cica.es/rd/Recursos/rd99/ed99-0018-04/MINTCONF.html
www.bioestadistica.uma.es/libro/node104.htm
www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.7/p3.html
http://www.mitecnologico.com/Main/PruebaDeHipotesisIntroduccion
http://www.ditutor.com/inferencia_estadistica/nivel_confianza.html
http://www.mitecnologico.com/Main/PotenciaDeLaPrueba
www.mitecnologico.com/Main/FormulacionHipotesisEstadisticas
http://www.mitecnologico.com/Main/PruebaHipotesisParaMedia
http://www.mitecnologico.com/Main/PruebaDeHipotesisIntroduccion
http://marcelrzm.comxa.com/EstadisticaInf/34PruebaParaProporcion.pdf
http://marcelrzm.comxa.com/EstadisticaInf/37PruebaDeHipotesisParaVarianza.pdf
http://www.estadisticaparatodos.es/software/software.html
http://enciclopedia.us.es/index.php/Bondad_de_ajuste
https://www.itescam.edu.mx/principal/sylabus/fpdb/.../r27622.DOC
http://www.monografias.com/trabajos15/prueba-de-independencia/prueba-deindependencia.shtml#PRINDEPEND
http://www.cimat.mx/~gil/tcj/1999/estadistica/node9.html
http://es.wikipedia.org/wiki/Tabla_de_contingencia
http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf
http://www.seh-lelha.org/noparame.htm
http://www.slideshare.net/freddygarcia/pruebas-no-parametricas-presentation
http://aprendeenlinea.udea.edu.co/lms/moodle/file.php/481/Escala_medicio_internet.pdf
http://es.wikipedia.org/wiki/Prueba_de_Kolmog%C3%B3rov-Smirnov
http://es.wikipedia.org/wiki/Prueba_de_Anderson-Darling
http://es.scribd.com/doc/26816059/Prueba-de-Anderson-Darling
http://www.seh-lelha.org/noparame.htm
http://www.xatakaciencia.com/matematicas/contraste-de-shapiro-wilk
http://www.udc.es/dep/mate/estadistica2/sec6_10.html
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.pdf
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.pdf
113

Antologia Estadistica I..11123

Cargado por

Información del documento

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Antologia Estadistica I..11123

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA INFERENCIAL I

INSTITUTO TECNOLGICO SUPERIOR DE

ANTOLOGIA: ESTADISTICA INFERENCIAL I

M.C. CECILIA GUADALUPE PALACIOS.

INGENIERA INDUSTRIAL PARA MANUFACTURA AUTOMATIZADA.

UNIDAD 1. DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO ............................................. 2

UNIDAD 2. ESTIMACION ................................................................................................................... 13

UNIDAD 3. PRUEBA DE HIPOTESIS ................................................................................................... 42

UNIDAD 4. PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMTRICAS ............................ 69

UNIDAD 5. REGRESIN LINEAL SIMPLE Y MLTIPLE. ...................................................................... 93

REFERENCIAS BIBLIOGRAFCAS. ..................................................................................................... 112

permitirn adquirir y reafirmar los conocimientos que competen a

La meta se lograr con t valiosa participacin porque eres el principal actor de tu

UNIDAD 1. DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO

1.1 Introduccin a la Estadstica Inferencial

muestral tiene una distribucin

y la segunda con media

Ms an, se elige una muestra

aleatoria de tamao n1 de la primera poblacin y una muestra independiente aleatoria de tamao

La distribucin es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales,

, por lo que no es difcil

representa el promedio de los pesos de 20 nios y

es el promedio de los pesos de una muestra de 25 nias, encuentre la probabilidad de que el

1.4.5 Distribucin t-student

, se denomina grados de libertad de la distribucin.

1.4.7 Distribucin muestral de la relacin de varianzas

En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos

, con lo que, al aplicar las propiedades de linealidad de la esperanza matemtica

son ambos estimadores de y

. Un estimador es ms eficiente (ms preciso), por tanto,

cuanto menor es su varianza.

Esencialmente son tres los parmetros de inters:

b) Para la varianza de la poblacin 2 tomaremos la cuasivarianza de la muestra.

Si el estudio se centra en el estudio de un carcter cualitativo el parmetro de inters ser la

2.4 Estimacin por intervalos

Si queremos un intervalo con un nivel de confianza de 100(1- ) %, en la tabla correspondiente

Despejando en la ecuacin se tiene:

El resultado es un intervalo que incluye al

el 95% de las veces. Es decir, es un intervalo de

confianza al 95% para la media cuando la variable X es normal y es conocido.

tpica dada por la siguiente expresin:

. Esto se representa como sigue:

. Si estandarizamos, se sigue que:

Se desea obtener una expresin tal que

para el intervalo, como se muestra en la siguiente imagen:

Estos puntos delimitan la probabilidad

Dicho punto es el nmero tal que:

Y en la versin estandarizada se cumple que:

Haciendo operaciones es posible despejar para obtener el intervalo:

De lo cual se obtendr el intervalo de confianza:

Obsrvese que el intervalo de confianza viene dado por la media muestral

valor crtico Z / 2 por el error estndar

, donde s es la desviacin tpica de una muestra.

intervalo de confianza de la distribucin normal. Sin embargo, cuando se toman muestras

respectivamente, tomadas de dos poblaciones normales e independientes con varianzas

) por ciento para la

diferencia entre medias es:

es el estimador combinado de la desviacin estndar comn de la poblacin con n1+n2 2 grados de

Si el estadstico S es la proporcin de xitos en una muestra de tamao n>= 30 extrada

Considerar la aproximacin asinttica de la distribucin Binomial en la distribucin

Utilizar un mtodo exacto.

Que, trasladada a la frecuencia relativa, resulta

Tomando como estadstico pivote

El intervalo obtenido es un intervalo asinttico y por tanto condicionado a la validez de la