Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Antologia Estadistica I..11123
Antologia Estadistica I..11123
COMPILADOR:
ASIGNATURA:
ESTADSTICA INFERENCIAL I.
DIVISIN:
2 DE DICIEMBRE DE 2011
ESTADISTICA INFERENCIAL I
INDICE
INTRODUCCION .............................................................................................................................. 1
ESTADISTICA INFERENCIAL I
2.5 Determinacin del tamao de muestra .................................................................................. 37
2.5.1 Basado en la media de la Poblacin ................................................................................. 38
2.5.2 Basado en la proporcin de la Poblacin ......................................................................... 39
2.5.3 Basado en la diferencia entre las medias de la Poblacin ............................................... 41
ESTADISTICA INFERENCIAL I
4.2.6 Prueba de Shappiro Wilk. .............................................................................................. 90
4.2.7 Aplicaciones del paquete computacional. ....................................................................... 92
ESTADISTICA INFERENCIAL I
ESTADISTICA INFERENCIAL I
ESTADISTICA INFERENCIAL I
INTRODUCCION
El presente trabajo esta dirigido a los estudiantes del ITSL que cursan la Carrera
de Ingeniera Industrial bajo el enfoque de estrategias educativas centradas
en el aprendizaje, con el firme propsito de que sirva de gua y q u e c o n
las
actividades
que
desarrollaras
durante
cada
unidad,
te
ESTADISTICA INFERENCIAL I
ESTADISTICA INFERENCIAL I
o esa afirmacin es altamente improbable. Pero en lenguaje matemtico. El resultado es quizs
extrao, difuso pero preciso; no se decanta pero nos da cuatro decimales: a partir de los datos que
me ofrece, la probabilidad de que ocurra eso que usted afirma es 0.23811.
Pero aun as nos permite incrementar nuestro conocimiento. Las afirmaciones anteriores pretenden
ilustrar algo fundamental: las afirmaciones que nos permite hacer la estadstica inferencial tienen un
riesgo, y quien la usa debe saberlo. No es difcil, de todas maneras, porque todas estas afirmaciones
estn formuladas en trminos de riesgo, de seguridad e inseguridad: de probabilidad.
El azar es, por definicin, lo impredecible. Cmo es posible entonces utilizar lo impredecible para
obtener informacin? La clave est en que incluso lo impredecible, para poder serlo, ha de cumplir
algunas normas. El conjunto de esas normas, y las tcnicas para extraer informacin del azar, es lo
que llamamos probabilidad.
No hay nada mgico en el azar; resulta de una sucesin de circunstancias no controlables que lleva
a no poder predecir el resultado. Fijmonos en la moneda de toda la vida. Lo que hace que lanzarla
sea un experimento aleatorio es que es imposible controlar la fuerza con la que se lanza, los giros
que da y los ngulos con que golpea el suelo una y otra vez hasta detenerse2. Basta situar la moneda
de canto en una mesa y empujarla deliberadamente en una direccin para que desaparezca el azar.
Pero si estando de canto la hacemos girar rpidamente volvemos a disponer de un experimento
aleatorio.
1.2 Muestreo: Introduccin al muestreo y tipos de muestreo
Para extraer conclusiones de una poblacin a partir de una muestra, es vital que la muestra sea
representativa.
Hay dos tipos de muestreo: probabilstico (se conoce, o puede calcularse, la probabilidad de cada
elemento, por tanto, de cada muestra posible) y no probabilstico (se desconoce o no interesa la
probabilidad de cada elemento; el investigador selecciona aquella muestra que considera ms
representativa o que le resulta ms fcil).
Cuidado: no es que el muestreo no probabilstico no permita generar muestras representativas; lo
que ocurre es que no tenemos ninguna informacin sobre el grado de representatividad de la
muestra elegida.
El muestreo probabilstico puede darse de diferentes formas, segn estemos considerando
poblaciones finitas (los votantes de la Comunidad de Madrid, los pacientes con insomnio) o
infinitas (los posibles tiempos de reaccin ante una tarea de bsqueda visual), y segn consideremos
(en las finitas) un muestreo con o sin reposicin.
ESTADISTICA INFERENCIAL I
El muestreo aleatorio simple se da cuando se cumple la igualdad de distribuciones (cualquier valor
tiene la misma probabilidad de salir en cada extraccin) e independencia (la probabilidad de obtener
un determinado valor no se modifica por los valores ya obtenidos).
Otros tipos de muestreo probabilstico son el m. a. sistemtico, el m. a. estratificado y el m. a. por
conglomerados.
1.3 Teorema del lmite central
El Teorema del Lmite Central o Teorema Central del Lmite indica que, bajo condiciones muy
generales, la distribucin de la suma de variables aleatorias tiende a una distribucin gaussiana
cuando la cantidad de variables es muy grande.
Existen diferentes versiones del teorema, en funcin de las condiciones utilizadas para asegurar la
convergencia. Una de las ms simples establece que es suficiente que las variables que se suman
sean independientes, idnticamente distribuidas, con valor esperado y varianza finitas.
La aproximacin entre las dos distribuciones es en general mayor en el centro de las mismas que en
sus extremos o colas, motivo por el cual se prefiere el nombre Teorema del Lmite Central
(central califica al lmite, ms que al teorema).
Esta relacin entre la forma de la distribucin de la poblacin y la forma de la distribucin de
muestreo se denomina teorema del lmite central, que es tal vez el ms importante de toda la
inferencia estadstica. Nos asegura que la distribucin de muestreo de la media se aproxima a la
normal al incrementarse el tamao de la muestra. Hay situaciones tericas en las que el teorema del
lmite central no se cumple, pero casi nunca se encuentran en la toma de decisiones prctica. Una
muestra no tiene que ser muy grande para que la distribucin de muestreo de la media se acerque a
la normal. Los estadsticos utilizan la distribucin normal como una aproximacin a la distribucin
de muestreo siempre que el tamao de la muestra sea al menos de 30, pero la distribucin de
muestreo de la media puede ser casi normal con muestras incluso de la mitad de ese tamao. La
importancia del teorema del lmite central es que nos permite usar estadsticas de muestra para
hacer inferencias con respecto a los parmetros de poblacin sin saber nada sobre la forma de la
distribucin de frecuencias de esa poblacin ms que lo que podamos obtener de la muestra.
Lo que hemos visto hasta el momento parece bastante restrictivo ya que hemos supuesto, de
entrada, que la distribucin en la poblacin es normal, pero existen muchos casos en los que no es
posible suponer distribucin Normal. El siguiente resultado permite trabajar con la normal para la
distribucin muestral de medias aunque la poblacin no lo sea, y es conocido como Teorema
Central del Lmite.
ESTADISTICA INFERENCIAL I
Sea X1, X2, ... , Xn , una muestra aleatoria de una poblacin X con una distribucin de probabilidad
ESTADISTICA INFERENCIAL I
1.4.1 Distribucin muestral de la media
Si tenemos una muestra aleatoria de una poblacin N(m,s ), se sabe (Teorema del lmite central) que
la fdp de la media muestral es tambin normal con media m y varianza s2/n. Esto es exacto para
poblaciones normales y aproximado (buena aproximacin con n>30) para poblaciones cualesquiera.
Es decir es el error tpico, o error estndar de la media.
Cmo usamos esto en nuestro problema de estimacin? 1 problema: No hay tablas para cualquier
normal, slo para la normal m=0 y s=1 (la llamada z); pero haciendo la transformacin (llamada
tipificacin) una normal de media m y desviacin s se transforma en una z.
Llamando za al valor de una variable normal tipificada que deja a su derecha un rea bajo la curva
de a, es decir, que la probabilidad que la variable sea mayor que ese valor es a (estos son los valores
que ofrece la tabla de la normal) podremos construir intervalos de la forma para los que la
probabilidad es 1 - a.
Teniendo en cuenta la simetra de la normal y manipulando algebraicamente que tambin se puede
escribir o, haciendo nfasis en que es el error estndar de la media,
Recurdese que la probabilidad de que m est en este intervalo es 1 - a. A un intervalo de este tipo
se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, o nivel de
significacin de 100a%. El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96.
Al valor se le denomina estimacin puntual y se dice que es un estimador de m.
Ejemplo: Si de una poblacin normal con varianza 4 se extrae una muestra aleatoria de tamao 20
en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar comprendida en el
intervalo que sera el intervalo de confianza al 95% para m
En general esto es poco til, en los casos en que no se conoce m tampoco suele conocerse s2; en el
caso ms realista de s2 desconocida los intervalos de confianza se construyen con la t de Student
(otra fdp continua para la que hay tablas) en lugar de la z. o, haciendo nfasis en que es el error
estndar estimado de la media, esta manera de construir los intervalos de confianza slo es vlido si
la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error.
1.4.2 Distribucin muestral de la diferencia de medias
Sean X1 y X2 dos variables aleatorias con valores esperados m1 y m2 y varianzas y ,
respectivamente. Por ejemplo, X1 puede ser la duracin de una batera para carro de una marca, y
X2 la duracin de una batera de otra marca diferente. Si los medias m1 y m2 son desconocidas,
podramos estar interesados en conocer si ambas bateras tienen la misma duracin media. En forma
similar, si las varianzas son desconocidas, podramos estar interesados en saber si son iguales o no.
ESTADISTICA INFERENCIAL I
Para realizar estas inferencias, se pueden someter a pruebas idnticas diferentes bateras,
controlando los factores externos, de tal forma que las diferencias se deban exclusivamente a la
clase de marca probada.
Inicialmente estaremos interesados en verificar si ambas distribuciones tienen la misma media
poblacional, es decir si m1 = m2 equivalentemente m1 - m2 = 0.
Suponga que es una muestra aleatoria de tamao n1 tomada de una poblacin con media m1 y
varianza, es otra muestra aleatoria de tamao n2 tomada de una poblacin con media m2 y varianza.
Si deseamos realizar alguna inferencia sobre m1 - m2, nos podemos basar en la distribucin de la
diferencia de las medias mustrales
Ahora bien, para la diferencia de las medias mustrales se tiene:
Para conocer la distribucin muestral de las diferencias entre las medias se debe saber si las
varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe
saber si son iguales o diferentes. Cada uno de estos tres casos se analizar por separado.
a) Distribucin de la diferencia entre dos medias cuando las varianzas son conocidas. Si las
varianzas y son conocidas, tanto como se distribuyen normalmente. Por lo tanto la distribucin de la
diferencia entre las medias mustrales es normal con el valor esperado y la varianza dados
anteriormente, es decir,
De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribucin normal estndar:
Por lo tanto, con base en la expresin anterior se pueden realizar inferencias con respecto a la
diferencia de medias poblacionales, bajo el supuesto de que las varianzas sean conocidas. Si
adems, son iguales, la expresin anterior se puede expresar como:
b) Distribucin de la diferencia entre dos medias cuando las varianzas son desconocidas pero
iguales.
Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadstica para
verificar si stas son iguales o diferentes. Para realizar esta prueba debemos hacer uso de la
distribucin F para verificar si la relacin de varianzas es igual a uno o diferente de uno.
Adems tienen distribuciones chi cuadrado con n11 y n21 grados de libertad respectivamente.
Por lo tanto su suma tambin sigue otra distribucin chi cuadrado con n1+n22 grados de libertad.
Ejemplo. El gerente de una refinera piensa modificar el proceso para producir gasolina a partir de
petrleo crudo. El gerente har la modificacin slo si la gasolina promedio que se obtiene por este
nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor con respecto al proceso
en uso. Con base en un experimento de laboratorio y mediante el empleo de dos muestras aleatorias
de tamao 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de
24.6 con una desviacin estndar de 2.3, y para el proceso propuesto fue de 28.2 con una desviacin
ESTADISTICA INFERENCIAL I
estndar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son
variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en
esta evidencia, debe adoptarse el nuevo proceso?
1.4.3 Distribucin muestral de la proporcin
La distribucin muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta
distribucin se genera de igual manera que la distribucin muestral de medias, a excepcin de que
al extraer las muestras de la poblacin se calcula el estadstico proporcin (p=x/n en donde x es el
nmero de xitos u observaciones de inters y n el tamao de la muestra) en lugar del estadstico
media.
Una poblacin binomial est estrechamente relacionada con la distribucin muestral de
proporciones; una poblacin binomial es una coleccin de xitos y fracasos, mientras que una
distribucin muestral de proporciones contiene las posibilidades o proporciones de todos los
nmeros posibles de xitos en un experimento binomial, y como consecuencia de esta relacin, las
afirmaciones probabilsticas referentes a la proporcin muestral pueden evaluarse usando la
aproximacin normal a la binomial, siempre que np5 y n(1-p) 5. Cualquier evento se puede
convertir en una proporcin si se divide el nmero obtenido entre el nmero de intentos.
Sea una poblacin formada por n elementos, de los cuales algunos poseen una determinada
caracterstica y otros no (llamaremos p a la proporcin de los elementos que poseen la
caracterstica, y q = 1 - p a la de los restantes elementos). Entonces, es posible extraer muestras de
la poblacin de manera que a cada una se asocie como valor la proporcin de la caracterstica
analizada.
Por ejemplo, en la poblacin {1, 2, 3}, la caracterstica par tiene un valor p = 1 / 3, mientras que la
impar es q = 2 / 3. Mediante la tabla siguiente de muestras se construye una nueva distribucin
muestral de las proporciones.
Muestra 1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3
Proporcin f/n 0 0,5 0 0,5 0 0,5 0 0,5 0
Parmetros estadsticos de una distribucin muestral de las proporciones de tamao n:
Una distribucin muestral de las proporciones se comporta como una distribucin normal descrita
por los parmetros N.
ESTADISTICA INFERENCIAL I
1.4.4 Distribucin muestral de la diferencia de proporciones
Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones
mustrales, la distribucin muestral de diferencia de proporciones es aproximadamente normal para
tamaos de muestra grande (n1p1 5, n1q1 5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen
distribuciones mustrales aproximadamente normales, as que su diferencia p1-p2 tambin tiene una
distribucin muestral aproximadamente normal.
Cuando se estudi a la distribucin muestral de proporciones se comprob que y que, por lo que no
es difcil deducir que y que.
Suponga que se tienen dos poblaciones distintas, la primera con media
1,
y desviacin estndar
2.
y desviacin estndar
deducir que
y que
y que
ESTADISTICA INFERENCIAL I
La frmula que se utilizar para el clculo de probabilidad del estadstico de diferencia de medias
es:
Ejemplo:
En un estudio para comparar los pesos promedio de nios y nias de sexto grado en una escuela
primaria se usar una muestra aleatoria de 20 nios y otra de 25 nias. Se sabe que tanto para nios
como para nias los pesos siguen una distribucin normal. El promedio de los pesos de todos los
nios de sexto grado de esa escuela es de 100 libras y su desviacin estndar es de 14.142, mientras
que el promedio de los pesos de todas las nias del sexto grado de esa escuela es de 85 libras y su
desviacin estndar es de 12.247 libras. Si
100 libras
= 85 libras
1=
14.142 libras
2=
12.247 libras
n1 = 20 nios
n2 = 25 nias
=?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de nios sea al menos 20
libras ms grande que el de la muestra de las nias es 0.1056.
10
ESTADISTICA INFERENCIAL I
Donde el parmetro n de
La distribucin t de Student existe para todos los valores de x reales, y es simtrica respecto al eje y.
La distribucin de probabilidad de esta funcin para valores menores de un x dado, que
representamos por
Dnde:
11
ESTADISTICA INFERENCIAL I
Para el clculo de esta integral existen distintos tipos de Tabla de distribucin t de Student, en la
que para distintos valores de n y de x se puede buscar su probabilidad acumulada p, veamos una de
esas tablas.
1.4.6 Distribucin muestral de la varianza
La varianza de las muestras sigue un proceso distinto a los de la media y proporcin. La causa es
que el promedio de todas las varianzas de las muestras no coincide con la varianza de la poblacin
s2. Se queda un poco por debajo. En concreto, se verifica que
Hemos usado el subndice n para recordar que en la varianza se divide entre n.
Si deseamos que la media de la varianza coincida con la varianza de la poblacin, tenemos que
acudir a la cuasivarianza o varianza insesgada, que es similar a la varianza, pero dividiendo las
sumas de cuadrados entre n-1.
Su raz cuadrada es la cuasidesviacin tpica o desviacin estndar.
Si se usa esta varianza, si coinciden su media y la varianza de la poblacin lo que nos indica que la
cuasivarianza es un estimador insesgado, y la varianza lo es sesgado.
La suma de cuadrados de la varianza, dividida entre la varianza de la poblacin se distribuye segn
una chi-cuadrado c2 con n-1 grados de libertad
12
ESTADISTICA INFERENCIAL I
UNIDAD 2. ESTIMACION
2.1 Introduccin
13
ESTADISTICA INFERENCIAL I
2.2 Caractersticas de un estimador
En estadstica, un estimador es un estadstico (esto es, una funcin de la muestra) usado para
estimar un parmetro desconocido de la poblacin. Por ejemplo, si se desea conocer el precio medio
de un artculo (el parmetro desconocido) se recogern observaciones del precio de dicho artculo
en diversos establecimientos (la muestra) y la media aritmtica de las observaciones puede
utilizarse como estimador del precio medio.
Para cada parmetro pueden existir varios estimadores diferentes. En general, escogeremos el
estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia,
convergencia y robustez (consistencia).
El valor de un estimador proporciona lo que se denomina en estadstica una estimacin puntual del
valor del parmetro en estudio. En general, se suele preferir realizar una estimacin mediante un
intervalo, esto es, obtener un intervalo [a,b] dentro del cual se espera est el valor real del
parmetro con un cierto nivel de confianza. Utilizar un intervalo resulta ms informativo, al
proporcionar informacin sobre el posible error de estimacin, asociado con la amplitud de dicho
intervalo. El nivel de confianza es la probabilidad de que a priori el verdadero valor del parmetro
quede contenido en el intervalo.
En la prctica, los intervalos suelen indicarse dando el valor del estimador puntual utilizado como
centro del intervalo y un valor que debe sumarse y restarse para obtener el lmite superior e inferior;
por ejemplo:
equivale a
Propiedades de los estimadores:
Sesgo:
Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del
estimador y el verdadero valor del parmetro a estimar. Es deseable que un estimador sea insesgado
o centrado, es decir, que su sesgo sea nulo por ser su esperanza igual al parmetro que se desea
estimar.
Por ejemplo, si se desea estimar la media de una poblacin, la media aritmtica de la muestra es un
estimador insesgado de la misma, ya que su esperanza (valor esperado) es igual a la media de la
poblacin.
En efecto, si una muestra X=(X1,X2,...,Xn)t procede de una poblacin de media , quiere decir que:
E[Xi] = para cualquier i=1...n
14
ESTADISTICA INFERENCIAL I
La media aritmtica o media muestral,
Eficiencia:
Diremos que un estimador es ms eficiente o ms preciso que otro estimador, si la varianza del
primero es menor que la del segundo. Por ejemplo, si
Diremos que
es ms eficiente que
donde
f(X;)
es
la
funcin
de
en
funcin
densidad
del
15
de
parmetro
probabilidad
,
de
(denominada
la
muestra
funcin
de
ESTADISTICA INFERENCIAL I
verosimilitud). Si un estimador alcanza esta cota mnima, entonces se dice que el estimador es de
mnima varianza.
Consistencia:
Si no es posible emplear estimadores de mnima varianza, el requisito mnimo deseable para un
estimador es que a medida que el tamao de la muestra crece, el valor del estimador tienda a ser el
valor del parmetro, propiedad que se denomina consistencia. Existen diversas definiciones de
consistencia, ms o menos restrictivas, pero la ms utilizada es la denominada consistencia en
media cuadrtica que exige que:
1.
cuando
2.
cuando
Robustez:
El estimador ser un estimador robusto del parmetro si la violacin de los supuestos de partida
en los que se basa la estimacin (normalmente, atribuir a la poblacin un determinado tipo de
funcin de distribucin que, en realidad, no es la correcta), no altera de manera significativa los
resultados que ste proporciona.
Suficiencia
Se dice que un estimador es suficiente cuando resume toda la informacin relevante contenida en la
muestra, de forma que ningn otro estimador pueda proporcionar informacin adicional sobre el
parmetro desconocido de la poblacin.
Invarianza
Se dice que un estimador es invariante cuando el estimador de la funcin del parmetro coincide
con la funcin del estimador del parmetro,
2.3 Estimacin puntual
Si a partir de las observaciones de una muestra se calcula un solo valor como estimacin de un
parmetro de la poblacin desconocido, el procedimiento se denomina estimacin puntual.
Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la asignatura de
matemticas que notaremos. Sea X la variable aleatoria que indica la nota obtenida por cada
16
ESTADISTICA INFERENCIAL I
estudiante. Tomamos una muestra de tamao n y denotamos la nota media de la muestra. Si al
tomar una muestra de 100 estudiantes obtenemos que la media es 62, este nmero lo tomaramos
como estimativo de. Decimos que 62 es una estimacin puntual de.
Un estimador puntual T de un parmetro es cualquier estadstica que nos permita a partir de los
datos mustrales obtener valores aproximados del parmetro.
Para indicar que T es un estimador del parmetro escribimos =T.
Con esto queremos decir que empleamos la expresin dada mediante T para obtener valores
prximos al valor del parmetro.
Es muy probable que haya error cuando un parmetro es estimado. Es cierto que si el nmero de
observaciones al azar se hace suficientemente grande, stas proporcionaran un valor que casi sera
semejante al parmetro; pero a menudo hay limitaciones de tiempo y de recursos y se tendr que
trabajar con unas cuntas observaciones. Para poder utilizar la informacin que se tenga de la mejor
forma posible, se necesita identificar las estadsticas que sean buenos estimadores. Hay cuatro
criterios que se suelen aplicar para determinar si una estadstica es un buen estimador:
Insesgamiento, eficiencia, consistencia y suficiencia
17
ESTADISTICA INFERENCIAL I
18
ESTADISTICA INFERENCIAL I
El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media , por
ejemplo, requiere de la determinacin de un estimador del parmetro y de la distribucin del
estimador.
Un intervalo de confianza para un parmetro es un intervalo construido alrededor del estimador
del parmetro de tal manera que podemos esperar que el verdadero valor del parmetro quede
incluido en dicho intervalo.
El nivel de confianza de un intervalo es una probabilidad (expresada en porcentaje) que representa
la seguridad de que el intervalo encierra el verdadero valor del parmetro.
Para cada nivel de confianza existe un valor de tabla ( normal, t , , F) asociado al nivel de confianza
dado.
Este
valor
se
llama
coeficiente
de
confiabilidad
y
se
denota:
DISTRIBUCIN F
NORMAL
DISTRIBUCIN T
JI CUADRADO
Ejemplo:
Sea X la variable aleatoria que se utiliza para designar el peso de un pasajero de avin y que
interesa conocer, el peso medio de todos los pasajeros. Para ello tomamos una muestra de 36
pasajeros y obtenemos una media muestral de 160 libras. Supongamos que la distribucin de los
pasajeros sea normal con desviacin estndar 36. Calcula el intervalo del 95% de confianza...
El intervalo est dado por la expresin, reemplazamos los valores y obtenemos 160 (196). (30/6).
Por lo tanto el intervalo pedido es: [1502,1698].
Si nos hubieran pedido un intervalo del 90% de confianza tendramos 160 (1645). (30/6). Y el
intervalo pedido es [15178,16823].
Podramos construir tambin un intervalo de confianza del 99% obteniendo 160 (2575). (30/6). Y
el intervalo sera [14713,17288].
Al observar los intervalos podemos notar que a medida que se aumenta el nivel de confianza la
longitud del intervalo tambin aumenta como podemos ver en la figura.
19
ESTADISTICA INFERENCIAL I
Tenemos las siguientes propiedades sobre la longitud del intervalo:
PROPIEDAD 1. Para un tamao de muestra y una varianza dada a medida que aumenta el nivel de
confianza tambin lo hace la longitud del intervalo
PROPIEDAD 2. Para un nivel de confianza y una varianza dadas cuando el tamao de la muestra
aumenta la longitud del intervalo disminuye.
Estas propiedades se deducen de la expresin de la longitud del intervalo L=. Como podemos ver si
la varianza se considera fija la frmula est sujeta a dos nmeros cuyas acciones se contraponen en
cuanto a la longitud, el nivel de confianza y el tamao de la muestra.
Para que un intervalo sea tomado en cuenta con algn inters, el nivel de confianza debe ser alto.
Suelen presentarse dos interpretaciones para un intervalo de confianza, una probabilstica y
otra prctica. Veamos cmo son en el caso de la media:
Desde un punto de vista de la probabilidad se dice: En el muestreo aleatorio simple de una
poblacin
normal
de
media
y
varianza
conocida,
el
100(1- ) % de todos los intervalos de la forma incluir la media desconocida.
Aplicando esto al ejemplo anterior podemos decir que de 100 muestras de tamao 36 que escojamos
de los pasajeros del avin, 95 de ellas (aproximadamente) producirn intervalos que contendrn el
verdadero peso promedio. O lo que es lo mismo, de 100 intervalos obtenidos por la frmula anterior
95 de ellos contendrn el verdadero valor del parmetro.
De la interpretacin probabilstica se desprende la prctica que se establece as:Si se realiza un
muestreo aleatorio simple en una poblacin normal con media y varianza conocida, se tiene el
100(1- ) % de confianza de que el intervalo particular contendr el verdadero valor del parmetro
desconocido
En el ejemplo diremos que tenemos una confianza o certeza del 95% de que el verdadero peso
promedio de los pasajeros del avin est entre 1502 y 1698 libras.
2.4.1 Intervalo de confianza para la media
En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima que
estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos
nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor
desconocido es un parmetro poblacional. La probabilidad de xito en la estimacin se representa
con 1 - y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o
nivel de significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante
tal intervalo.
20
ESTADISTICA INFERENCIAL I
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo
ms amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un
intervalo ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error.
Para la construccin de un determinado intervalo de confianza es necesario conocer la distribucin
terica que sigue el parmetro a estimar, . Es habitual que el parmetro presente una distribucin
normal. Tambin pueden construirse intervalos de confianza con la desigualdad de Chebyshov.
En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro
poblacional que sigue una determinada distribucin de probabilidad, es una expresin del tipo [1,
2] tal que P [1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de .
En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de
valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con
una probabilidad determinada.
La probabilidad de que el verdadero valor del parmetro se encuentre en el intervalo construido se
denomina nivel de confianza, y se denota 1. La probabilidad de equivocarnos se llama nivel de
significancia y se simboliza. Generalmente se construyen intervalos con confianza 1- =95% (o
significancia =5%). Menos frecuentes son los intervalos con =10% o =1%.
Para construir un intervalo de confianza, se puede comprobar que la distribucin Normal Estndar
cumple
P (-1.96 < z < 1.96) = 0.95
(Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que
calcule probabilidades normales).
Luego, si una variable X tiene distribucin N (,), entonces el 95% de las veces se cumple:
Ejemplo:
21
ESTADISTICA INFERENCIAL I
Intervalo de confianza para la media de una poblacin
De una poblacin de media y desviacin tpica se pueden tomar muestras de n elementos. Cada
una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las
medias mustrales coincide con la media poblacional:
Pero adems, si el tamao de las muestras es lo suficientemente grande, 3 la distribucin de medias
mustrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin
En una distribucin Z ~ N (0, 1) puede calcularse fcilmente un intervalo dentro del cual caigan un
determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P [z1 z
z2] = 1 - , donde (1 - ) 100 es el porcentaje deseado (vase el uso de las tablas en una
distribucin normal).
/ 2.
22
ESTADISTICA INFERENCIAL I
23
el producto del
ESTADISTICA INFERENCIAL I
Si no se conoce y n es grande (habitualmente se toma n 30).
2.
Si los tamaos de muestras n1 y n2 son mayores que 30, entonces, puede emplearse el
s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamao n1 y n2,
En donde:
Sean X11, X12, X1n1, una muestra aleatoria de n1 observaciones tomadas de una
primera poblacin con valor esperado 1 y varianza s
24
ESTADISTICA INFERENCIAL I
1, y X21, X22, X2n2 una muestra aleatoria de n2 observaciones tomada de la segunda poblacin
con valor esperado 2 y varianza s.
2. Si son las medias mustrales, la estadstica es un estimador puntual de 1 - 2, y tiene una
distribucin normal si las dos poblaciones son normales, o aproximadamente normal si cumple con
las condiciones del teorema del lmite central (tamaos de muestras relativamente grandes). Es
decir, Por lo tanto, para calcular el intervalo de confianza para la diferencia de dos medias se debe
saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean
desconocidas, se debe probar si son iguales o diferentes. Cada uno de estos tres casos se analizarn
por separado
Varianzas conocidas
Si las varianzas poblacionales son conocidas, los pasos a seguir para encontrar el intervalo de
confianza son los siguientes:
a) El estadstico usado como estimador puntual de la diferencia de medias 1 - 2 ser T =, que es
un estimador suficiente b) La variable aleatoria asociada con el estimador ser la variable normal
estndar dada por:
c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente probabilidad:
Manipulando la expresin anterior en forma similar a como se hizo en los casos de una sola muestra
se llega al siguiente teorema que nos define el intervalo de confianza para la diferencia entre dos
medias 1 - 2 con varianzas conocidas s1 y s2.
Teorema
Si son las medias de dos muestras aleatorias independientes de tamao n1 y n2 tomadas de
poblaciones que tienen varianzas conocidas s 1 y s 2.
2.4.3 Intervalos de confianza para la proporcin
En este caso, interesa construir un intervalo de confianza para una proporcin o un porcentaje
poblacional (por ejemplo, el porcentaje de personas con hipertensin, fumadoras, etc.)
Si el tamao muestral n es grande, el Teorema Central del Lmite nos asegura que:
O bien:
25
ESTADISTICA INFERENCIAL I
Donde p es el porcentaje de personas con la caracterstica de inters en la poblacin (o sea, es el
parmetro de inters) y p es su estimador muestral.
Luego, procediendo en forma anloga al caso de la media, podemos construir un intervalo de 95%
de confianza para la proporcin poblacional p.
Ejemplo:
En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15
aos en la Regin Metropolitana, se encontr que el 17.6% eran hipertensas. Un intervalo de 95%
de confianza para la proporcin de mujeres hipertensas en la Regin Metropolitana est dado por:
Luego, la proporcin de hipertensas vara entre (0,139, 0,212) con una confianza de 95%.
26
ESTADISTICA INFERENCIAL I
Dada una variable aleatoria con distribucin Binomial B(n, p), el objetivo es la construccin de un
intervalo de confianza para el parmetro p, basada en una observacin de la variable que ha dado
como valor x. El mismo caso se aplica si estudiamos una Binomial B (1, p) y consideramos el
nmero de veces que ocurre el suceso que define la variable al repetir el experimento n veces en
condiciones de independencia.
Existen dos alternativas a la hora de construir un intervalo de confianza para p:
Aproximacin asinttica
Tiene la ventaja de la simplicidad en la expresin y en los clculos, y es la ms referenciada en la
mayora de textos de estadstica. Se basa en la aproximacin
que sigue una distribucin N(0, 1), y aadiendo una correccin por continuidad al pasar de una
variable discreta a una continua, se obtiene el intervalo de confianza asinttico:
Donde z/2 es el valor de una distribucin Normal estndar que deja a su derecha una probabilidad
aceptadas para considerar vlida la aproximacin asinttica anterior son:
27
ESTADISTICA INFERENCIAL I
Donde F
a, b
Entonces:
28
ocurre
ESTADISTICA INFERENCIAL I
Esta ltima relacin se puede aproximar por otra que simplifica bastante los clculos:
Por el mismo razonamiento que en el caso de una poblacin llegamos a que una aproximacin para
un intervalo de confianza al nivel para la diferencia de proporciones de dos poblaciones es:
Sea X1 el nmero de eventos de cierto tipo observado en una primera muestra de tamao n1 tomada
de una poblacin binomial, y sea X2 el nmero de eventos observado en otra muestra de tamao n2.
Entonces X1 y X2 son variables aleatorias binomiales independientes con parmetros (n1, 1) y
(n2, 2), tomadas de dos poblaciones grandes, y 1 y 2 son sus dos proporciones respectivas.
Adems, P1= X1/ n1 y P2= X2/ n2 son estimadores independientes de 1 y 2, respectivamente, y
tienden a distribuirse normalmente. Si los tamaos de muestra son suficientemente grandes, la
siguiente variable tiene una distribucin que es aproximadamente normal estndar.
Para encontrar un intervalo de confianza para la diferencia de proporciones 1- 2, el estimador
puntual estar dado por P1 - P2, la variable aleatoria asociada ser la normal estndar, de acuerdo a
lo explicado antes, y el intervalo de confianza estar dado por el siguiente teorema.
Teorema. Si P1 y P2 son las proporciones muestrales de dos muestras aleatorias independientes de
tamao n1 y n2 que pertenecen a una clase de inters, entonces un intervalo de confianza
aproximado del 100(1-) % para la diferencia de las proporciones verdaderas 1 - 2 es:
29
ESTADISTICA INFERENCIAL I
Ejemplo:
Considere un proceso de produccin que tiene una fraccin defectuosa 1, desconocida. A este
proceso se le realizan unas mejoras para reducir el porcentaje de defectuosos que est produciendo,
y queremos saber si estos cambios s reducen sustancialmente la proporcin de artculos
defectuosos del proceso. Para ello, se toma una muestra de 200 artculos del proceso original, y se
encuentran 12 defectuosos, y se examinan 150 artculos del nuevo proceso y se observan 6
defectuosos. Cree Usted que los cambios efectuados al proceso han reducido el porcentaje de
artculos defectuosos? Use un nivel de confianza del 95%.
Tenemos:
n1 = 200, x1 = 12 p1 = 12/200 = 0.06
n2 = 150, x2 = 6 p2 = 6/150 = 0.04
El intervalo de confianza del 95% para la diferencia entre las fracciones defectuosas antes y despus
de las mejoras realizadas al proceso est dado por:
Como la diferencia de cero est incluida en el intervalo de confianza, concluimos que no tenemos
evidencia para afirmar que los cambios efectuados al proceso contribuyen a reducir el porcentaje de
artculos defectuosos.
Cul hubiera sido la conclusin si las muestras y los resultados hubieran sido los siguientes
(observe que las proporciones defectuosas mustrales son las mismas):
Tenemos:
n1 = 1000, x1 = 60 p1 = 60/1000 = 0.06
n2 = 750, x2 = 30 p2 = 30/750 = 0.04
El intervalo de confianza del 95% est dado por
En este caso, aunque las proporciones mustrales son las mismas, el tener tamaos de muestra
mucho mayores, nos permite concluir que efectivamente los cambios realizados al proceso
redujeron la fraccin defectuosa (1>2).
Problema. Un artculo del New York Times en 1987 report que se puede reducir el riesgo de sufrir
ataques al corazn ingiriendo aspirina. Para llegar a esta conclusin el cronista se bas en los
resultados de un experimento diseado, en donde participaron dos grupos de personas. A un grupo
de 11,034 personas se le suministr una dosis diaria de una pastilla que no contena ninguna droga
(un placebo), y de estos 189 sufrieron posteriormente ataques al corazn, mientras que al otro grupo
de 11,037 se les suministr una aspirina, y slo 104 lo sufrieron.
Considera Usted que el cronista del New York Times estaba en lo correcto? Use un intervalo de
confianza. Haga explcitas las suposiciones que considere necesarias.
30
ESTADISTICA INFERENCIAL I
Vamos a considerar que tenemos dos poblaciones de modo que en cada
Una de ellas estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos
p1 y p2. De cada poblacin vamos a extraer muestras de tamao
n1 y n2
Entonces
Si las muestras son suficientemente grandes ocurre que una aproximacin para un intervalo de
confianza al nivel 1 para la diferencia de proporciones de dos poblaciones es:
31
ESTADISTICA INFERENCIAL I
En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de
valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con
una probabilidad determinada.
Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente propiedad
de la distribucin
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad
``zona central'' de la distribucin:
32
en la
ESTADISTICA INFERENCIAL I
Entonces un intervalo de confianza al nivel
(cuyos parmetros desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad
de que:
Ejemplo:
En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obtenindose en una
muestra de tamao 25 los siguientes valores:
para la varianza
de la ciudad.
Solucin:
Para estimar un intervalo de confianza para
til es:
33
ESTADISTICA INFERENCIAL I
Entonces el intervalo de confianza que buscamos lo obtenemos mediante
Percentiles del 2,5% y del 97,5% para la distribucin
Con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales
34
ESTADISTICA INFERENCIAL I
2.4.6 Intervalos de confianza para la relacin de varianzas
Se tienen dos poblaciones normales e independientes con varianzas desconocidas s 1 y s 2,
respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de
tamaos n1 y n2, respectivamente; sean S1 y S2.
Las varianzas mustrales respectivas. Para hallar el intervalo de confianza del 100(1-a) % para el
cociente de dos varianzas sabemos que la siguiente relacin tiene una distribucin muestral F con
n11 y n21 grados de libertad.
Usando el hecho de que obtenemos el siguiente intervalo de confianza para la relacin de dos
varianzas.
Se tienen dos poblaciones normales e independientes con varianzas desconocidas s1 y s2,
respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de
tamaos n1 y n2, respectivamente; sean S1 y S2 las varianzas mustrales respectivas. Para hallar el
intervalo de confianza del 100(1-a) % para el cociente de dos varianzas sabemos que la siguiente
relacin tiene una distribucin muestral F con n11 y n21 grados de libertad.
Si X1, X2, Xn es una muestra aleatoria de tamao n tomada de una poblacin normal, y si S es la
varianza muestral, entonces S es un estimador puntual razonable de la varianza poblacional s. Por
otra parte, si la poblacin es normal, la distribucin muestral de la siguiente variable es una
distribucin ji-cuadrado con n-1 grados de libertad. Por lo tanto, para obtener un intervalo de
confianza del 100(1-a) % para la varianza s2 nos basamos en el estadstico S y en la distribucin chi
cuadrado.
35
ESTADISTICA INFERENCIAL I
otra parte, si la poblacin es normal, la distribucin muestral de la siguiente variable es una
distribucin ji-cuadrado con n-1 grados de libertad.
Por lo tanto, para obtener un intervalo de confianza del 100(1-a)% para la varianza s2 nos basamos
en el estadstico S y en la distribucin chi cuadrado.
Ejemplo:
Un proceso produce cierta clase de cojinetes de bola cuyo dimetro interior es de 3 cm. Se
seleccionan en forma aleatoria 12 de estos cojinetes y se miden sus dimetros interiores, y los
valores resultantes son los siguientes: 3.01, 3.05, 2.99, 2.99, 3.02, 3.00, 2.98, 2.99, 2.97, 2.97, 3.02
y 3.01. Suponiendo que el dimetro es una variable aleatoria normal, determine un intervalo de
confianza para la varianza poblacional. Use un intervalo de confianza del 99%.
Solucin.
En el intervalo de confianza para la varianza, el punto medio del intervalo (0.001266) no coincide
con el estimador puntual, debido a la no simetra de la distribucin chi cuadrado.
36
ESTADISTICA INFERENCIAL I
37
ESTADISTICA INFERENCIAL I
2.5.1 Basado en la media de la Poblacin
Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo
aleatorio simple. Para ello es
seguir
son:
Dnde:
: z correspondiente al nivel de confianza elegido
: varianza poblacional
e: error mximo
2.-Comprobar si se cumple
si esta condicin se cumple el proceso termina aqu, y ese es el tamao adecuado que debemos
muestrear.
Si no se cumple, pasamos a una tercera fase:
3.- Obtener el tamao de la muestra segn la siguiente frmula:
38
ESTADISTICA INFERENCIAL I
nivel de confianza de 0.95 y estando dispuestos a admitir un error mximo de 0,1, cul debe ser el
tamao muestral que empleemos?.
Donde:
: z correspondiente al nivel de confianza elegido
P: proporcin de una categora de la variable
e: error mximo
N: tamao de la poblacin
39
ESTADISTICA INFERENCIAL I
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la
proporcin de mujeres que trabajan diariamente 10 horas o ms. De un estudio piloto se dedujo que
P=0.30, fijamos el nivel de confianza en 0.95 y el error mximo 0.02.
Si conoces el valor del error muestral y la confianza de estimacin, adems de las varianzas
estimadas entonces resulta algo ms leve el trabajo
E = Z [( 1/n1) + ( 2/n2)]
Hay dos casos, si n1=n2=n o si n1 es diferente a n2 ( n= n1 = k n2)
Luego se despeja el "n" que es el tamao de la muestra pedido
Si en caso son del mismo tamao sera as:
n = Z ( 1 + 2) / E
Previamente debers conocer el error de estima E y la Z mediante la confianza, si no conoces las
desviaciones poblacionales puedes estimarla con las mustrales.
40
ESTADISTICA INFERENCIAL I
2.5.3 Basado en la diferencia entre las medias de la Poblacin
41
ESTADISTICA INFERENCIAL I
42
ESTADISTICA INFERENCIAL I
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en la
distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no se puede
rechazar) de la regin de rechazo. A hora bien el valor crtico depende del tamao de la regin de
rechazo.
Mtodo de seis pasos de la prueba de hiptesis.
1. Prepare la hiptesis nula, y la hiptesis alternativa . 2. Seleccione el nivel de significancia
, y el tamao de la muestra n. el nivel de significancia se especifica de acuerdo con la
importancia relativa de los riesgos de cometer errores de tipo I y tipo II en el problema. 3.
Determine el estadstico de prueba y la distribucin muestral apropiados. 4. Determine los
valores crticos que dividen las zonas de rechazo y aceptacin. 5. Recopile los datos y
calcule el valor del estadstico de prueba. 6. Tome la decisin estadstica y establezca la
conclusin administrativa que se escribe en el contexto de problema real.
3.2 Confiabilidad y significancia
El propsito de la prueba de hiptesis no es cuestionar el valor calculado de la estadstica de
muestra, sino hacer un juicio respecto a la diferencia entre esa estadstica de muestra y un parmetro
de poblacin hipotetizado. El siguiente paso despus de establecer la hiptesis nula alternativa
consiste en decidir qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula.
Si suponemos que la hiptesis es correcta, entonces el nivel de significancia indicar el porcentaje
de medias de muestra que est fuera de ciertos lmites.
Siempre que afirmemos que aceptamos la hiptesis nula, en realidad lo que queremos decir es que
no hay suficiente evidencia estadstica para rechazarla. El empleo del trmino aceptar, en lugar de
rechazar, se ha vuelto de uso comn. Significa simplemente que cuando los datos de la muestra n
hacen que rechacemos una hiptesis nula, nos comportamos como si fuera cierta.
Seleccin del nivel de significancia.
Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de significancia,
es tambin el riesgo que asumimos al rechazar una hiptesis nula cuando es cierta. Mientras ms
alto sea el nivel de significancia que utilizamos para probar una hiptesis, mayor ser la
probabilidad de rechazar una hiptesis nula cuando es cierta.
Nivel de significancia: Probabilidad de rechazar la hiptesis nula cuando es verdadera. Se le denota
mediante la letra griega , tambin es denominada como nivel de riesgo, este trmino es ms
adecuado ya que se corre el riesgo de rechazar la hiptesis nula, cuando en realidad es verdadera.
Este nivel est bajo el control de la persona que realiza la prueba.
43
ESTADISTICA INFERENCIAL I
Si suponemos que la hiptesis planteada es verdadera, entonces, el nivel de significacin indicar la
probabilidad de no aceptarla, es decir, estn fuera de rea de aceptacin. El nivel de confianza (1-),
indica la probabilidad de aceptar la hiptesis planteada, cuando es verdadera en la poblacin.
Ejemplo:
Para un nivel de confianza del 88%,
1- = 0.88
= 0.12
/2 = 0.06
Z / 2 = Z 0.06
44
ESTADISTICA INFERENCIAL I
P(Z Z 0.06) =0.94 (1-/2)
Z(0.94)=1.56
Para un nivel de confianza del 98%,
1-=0.98
=0.02
/2=0.01
Z / 2 = Z 0.01
P(Z Z 0.01) =0.99 (1-/2)
Z(0.99)=2.35
E l n i ve l d e co n f i a n za e s l a pr o b ab i l i da d d e q u e el p a r me t r o a e s t i ma r s e
e n c u e nt r e e n e l i nt e r va l o de c o nf i a n za .
E l n i ve l d e c o nf i an za ( p) se d es i gn a me d i a nt e 1 , y s e s u el e t o ma r en
t a nt o p or c i e n t o .
L o s n i ve l e s d e c o nf i an za m s u s u a l e s s o n: 9 0 % ; 9 5% y 9 9 % .
E l n i ve l d e si gn i f i c aci n se d e si gn a me d i a nt e .
E l va l o r c r t i c o ( k) c omo z
P ( Z> z
/2)
= /2
/2
P[ - z
/2
< z < z
1 -
/2
0.90
0.05
1.645
0.95
0.025
1.96
0.99
0.005
2.575
/2]
= 1 -
/2
E n u n a d i s t r i bu c i n N ( , ) e l i n t e r va l o c a r ac t e r s t i c o c o r r e sp o n d i en t e a
u n a p r o b a bi l i d a d p = 1 - e s :
( - Z
/2
, + z
45
/2
ESTADISTICA INFERENCIAL I
Ejemplo:
L a me d i a d e l a s e s t at u r a s d e u n a mu e s t r a a l e at or i a d e 4 0 0 p er so n a s d e u na
c i u d ad e s 1 , 7 5 m. S e s a b e q u e l a e s t a t ur a d e l a s p er s on a s d e esa c i u d ad e s
u n a va r i a bl e a l e at o r i a q u e s i gu e u n a d i s t r i b u ci n n o r ma l c o n va r i a n za 2 =
0,16 m2.
C o n s t r u ye u n i nt e r va l o , de u n 9 5% d e c o n f i a n za , p ar a l a me d i a d e l as
e s t at ur a s d e l a p o bl a ci n .
n = 400
= 0.4
x = 1. 7 5
1- = 0.95
( 1 . 7 5 1 . 9 6 0 . 4/ 2 0)
/2
= 1.96
( 1 . 7 1 0 8 , 1 . 7 89 2 )
46
ESTADISTICA INFERENCIAL I
Para que cualquier ensayo de hiptesis sea bueno, debe disearse de forma que minimice los errores
de decisin. En la prctica un tipo de error puede tener ms importancia que el otro, y as se tiene a
conseguir poner una limitacin al error de mayor importancia. La nica forma de reducir ambos
tipos de errores es incrementar el tamao de la muestra, lo cual puede ser o no ser posible.
La probabilidad de cometer un error de tipo II denotada con la letra griega beta , depende de la
diferencia entre los valores supuesto y real del parmetro de la poblacin. Como es ms fcil
encontrar diferencias grandes, si la diferencia entre la estadstica de muestra y el correspondiente
parmetro de poblacin es grande, la probabilidad de cometer un error de tipo II, probablemente sea
pequea.
El estudio y las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado
exclusivamente en el anlisis de una parte de sta. De la probabilidad con la que estemos dispuestos
a asumir estos errores, depender, por ejemplo, el tamao de la muestra requerida. Las
contrastaciones se apoyan en que los datos de partida siguen una distribucin normal
Existe una relacin inversa entre la magnitud de los errores y : conforme a aumenta,
disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadsticas. Lo ideal
sera establecer y . En la prctica se establece el nivel y para disminuir el Error se incrementa
el nmero de observaciones en la muestra, pues as se acortan los lmites de confianza respecto a la
hiptesis planteada. La meta de las pruebas estadsticas es rechazar la hiptesis planteada. En otras
palabras, es deseable aumentar cuando sta es verdadera, o sea, incrementar lo que se llama poder
47
ESTADISTICA INFERENCIAL I
de la prueba (1- ) La aceptacin de la hiptesis planteada debe interpretarse como que la
informacin aleatoria de la muestra disponible no permite detectar la falsedad de esta hiptesis.
El rechazo de una hiptesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que
es tambin el nivel de significancia) se simboliza como . El hecho de aceptar una hiptesis nula
cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como . La
probabilidad de cometer un tipo de error puede reducirse slo si deseamos incrementar la
probabilidad de cometer el otro tipo de error. Con el propsito de obtener una baja, tendremos que
tolerar una alta. Los responsables de la toma de decisiones deciden el nivel de significancia
adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores.
3.4 Potencia de la prueba
El complemento (1-) de la probabilidad de cometer un error del tipo II se conoce como potencia de
una prueba estadstica. La potencia de una prueba es la probabilidad de rechazar la hiptesis nula
cuando de hecho esta es falsa y debera ser rechazada. Una manera en que podemos controlar la
probabilidad de cometer un error del tipo II en un estudio, consiste en aumentar el tamao de la
muestra. Tamaos ms grandes de muestra, nos permitirn detectar diferencias incluso muy
pequeas entre las estadsticas de muestra y los parmetros de la poblacin. Cuando se disminuye
, aumentar de modo que una reduccin en el riesgo de cometer un error de tipo I tendr como
resultado un aumento en el riesgo de cometer un error tipo II. Prueba de hiptesis Z para la media
(desvo de la poblacin conocido) El estadstico de prueba a utilizar es:
La Potencia de una prueba representa la probabilidad de que la hiptesis nula no sea rechazada
cuando de hecho es falsa y debera rechazrsele. La potencia de prueba 1- representa la
sensibilidad de la prueba estadstica para detectar cambios que se presentan al medir la probabilidad
de rechazar la hiptesis nula cuando de hecho es falsa y debera ser rechazada. La potencia de
prueba estadstica depende de qu tan diferente en realidad es la media verdadera de la poblacin
del valor supuesto. Una prueba de un extremo es ms poderosa que una de dos extremos, y se
debera utilizar siempre que sea adecuado especificar la direccin de la hiptesis alternativa. Puesto
que la probabilidad de cometer un error tipo I y la probabilidad de cometer un error tipo II tienen
una relacin inversa y esta ltima es el complemento de la potencia de prueba (1-), entonces y la
potencia de la prueba varan en proporcin directa. Un aumento en el valor del nivel de
significacin escogido, tendra como resultado un aumento en la potencia y una disminucin en
tendra como resultado una disminucin en la potencia. Un aumento en el tamao de la muestra
48
ESTADISTICA INFERENCIAL I
escogida tendra como resultado un aumento en la potencia de la prueba, una disminucin en el
tamao de la muestra seleccionada tendra como resultado una disminucin en la potencia.
Ejemplo:
Se realizan controles de calidad y de eficacia de vacunas contra herpes virus bovino-1 (HVB-1)
aplicando un novedoso modelo de anlisis que incluye una etapa de estudio en ratones y otra
posterior en bovinos. En la segunda etapa se le aplica la vacuna a un grupo de bovinos. Ms tarde se
lo desafa con el herpes virus infeccioso, bajo estrictas normas de seguridad, para evaluar si la
vacuna ha resultado protectiva. Este mtodo se denomina prueba de potencia, y ya ha sido
realizado con xito para la empresa farmacutica Biognesis para controlar vacunas de serie contra
HVB-1. El servicio a esta empresa en particular contina en la actualidad. Potencia de la prueba La
potencia de una prueba es la probabilidad de rechazar la hiptesis nula cuando sta sea falsa. Se
suele simbolizar como 1-. Se suele considerar OK una potencia de al menos 080 (es decir,
asumiendo 100 experimentos en que hay un efecto real, lo detectaramos -en promedio- 80 veces.)
La potencia de una prueba aumenta cuando aumentamos el tamao muestral. (Por ejemplo, en la
prueba t para la diferencia de medias, ello se observa por cuanto n incrementa el valor de la t
emprica.) La potencia de una prueba aumenta cuando el tamao del efecto aumenta. (Por ejemplo,
en la prueba t para la diferencia de medias, cuanto mayor sea la diferencia de medias, mayor ser el
valor de la t emprica.) La potencia de una prueba disminuye cuando reducimos la probabilidad de
error de tipo I (alpha o ). Es decir, si alpha es de 001 en lugar de 005, los valores crticos (v.g., las
t tericas en el caso de la prueba de diferencia de medias) son algo ms extremos y necesitaremos
un valor del estadstico de contraste (v.g., t emprica) mayor para rechazar la hiptesis nula.
Potencia de la prueba Hay frmulas estadsticas (y programas en la internet) que permiten
determinar la potencia de una prueba dado cierto tamao muestral, y la inversa, es decir, determinar
el tamao muestral para una potencia dada. (Claro, que hemos de ser precavidos: para obtener tales
valores necesitamos indicar lo que pensamos que sern los parmetros poblacionalesalgo que en
realidad no sabemos.
3.5 Formulacin de Hiptesis estadsticas
Despus de que el PON se ha definido y precisado, el siguiente paso en el proceso de investigacin
es establecer la hiptesis de investigacin. En trminos generales el trmino hiptesis se define
como una respuesta probable de carcter tentativo a un problema de investigacin y que es factible
de verificacin emprica. La hiptesis expresa la relacin entre dos o ms variables que son
49
ESTADISTICA INFERENCIAL I
susceptibles de medicin. Una hiptesis planteada correctamente debe poderse verificar o contrastar
contra la evidencia emprica.
Lo que se somete a comprobacin no es exactamente la hiptesis ni las variables que la integran,
sino la relacin que expresan entre s las variables estudiadas en la investigacin. De acuerdo con
Zorrilla (1985) una hiptesis se estructura con tres elementos:
a) Unidades de Anlisis. Tambin conocidas como unidades de observacin y representan el objeto
de estudio, son ejemplos, las personas, las empresas, los movimientos sociales, los fenmenos
naturales, etc. que se someten a investigacin.
b) Las Variables. Que son los atributos, caractersticas o propiedades que presentan las unidades de
anlisis y que sern sometidas a medicin.
c) Enlace Lgico. Son trminos de relacin o enlace entre las unidades de anlisis y las variables,
por ejemplo, las expresiones: sientonces, existe relacin entreyetc.
De acuerdo con Kerlinger (1983) las hiptesis deben cubrir dos requisitos:
a) Expresar la relacin entre una variable y otra.
b) Indicar la necesidad de verificar la relacin entre las variables
Si no se cumplen ambos requisitos no se tiene una verdadera hiptesis cientfica. La hiptesis es
importante porque ayuda a darle una direccin a la investigacin, adems es tambin una prediccin
que puede ser probada y que se deriva lgicamente del problema de investigacin. De acuerdo con
Therese L. Baker (1997) si el objetivo del estudio es una explicacin entonces una pregunta de
investigacin puede ser la base para formular una o ms hiptesis.
La abundante literatura existente sobre metodologa de la investigacin, describe una gran variedad
de tipos de hiptesis, no obstante, en la presente seccin nicamente se explicarn las siguientes:
hiptesis de investigacin, hiptesis de nulidad, hiptesis alternativa e hiptesis estadstica.
50
ESTADISTICA INFERENCIAL I
Los productos de consumo domstico en Mxico aumentarn un 18 % en los prximos seis meses.
a2) Hiptesis Correlacionar. La palabra correlacin es un trmino estadstico que expresa una
posible asociacin o relacin entre dos o ms variables, sin que sea importante el orden de
presentacin de las variables, ya que no expresan una relacin de causalidad. Para verificarlas se
utilizan pruebas estadsticas de correlacin.
Son ejemplos de hiptesis correlacionar los siguientes:
A mayor apreciacin del dlar norteamericano, mayor depreciacin del peso mexicano.
El volumen de importaciones en Mxico disminuye con el aumento en el tipo de cambio peso-dlar.
a3) Hiptesis de Causalidad. Las hiptesis de causalidad se formulan para investigaciones
experimentales. Expresan una relacin de causa-efecto entre las variables que se someten a estudio.
Una hiptesis de causalidad puede expresar una relacin causal entre una variable independiente y
una variable dependiente, o bien, puede hacerlo entre ms de una variable independiente y una
variable dependiente. Son ejemplos de hiptesis de causalidad: El elevado ndice de inflacin en
Mxico es causa del bajo poder adquisitivo del peso mexicano.
Los factores de productividad total (insumo humano, materia prima, energa, capital y otros gastos)
del sector manufacturero mexicano son los determinantes de la productividad total.
b) Hiptesis de Nulidad. Este tipo de hiptesis expresa la ausencia de relacin, diferencia,
causalidad, etc. entre dos o ms variables. De acuerdo con DAry, Jacobs y Razavieh (1982) la
hiptesis de nulidad permite comparar los descubrimientos con las expectativas mediante
mtodos estadsticos, (p. 85). Son ejemplos de hiptesis de nulidad:
La oferta de carreras profesionales del Instituto Tecnolgico de Cd.
Cuauhtmoc no satisface la demanda de formacin acadmica profesional de los egresados de nivel
medio superior en la regin.
La tecnologa de punta no representa una ventaja competitiva definitiva de la empresa A al
disminuir sus costos de produccin y hacer mas eficientes los procesos productivos.
c) Hiptesis Estadsticas. Una hiptesis estadstica expresa en trminos o smbolos estadsticos los
anteriores tipos de hiptesis. Se pueden expresar en trminos de:
c1) Estadsticas de Estimacin. Diseadas para evaluar la suposicin respecto al valor de alguna
caracterstica de una muestra de individuos o unidades de anlisis.
c2) Estadsticas de Correlacin. Traduce o transforma una situacin de correlacin entre dos o ms
variables a la simbologa estadstica
Propia de las pruebas estadsticas de correlacin.
c3) Estadsticas de la Diferencia de Medias u otros Valores. En este tipo de hiptesis se compara
una estadstica entre dos o ms grupos.
51
ESTADISTICA INFERENCIAL I
Es un ejemplo de hiptesis estadstica la siguiente:
La hiptesis No hay relacin entre el aprendizaje (mayor cantidad de impresiones por hora) y el
costo por unidad impresa en la compaa Ediciones Tarahumara, se expresa como una hiptesis
estadstica de la siguiente manera:
Hiptesis nula: Ho: rxy = 0 (no hay relacin entre)
Hiptesis alternativa: H1: rxy 0 (existe relacin entre)
3.6 Prueba de hiptesis para la media
Cuando se van a realizar pruebas de hiptesis relativas a la media poblacional m se debe saber si la
varianza poblacional s es conocida o desconocida, ya que la distribucin subyacente al estadstico
de prueba ser la normal estndar si la varianza es conocida, y la distribucin t en caso contrario.
Las diferentes hiptesis que se pueden presentar son las siguientes:
1) Ho: m = m0 H1: m > m0
2) Ho: m = m0 H1: m < m0
3) Ho: m = m0 H1: m m0
Las pruebas de hiptesis para la media se basan en el estadstico dado por la media muestral cuya
distribucin tiende a la distribucin normal (m, s
/n) para muestras grandes.
Prueba de hiptesis para la media con varianza conocida
Cuando la varianza s es conocida, las pruebas de hiptesis se basan en el hecho de que la variable
aleatoria Z definida como , se distribuye normalmente con media cero y varianza unitaria.
Para el caso de las hiptesis Ho: m = m0 contra H1: m > m0 vimos, al analizar las mejores pruebas,
que la mejor regin crtica de tamao a consista en rechazar H0 si la media muestral era mayor o
igual que una constante c dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores
x1, x2,, xn.
Y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c, donde. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si
Z Za. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin normal
estndar a la derecha del valor Z calculado, y rechace Ho: m = m0 si P < a.
Para el caso de las hiptesis Ho: m = m0 contra H1: m < m0 la mejor regin crtica de tamao a
consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por. Por lo
tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calcula la media muestral,
y los criterios de decisin sera los siguientes:
52
ESTADISTICA INFERENCIAL I
a) Rechace Ho: m = m0 si c, donde . b) Calcule el estadstico de prueba y rechace Ho: m = m0
si Z Z1-a. Como Za = -Z1-a se rechaza Ho si Z -Za o equivalentemente, si Z Z a. c) Calcule
el estadstico de prueba y estime P como el rea en la distribucin normal estndar a la izquierda
del valor Z calculado, y rechace Ho: m = m0 si P < a.
Por ltimo, si las hiptesis fueran Ho: m = m0 contra H1: m m0 la mejor regin crtica de tamao
a (aunque no es uniformemente ms potente como en el caso de las dos anteriores) consiste en
rechazar H0 si la media muestral es menor o igual que una constante c1 mayor igual que otra
constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se
calcula la media muestral, y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c1 c2, donde y . b) Calcule el estadstico de prueba y
rechace Ho: m = m0 si Z -Za/2 Z Za/2, simplemente, si Z Z a/2. c) Calcule el
estadstico de prueba y estime P como el rea en la distribucin normal estndar a la
izquierda del valor Z calculado si Z es negativo, o a la derecha del valor de Z si Z es
positivo, y rechace Ho: m = m0 si P < a. Tambin P se puede calcular como el rea a
derecha del valor absoluto de Z.
Ejemplo:
Un inspector de pesos y medidas visita una planta de empacado para verificar que el peso neto de
las cajas sea el indicado en la etiqueta. El gerente de la planta asegura al inspector que el peso
promedio de cada caja es de 750 gramos con una desviacin estndar de 5 gr. El inspector
selecciona, al azar, 100 cajas y encuentra que el peso promedio es de 748 gr. Bajo estas condiciones
y usando un nivel de significancia de 0.05, Qu actitud debe tomar el inspector?
Solucin. Este problema lo podemos plantear como una prueba de hiptesis del siguiente tipo:
1) Ho: m = m0 = 750 H1: m < m0 (hay preocupacin si el peso medio es inferior al especificado)
Con n = 100, a = 0.05, s = 5 gramos. Se tiene que Z0.05 = 1.645. Por lo tanto, la regin crtica est
dada por = 750 - 1.645 x 5/10 =749.18. Por lo tanto como la media muestral es 748 gramos, se
rechaza la hiptesis de que el promedio de cada caja sea 750 gramos. Por lo tanto, deben tomarse
las medias necesarias para corregir esta situacin, que va en contra de los intereses del consumidor.
Usando los otros criterios de aceptacin tenemos que Z = - 4.0 y el valor P es aproximadamente
cero (P = 0.0).
Prueba de hiptesis para la media con varianza desconocida
Cuando la varianza s no es conocida, las pruebas de hiptesis se basan en el hecho de que la
variable aleatoria T definida como tiene una distribucin t con n-1 grados de libertad. Por lo tanto,
53
ESTADISTICA INFERENCIAL I
al analizar los diferentes casos presentados anteriormente para las pruebas de hiptesis con respecto
a la media, bastar con cambiar la varianza poblacional s por su estimativo muestral S y la
distribucin normal estndar por la distribucin t. En consecuencia los diferentes casos a analizar
sern los siguientes:
Si tenemos las hiptesis Ho: m = m0 contra H1: m > m0 la mejor regin crtica de tamao a
consiste en rechazar H0 si la media muestral es mayor o igual que la constante c, que en este caso
est dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se
calculan la media muestral y la varianza muestral s dados por:
, y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c, donde. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si
T tn - 1, a. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin t a la
derecha del valor T calculado, y rechace Ho: m = m0 si P < a.
Para el caso de las hiptesis Ho: m = m0 contra H1: m < m0 la mejor regin crtica de tamao a
consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por. Por lo
tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calculan la media
muestral y la varianza muestral S, y los criterios de decisin sera los siguientes:
a) Rechace Ho: m = m0 si c, donde.
b) Calcule el estadstico de prueba y rechace Ho: m = m0 si T tn - 1, a.
c) Calcule el estadstico de prueba y estime P como el rea en la distribucin t a la izquierda del
valor T calculado, y rechace Ho: m = m0 si P < a.
Por ltimo, si las hiptesis fueran Ho: m = m0 contra H1: m m0 la mejor regin crtica de tamao
a (aunque no es uniformemente ms potente como en el caso de las dos anteriores) consiste en
rechazar H0 si la media muestral es menor o igual que una constante c1 mayor igual que otra
constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se
calcula la media muestral, y los criterios de decisin seran los siguientes:
a) Rechace Ho: m = m0 si c1 c2, donde y. b) Calcule el estadstico de prueba y rechace Ho: m
= m0 si T tn - 1, a/2. c) Calcule el estadstico de prueba y estime P como el rea en la
distribucin t a la izquierda del valor T calculado si T es negativo, o a la derecha del valor de T si T
es positivo, y rechace Ho: m = m0 si P < a. Tambin P se puede calcular como el rea a derecha del
valor absoluto de T.
54
ESTADISTICA INFERENCIAL I
3.7 Prueba de hiptesis para la diferencia de medias
Prueba de hiptesis para la diferencia de medias. Supongamos que se toma una muestra aleatoria de
n1 de la primera poblacin y una muestra aleatoria de n2, y los datos recolectados provienen de una
variable numrica. En la primera poblacin, la media se representa con el smbolo y la desviacin
estndar con el smbolo: en la segunda poblacin, la media se representa con el smbolo y la
desviacin estndar con el smbolo. El estadstico de prueba usado para determinar la diferencia
entre dos medias poblacionales se basa en la diferencia entre las medias de muestras. Si se supone
que las muestras son aleatorias y seleccionadas independientemente de las poblaciones que estn
distribuidas de forma normal, este estadstico seguir la distribucin normal estandarizada. Si las
poblaciones no estn distribuidas de forma normal, la prueba Z sigue siendo la adecuada si las
muestras son lo suficientemente grandes (generalmente n1 y n2 30. La siguiente ecuacin define la
prueba Z para la diferencia entre dos medias.
3.8 Prueba de hiptesis para la proporcin
Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma utilizada
cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso.
Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situacin particular.
La proporcin de una poblacin
Las hiptesis se enuncian de manera similar al caso de la media.
Ho: p = p0
H1: p p0
Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o unilateral), lo
cual puedes fcilmente hacerlo auxilindote de la tabla 4.4.1.
En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo abordaremos por ser
complicado y poco frecuente su uso.
Diferencia entre las proporciones de dos poblaciones
La situacin ms frecuente es suponer que existen diferencias entre las proporciones de dos
poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso de las medias:
Ho: p1 = p2 p1 - p2 = 0
H1: p1 p2
Puede la hiptesis alternativa enunciarse unilateralmente.
Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las muestras 1 y 2
respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p
55
ESTADISTICA INFERENCIAL I
conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y
as se obtiene la varianza conjunta. Recuerda que q = 1-p.
Est de ms que te diga que este estadgrafo se distribuye normal estndar.
La regla de decisin se determina de manera similar a los casos ya vistos anteriormente.
El objetivo de la prueba es comparar estas dos proporciones, como estimadores
H1: p1 p2
Recuerda que la H1 tambin puede plantearse de forma unilateral.
Pruebas de hiptesis para proporciones
En el caso de proporciones se mostrara mediante un ejemplo como realizar pruebas de hiptesis
para muestras grandes (mayores a 30 elementos).
Ejemplo:
El dueo de un caf desea saber si la proporcin de mujeres que entran a su negocio es igual al
60%. Para hacer lo anterior se realiza un muestreo aleatorio de 40 personas, dando un promedio de
la muestra de 58%.
Paso 1. Determinar la hiptesis Nula Ho y Alternativa Ha.
Ho: La cantidad de mujeres que entra al negocio es del 60%.
Ha: La cantidad de mujeres que entran al negocio NO ES del 60%
(El estudiante debe describir la Ha)
Ntese que la hiptesis nula considera IGUAL al 60% por lo tanto es una prueba de hiptesis de dos
colas.
Paso 2. Determinar el nivel de significancia.
Este nivel representa la probabilidad de rechazar una hiptesis nula verdadera, matemticamente se
puede considerar cualquier valor entre cero y uno; pero para estudios de pruebas de hiptesis
normalmente est entre 0.05 y 0.1. Este nivel est determinado por el analista y debe basarse en las
caractersticas del estudio y el riesgo que se considere aceptable de cometer el error tipo I.
Nivel de significancia del estudio para el ejemplo: = 0.1
Grficamente el nivel de significancia se distribuye en la curva de distribucin normal tal como se
muestra en la figura, ntese que en el caso de pruebas de hiptesis de medias, sta se ubica en la
parte media de la distribucin de probabilidad:
56
ESTADISTICA INFERENCIAL I
Dnde:
57
ESTADISTICA INFERENCIAL I
p Proporcin muestral
p Proporcin poblacional (considerado en la hiptesis nula)
q 1- p Inverso de p.
n Nmero de elementos muestreados.
z Valor de Z tipificado
Para el caso del presente ejemplo:
Podr notarse, el estadstico esta dentro de la regin que hace verdadera la hiptesis nula.
Paso 6. Aceptar o rechazar la hiptesis nula.
En este caso como el estadstico de la prueba cae dentro de la regin que hace verdadera la hiptesis
nula, sta se ACEPTA y se toma como falsa la hiptesis alternativa:
Ho: La cantidad de mujeres que entra al negocio es del 60%. (VERDADERO)
Ha: La cantidad de mujeres que entra al negocio NO es del 60%. (FALSO)
58
ESTADISTICA INFERENCIAL I
Dnde:
59
ESTADISTICA INFERENCIAL I
Ejemplo:
Una muestra de 87 mujeres trabajadoras profesionales mostr que la cantidad promedio que pagan a
un fondo de pensin privado el 5% de su sueldo. Una muestra de 76 hombres trabajadores
profesionales muestra que la cantidad que paga a un fondo de pensin privado es el 6.1% de su
sueldo. Un grupo activista de mujeres desea demostrar que las mujeres no pagan tanto como los
hombres en fondos de pensin privados. Si se usa alfa = 0.01 Se confirma lo que el grupo activista
de mujeres desea demostrar o no?
Paso 1. Determinar la hiptesis Nula Ho y Alternativa Ha.
Ntese que este problema es de una cola.
Ho: Lo que pagan las mujeres en el fondo de pensin es igual o mayor a lo que pagan los hombres
(algunos autores solo le colocan igual).
Ha: _______________________________________
(El estudiante debe describir la Ha)
La hiptesis alternativa es lo que las mujeres del grupo activista desea demostrar.
Paso 2. Determinar el nivel de significancia. Definido por el analista, en este caso se desea usar =
0.01
Grficamente el nivel de significancia se distribuye en la curva de distribucin normal tal como se
muestra en la figura:
60
ESTADISTICA INFERENCIAL I
Grficamente queda de la siguiente manera:
Para el caso del presente ejemplo: considerando la poblacin de mujeres como 1 y la de hombres
como 2 tenemos la siguiente sustitucin:
61
ESTADISTICA INFERENCIAL I
62
ESTADISTICA INFERENCIAL I
=k
H1 :
=k
H0 :
H1 :
>k
H1 :
>k
=k
H1 :
H1 :
<k
H1 :
<k
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir
o corregida.
Si se utiliza la varianza sin corregir (
(3.6)
Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):
(3.7)
Regla de decisin
-Si se ha planteado la hiptesis alternativa como:
63
ESTADISTICA INFERENCIAL I
H1 :
k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se
divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se
aprecia en la figura.
<T<
no se rechaza H0.
> k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia
no se rechaza H0 .
64
ESTADISTICA INFERENCIAL I
H1 :
< k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia (
trabajo (T) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual
implica aceptar H1 . Es decir, si T >Z no se rechaza H0.
Ejemplo:
Se supone que los dimetros de cierta marca de vlvulas estn distribudos normalmente con una
varianza poblacional de 0,2 pulgadas 2 , pero se cree que ltimamente ha aumentado. Se toma una
muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose los siguientes
resultados en pulgadas: 5,5
5,4
5,4
5,6
5,8
5,4
5,5
5,4
5,6
5,7
= 0,2
H1 :
> 0,2
Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 9
grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura, el
valor de la estadstica de trabajo se ubica en la zona de no rechazo de la hiptesis nula, por
65
ESTADISTICA INFERENCIAL I
consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional
no ha aumentado.
Excel o Calc
Javascript
Proyecto Descartes
Software Libre
Otros Software
Excel/Calc
La hoja de clculo Excel o Calc (OpenOffice) es un software considerado como estndar en todos
los entornos(educativo, profesional, familiar, etc), que posee la virtud de presentar una interfaz
66
ESTADISTICA INFERENCIAL I
agradable, una facilidad de uso digna de elogio y permite realizar anlisis estadsticos simples o
ms complejos y avanzados.
Javascript
JavaScript, es un lenguaje de programacin de pginas web de lado del cliente, nos permite aadir a
las pginas web efectos y funciones adicionales a los contemplados en el estndar HTML. Gracias a
que se ejecuta en el navegador(localmente), JavaScript, nos permite responder de manera rpida y
eficaz a las acciones del usuario, creando de esta manera aplicaciones interactivas
Applet de Java
El lenguaje Java se puede usar para crear los applets de Java. Un applet es un elemento ms de una
pgina web, como una imagen o una porcin de texto. Cuando el navegador carga la pgina web, el
applet insertado en dicha pgina se carga y se ejecuta.
Proyecto Descartes
Descartes (M.E.C.) es un programa realizado en lenguaje applet de java que se caracterizan porque
crean "escenas" que se pueden insertar en las pginas web. Descartes no slo convierte una web en
una web interactiva sino que, adems, es configurable, es decir, que los usuarios (profesores)
pueden "programarlo" para que aparezcan diferentes elementos y distintos tipos de interaccin.
Software Libre
"Software Libre" es un asunto de libertad, no de precio.`Software Libre'' se refiere a la libertad de
los usuarios para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software.
Ejemplo:
Comprobacin de un estadstico de prueba calculado mediante el Software Minitab que es igual a Z
= 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadstico de prueba calculado
cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el supuesto del Jefe
de la Biblioteca.
One-Sample Z
Test of mu = 350 vs not = 350
The assumed standard deviation = 52.414
N Mean SE Mean 95% CI Z P
30 372.800 9.569 (354.044, 391.556) 2.38 0.017
67
ESTADISTICA INFERENCIAL I
68
ESTADISTICA INFERENCIAL I
UNIDAD 4. PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMTRICAS
4.1 Bondad de ajuste
La bondad de ajuste o coeficiente de determinacin (R2) es una manera de medir la aproximacin
de la recta a la nube de puntos.
R2 puede tomar valores entre 0 y 1 (0 y 100 en trminos de tanto por ciento). Cuanto ms se
aproxime a 1 mejor ser el ajuste a la nube de puntos y ms fuerte ser la relacin entre las variables
que el modelo quiere captar.
No se debe confundir con el coeficiente de Pearson (r).
4.1.1 Anlisis Ji-Cuadrada
En realidad la distribucin ji-cuadrada es la distribucin muestral de s2. O sea que si se extraen
todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se
obtendr la distribucin muestral de varianzas.
Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer el estadstico X 2.
Si se elige una muestra de tamao n de una poblacin normal con varianza
, el estadstico:
tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1 grados de libertad y
se denota X2 (X es la minscula de la letra griega ji). El estadstico ji-cuadrada esta dado por:
la varianza de la poblacin de
donde se extrajo la muestra. El estadstico ji-cuadrada tambin se puede dar con la siguiente
expresin:
69
ESTADISTICA INFERENCIAL I
1. Los valores de X2 son mayores o iguales que 0.
2. La forma de una distribucin X2 depende del gl=n-1. En consecuencia, hay un nmero
infinito de distribuciones X2.
3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1.
4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se extienden a la
derecha; esto es, estn sesgadas a la derecha.
5. Cuando n>2, la media de una distribucin X2 es n-1 y la varianza es 2(n-1).
6. El valor modal de una distribucin X2 se da en el valor (n-3).
La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el valor (n-3) =
(gl-2).
Para x>0
La tabla que se utilizar para estos apuntes es la del libro de probabilidad y estadstica de Walpole,
la cual da valores crticos
70
a o largo del
ESTADISTICA INFERENCIAL I
71
ESTADISTICA INFERENCIAL I
Ejemplo:
Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una
muestra aleatoria simple de 100 jvenes, con los siguientes resultados:
Sin
Con
depresin
depresin
38
31
22
69
31
Deportista
No
deportista
total
47
53
100
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi Cuadrado para 1
grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hiptesis de
independencia de caracteres con un nivel de significacin del 5%, admitiendo por tanto que la
prctica deportiva disminuye el riesgo de depresin.
72
ESTADISTICA INFERENCIAL I
proviene de una determinada distribucin. Las pruebas estadsticas que tratan este problema reciben
el nombre general de Pruebas de Bondad de Ajuste.
Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de
Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan
pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe
entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe
seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias
significativas entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las
siguientes hiptesis
H0: f(x,q) = f0(x,q)
H1: f(x,q) f0(x,q)
Donde f0(x,q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa
siempre se enuncia como que los datos no siguen la distribucin supuesta. Si se desea examinar otra
distribucin especfica, deber realizarse de nuevo la otra prueba suponiendo que la hiptesis nula
es esta nueva distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos por
q puede ser conocido o desconocido. En caso de que los parmetros sean desconocidos, es necesario
estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad.
Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribucin que
siguen los tiempos de falla de unos componentes, podramos pensar en una distribucin
exponencial, o una distribucin gama o una distribucin Weibull, pero en principio no
consideraramos una distribucin normal. Si estamos analizando los caudales de un ro en un
determinado sitio, podramos pensar en una distribucin logartmica normal, pero no en una
distribucin normal.
b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor indicacin del
tipo de distribucin a considerar TEST
un numero finito de valores, si esto no ocurriese los valores de la variable se agrupan en un numero
finito de clases.
1. Hiptesis nula simple
73
ESTADISTICA INFERENCIAL I
Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las clases C1; : :
: ;Ck ,sea Oi = no de individuos de la muestra en la clase
,con la mejor
densidad de Poisson que le queda a los datos. Si la discrepancia entre stos es demasiado grande,
entonces se habla de evidencia en contra del hecho de que f(x) sea Poisson (recuerda que por la Ley
de Poisson).
Hay teora matemtica (llamada mxima verosimilitud) que dice que, en cierto sentido, la mejor
densidad de Poisson que le queda a los datos es aquella que tiene parmetro dado por Es decir, el
con
Cmo comparar entre s las dos funciones y ? Esto es equivalente a comparar entre s
y
(la letra e es por frecuencia ``esperada'' bajo la densidad de Poisson).
Una forma de comparar las ox con las ex es calculando el valor de
La cantidad
74
. Para entenderla
ESTADISTICA INFERENCIAL I
ser pequea (y
en el
La moraleja es que
Se dice que
de x hubo (los valores de C se encuentran calculados por teora estadstica y se anotan en tablas).
Un resultado matemtico establece lo siguiente:
Esto quiere decir que si se obtiene una muestra de X, y se calcula un valor de que resulta demasiado
grande, entonces hay dos posibles explicaciones para ello:
A f(x) es Poisson y tuve buensima suerte, pues me ocurri algo que tena slo probabilidad 5% de
ocurrir
demasiado grande
Asumir la explicacin A es creer que slo la suerte explica las cosas y que la naturaleza nos juega
bromas con cosas poco probables. La explicacin B es mucho ms razonable. La explicacin A es
posible, pero poco probable.
De hecho, se trata exactamente del razonamiento que usamos en las siguientes dos situaciones:
Situacin anloga #1: Suponer que el director de la Lotera Nacional se gan dos veces seguidas el
Premio Mayor. Hay dos posibles explicaciones para ello:
A El Director de la LN tuvo una suerte tremenda, pues le ocurri algo que tena slo probabilidad
.0000000004 de ocurrir
B La urna de la LN estuvo intervenida, y por eso ocurri que el Director de la LN gan dos veces
seguidas
75
ESTADISTICA INFERENCIAL I
Situacin anloga #2: El mago me adivin la carta que secretamente eleg. Hay dos explicaciones
para ello:
A
El mago tuvo mucha suerte, pues en realidad me la adivin al azar, lo cual tiene slo
Conclusin: si
f(x) no sea de Poisson. La posibilidad de que yo concluya errneamente que f(x) no es de Poisson
cuando realmente s lo sea, es slo del 5%.
52
Mujer
48
13
100
44
TOTAL 87
76
ESTADISTICA INFERENCIAL I
individuos en cada columna vara entre las diversas filas y viceversa, se dice que existe asociacin
entre las dos variables. Si no existe asociacin se dice que ambas variables son independientes.
El grado de asociacin entre dos variables se puede evaluar empleando distintos coeficientes: el ms
simple es el coeficiente phi que se define por = (2 / N) donde 2 se deriva del test de Pearson, y
N es el total de observaciones -el gran total-. puede oscilar entre 0 (que indica que no existe
asociacin entre las variables) e infinito. A diferencia de otras medidas de asociacin, el coeficiente
de Cramer no est acotado.
Ejemplo:
Supngase que la Federal Correction Agency (de Estados Unidos) desea investigar el interrogante
indicado antes: hay diferencia en la readaptacin de la vida civil, de un hombre liberado de una
prisin federal, si regresa a vivir a su ciudad natal o se va a vivir a otra parte? En otras palabras,
existe relacin entre la readaptacin de la vida civil y el lugar de residencia despus de ser liberado
de la prisin?
El primer paso en la prueba de hiptesis es establecer las hiptesis nula y alternativa:
Ho
existe relacin entre la readaptacin a la vida civil y el lugar donde resida la persona
77
ESTADISTICA INFERENCIAL I
Se contaron os registros en cada casilla o celda. Los conteos se muestran la siguiente tabla de
contingencia. En este caso, a la Federal Correction Agency le interesaba determinar si la
readaptacin a la vida civil es contingente o no con respecto al lugar a donde valla a vivir el ex
convicto despus de ser liberado.
78
ESTADISTICA INFERENCIAL I
Ahora se determinara el valor calculado de X2 las frecuencias observadas se presentan en esta
tabla:
79
ESTADISTICA INFERENCIAL I
80
ESTADISTICA INFERENCIAL I
T de Wilcoxon
Mac nemar
Kruskall wallis
Friedman
Q de cichran.
NOMINALES
Una variable esta medida en la escala nominal cuando utilizan nombre para establecer categoras.
Para distinguir los agrupamientos se emplean smbolos, letras e incluso nmeros, aunque estos
ltimos solo cumplen una funcin de carcter simblico y no numrico. Los clculos matemticos
con estos nmeros no tendrn sentido.
ORDINALES
En este nivel se definen varias categoras, pero adems de mostrar un ordenamientos existe una
relacin de mayor o menor que entre ellas. Las etiquetas, smbolos o nmeros asignados si indican
jerarqua, aunque n es posible conocer la magnitud de la diferencia entre cada una de las categoras.
INTERVALO
Esta escala mide las variables de manera numrica. Los nmeros de esta escala permiten establecer
distancias entre dos individuos y las operaciones aritmticas de suma y resta son perfectamente
realizables y significativas, no as la multiplicacin y divisin.
En esta escala el cero es un valor que no indica ausencia de la caracterstica o variable medida, y es
colocado arbitrariamente en algn lugar de la escala.
81
ESTADISTICA INFERENCIAL I
DE RAZON
Es la escala mas fuerte, dado que usa un sistema numerico en el que el cero es un valor que indica
ausencia de la caracteristica que se esta midiendo. Las operaciones aristmeticas de multiplicacion y
division adquieren significacion. La diferencia entre dos valores es importante y de magnitd
definida.
4.2.2 Mtodos estadsticos contra no paramtricos
Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin de los datos
poblacionales. Las pruebas no paramtricas son de uso comn:
1.- Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas, por lo general
llamadas pruebas paramtricas.
2.- Cuando es necesario usar un tamao de muestra pequeo y no es posible verificar que se
cumplan ciertas suposiciones clave.
3.- Cuando se necesita convertir datos cualitativos a informacin til para la toma de decisiones.
Existen muchos casos en los que se recogen datos medidos en una escala nominal u ordinal.
Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos datos se usan de
manera cualitativa.
Las pruebas no paramtricas tienen varias ventajas sobre las pruebas paramtricas:
1.- Por lo general, son fciles de usar y entender.
2.- Eliminan la necesidad de suposiciones restrictivas de las pruebas paramtricas.
3.- Se pueden usar con muestras pequeas.
4.- Se pueden usar con datos cualitativos.
Tambin las pruebas no paramtricas tienen desventajas:
1.- A veces, ignoran, desperdician o pierden informacin.
2.- No son tan eficientes como las paramtricas.
3.- Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa (incurriendo en un error
de tipo II).
Las pruebas no paramtricas son pruebas estadsticas que no hacen suposiciones sobre la
constitucin de los datos de la poblacin.
Por lo general, las pruebas paramtricas son mas poderosas que las pruebas no paramtricas y deben
usarse siempre que sea posible. Es importante observar, que aunque las pruebas no paramtricas no
hacen suposiciones sobre la distribucin de la poblacin que se muestrea, muchas veces se apoyan
en distribuciones mustrales como la normal o la ji cuadrada.
82
ESTADISTICA INFERENCIAL I
4.2.3 Prueba de Kolmogorov Smirnov
Este contraste, que es vlido nicamente para variables continuas, compara la funcin de
distribucin (probabilidad acumulada) terica con la observada, y calcula un valor de discrepancia,
representado habitualmente como D, que corresponde a la discrepancia mxima en valor absoluto
entre la distribucin observada y la distribucin terica, proporcionando asimismo un valor de
probabilidad P, que corresponde, si estamos verificando un ajuste a la distribucin normal, a la
probabilidad de obtener una distribucin que discrepe tanto como la observada si verdaderamente se
hubiera obtenido una muestra aleatoria, de tamao n, de una distribucin normal. Si esa
probabilidad es grande no habr por tanto razones estadsticas para suponer que nuestros datos no
proceden de una distribucin, mientras que si es muy pequea, no ser aceptable suponer ese
modelo probabilstico para los datos.
En estadstica, la prueba de Kolmogrov-Smirnov (tambin prueba K-S) es una prueba no
paramtrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad
entre s.
En el caso de que queramos verificar la normalidad de una distribucin, la prueba de Lilliefors
conlleva algunas mejoras con respecto a la de Kolmogrov-Smirnov; y, en general, el test de
ShapiroWilk o la prueba de Anderson-Darling son alternativas ms potentes.
Conviene tener en cuenta que la prueba Kolmogrov-Smirnov es ms sensible a los valores
cercanos a la mediana que a los extremos de la distribucin. La prueba de Anderson-Darling
proporciona igual sensibilidad con valores extremos.
Estadstico
La distribucin de los datos Fn para n observaciones yi se define como
83
ESTADISTICA INFERENCIAL I
Donde F(x) es la distribucin presentada como hiptesis.
4.2.4 Prueba de Anderson Darling
La prueba de Anderson-Darling es usada para probar si una muestra viene de una distribucin
especifica. Esta prueba es una modificacin de la prueba de Kolmogorov- Smirnov donde se le da
ms peso a las colas de la distribucin que la prueba de Kolmogorov-Smirnov.
En estadstica, la prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de
una muestra provienen de una distribucin especfica. La frmula para el estadstico A determina
si los datos
El estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de
prueba (dependiendo que F se utiliza) para determinar el P-valor.
4.2.5 Prueba de Ryan Joiner
Esta prueba evala la normalidad calculando la correlacin entre sus datos y las puntuaciones
normales de sus datos. Si el coeficiente de correlacin se encuentra cerca de 1, es probable que la
poblacin sea normal.
La estadstica de Ryan-Joiner evala la solidez de esta correlacin; si se encuentra por debajo del
valor crtico apropiado, usted rechazar la hiptesis nula de normalidad en la poblacin. Esta prueba
es similar a la prueba de normalidad de Shapiro-Wilk.
Ejemplo:
Se realiza un experimento para un instrumento electrnico que mide de humedad de un producto
alimenticio.
Las investigaciones toman lecturas del instrumento para valores seleccionando de humedad.
Analice los datos y determine lo siguiente:
a) Grafica de dispersin de datos.
84
ESTADISTICA INFERENCIAL I
b) Determine la ecuacin de la regresin para mnimos cuadrados y realice las operaciones
correspondientes la Y de ajuste de cada uno de los puntos.
c) Vuelva a graficar y elabore la lnea de regresin ajustada.
Datos:
85
ESTADISTICA INFERENCIAL I
Formulas a utilizar:
Procedimiento:
86
ESTADISTICA INFERENCIAL I
Llenado de tabla:
87
ESTADISTICA INFERENCIAL I
Procedimiento:
88
ESTADISTICA INFERENCIAL I
EJEMPLO CON MINITAB
Seleccionamos:
Estadsticas tablas prueba chi - cuadrada
89
ESTADISTICA INFERENCIAL I
Y nos queda as:
90
ESTADISTICA INFERENCIAL I
En escala probabilstica normal se representa en el eje horizontal, para cada valor observado en
nuestros datos, la funcin de distribucin o probabilidad acumulada observada, y en el eje vertical
la prevista por el modelo de distribucin normal. Si el ajuste es bueno, los puntos se deben distribuir
aproximadamente segn una recta a 45. En la imagen vemos que en este ejemplo existe cierta
discrepancia.
En cualquier caso siempre es adecuado efectuar una representacin grfica de tipo histograma de
los datos, y comparar el valor de la media y la mediana, as como evaluar el coeficiente de asimetra
y apuntamiento, adems de llevar a cabo una representacin en escala probabilstica de la
distribucin de probabilidad esperada versus observada, como la de la figura.
En estadstica, el Test de ShapiroWilk, se usa para contrastar la normalidad de un conjunto de
datos. Se plantea como hiptesis nula que una muestra x1, ..., xn proviene de una poblacin
normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk.1Se considera
uno de los test ms potentes para el contraste de normalidad, sobre todo para muestras pequeas
(n<30). El estadstico del test es:
91
ESTADISTICA INFERENCIAL I
Donde
x(i) (con el subndice i entre parntesis) es el nmero que ocupa la i-sima posicin en la
muestra;
Donde
Siendo m1, ..., mn son los valores medios del estadstico ordenado, de variables aleatorias
independientes e identicamente distribuidas, muestreadas de distribuciones normales. V es la matriz
de covarianzas de ese estadstico de orden.
La hiptesis nula se rechazar si W es demasiado pequeo.
92
ESTADISTICA INFERENCIAL I
93
ESTADISTICA INFERENCIAL I
Donde i es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que
iN(0,2) (media cero, varianza constante e igual a un y
con
).
Anlisis
Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se
obtiene:
Derivando respecto a
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin
para ambos parmetros:
94
ESTADISTICA INFERENCIAL I
5.1.1 Prueba de hiptesis en la regresin lineal simple.
Una parte importante al evaluar la adecuacin de un modelo de regresin lineal es la prueba
de hiptesis sobre los parmetros del modelo y la construccin de ciertos intervalos de
confianza.
Supongamos que se desea probar la hiptesis de la pendiente es igual a una constante una
hiptesis apropiada seria.
Ho: 1=0
H1: 10
De modo que ele estadstico T es:
To=1//Sxx
|To|>Talf/2.N-2
N de observacin
Pureza ( y)
.99
90.01
1.02
89.05
1.15
91.43
1.29
93.74
1.46
96.73
1.36
94.45
0.87
87.59
1.23
91.77
1.55
99.42
95
ESTADISTICA INFERENCIAL I
10
1.40
93.65
11
1.19
93.54
12
1.15
92.52
13
0.98
90.56
14
1.01
89.54
15
1.11
89.85
16
1.20
90.39
17
1.26
93.25
18
1.32
93.41
19
1.43
94.98
20
0.95
87.33
Ejemplo:
De los datos de pureza del oxgeno segn la tabla con estos datos se pueden calcular las siguientes
cantidades.
N=20
xy=2214.66
x=23.92
alf =.001
y=1843.21
1=14.97
y=170044.53
Sxx=0.86
x=29.29
=1.17
0=74.20
x =1.21
=92.16
Sxx= x- (x)/20
1= Sxy/Sxx
o= - (B1) (x)
Sxy= xy (x)(y)/20
De modo que el estadstico T es:
To=1//Sxx = 14.97/1.17/0.68=11.41
96
ESTADISTICA INFERENCIAL I
|To|>T alf/2.N-2
11.41>2.88
Como se cumple la funcin:
Ho=0------ R
H10------ A
Puesto que el valor de referencia de T es T.005= 2.88el valor estadstico de la prueba est muy lejos
de la regin critica lo que implica que debe rechazar Ho.
2) Las pruebas de hiptesis y la estimacin de los intervalos requieren que los errores estn
distribuidos de manera normal.
97
ESTADISTICA INFERENCIAL I
Y=Bo+B1X
9.3
11.82
6.15
8.04
8.67
98
ESTADISTICA INFERENCIAL I
10.56
5.52
7.41
9.93
11.19
6.78
95,73
FORMULA
Y= B0 + B1(x)
donde:
* Y: es un valor predicho de la variable dependiente
99
ESTADISTICA INFERENCIAL I
100
ESTADISTICA INFERENCIAL I
5.1.3 Estimacin y prediccin por intervalo en regresin lineal simple
Hay dos objetivos bsicos en el ajuste de un modelo de regresin:
= mt.
Se quiere responder a preguntas del tipo: cul es el gasto medio en material informtico
de las empresas que tienen unos ingresos globales de 300 millones anuales?.
Predecir el valor de la variable respuesta en un individuo de la poblacin en estudio del que se sabe
que X = xt. Esto es, predecir un valor de la variable condicionada Y/X=xt
Se quiere responder a preguntas del tipo: La empresa MEGA tiene unos ingresos anuales de
300 millones, cul ser el gasto en material informtico de esta empresa?.
101
ESTADISTICA INFERENCIAL I
= mt.
2. La varianza es,
3. donde
n
i = 1
de la recta de regresin.
8. La distribucin del estimador
es normal,
102
ESTADISTICA INFERENCIAL I
9.
confianza de mt porque
por su estimador
Al utilizar el modelo de regresin lineal para estimar una media condicionada o predecir una
observacin debe de tenerse en cuenta que el mtodo proporciona resultados aceptables dentro del
rango de valores muestrales de la X (interpolar), aqu est garantizado que 1 < nt < n. Si xt es un
punto muy alejado de (an estando dentro de la nube de observaciones est muy alejado del centro
de la misma) entonces nt 1 y la varianza de
estimaciones con poca precisin (mucha variabilidad). El caso opuesto es que xt = y, por tanto, nt
= n, ahora la varianza de
es
Por otra parte, si se quiere predecir fuera del rango de valores mustrales de X (extrapolar), entonces
xt - puede ser muy grande y, en consecuencia, nt 0, lo que hace que la precisin de la estimacin
de mt sea muy pequea por tener el estimador
funcin
103
ESTADISTICA INFERENCIAL I
Por tanto, la prediccin de Y/X = xt es la misma que la estimacin de mt pero su varianza aumenta ya
que la variabilidad debida a la muestra
variable aleatoria que se quiere predecir
Var(
- yt) =
104
ESTADISTICA INFERENCIAL I
En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los valores de la
variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms
variables explicativas y un trmino aleatorio:
uxbxbxbbykk+++++=...22110
Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los
pronosticados sea mnima, es decir, que se va a minimizar la varianza residual.
Esta ecuacin recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en
vez de recta de regresin tenemos un plano:
105
ESTADISTICA INFERENCIAL I
sexo
X
estatura
X
l_roxto
pie
X
l_brazo
X
a_espald
X
d_crne
peso
o
Y
mujer
158
39
36
68
43
55
43
mujer
152
38
34
66
40
55
45
mujer
168
43
39
72.5
41
54.5
48
mujer
159
40
36
68.5
42
57
49
mujer
158
41
36
68.5
44
57
50
mujer
164
40
36
71
44.5
54
51
mujer
156
41
36
67
36
56
52
mujer
167
44
37
73
41.5
58
52
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto
equivale a estudiar la relacin existente entre este conjunto de variables y la variable peso
En primer lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar
para predecir el peso reciben el nombre de variables independientes o explicativas.
En la prctica deberemos de elegir cuidadosamente qu variables vamos a considerar como
explicativas. Algunos criterios que deben de cumplir sern los siguientes:
106
ESTADISTICA INFERENCIAL I
El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica
diferencia de que aparecen ms variables explicativas:
Modelo de regresin simple:
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles
variables explicativas:
estatura
pie
l_brazo
a_espald
d_craneo
Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por
el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van
a tener las correspondientes unidades de medida.
107
ESTADISTICA INFERENCIAL I
Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov
establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en
el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
t.
Y poder responder a preguntas como la siguiente: cul es el volumen medio de los rboles de
dimetro 10 u. y altura 80 u.?.
Predecir el valor de la variable respuesta en un individuo del que se conoce que
quiere predecir un valor de la variable condicionada Y/ = h.
h.
Esto es, se
Se quiere responder a preguntas como la siguiente: conociendo que un determinado rbol tiene un
dimetro 10 u. y una altura de 80 u. qu volumen se predice para este rbol?
5.2.4 Uso de un software estadstico.
En prctica.
108
ESTADISTICA INFERENCIAL I
5.3 Regresin no lineal.
109
ESTADISTICA INFERENCIAL I
110
ESTADISTICA INFERENCIAL I
111
ESTADISTICA INFERENCIAL I
REFERENCIAS BIBLIOGRAFCAS.
Johnson Richard . Probabilidad y estadstica para ingenieros. Quinta edicin. Editorial Prentice
Hall. Mxico 1997
Levin, Richard. Rubin, David. Estadstica para administradores. Sexta edicin Editorial Prentice
Hall. Mxico 1996
Mendelhall, William. Reinmuth, James. Estadstica para administracin de economa. editorial:
Iberoamrica, Mxico 1978
Montgomery, Douglas C. probabilidad y estadstica para ingeniera. Tercera edicin. Editorial
Continental CECSA. Ao 1993. Pginas 263-278.
Myers. Probabilidad y estadstica para ingenieros. Sexta edicin. Editorial Pearson
Probabilidad y estadistica para ingenieros de Miller y Freund. Richard A. Johnson. 14/11/2011
Quinta Edicin
Stevenson, William. Estadistica para administracin y economa: conceptos y aplicaciones.
Editorial Alfa Omega. Mxico 1981
Triola, Mario F. estadstica. 9 Edicin. Editorial Pearson, Mxico, 2004
Walpole, Ronald E. probabilidad y estadstica para ingenieros. Sexta edicin. Editorial PrenticeHall Iberoamericana. Mxico 1999. Pginas 198-232.
Weimer, Richard. Estadistica. Editorial cecsa. Mxico 2004.
REFERENCIAS ELECTRONICAS
http://esta2.galeon.com/Temas1-3.pdf
http://esta2.galeon.com/Temas1-3.pdf
http://biplot.usal.es/problemas/confianza/INFERENCIA.pdf
https://www.u-cursos.cl/ingenieria/2009/2/MA3401/1/material_docente/bajar?id_material=260765
http://biplot.usal.es/problemas/confianza/INFERENCIA.pdf
http://www.mitecnologico.com/Main/EstadisticaI
http://www.mitecnologico.com/Main/EstadisticaI
http://www.mitecnologico.com/Main/EstadisticaI
http://www.mitecnologico.com/Main/EstadisticaI
http://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Distribuci%C3%B3n_t_de_Student
http://www.mitecnologico.com/Main/EstadisticaI
http://www.itch.edu.mx/academic/industrial/estadistica1/cap01c.html
www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r51656.PDF
112
ESTADISTICA INFERENCIAL I
http://thales.cica.es/rd/Recursos/rd99/ed99-0018-04/MINTCONF.html
www.bioestadistica.uma.es/libro/node104.htm
www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.7/p3.html
http://www.mitecnologico.com/Main/PruebaDeHipotesisIntroduccion
http://www.ditutor.com/inferencia_estadistica/nivel_confianza.html
http://www.mitecnologico.com/Main/PotenciaDeLaPrueba
www.mitecnologico.com/Main/FormulacionHipotesisEstadisticas
http://www.mitecnologico.com/Main/PruebaHipotesisParaMedia
http://www.mitecnologico.com/Main/PruebaDeHipotesisIntroduccion
http://marcelrzm.comxa.com/EstadisticaInf/34PruebaParaProporcion.pdf
http://marcelrzm.comxa.com/EstadisticaInf/37PruebaDeHipotesisParaVarianza.pdf
http://www.estadisticaparatodos.es/software/software.html
http://enciclopedia.us.es/index.php/Bondad_de_ajuste
https://www.itescam.edu.mx/principal/sylabus/fpdb/.../r27622.DOC
http://www.monografias.com/trabajos15/prueba-de-independencia/prueba-deindependencia.shtml#PRINDEPEND
http://www.cimat.mx/~gil/tcj/1999/estadistica/node9.html
http://es.wikipedia.org/wiki/Tabla_de_contingencia
http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf
http://www.seh-lelha.org/noparame.htm
http://www.slideshare.net/freddygarcia/pruebas-no-parametricas-presentation
http://aprendeenlinea.udea.edu.co/lms/moodle/file.php/481/Escala_medicio_internet.pdf
http://es.wikipedia.org/wiki/Prueba_de_Kolmog%C3%B3rov-Smirnov
http://es.wikipedia.org/wiki/Prueba_de_Anderson-Darling
http://es.scribd.com/doc/26816059/Prueba-de-Anderson-Darling
http://www.seh-lelha.org/noparame.htm
http://www.xatakaciencia.com/matematicas/contraste-de-shapiro-wilk
http://www.udc.es/dep/mate/estadistica2/sec6_10.html
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.pdf
http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.pdf
113