Antologia Estadistica I

ESTADISTICA INFERENCIAL I
INSTITUTO TECNOLGICO SUPERIOR DE LERDO
ANTOLOGIA: ESTADISTICA INFERENCIAL I
COMPILADOR:
M.C. CECILIA GUADALUPE PALACIOS.
ASIGNATURA:
ESTADSTICA INFERENCIAL I.
DIVISIN:
INGENIERA INDUSTRIAL PARA MANUFACTURA AUTOMATIZADA.
2 DE DICIEMBRE DE 2011
INDICE
INTRODUCCION .............................................................................................................................. 1
UNIDAD 1. DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO ............................................. 2 1.1 Introduccin a la Estadstica Inferencial ................................................................................... 2 1.2 Muestreo: Introduccin al muestreo y tipos de muestreo ....................................................... 3 1.3 Teorema del lmite central ........................................................................................................ 4 1.4 Distribuciones fundamentales para el muestreo ...................................................................... 5 1.4.1 Distribucin muestral de la media ..................................................................................... 6 1.4.2 Distribucin muestral de la diferencia de medias.............................................................. 6 1.4.3 Distribucin muestral de la proporcin ............................................................................. 8 1.4.4 Distribucin muestral de la diferencia de proporciones .................................................... 9 1.4.5 Distribucin t-student ...................................................................................................... 11 1.4.6 Distribucin muestral de la varianza ................................................................................ 12 1.4.7 Distribucin muestral de la relacin de varianzas ........................................................... 12
UNIDAD 2. ESTIMACION ................................................................................................................... 13 2.1 Introduccin 13 2.2 Caractersticas de un estimador .............................................................................................. 14 2.3 Estimacin puntual .................................................................................................................. 16 2.4 Estimacin por intervalos ........................................................................................................ 18 2.4.1 Intervalo de confianza para la media ............................................................................... 20 2.4.2 Intervalo de confianza para la diferencia de medias ....................................................... 24 2.4.3 Intervalos de confianza para la proporcin...................................................................... 25 2.4.4 Intervalos de confianza para la diferencia de proporciones ............................................ 28 2.4.5 Intervalos de confianza para la varianza .......................................................................... 31 2.4.6 Intervalos de confianza para la relacin de varianzas...................................................... 35
2.5 Determinacin del tamao de muestra .................................................................................. 37 2.5.1 Basado en la media de la Poblacin ................................................................................. 38 2.5.2 Basado en la proporcin de la Poblacin ......................................................................... 39 2.5.3 Basado en la diferencia entre las medias de la Poblacin ............................................... 41
UNIDAD 3. PRUEBA DE HIPOTESIS ................................................................................................... 42 3.1 Introduccin 42 3.2 Confiabilidad y significancia .................................................................................................... 43 3.3 Errores tipo I y tipo II ............................................................................................................... 46 3.4 Potencia de la prueba ............................................................................................................. 48 3.5 Formulacin de Hiptesis estadsticas .................................................................................... 49 3.6 Prueba de hiptesis para la media .......................................................................................... 52 3.7 Prueba de hiptesis para la diferencia de medias .................................................................. 55 3.8 Prueba de hiptesis para la proporcin .................................................................................. 55 3.9 Prueba de hiptesis para la diferencia de proporciones ........................................................ 59 3.10 Prueba de hiptesis para la varianza .................................................................................... 63 3.11 Prueba de hiptesis para la relacin de varianzas. ............................................................... 66 3.12 Uso de software estadstico .................................................................................................. 66
UNIDAD 4. PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMTRICAS ............................ 69 4.1 Bondad de ajuste..................................................................................................................... 69 4.1.1 Anlisis Ji-Cuadrada .......................................................................................................... 69 4.1.2 Prueba de independencia ................................................................................................ 71 4.1.3 Prueba de la bondad del ajuste........................................................................................ 72 4.1.4 Tablas de contingencia ..................................................................................................... 76 4.1.5 Uso del software estadstico. ........................................................................................... 79 4.2 Pruebas no paramtricas ........................................................................................................ 80 4.2.1 Escala de medicin ........................................................................................................... 81 4.2.2 Mtodos estadsticos contra no paramtricos ................................................................ 82 4.2.3 Prueba de Kolmogorov Smirnov.................................................................................... 83 4.2.4 Prueba de Anderson Darling ......................................................................................... 84 4.2.5 Prueba de Ryan Joiner ................................................................................................... 84
4.2.6 Prueba de Shappiro Wilk. .............................................................................................. 90 4.2.7 Aplicaciones del paquete computacional. ....................................................................... 92
UNIDAD 5. REGRESIN LINEAL SIMPLE Y MLTIPLE. ...................................................................... 93 5.1 Regresin Lineal simple. .......................................................................................................... 93 5.1.1 Prueba de hiptesis en la regresin lineal simple. ........................................................... 95 5.1.2 Calidad del ajuste en regresin lineal simple ................................................................... 97 5.1.3 Estimacin y prediccin por intervalo en regresin lineal simple ................................. 101 5.1.4 Uso de software estadstico ........................................................................................... 104 5.2 Regresin lineal mltiple ....................................................................................................... 105 5.2.2 Pruebas de hiptesis en regresin lineal mltiple ......................................................... 108 5.2.3 Intervalos de confianza y prediccin en regresin mltiple .......................................... 108 5.2.4 Uso de un software estadstico. ..................................................................................... 108 5.3 Regresin no lineal. ............................................................................................................... 109
REFERENCIAS BIBLIOGRAFCAS. ..................................................................................................... 112 REFERENCIAS ELECTRONICAS ......................................................................................................... 112
INTRODUCCION
El presente trabajo esta dirigido a los estudiantes del ITSL que cursan la Carrera de Ingeniera Industrial bajo el enfoque de estrategias educativas centradas en el aprendizaje, con el firme propsito de que sirva de gua y q u e c o n las actividades que desarrollaras durante cada unidad, te
permitirn adquirir y reafirmar los conocimientos que competen a l o s contenidos del programa de estudios de la asignatura de Estadstica Inferencial I. Con el desarrollo de los contenidos programticos dentro y fuera del aula, t como participante entusiasta y responsable de tu propio aprendizaje, te permitir comprender los conceptos a n a l i z a d o s y l a aplicacin significativa para resolver problemas de la vida cotidiana.
La meta se lograr con t valiosa participacin porque eres el principal actor de tu propio aprendizaje y que con el apoyo de tu facilitador determinars el xito en t desempeo escolar, familiar y laboral.
UNIDAD 1. DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO
1.1 Introduccin a la Estadstica Inferencial La estadstica inferencial no es ms que un argumento. Un buen argumento hace creble una afirmacin. En nuestro caso, cualquier estudio necesitar, al menos dos argumentos slidos: el estadstico y el relativo al diseo de. Desde este punto de vista, nuestra tarea es poder entender (y calibrar) los argumentos estadsticos y tambin poder construirlos nosotros mismos. La estadstica inferencial es necesaria cuando queremos hacer alguna afirmacin sobre ms elementos de los que vamos a medir. La estadstica inferencial hace que ese salto de la parte al todo se haga de una manera controlada. Aunque nunca nos ofrecer seguridad absoluta, s nos ofrecer una respuesta probabilstica. Esto es importante: la estadstica no decide; slo ofrece elementos para que el investigador o el lector decidan. En muchos casos, distintas personas perciben diferentes conclusiones de los mismos datos. El proceso ser siempre similar. La estadstica dispone de multitud de modelos que estn a nuestra disposicin. Para poder usarlos hemos de formular, en primer lugar, una pregunta en trminos estadsticos. Luego hemos de comprobar que nuestra situacin se ajusta a algn modelo (si no se ajusta no tendra sentido usarlo). Pero si se ajusta, el modelo nos ofrecer una respuesta estadstica a nuestra pregunta estadstica. Es tarea nuestra devolver a la psicologa esa respuesta, llenndola de contenido psicolgico. Cundo es necesaria la estadstica inferencial? Cuando queremos hacer alguna afirmacin sobre ms elementos de los que vamos a medir. La estadstica descriptiva, como indica su nombre, tiene por finalidad describir. As, si queremos estudiar diferentes aspectos de, por ejemplo, un grupo de personas, la estadstica descriptiva nos puede ayudar. Lo primero ser tomar medidas, en todos los miembros del grupo, de esos aspectos o variables para, posteriormente, indagar en lo que nos interese. La estadstica inferencial resulta de aplicar la probabilidad a los estadsticos que ya conocemos por la estadstica descriptiva. Los resultados de esa aplicacin vendrn expresados, pues, en lenguaje probabilstico. Y esto no ayuda precisamente a sentirse cmodo con la estadstica inferencial. Adems de ser matemtica, tiene la fea costumbre de no decir s o no. En lugar de ello, sus respuestas suenan a veces a excusas, eso s, muy diplomticas, como no hay suficiente evidencia
o esa afirmacin es altamente improbable. Pero en lenguaje matemtico. El resultado es quizs extrao, difuso pero preciso; no se decanta pero nos da cuatro decimales: a partir de los datos que me ofrece, la probabilidad de que ocurra eso que usted afirma es 0.23811. Pero aun as nos permite incrementar nuestro conocimiento. Las afirmaciones anteriores pretenden ilustrar algo fundamental: las afirmaciones que nos permite hacer la estadstica inferencial tienen un riesgo, y quien la usa debe saberlo. No es difcil, de todas maneras, porque todas estas afirmaciones estn formuladas en trminos de riesgo, de seguridad e inseguridad: de probabilidad. El azar es, por definicin, lo impredecible. Cmo es posible entonces utilizar lo impredecible para obtener informacin? La clave est en que incluso lo impredecible, para poder serlo, ha de cumplir algunas normas. El conjunto de esas normas, y las tcnicas para extraer informacin del azar, es lo que llamamos probabilidad. No hay nada mgico en el azar; resulta de una sucesin de circunstancias no controlables que lleva a no poder predecir el resultado. Fijmonos en la moneda de toda la vida. Lo que hace que lanzarla sea un experimento aleatorio es que es imposible controlar la fuerza con la que se lanza, los giros que da y los ngulos con que golpea el suelo una y otra vez hasta detenerse2. Basta situar la moneda de canto en una mesa y empujarla deliberadamente en una direccin para que desaparezca el azar. Pero si estando de canto la hacemos girar rpidamente volvemos a disponer de un experimento aleatorio. 1.2 Muestreo: Introduccin al muestreo y tipos de muestreo Para extraer conclusiones de una poblacin a partir de una muestra, es vital que la muestra sea representativa. Hay dos tipos de muestreo: probabilstico (se conoce, o puede calcularse, la probabilidad de cada elemento, por tanto, de cada muestra posible) y no probabilstico (se desconoce o no interesa la probabilidad de cada elemento; el investigador selecciona aquella muestra que considera ms representativa o que le resulta ms fcil). Cuidado: no es que el muestreo no probabilstico no permita generar muestras representativas; lo que ocurre es que no tenemos ninguna informacin sobre el grado de representatividad de la muestra elegida. El muestreo probabilstico puede darse de diferentes formas, segn estemos considerando poblaciones finitas (los votantes de la Comunidad de Madrid, los pacientes con insomnio) o infinitas (los posibles tiempos de reaccin ante una tarea de bsqueda visual), y segn consideremos (en las finitas) un muestreo con o sin reposicin.
El muestreo aleatorio simple se da cuando se cumple la igualdad de distribuciones (cualquier valor tiene la misma probabilidad de salir en cada extraccin) e independencia (la probabilidad de obtener un determinado valor no se modifica por los valores ya obtenidos). Otros tipos de muestreo probabilstico son el m. a. sistemtico, el m. a. estratificado y el m. a. por conglomerados. 1.3 Teorema del lmite central El Teorema del Lmite Central o Teorema Central del Lmite indica que, bajo condiciones muy generales, la distribucin de la suma de variables aleatorias tiende a una distribucin gaussiana cuando la cantidad de variables es muy grande. Existen diferentes versiones del teorema, en funcin de las condiciones utilizadas para asegurar la convergencia. Una de las ms simples establece que es suficiente que las variables que se suman sean independientes, idnticamente distribuidas, con valor esperado y varianza finitas. La aproximacin entre las dos distribuciones es en general mayor en el centro de las mismas que en sus extremos o colas, motivo por el cual se prefiere el nombre Teorema del Lmite Central (central califica al lmite, ms que al teorema). Esta relacin entre la forma de la distribucin de la poblacin y la forma de la distribucin de muestreo se denomina teorema del lmite central, que es tal vez el ms importante de toda la inferencia estadstica. Nos asegura que la distribucin de muestreo de la media se aproxima a la normal al incrementarse el tamao de la muestra. Hay situaciones tericas en las que el teorema del lmite central no se cumple, pero casi nunca se encuentran en la toma de decisiones prctica. Una muestra no tiene que ser muy grande para que la distribucin de muestreo de la media se acerque a la normal. Los estadsticos utilizan la distribucin normal como una aproximacin a la distribucin de muestreo siempre que el tamao de la muestra sea al menos de 30, pero la distribucin de muestreo de la media puede ser casi normal con muestras incluso de la mitad de ese tamao. La importancia del teorema del lmite central es que nos permite usar estadsticas de muestra para hacer inferencias con respecto a los parmetros de poblacin sin saber nada sobre la forma de la distribucin de frecuencias de esa poblacin ms que lo que podamos obtener de la muestra. Lo que hemos visto hasta el momento parece bastante restrictivo ya que hemos supuesto, de entrada, que la distribucin en la poblacin es normal, pero existen muchos casos en los que no es posible suponer distribucin Normal. El siguiente resultado permite trabajar con la normal para la distribucin muestral de medias aunque la poblacin no lo sea, y es conocido como Teorema Central del Lmite.
Sea X1, X2, ... , Xn , una muestra aleatoria de una poblacin X con una distribucin de probabilidad
muestral tiene una distribucin cuando n tiende a infinito. La demostracin del resultado excede los lmites de un curso introductorio. La aproximacin a la distribucin normal es mejor para n grande ya que se trata de una aproximacin y no de una distribucin exacta como en el caso de poblaciones normales. En Estadstica consideramos n grande cuando es mayor de 30. Una consecuencia directa del teorema es que la suma de los valores mustrales sigue una distribucin normal El teorema de De Moivre que se explic en el apartado de la normal puede entenderse tambin como un caso particular del Teorema Central del Lmite. Sea una poblacin en la que se mide una v.a. X con distribucin binomial B(1,p), es decir, toma el valor 1 con probabilidad p y el valor 0 con probabilidad q, tiene una media p y una varianza pq. Una distribucin B(n,p) puede entenderse como la suma de n binomiales B(1,p), luego aplicando el TCL, si n es grande la distribucin B(n,p) se puede aproximar por una normal que tiene como media a np y como varianza npq. 1.4 Distribuciones fundamentales para el muestreo La comprensin del concepto de la distribucin de muestreo es fundamental para el correcto entendimiento de la inferencia estadstica. Una distribucin de la poblacin es la distribucin de la totalidad de las medidas individuales de una poblacin, en tanto que una distribucin muestral es la distribucin de los valores individuales incluidos en una muestra. En contraste con estas distribuciones de medidas individuales, una distribucin de muestreo se refiere a la distribucin de los diferentes valores que una estadstica muestral, o estimador, podra adoptar en muchas muestras del mismo tamao. As, aunque por lo general disponemos nicamente de una muestra aleatoria o subgrupo racional, reconocemos que la estadstica muestral particular que determinamos, como la media o mediana de la muestra, no es exactamente igual al respectivo parmetro de la poblacin. Ms an, el valor de una estadstica muestral variar de una muestra a otra, a causa de la variabilidad del muestreo aleatorio, o error de muestreo. sta es la idea en la que se apoya el concepto de que toda estadstica maestral es de hecho un tipo de variable cuya distribucin de valores est representada por una distribucin de muestreo.
1.4.1 Distribucin muestral de la media Si tenemos una muestra aleatoria de una poblacin N(m,s ), se sabe (Teorema del lmite central) que la fdp de la media muestral es tambin normal con media m y varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena aproximacin con n>30) para poblaciones cualesquiera. Es decir es el error tpico, o error estndar de la media. Cmo usamos esto en nuestro problema de estimacin? 1 problema: No hay tablas para cualquier normal, slo para la normal m=0 y s=1 (la llamada z); pero haciendo la transformacin (llamada tipificacin) una normal de media m y desviacin s se transforma en una z. Llamando za al valor de una variable normal tipificada que deja a su derecha un rea bajo la curva de a, es decir, que la probabilidad que la variable sea mayor que ese valor es a (estos son los valores que ofrece la tabla de la normal) podremos construir intervalos de la forma para los que la probabilidad es 1 - a. Teniendo en cuenta la simetra de la normal y manipulando algebraicamente que tambin se puede escribir o, haciendo nfasis en que es el error estndar de la media, Recurdese que la probabilidad de que m est en este intervalo es 1 - a. A un intervalo de este tipo se le denomina intervalo de confianza con un nivel de confianza del 100(1 - a)%, o nivel de significacin de 100a%. El nivel de confianza habitual es el 95%, en cuyo caso a=0,05 y za /2=1,96. Al valor se le denomina estimacin puntual y se dice que es un estimador de m. Ejemplo: Si de una poblacin normal con varianza 4 se extrae una muestra aleatoria de tamao 20 en la que se calcula se puede decir que m tiene una probabilidad de 0,95 de estar comprendida en el intervalo que sera el intervalo de confianza al 95% para m En general esto es poco til, en los casos en que no se conoce m tampoco suele conocerse s2; en el caso ms realista de s2 desconocida los intervalos de confianza se construyen con la t de Student (otra fdp continua para la que hay tablas) en lugar de la z. o, haciendo nfasis en que es el error estndar estimado de la media, esta manera de construir los intervalos de confianza slo es vlido si la variable es normal. Cuando n es grande (>30) se puede sustituir t por z sin mucho error. 1.4.2 Distribucin muestral de la diferencia de medias Sean X1 y X2 dos variables aleatorias con valores esperados m1 y m2 y varianzas y , respectivamente. Por ejemplo, X1 puede ser la duracin de una batera para carro de una marca, y X2 la duracin de una batera de otra marca diferente. Si los medias m1 y m2 son desconocidas, podramos estar interesados en conocer si ambas bateras tienen la misma duracin media. En forma similar, si las varianzas son desconocidas, podramos estar interesados en saber si son iguales o no.
Para realizar estas inferencias, se pueden someter a pruebas idnticas diferentes bateras, controlando los factores externos, de tal forma que las diferencias se deban exclusivamente a la clase de marca probada. Inicialmente estaremos interesados en verificar si ambas distribuciones tienen la misma media poblacional, es decir si m1 = m2 equivalentemente m1 - m2 = 0. Suponga que es una muestra aleatoria de tamao n1 tomada de una poblacin con media m1 y varianza, es otra muestra aleatoria de tamao n2 tomada de una poblacin con media m2 y varianza. Si deseamos realizar alguna inferencia sobre m1 - m2, nos podemos basar en la distribucin de la diferencia de las medias mustrales Ahora bien, para la diferencia de las medias mustrales se tiene: Para conocer la distribucin muestral de las diferencias entre las medias se debe saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe saber si son iguales o diferentes. Cada uno de estos tres casos se analizar por separado. a) Distribucin de la diferencia entre dos medias cuando las varianzas son conocidas. Si las varianzas y son conocidas, tanto como se distribuyen normalmente. Por lo tanto la distribucin de la diferencia entre las medias mustrales es normal con el valor esperado y la varianza dados anteriormente, es decir, De acuerdo con lo anterior la siguiente variable aleatoria tiene una distribucin normal estndar: Por lo tanto, con base en la expresin anterior se pueden realizar inferencias con respecto a la diferencia de medias poblacionales, bajo el supuesto de que las varianzas sean conocidas. Si adems, son iguales, la expresin anterior se puede expresar como: b) Distribucin de la diferencia entre dos medias cuando las varianzas son desconocidas pero iguales. Cuando las varianzas son desconocidas, se debe realizar previamente una prueba estadstica para verificar si stas son iguales o diferentes. Para realizar esta prueba debemos hacer uso de la distribucin F para verificar si la relacin de varianzas es igual a uno o diferente de uno. Adems tienen distribuciones chi cuadrado con n11 y n21 grados de libertad respectivamente. Por lo tanto su suma tambin sigue otra distribucin chi cuadrado con n1+n22 grados de libertad. Ejemplo. El gerente de una refinera piensa modificar el proceso para producir gasolina a partir de petrleo crudo. El gerente har la modificacin slo si la gasolina promedio que se obtiene por este nuevo proceso (expresada como un porcentaje del crudo) aumenta su valor con respecto al proceso en uso. Con base en un experimento de laboratorio y mediante el empleo de dos muestras aleatorias de tamao 12, una para cada proceso, la cantidad de gasolina promedio del proceso en uso es de 24.6 con una desviacin estndar de 2.3, y para el proceso propuesto fue de 28.2 con una desviacin
estndar de 2.7. El gerente piensa que los resultados proporcionados por los dos procesos son variables aleatorias independientes normalmente distribuidas con varianzas iguales. Con base en esta evidencia, debe adoptarse el nuevo proceso? 1.4.3 Distribucin muestral de la proporcin La distribucin muestral de proporciones es la adecuada para dar respuesta a estas situaciones. Esta distribucin se genera de igual manera que la distribucin muestral de medias, a excepcin de que al extraer las muestras de la poblacin se calcula el estadstico proporcin (p=x/n en donde x es el nmero de xitos u observaciones de inters y n el tamao de la muestra) en lugar del estadstico media. Una poblacin binomial est estrechamente relacionada con la distribucin muestral de proporciones; una poblacin binomial es una coleccin de xitos y fracasos, mientras que una distribucin muestral de proporciones contiene las posibilidades o proporciones de todos los nmeros posibles de xitos en un experimento binomial, y como consecuencia de esta relacin, las afirmaciones probabilsticas referentes a la proporcin muestral pueden evaluarse usando la aproximacin normal a la binomial, siempre que np5 y n(1-p) 5. Cualquier evento se puede convertir en una proporcin si se divide el nmero obtenido entre el nmero de intentos. Sea una poblacin formada por n elementos, de los cuales algunos poseen una determinada caracterstica y otros no (llamaremos p a la proporcin de los elementos que poseen la caracterstica, y q = 1 - p a la de los restantes elementos). Entonces, es posible extraer muestras de la poblacin de manera que a cada una se asocie como valor la proporcin de la caracterstica analizada. Por ejemplo, en la poblacin {1, 2, 3}, la caracterstica par tiene un valor p = 1 / 3, mientras que la impar es q = 2 / 3. Mediante la tabla siguiente de muestras se construye una nueva distribucin muestral de las proporciones. Muestra 1,1 1,2 1,3 2,1 2,2 2,3 3,1 3,2 3,3 Proporcin f/n 0 0,5 0 0,5 0 0,5 0 0,5 0 Parmetros estadsticos de una distribucin muestral de las proporciones de tamao n: Una distribucin muestral de las proporciones se comporta como una distribucin normal descrita por los parmetros N.
1.4.4 Distribucin muestral de la diferencia de proporciones Cuando el muestreo procede de dos poblaciones binomiales y se trabaja con dos proporciones mustrales, la distribucin muestral de diferencia de proporciones es aproximadamente normal para tamaos de muestra grande (n1p1 5, n1q1 5,n2p2 5 y n2q2 5). Entonces p1 y p2 tienen distribuciones mustrales aproximadamente normales, as que su diferencia p1-p2 tambin tiene una distribucin muestral aproximadamente normal. Cuando se estudi a la distribucin muestral de proporciones se comprob que y que, por lo que no es difcil deducir que y que. Suponga que se tienen dos poblaciones distintas, la primera con media
1, 1
y desviacin estndar
y la segunda con media
y desviacin estndar
2.
Ms an, se elige una muestra
aleatoria de tamao n1 de la primera poblacin y una muestra independiente aleatoria de tamao n2 de la segunda poblacin; se calcula la media muestral para cada muestra y la diferencia entre dichas medias. La coleccin de todas esas diferencias se llama distribucin muestral de las diferencias entre medias o la distribucin muestral del estadstico
La distribucin es aproximadamente normal para n1 30 y n2 30. Si las poblaciones son normales, entonces la distribucin muestral de medias es normal sin importar los tamaos de las muestras. En ejercicios anteriores se haba demostrado que y que , por lo que no es difcil
deducir que
y que
La frmula que se utilizar para el clculo de probabilidad del estadstico de diferencia de medias es:
Ejemplo: En un estudio para comparar los pesos promedio de nios y nias de sexto grado en una escuela primaria se usar una muestra aleatoria de 20 nios y otra de 25 nias. Se sabe que tanto para nios como para nias los pesos siguen una distribucin normal. El promedio de los pesos de todos los nios de sexto grado de esa escuela es de 100 libras y su desviacin estndar es de 14.142, mientras que el promedio de los pesos de todas las nias del sexto grado de esa escuela es de 85 libras y su desviacin estndar es de 12.247 libras. Si representa el promedio de los pesos de 20 nios y
es el promedio de los pesos de una muestra de 25 nias, encuentre la probabilidad de que el promedio de los pesos de los 20 nios sea al menos 20 libras ms grande que el de las 25 nias. Solucin: Datos:
1= 2
100 libras
= 85 libras 14.142 libras 12.247 libras
1= 2=
n1 = 20 nios n2 = 25 nias =?
Por lo tanto, la probabilidad de que el promedio de los pesos de la muestra de nios sea al menos 20 libras ms grande que el de la muestra de las nias es 0.1056.
10
1.4.5 Distribucin t-student La Distribucin t de Student, tiene por funcin de densidad:
Donde el parmetro n de
, se denomina grados de libertad de la distribucin.
La distribucin t de Student existe para todos los valores de x reales, y es simtrica respecto al eje y. La distribucin de probabilidad de esta funcin para valores menores de un x dado, que representamos por
Dnde:
11
Para el clculo de esta integral existen distintos tipos de Tabla de distribucin t de Student, en la que para distintos valores de n y de x se puede buscar su probabilidad acumulada p, veamos una de esas tablas. 1.4.6 Distribucin muestral de la varianza La varianza de las muestras sigue un proceso distinto a los de la media y proporcin. La causa es que el promedio de todas las varianzas de las muestras no coincide con la varianza de la poblacin s2. Se queda un poco por debajo. En concreto, se verifica que Hemos usado el subndice n para recordar que en la varianza se divide entre n. Si deseamos que la media de la varianza coincida con la varianza de la poblacin, tenemos que acudir a la cuasivarianza o varianza insesgada, que es similar a la varianza, pero dividiendo las sumas de cuadrados entre n-1. Su raz cuadrada es la cuasidesviacin tpica o desviacin estndar. Si se usa esta varianza, si coinciden su media y la varianza de la poblacin lo que nos indica que la cuasivarianza es un estimador insesgado, y la varianza lo es sesgado. La suma de cuadrados de la varianza, dividida entre la varianza de la poblacin se distribuye segn una chi-cuadrado c2 con n-1 grados de libertad
1.4.7 Distribucin muestral de la relacin de varianzas
12
UNIDAD 2. ESTIMACION 2.1 Introduccin
En general, de las variables experimentales u observacionales no conocemos la fpd. Podemos conocer la familia (normal, binomial,) pero no los parmetros. Para calcularlos necesitaramos tener todos los posibles valores de la variable, lo que no suele ser posible. La inferencia estadstica trata de cmo obtener informacin (inferir) sobre los parmetros a partir de subconjuntos de valores (muestras) de la variable. Estadstico: variable aleatoria que slo depende de la muestra aleatoria elegida para calcularla. Estimacin: Proceso por el que se trata de averiguar un parmetro de la poblacin representado, en general, por a partir del valor de un estadstico llamado estimador y representado por El problema se resuelve en base al conocimiento de la distribucin muestral del estadstico que se use. Qu es esto? Concretemos, p.e. en la media (. Si para cada muestra posible calculamos la media muestral ( ) obtenemos un valor distinto ( es un estadstico: es una variable aleatoria y slo depende de la muestra), habr por tanto una fpd para, llamada distribucin muestral de medias. La desviacin tpica de esta distribucin se denomina error tpico de la media. Evidentemente, habr una distribucin muestral para cada estadstico, no slo para la media, y en consecuencia un error tpico para cada estadstico. Si la distribucin muestral de un estadstico estuviera relacionada con algn parmetro de inters, ese estadstico podra ser un estimador del parmetro. Existen dos formas de hacer Inferencia Estadstica: - La estimacin de parmetros. - Las pruebas de hiptesis. En la Inferencia Estadstica hay varios mtodos, pero en cualquier caso es necesario utilizar una muestra que represente a la poblacin, esto se consigue con las Tcnicas de muestreo. A partir de una muestra nos proponemos dos objetivos: - Obtener valores aproximados de parmetros poblacionales: Estimacin puntual. - La estimacin por intervalos de confianza tiene por objeto proporcionar, a partir de la informacin recogida en la muestra, un intervalo que contenga con alto nivel de confianza (probabilidad), al parmetro objeto de nuestro inters. A partir de dicho intervalo obtendremos una medida del error mximo cometido al aproximar puntualmente el parmetro.
13
2.2 Caractersticas de un estimador
En estadstica, un estimador es un estadstico (esto es, una funcin de la muestra) usado para estimar un parmetro desconocido de la poblacin. Por ejemplo, si se desea conocer el precio medio de un artculo (el parmetro desconocido) se recogern observaciones del precio de dicho artculo en diversos establecimientos (la muestra) y la media aritmtica de las observaciones puede utilizarse como estimador del precio medio. Para cada parmetro pueden existir varios estimadores diferentes. En general, escogeremos el estimador que posea mejores propiedades que los restantes, como insesgadez, eficiencia, convergencia y robustez (consistencia). El valor de un estimador proporciona lo que se denomina en estadstica una estimacin puntual del valor del parmetro en estudio. En general, se suele preferir realizar una estimacin mediante un intervalo, esto es, obtener un intervalo [a,b] dentro del cual se espera est el valor real del parmetro con un cierto nivel de confianza. Utilizar un intervalo resulta ms informativo, al proporcionar informacin sobre el posible error de estimacin, asociado con la amplitud de dicho intervalo. El nivel de confianza es la probabilidad de que a priori el verdadero valor del parmetro quede contenido en el intervalo. En la prctica, los intervalos suelen indicarse dando el valor del estimador puntual utilizado como centro del intervalo y un valor que debe sumarse y restarse para obtener el lmite superior e inferior; por ejemplo:
equivale a
Propiedades de los estimadores: Sesgo: Se denomina sesgo de un estimador a la diferencia entre la esperanza (o valor esperado) del estimador y el verdadero valor del parmetro a estimar. Es deseable que un estimador sea insesgado o centrado, es decir, que su sesgo sea nulo por ser su esperanza igual al parmetro que se desea estimar. Por ejemplo, si se desea estimar la media de una poblacin, la media aritmtica de la muestra es un estimador insesgado de la misma, ya que su esperanza (valor esperado) es igual a la media de la poblacin. En efecto, si una muestra X=(X1,X2,...,Xn)t procede de una poblacin de media , quiere decir que: E[Xi] = para cualquier i=1...n
14
La media aritmtica o media muestral,
, con lo que, al aplicar las propiedades de linealidad de la esperanza matemtica se tiene que:
Eficiencia: Diremos que un estimador es ms eficiente o ms preciso que otro estimador, si la varianza del primero es menor que la del segundo. Por ejemplo, si y son ambos estimadores de y
Diremos que
es ms eficiente que
. Un estimador es ms eficiente (ms preciso), por tanto,
cuanto menor es su varianza. La eficiencia de los estimadores est limitada por las caractersticas de la distribucin de probabilidad de la muestra de la que proceden. El teorema de Cramr-Rao determina que la varianza de un estimador insesgado de un parmetro es, como mnimo,
donde
f(X;)
es
la
funcin en
de funcin
densidad del
de
probabilidad ,
de
la
muestra de
parmetro
(denominada
funcin
15
verosimilitud). Si un estimador alcanza esta cota mnima, entonces se dice que el estimador es de mnima varianza. Consistencia: Si no es posible emplear estimadores de mnima varianza, el requisito mnimo deseable para un estimador es que a medida que el tamao de la muestra crece, el valor del estimador tienda a ser el valor del parmetro, propiedad que se denomina consistencia. Existen diversas definiciones de consistencia, ms o menos restrictivas, pero la ms utilizada es la denominada consistencia en media cuadrtica que exige que:
1. 2. Robustez:
cuando cuando
El estimador ser un estimador robusto del parmetro si la violacin de los supuestos de partida en los que se basa la estimacin (normalmente, atribuir a la poblacin un determinado tipo de funcin de distribucin que, en realidad, no es la correcta), no altera de manera significativa los resultados que ste proporciona.
Suficiencia Se dice que un estimador es suficiente cuando resume toda la informacin relevante contenida en la muestra, de forma que ningn otro estimador pueda proporcionar informacin adicional sobre el parmetro desconocido de la poblacin.
Invarianza Se dice que un estimador es invariante cuando el estimador de la funcin del parmetro coincide con la funcin del estimador del parmetro, 2.3 Estimacin puntual Si a partir de las observaciones de una muestra se calcula un solo valor como estimacin de un parmetro de la poblacin desconocido, el procedimiento se denomina estimacin puntual. Por ejemplo queremos estimar la nota media de los alumnos de bachiller en la asignatura de matemticas que notaremos. Sea X la variable aleatoria que indica la nota obtenida por cada
16
estudiante. Tomamos una muestra de tamao n y denotamos la nota media de la muestra. Si al tomar una muestra de 100 estudiantes obtenemos que la media es 62, este nmero lo tomaramos como estimativo de. Decimos que 62 es una estimacin puntual de. Un estimador puntual T de un parmetro es cualquier estadstica que nos permita a partir de los datos mustrales obtener valores aproximados del parmetro. Para indicar que T es un estimador del parmetro escribimos =T. Con esto queremos decir que empleamos la expresin dada mediante T para obtener valores prximos al valor del parmetro. Es muy probable que haya error cuando un parmetro es estimado. Es cierto que si el nmero de observaciones al azar se hace suficientemente grande, stas proporcionaran un valor que casi sera semejante al parmetro; pero a menudo hay limitaciones de tiempo y de recursos y se tendr que trabajar con unas cuntas observaciones. Para poder utilizar la informacin que se tenga de la mejor forma posible, se necesita identificar las estadsticas que sean buenos estimadores. Hay cuatro criterios que se suelen aplicar para determinar si una estadstica es un buen estimador: Insesgamiento, eficiencia, consistencia y suficiencia
Esencialmente son tres los parmetros de inters: - En el caso de que investiguemos una variable cuantitativa: a) Para la media de la poblacin tomaremos como aproximacin la media de la muestra.
b) Para la varianza de la poblacin 2 tomaremos la cuasivarianza de la muestra.
Si el estudio se centra en el estudio de un carcter cualitativo el parmetro de inters ser la proporcin de elementos de la poblacin que pertenecen a cierta categora C que lo aproximaremos con la correspondiente proporcin en la muestra.
17
2.4 Estimacin por intervalos Nos proponemos determinar dos nmeros entre los cuales se halla el parmetro estudiado con cierta certeza.
18
El procedimiento para obtener un intervalo (de confianza) para un parmetro, la media , por ejemplo, requiere de la determinacin de un estimador del parmetro y de la distribucin del estimador. Un intervalo de confianza para un parmetro es un intervalo construido alrededor del estimador del parmetro de tal manera que podemos esperar que el verdadero valor del parmetro quede incluido en dicho intervalo. El nivel de confianza de un intervalo es una probabilidad (expresada en porcentaje) que representa la seguridad de que el intervalo encierra el verdadero valor del parmetro. Para cada nivel de confianza existe un valor de tabla ( normal, t , , F) asociado al nivel de confianza dado. Este valor se llama coeficiente de confiabilidad y se denota:
DISTRIBUCIN F NORMAL DISTRIBUCIN T JI CUADRADO
Si queremos un intervalo con un nivel de confianza de 100(1- ) %, en la tabla correspondiente buscaremos un valor de variable para el que el rea de cola superior (tambin inferior) sea del 100(1- /2) % ya que la porcin de rea que no ser cubierta por el intervalo debe tener una medida de tamao y se toma como norma general de procedimiento que se reparta en partes iguales entre las dos colas. Los tres conceptos bsicos que encierra un intervalo quedan resumidos en la expresin general para un intervalo de confianza:
ESTIMADOR (COEF. DE CONF.) . (ERROR ESTNDAR)
Ejemplo: Sea X la variable aleatoria que se utiliza para designar el peso de un pasajero de avin y que interesa conocer, el peso medio de todos los pasajeros. Para ello tomamos una muestra de 36 pasajeros y obtenemos una media muestral de 160 libras. Supongamos que la distribucin de los pasajeros sea normal con desviacin estndar 36. Calcula el intervalo del 95% de confianza... El intervalo est dado por la expresin, reemplazamos los valores y obtenemos 160 (196). (30/6). Por lo tanto el intervalo pedido es: [1502,1698]. Si nos hubieran pedido un intervalo del 90% de confianza tendramos 160 (1645). (30/6). Y el intervalo pedido es [15178,16823]. Podramos construir tambin un intervalo de confianza del 99% obteniendo 160 (2575). (30/6). Y el intervalo sera [14713,17288]. Al observar los intervalos podemos notar que a medida que se aumenta el nivel de confianza la longitud del intervalo tambin aumenta como podemos ver en la figura.
19
Tenemos las siguientes propiedades sobre la longitud del intervalo: PROPIEDAD 1. Para un tamao de muestra y una varianza dada a medida que aumenta el nivel de confianza tambin lo hace la longitud del intervalo PROPIEDAD 2. Para un nivel de confianza y una varianza dadas cuando el tamao de la muestra aumenta la longitud del intervalo disminuye. Estas propiedades se deducen de la expresin de la longitud del intervalo L=. Como podemos ver si la varianza se considera fija la frmula est sujeta a dos nmeros cuyas acciones se contraponen en cuanto a la longitud, el nivel de confianza y el tamao de la muestra. Para que un intervalo sea tomado en cuenta con algn inters, el nivel de confianza debe ser alto. Suelen presentarse dos interpretaciones para un intervalo de confianza, una probabilstica y otra prctica. Veamos cmo son en el caso de la media: Desde un punto de vista de la probabilidad se dice: En el muestreo aleatorio simple de una poblacin normal de media y varianza conocida, el 100(1- ) % de todos los intervalos de la forma incluir la media desconocida. Aplicando esto al ejemplo anterior podemos decir que de 100 muestras de tamao 36 que escojamos de los pasajeros del avin, 95 de ellas (aproximadamente) producirn intervalos que contendrn el verdadero peso promedio. O lo que es lo mismo, de 100 intervalos obtenidos por la frmula anterior 95 de ellos contendrn el verdadero valor del parmetro. De la interpretacin probabilstica se desprende la prctica que se establece as:Si se realiza un muestreo aleatorio simple en una poblacin normal con media y varianza conocida, se tiene el 100(1- ) % de confianza de que el intervalo particular contendr el verdadero valor del parmetro desconocido En el ejemplo diremos que tenemos una confianza o certeza del 95% de que el verdadero peso promedio de los pasajeros del avin est entre 1502 y 1698 libras. 2.4.1 Intervalo de confianza para la media En estadstica, se llama intervalo de confianza a un par de nmeros entre los cuales se estima que estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parmetro poblacional. La probabilidad de xito en la estimacin se representa con 1 - y se denomina nivel de confianza. En estas circunstancias, es el llamado error aleatorio o nivel de significacin, esto es, una medida de las posibilidades de fallar en la estimacin mediante tal intervalo.
20
El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error. Para la construccin de un determinado intervalo de confianza es necesario conocer la distribucin terica que sigue el parmetro a estimar, . Es habitual que el parmetro presente una distribucin normal. Tambin pueden construirse intervalos de confianza con la desigualdad de Chebyshov. En definitiva, un intervalo de confianza al 1 - por ciento para la estimacin de un parmetro poblacional que sigue una determinada distribucin de probabilidad, es una expresin del tipo [1, 2] tal que P [1 2] = 1 - , donde P es la funcin de distribucin de probabilidad de . En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con una probabilidad determinada. La probabilidad de que el verdadero valor del parmetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1. La probabilidad de equivocarnos se llama nivel de significancia y se simboliza. Generalmente se construyen intervalos con confianza 1- =95% (o significancia =5%). Menos frecuentes son los intervalos con =10% o =1%. Para construir un intervalo de confianza, se puede comprobar que la distribucin Normal Estndar cumple P (-1.96 < z < 1.96) = 0.95 (Lo anterior se puede comprobar con una tabla de probabilidades o un programa computacional que calcule probabilidades normales). Luego, si una variable X tiene distribucin N (,), entonces el 95% de las veces se cumple:
Despejando en la ecuacin se tiene:
El resultado es un intervalo que incluye al
el 95% de las veces. Es decir, es un intervalo de
confianza al 95% para la media cuando la variable X es normal y es conocido.
Ejemplo:
21
Intervalo de confianza para la media de una poblacin De una poblacin de media y desviacin tpica se pueden tomar muestras de n elementos. Cada una de estas muestras tiene a su vez una media ( ). Se puede demostrar que la media de todas las medias mustrales coincide con la media poblacional: Pero adems, si el tamao de las muestras es lo suficientemente grande, 3 la distribucin de medias mustrales es, prcticamente, una distribucin normal (o gaussiana) con media y una desviacin
tpica dada por la siguiente expresin:
. Esto se representa como sigue:
. Si estandarizamos, se sigue que:
En una distribucin Z ~ N (0, 1) puede calcularse fcilmente un intervalo dentro del cual caigan un determinado porcentaje de las observaciones, esto es, es sencillo hallar z1 y z2 tales que P [z1 z z2] = 1 - , donde (1 - ) 100 es el porcentaje deseado (vase el uso de las tablas en una distribucin normal).
Se desea obtener una expresin tal que En esta distribucin normal de medias se puede calcular el intervalo de confianza donde se encontrar la media poblacional si slo se conoce una media muestral ( ), con una confianza determinada. Habitualmente se manejan valores de confianza del 95 y del 99 por ciento. A este valor se le llamar 1 (debido a que es el error que se cometer, un trmino opuesto). Para ello se necesita calcular el punto X / 2 o, mejor dicho, su versin estandarizada Z / 2 o valor crtico junto con su "opuesto en la distribucin" X
/ 2.
Estos puntos delimitan la probabilidad
para el intervalo, como se muestra en la siguiente imagen:
22
Dicho punto es el nmero tal que:
Y en la versin estandarizada se cumple que: Z / 2 = z / 2 As:
Haciendo operaciones es posible despejar para obtener el intervalo:
De lo cual se obtendr el intervalo de confianza:
Obsrvese que el intervalo de confianza viene dado por la media muestral
el producto del
valor crtico Z / 2 por el error estndar
23
Si no se conoce y n es grande (habitualmente se toma n 30).
, donde s es la desviacin tpica de una muestra. Aproximaciones para el valor z / 2 para los niveles de confianza estndar son 1,96 para 1 = 95% y 2,576 para 1 = 99%. 2.4.2 Intervalo de confianza para la diferencia de medias En esta seccin se ver el caso en donde se tienen dos poblaciones con medias y varianzas desconocidas, y se desea encontrar un intervalo de confianza para la diferencia de dos medias
12.
Si los tamaos de muestras n1 y n2 son mayores que 30, entonces, puede emplearse el
intervalo de confianza de la distribucin normal. Sin embargo, cuando se toman muestras pequeas se supone que las poblaciones de inters estn distribuidas de manera normal, y los intervalos de confianza se basan en la distribucin t. Si s12 y s22 son las medias y las varianzas de dos muestras aleatorias de tamao n1 y n2,
respectivamente, tomadas de dos poblaciones normales e independientes con varianzas desconocidas pero iguales, entonces un intervalo de confianza del 100( diferencia entre medias es: ) por ciento para la
En donde:
es el estimador combinado de la desviacin estndar comn de la poblacin con n1+n2 2 grados de libertad.
Sean X11, X12, X1n1, una muestra aleatoria de n1 observaciones tomadas de una primera poblacin con valor esperado 1 y varianza s
24
1, y X21, X22, X2n2 una muestra aleatoria de n2 observaciones tomada de la segunda poblacin con valor esperado 2 y varianza s. 2. Si son las medias mustrales, la estadstica es un estimador puntual de 1 - 2, y tiene una distribucin normal si las dos poblaciones son normales, o aproximadamente normal si cumple con las condiciones del teorema del lmite central (tamaos de muestras relativamente grandes). Es decir, Por lo tanto, para calcular el intervalo de confianza para la diferencia de dos medias se debe saber si las varianzas poblacionales son conocidas o desconocidas, y en caso de que sean desconocidas, se debe probar si son iguales o diferentes. Cada uno de estos tres casos se analizarn por separado Varianzas conocidas Si las varianzas poblacionales son conocidas, los pasos a seguir para encontrar el intervalo de confianza son los siguientes: a) El estadstico usado como estimador puntual de la diferencia de medias 1 - 2 ser T =, que es un estimador suficiente b) La variable aleatoria asociada con el estimador ser la variable normal estndar dada por: c) Para calcular el intervalo de confianza se debe tener en cuenta la siguiente probabilidad: Manipulando la expresin anterior en forma similar a como se hizo en los casos de una sola muestra se llega al siguiente teorema que nos define el intervalo de confianza para la diferencia entre dos medias 1 - 2 con varianzas conocidas s1 y s2. Teorema Si son las medias de dos muestras aleatorias independientes de tamao n1 y n2 tomadas de poblaciones que tienen varianzas conocidas s 1 y s 2. 2.4.3 Intervalos de confianza para la proporcin En este caso, interesa construir un intervalo de confianza para una proporcin o un porcentaje poblacional (por ejemplo, el porcentaje de personas con hipertensin, fumadoras, etc.) Si el tamao muestral n es grande, el Teorema Central del Lmite nos asegura que:
O bien:
25
Donde p es el porcentaje de personas con la caracterstica de inters en la poblacin (o sea, es el parmetro de inters) y p es su estimador muestral. Luego, procediendo en forma anloga al caso de la media, podemos construir un intervalo de 95% de confianza para la proporcin poblacional p.
Ejemplo: En un estudio de prevalencia de factores de riesgo en una cohorte de 412 mujeres mayores de 15 aos en la Regin Metropolitana, se encontr que el 17.6% eran hipertensas. Un intervalo de 95% de confianza para la proporcin de mujeres hipertensas en la Regin Metropolitana est dado por:
Luego, la proporcin de hipertensas vara entre (0,139, 0,212) con una confianza de 95%.
Si el estadstico S es la proporcin de xitos en una muestra de tamao n>= 30 extrada de una poblacin binomial en la que p es la proporcin de xito (es decir, la probabilidad de xito), los lmites de confianza para p vienen dados por P + z o p, donde P es la proporcin de xitos en la muestra de tamao n. Con los valores obtenidos, se tiene que los lmites de confianza para la proporcin poblacional son dados por
P () Z la raz de (pq)/n ser igual a p () Z la raz de p (1-q)/n Para el caso de muestreo en una poblacin infinita, o con reemplazamiento en una poblacin finita. Anlogamente los lmites de confianza son P () Z la raz de pq/n por la raz de (N-n)/(N-1) Si el muestreo es sin reemplazamiento en una poblacin finita de tamao N. Obsrvese que estos resultados se obtienen de (1) y (2) reemplazando X por P y desviacin por la raz del producto pq. Para calcular estos lmites de confianza puede utilizarse la estima muestral P para p . Intervalo de confianza para una proporcin. El intervalo de confianza para estimar una proporcin p, conocida una proporcin muestral pn de una muestra de tamao n, a un nivel de confianza del (1-) 100% es:
26
Dada una variable aleatoria con distribucin Binomial B(n, p), el objetivo es la construccin de un intervalo de confianza para el parmetro p, basada en una observacin de la variable que ha dado como valor x. El mismo caso se aplica si estudiamos una Binomial B (1, p) y consideramos el nmero de veces que ocurre el suceso que define la variable al repetir el experimento n veces en condiciones de independencia. Existen dos alternativas a la hora de construir un intervalo de confianza para p:
Considerar la aproximacin asinttica de la distribucin Binomial en la distribucin Normal.
Utilizar un mtodo exacto.
Aproximacin asinttica Tiene la ventaja de la simplicidad en la expresin y en los clculos, y es la ms referenciada en la mayora de textos de estadstica. Se basa en la aproximacin
Que, trasladada a la frecuencia relativa, resulta
Tomando como estadstico pivote
que sigue una distribucin N(0, 1), y aadiendo una correccin por continuidad al pasar de una variable discreta a una continua, se obtiene el intervalo de confianza asinttico:
Donde z/2 es el valor de una distribucin Normal estndar que deja a su derecha una probabilidad aceptadas para considerar vlida la aproximacin asinttica anterior son:
27
El intervalo obtenido es un intervalo asinttico y por tanto condicionado a la validez de la aproximacin utilizada. Intervalo exacto Aun cuando las condiciones anteriores no se verifiquen, es posible la construccin de un intervalo exacto, vlido siempre pero algo ms complicado en los clculos. Es posible demostrar que un intervalo exacto para el parmetro p viene dado por los valores siguientes:
Donde F
a, b
es el valor de una distribucin F de Fisher-Snedecor con a y b grados de libertad que (1 ) 100 %.
En el programa siguiente se pueden calcular los intervalos de confianza asinttica y, si n es menor de 100, tambin el exacto para una proporcin.
2.4.4 Intervalos de confianza para la diferencia de proporciones Vamos a considerar que tenemos dos poblaciones de modo que en cada una de ellas estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos p1 y p2. De cada poblacin vamos a extraer muestras de tamao n1 y n2
Entonces:
Si las muestras son suficientemente grandes que
ocurre
28
Esta ltima relacin se puede aproximar por otra que simplifica bastante los clculos:
Por el mismo razonamiento que en el caso de una poblacin llegamos a que una aproximacin para un intervalo de confianza al nivel para la diferencia de proporciones de dos poblaciones es:
Sea X1 el nmero de eventos de cierto tipo observado en una primera muestra de tamao n1 tomada de una poblacin binomial, y sea X2 el nmero de eventos observado en otra muestra de tamao n2. Entonces X1 y X2 son variables aleatorias binomiales independientes con parmetros (n1, 1) y (n2, 2), tomadas de dos poblaciones grandes, y 1 y 2 son sus dos proporciones respectivas. Adems, P1= X1/ n1 y P2= X2/ n2 son estimadores independientes de 1 y 2, respectivamente, y tienden a distribuirse normalmente. Si los tamaos de muestra son suficientemente grandes, la siguiente variable tiene una distribucin que es aproximadamente normal estndar. Para encontrar un intervalo de confianza para la diferencia de proporciones 1- 2, el estimador puntual estar dado por P1 - P2, la variable aleatoria asociada ser la normal estndar, de acuerdo a lo explicado antes, y el intervalo de confianza estar dado por el siguiente teorema. Teorema. Si P1 y P2 son las proporciones muestrales de dos muestras aleatorias independientes de tamao n1 y n2 que pertenecen a una clase de inters, entonces un intervalo de confianza aproximado del 100(1-) % para la diferencia de las proporciones verdaderas 1 - 2 es:
29
Ejemplo: Considere un proceso de produccin que tiene una fraccin defectuosa 1, desconocida. A este proceso se le realizan unas mejoras para reducir el porcentaje de defectuosos que est produciendo, y queremos saber si estos cambios s reducen sustancialmente la proporcin de artculos defectuosos del proceso. Para ello, se toma una muestra de 200 artculos del proceso original, y se encuentran 12 defectuosos, y se examinan 150 artculos del nuevo proceso y se observan 6 defectuosos. Cree Usted que los cambios efectuados al proceso han reducido el porcentaje de artculos defectuosos? Use un nivel de confianza del 95%. Tenemos: n1 = 200, x1 = 12 p1 = 12/200 = 0.06 n2 = 150, x2 = 6 p2 = 6/150 = 0.04 El intervalo de confianza del 95% para la diferencia entre las fracciones defectuosas antes y despus de las mejoras realizadas al proceso est dado por: Como la diferencia de cero est incluida en el intervalo de confianza, concluimos que no tenemos evidencia para afirmar que los cambios efectuados al proceso contribuyen a reducir el porcentaje de artculos defectuosos. Cul hubiera sido la conclusin si las muestras y los resultados hubieran sido los siguientes (observe que las proporciones defectuosas mustrales son las mismas): Tenemos: n1 = 1000, x1 = 60 p1 = 60/1000 = 0.06 n2 = 750, x2 = 30 p2 = 30/750 = 0.04 El intervalo de confianza del 95% est dado por En este caso, aunque las proporciones mustrales son las mismas, el tener tamaos de muestra mucho mayores, nos permite concluir que efectivamente los cambios realizados al proceso redujeron la fraccin defectuosa (1>2). Problema. Un artculo del New York Times en 1987 report que se puede reducir el riesgo de sufrir ataques al corazn ingiriendo aspirina. Para llegar a esta conclusin el cronista se bas en los resultados de un experimento diseado, en donde participaron dos grupos de personas. A un grupo de 11,034 personas se le suministr una dosis diaria de una pastilla que no contena ninguna droga (un placebo), y de estos 189 sufrieron posteriormente ataques al corazn, mientras que al otro grupo de 11,037 se les suministr una aspirina, y slo 104 lo sufrieron. Considera Usted que el cronista del New York Times estaba en lo correcto? Use un intervalo de confianza. Haga explcitas las suposiciones que considere necesarias.
30
Vamos a considerar que tenemos dos poblaciones de modo que en cada Una de ellas estudiamos una v.a. dicotmica (Bernoulli) de parmetros respectivos p1 y p2. De cada poblacin vamos a extraer muestras de tamao n1 y n2
Entonces
Si las muestras son suficientemente grandes ocurre que una aproximacin para un intervalo de confianza al nivel 1 para la diferencia de proporciones de dos poblaciones es:
2.4.5 Intervalos de confianza para la varianza Si deseamos estimar la proporcin p con que una determinada caracterstica se da en una poblacin, a partir de la proporcin p observada en una muestra de tamao n, sabemos que La distribucin muestral de proporciones sigue una distribucin normal con q=1-p Como la proporcin p de la poblacin es desconocida, se aproxima por la de la muestra siempre que n>100. Entonces para un nivel de confianza 1-a, p pertenece al intervalo:
31
En el contexto de estimar un parmetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parmetro, con una probabilidad determinada. Para estimar un intervalo de confianza para la varianza, nos ayudaremos de la siguiente propiedad de la distribucin :
Consideremos dos cuantiles de esta distribucin que nos dejen una probabilidad ``zona central'' de la distribucin:
en la
Figura: Cuantiles de la distribucin
32
Entonces un intervalo de confianza al nivel para la varianza de una distribucin gaussiana
(cuyos parmetros desconocemos) lo obtenemos teniendo en cuenta que existe una probabilidad de que:
Por tanto el intervalo que buscamos es
Ejemplo: En un ejemplo anterior se estudiaba la altura de los individuos de una ciudad, obtenindose en una muestra de tamao 25 los siguientes valores:
Calcular un intervalo de confianza con de la ciudad. Solucin: Para estimar un intervalo de confianza para til es:
para la varianza
de la altura de los individuos
(varianza poblacional) el estadstico que nos resulta
33
Entonces el intervalo de confianza que buscamos lo obtenemos mediante Percentiles del 2,5% y del 97,5% para la distribucin
Por tanto, para el valor poblacional de la desviacin tpica tenemos que
Con una confianza del 95%, que por supuesto contiene a las estimaciones puntuales
calculados sobre la muestra.
34
2.4.6 Intervalos de confianza para la relacin de varianzas Se tienen dos poblaciones normales e independientes con varianzas desconocidas s 1 y s 2, respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de tamaos n1 y n2, respectivamente; sean S1 y S2. Las varianzas mustrales respectivas. Para hallar el intervalo de confianza del 100(1-a) % para el cociente de dos varianzas sabemos que la siguiente relacin tiene una distribucin muestral F con n11 y n21 grados de libertad. Usando el hecho de que obtenemos el siguiente intervalo de confianza para la relacin de dos varianzas. Se tienen dos poblaciones normales e independientes con varianzas desconocidas s1 y s2, respectivamente. De este par de poblaciones se tienen disponibles dos muestras .aleatorias de tamaos n1 y n2, respectivamente; sean S1 y S2 las varianzas mustrales respectivas. Para hallar el intervalo de confianza del 100(1-a) % para el cociente de dos varianzas sabemos que la siguiente relacin tiene una distribucin muestral F con n11 y n21 grados de libertad. Si X1, X2, Xn es una muestra aleatoria de tamao n tomada de una poblacin normal, y si S es la varianza muestral, entonces S es un estimador puntual razonable de la varianza poblacional s. Por otra parte, si la poblacin es normal, la distribucin muestral de la siguiente variable es una distribucin ji-cuadrado con n-1 grados de libertad. Por lo tanto, para obtener un intervalo de confianza del 100(1-a) % para la varianza s2 nos basamos en el estadstico S y en la distribucin chi cuadrado.
Intervalo de confianza para la varianza de una distribucin normal. Si X1, X2, Xn es una muestra aleatoria de tamao n tomada de una poblacin normal, y si S es la varianza muestral, entonces S es un estimador puntual razonable de la varianza poblacional s. Por
35
otra parte, si la poblacin es normal, la distribucin muestral de la siguiente variable es una distribucin ji-cuadrado con n-1 grados de libertad. Por lo tanto, para obtener un intervalo de confianza del 100(1-a)% para la varianza s2 nos basamos en el estadstico S y en la distribucin chi cuadrado. Ejemplo: Un proceso produce cierta clase de cojinetes de bola cuyo dimetro interior es de 3 cm. Se seleccionan en forma aleatoria 12 de estos cojinetes y se miden sus dimetros interiores, y los valores resultantes son los siguientes: 3.01, 3.05, 2.99, 2.99, 3.02, 3.00, 2.98, 2.99, 2.97, 2.97, 3.02 y 3.01. Suponiendo que el dimetro es una variable aleatoria normal, determine un intervalo de confianza para la varianza poblacional. Use un intervalo de confianza del 99%. Solucin. En el intervalo de confianza para la varianza, el punto medio del intervalo (0.001266) no coincide con el estimador puntual, debido a la no simetra de la distribucin chi cuadrado.
36
2.5 Determinacin del tamao de muestra A la hora de determinar el tamao que debe alcanzar una muestra hay que tomar en cuenta varios factores: el tipo de muestreo, el parmetro a estimar, el error muestral admisible, la varianza poblacional y el nivel de confianza. Por ello antes de presentar algunos casos sencillos de clculo del tamao muestral delimitemos estos factores. Parmetro. Son las medidas o datos que se obtienen sobre la poblacin. Estadstico. Los datos o medidas que se obtienen sobre una muestra y por lo tanto una estimacin de los parmetros. Error Muestral, de estimacin o estndar. Es la diferencia entre un estadstico y su parmetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la poblacin, nos da una nocin clara de hasta dnde y con qu probabilidad una estimacin basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigacin nos indicar hasta qu medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varan muestra a muestra). Vara segn se calcule al principio o al final. Un estadstico ser ms preciso en cuanto y tanto su error es ms pequeo. Podramos decir que es la desviacin de la distribucin muestral de un estadstico y su fiabilidad. Nivel de Confianza. Probabilidad de que la estimacin efectuada se ajuste a la realidad. Cualquier informacin que queremos recoger est distribuida segn una ley de probabilidad (Gauss o Student), as llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadstico capte el verdadero valor del parmetro. Varianza Poblacional. Cuando una poblacin es ms homognea la varianza es menor y el nmero de entrevistas necesarias para construir un modelo reducido del universo, o de la poblacin, ser ms pequeo. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos.
37
2.5.1 Basado en la media de la Poblacin Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo aleatorio simple. Para ello es primer lugar el nivel de confianza lugar, cual es el error mximo que estimacin. As pues los pasos a 1.- Obtener el tamao muestral imaginando que Dnde: : z correspondiente al nivel de confianza elegido : varianza poblacional e: error mximo 2.-Comprobar si se cumple : necesario partir de dos supuestos: en al que queremos trabajar; en segundo estamos dispuestos a admitir en nuestra seguir son:
si esta condicin se cumple el proceso termina aqu, y ese es el tamao adecuado que debemos muestrear. Si no se cumple, pasamos a una tercera fase: 3.- Obtener el tamao de la muestra segn la siguiente frmula:
Veamos un ejemplo: La Consejera de Trabajo planea un estudio con el inters de conocer el promedio de horas semanales trabajadas por las mujeres del servicio domstico. La muestra ser extrada de una poblacin de 10000 mujeres que figuran en los registros de la Seguridad Social y de las cuales se conoce a travs de un estudio piloto que su varianza es de 9.648. Trabajando con un
38
nivel de confianza de 0.95 y estando dispuestos a admitir un error mximo de 0,1, cul debe ser el tamao muestral que empleemos?.
Buscamos en las tablas de la curva normal el valor de confianza elegido:
que corresponde con el nivel de
= 1.96 y seguimos los pasos propuestos arriba.
Comprobamos que no se cumple 10000 < 3706 (3706 - 1); 10000 < 13730730
, pues en este caso
2.5.2 Basado en la proporcin de la Poblacin Para calcular el tamao de muestra para la estimacin de proporciones poblacionales hemos de tener en cuenta los mismos factores que en el caso de la media. La frmula que nos permitir determinar el tamao muestral es la siguiente:
Donde: : z correspondiente al nivel de confianza elegido P: proporcin de una categora de la variable e: error mximo N: tamao de la poblacin
39
Siguiendo con el estudio planteado en el punto anterior, supongamos que tratamos de estimar la proporcin de mujeres que trabajan diariamente 10 horas o ms. De un estudio piloto se dedujo que P=0.30, fijamos el nivel de confianza en 0.95 y el error mximo 0.02.
Si conoces el valor del error muestral y la confianza de estimacin, adems de las varianzas estimadas entonces resulta algo ms leve el trabajo E = Z [( 1/n1) + ( 2/n2)] Hay dos casos, si n1=n2=n o si n1 es diferente a n2 ( n= n1 = k n2) Luego se despeja el "n" que es el tamao de la muestra pedido Si en caso son del mismo tamao sera as: n = Z ( 1 + 2) / E Previamente debers conocer el error de estima E y la Z mediante la confianza, si no conoces las desviaciones poblacionales puedes estimarla con las mustrales.
40
2.5.3 Basado en la diferencia entre las medias de la Poblacin
41
UNIDAD 3. PRUEBA DE HIPOTESIS 3.1 Introduccin Prueba de hiptesis En esta unidad nos concentraremos en la prueba de hiptesis, otro aspecto de la inferencia estadstica que al igual que la estimacin del intervalo de confianza, se basa en la informacin de la muestra. Se desarrolla una metodologa paso a paso que le permita hacer inferencias sobre un parmetro poblacional mediante el anlisis diferencial entre los resultados observados (estadstico de la muestra) y los resultados de la muestra esperados si la hiptesis subyacente es realmente cierta. En el problema de estimacin se trata de elegir el valor de un parmetro de la poblacin, mientras que en las pruebas de hiptesis se trata de decidir entre aceptar o rechazar un valor especificado (por ejemplo, si el nivel de centramiento de un proceso es o no lo es). Prueba de hiptesis: Estadsticamente una prueba de hiptesis es cualquier afirmacin acerca de una poblacin y/o sus parmetros. Una prueba de hiptesis consiste en contrastar dos hiptesis estadsticas. Tal contraste involucra la toma de decisin acerca de las hiptesis. La decisin consiste en rechazar o no una hiptesis en favor de la otra. Una hiptesis estadstica se denota por H y son dos: - Ho: hiptesis nula - H1: hiptesis alternativa Partes de una hiptesis 1-La hiptesis nula Ho 2-La hiptesis alternativa H1 3-El estadstico de prueba 4-Errores tipo I y II 5-La regin de rechazo (crtica) 6-La toma de decisin 1. Concepto: Una prueba de hiptesis estadstica es una conjetura de una o ms poblaciones. Nunca se sabe con absoluta certeza la verdad o falsedad de una hiptesis estadstica, a no ser que se examine la poblacin entera. Esto por su puesto sera imprctico en la mayora de las situaciones. En su lugar, se toma una muestra aleatoria de la poblacin de inters y se utilizan los datos que contiene tal muestra para proporcionar evidencia que confirme o no la hiptesis. La evidencia de la muestra que es un constante con la hiptesis planteada conduce a un rechazo de la misma mientras que la evidencia que apoya la hiptesis conduce a su aceptacin. Definicin de prueba de hiptesis estadstica es que cuantifica el proceso de toma de decisiones. Por cada tipo de prueba de hiptesis se puede calcular una prueba estadstica apropiada. Esta prueba estadstica mide el acercamiento del calor de la muestra (como un promedio) a la hiptesis nula. La prueba estadstica, sigue una distribucin estadstica bien conocida (normal, etc.) o se puede desarrollar una distribucin para la prueba estadstica particular. La distribucin apropiada de la prueba estadstica se divide en dos regiones: una regin de rechazo y una de no rechazo. Si la prueba estadstica cae en esta ltima regin no se puede rechazar la hiptesis nula y se llega a la conclusin de que el proceso funciona correctamente.
42
Al tomar la decisin con respecto a la hiptesis nula, se debe determinar el valor crtico en la distribucin estadstica que divide la regin del rechazo (en la cual la hiptesis nula no se puede rechazar) de la regin de rechazo. A hora bien el valor crtico depende del tamao de la regin de rechazo. Mtodo de seis pasos de la prueba de hiptesis. 1. Prepare la hiptesis nula, y la hiptesis alternativa . 2. Seleccione el nivel de significancia , y el tamao de la muestra n. el nivel de significancia se especifica de acuerdo con la importancia relativa de los riesgos de cometer errores de tipo I y tipo II en el problema. 3. Determine el estadstico de prueba y la distribucin muestral apropiados. 4. Determine los valores crticos que dividen las zonas de rechazo y aceptacin. 5. Recopile los datos y calcule el valor del estadstico de prueba. 6. Tome la decisin estadstica y establezca la conclusin administrativa que se escribe en el contexto de problema real. 3.2 Confiabilidad y significancia El propsito de la prueba de hiptesis no es cuestionar el valor calculado de la estadstica de muestra, sino hacer un juicio respecto a la diferencia entre esa estadstica de muestra y un parmetro de poblacin hipotetizado. El siguiente paso despus de establecer la hiptesis nula alternativa consiste en decidir qu criterio utilizar para decidir si aceptar o rechazar la hiptesis nula. Si suponemos que la hiptesis es correcta, entonces el nivel de significancia indicar el porcentaje de medias de muestra que est fuera de ciertos lmites. Siempre que afirmemos que aceptamos la hiptesis nula, en realidad lo que queremos decir es que no hay suficiente evidencia estadstica para rechazarla. El empleo del trmino aceptar, en lugar de rechazar, se ha vuelto de uso comn. Significa simplemente que cuando los datos de la muestra n hacen que rechacemos una hiptesis nula, nos comportamos como si fuera cierta. Seleccin del nivel de significancia. Nuestra eleccin del estndar mnimo para una probabilidad aceptable, o el nivel de significancia, es tambin el riesgo que asumimos al rechazar una hiptesis nula cuando es cierta. Mientras ms alto sea el nivel de significancia que utilizamos para probar una hiptesis, mayor ser la probabilidad de rechazar una hiptesis nula cuando es cierta. Nivel de significancia: Probabilidad de rechazar la hiptesis nula cuando es verdadera. Se le denota mediante la letra griega , tambin es denominada como nivel de riesgo, este trmino es ms adecuado ya que se corre el riesgo de rechazar la hiptesis nula, cuando en realidad es verdadera. Este nivel est bajo el control de la persona que realiza la prueba.
43
Si suponemos que la hiptesis planteada es verdadera, entonces, el nivel de significacin indicar la probabilidad de no aceptarla, es decir, estn fuera de rea de aceptacin. El nivel de confianza (1-), indica la probabilidad de aceptar la hiptesis planteada, cuando es verdadera en la poblacin.
La distribucin de muestreo de la estadstica de prueba se divide en dos regiones, una regin de rechazo (conocida como regin crtica) y una regin de no rechazo (aceptacin). Si la estadstica de prueba cae dentro de la regin de aceptacin, no se puede rechazar la hiptesis nula. La regin de rechazo puede considerarse como el conjunto de valores de la estadstica de prueba que no tienen posibilidad de presentarse si la hiptesis nula es verdadera. Por otro lado, estos valores no son tan improbables de presentarse si la hiptesis nula es falsa. El valor crtico separa la regin de no rechazo de la de rechazo. El nivel de confianza es la probabilidad a priori de que el intervalo de confianza a calcular contenga al verdadero valor del parmetro. Se indica por 1- y habitualmente se da en porcentaje (1-)%. Hablamos de nivel de confianza y no de probabilidad ya que una vez extrada la muestra, el intervalo de confianza contendr al verdadero valor del parmetro o no, lo que sabemos es que si repitisemos el proceso con muchas muestras podramos afirmar que el (1-)% de los intervalos as construidos contendra al verdadero valor del parmetro. Los valores que se suelen utilizar para el nivel de confianza son el 95%, 99% y 99,9%
Ejemplo: Para un nivel de confianza del 88%, 1- = 0.88 = 0.12 /2 = 0.06 Z / 2 = Z 0.06
44
P(Z Z 0.06) =0.94 (1-/2) Z(0.94)=1.56 Para un nivel de confianza del 98%, 1-=0.98 =0.02 /2=0.01 Z / 2 = Z 0.01 P(Z Z 0.01) =0.99 (1-/2) Z(0.99)=2.35 E l n i ve l d e co n f i a n za e s l a pr o b ab i l i da d d e q u e el p a r me t r o a e s t i ma r s e e n c u e nt r e e n e l i nt e r va l o de c o nf i a n za . E l n i ve l d e c o nf i an za ( p) se d es i gn a me d i a nt e 1 , y s e s u el e t o ma r en t a nt o p or c i e n t o . L o s n i ve l e s d e c o nf i an za m s u s u a l e s s o n: 9 0 % ; 9 5% y 9 9 % . E l n i ve l d e si gn i f i c aci n se d e si gn a me d i a nt e . E l va l o r c r t i c o ( k) c omo z P ( Z> z
/2) /2
.
/2
= /2
P[ - z
< z < z
/2]
= 1 -
1 - 0.90 0.95 0.99
/2 0.05 0.025 0.005
/2
1.645 1.96 2.575
E n u n a d i s t r i bu c i n N ( , ) e l i n t e r va l o c a r ac t e r s t i c o c o r r e sp o n d i en t e a u n a p r o b a bi l i d a d p = 1 - e s : ( - Z
/2
, + z
/2
45
Ejemplo: L a me d i a d e l a s e s t at u r a s d e u n a mu e s t r a a l e at or i a d e 4 0 0 p er so n a s d e u na c i u d ad e s 1 , 7 5 m. S e s a b e q u e l a e s t a t ur a d e l a s p er s on a s d e esa c i u d ad e s u n a va r i a bl e a l e at o r i a q u e s i gu e u n a d i s t r i b u ci n n o r ma l c o n va r i a n za 2 = 0,16 m2. C o n s t r u ye u n i nt e r va l o , de u n 9 5% d e c o n f i a n za , p ar a l a me d i a d e l as e s t at ur a s d e l a p o bl a ci n . n = 400 1- = 0.95 ( 1 . 7 5 1 . 9 6 0 . 4/ 2 0) 3.3 Errores tipo I y tipo II Cualquiera sea la decisin tomada a partir de una prueba de hiptesis, ya sea de aceptacin de la Ho o de la Ha, puede incurrirse en error: Un error tipo I se presenta si la hiptesis nula Ho es rechazada cuando es verdadera y deba ser aceptada. La probabilidad de cometer un error tipo I se denomina con la letra alfa Un error tipo II, se denota con la letra griega se presenta si la hiptesis nula es ac eptada cuando de hecho es falsa y deba ser rechazada. En cualquiera de los dos casos se comete un error al tomar una decisin equivocada. En la siguiente tabla se muestran las decisiones que pueden tomar el investigador y las consecuencias posibles. x = 1. 7 5 z = 0.4
/2
= 1.96 ( 1 . 7 1 0 8 , 1 . 7 89 2 )
46
Para que cualquier ensayo de hiptesis sea bueno, debe disearse de forma que minimice los errores de decisin. En la prctica un tipo de error puede tener ms importancia que el otro, y as se tiene a conseguir poner una limitacin al error de mayor importancia. La nica forma de reducir ambos tipos de errores es incrementar el tamao de la muestra, lo cual puede ser o no ser posible. La probabilidad de cometer un error de tipo II denotada con la letra griega beta , depende de la diferencia entre los valores supuesto y real del parmetro de la poblacin. Como es ms fcil encontrar diferencias grandes, si la diferencia entre la estadstica de muestra y el correspondiente parmetro de poblacin es grande, la probabilidad de cometer un error de tipo II, probablemente sea pequea. El estudio y las conclusiones que obtengamos para una poblacin cualquiera, se habrn apoyado exclusivamente en el anlisis de una parte de sta. De la probabilidad con la que estemos dispuestos a asumir estos errores, depender, por ejemplo, el tamao de la muestra requerida. Las contrastaciones se apoyan en que los datos de partida siguen una distribucin normal Existe una relacin inversa entre la magnitud de los errores y : conforme a aumenta, disminuye. Esto obliga a establecer con cuidado el valor de a para las pruebas estadsticas. Lo ideal sera establecer y . En la prctica se establece el nivel y para disminuir el Error se incrementa el nmero de observaciones en la muestra, pues as se acortan los lmites de confianza respecto a la hiptesis planteada. La meta de las pruebas estadsticas es rechazar la hiptesis planteada. En otras palabras, es deseable aumentar cuando sta es verdadera, o sea, incrementar lo que se llama poder
47
de la prueba (1- ) La aceptacin de la hiptesis planteada debe interpretarse como que la informacin aleatoria de la muestra disponible no permite detectar la falsedad de esta hiptesis. El rechazo de una hiptesis nula cuando es cierta se denomina error de tipo I, y su probabilidad (que es tambin el nivel de significancia) se simboliza como . El hecho de aceptar una hiptesis nula cuando es falsa se denomina error de tipo II, y su probabilidad se simboliza como . La probabilidad de cometer un tipo de error puede reducirse slo si deseamos incrementar la probabilidad de cometer el otro tipo de error. Con el propsito de obtener una baja, tendremos que tolerar una alta. Los responsables de la toma de decisiones deciden el nivel de significancia adecuado, al examinar los costos o desventajas vinculadas con ambos tipos de errores. 3.4 Potencia de la prueba El complemento (1-) de la probabilidad de cometer un error del tipo II se conoce como potencia de una prueba estadstica. La potencia de una prueba es la probabilidad de rechazar la hiptesis nula cuando de hecho esta es falsa y debera ser rechazada. Una manera en que podemos controlar la probabilidad de cometer un error del tipo II en un estudio, consiste en aumentar el tamao de la muestra. Tamaos ms grandes de muestra, nos permitirn detectar diferencias incluso muy pequeas entre las estadsticas de muestra y los parmetros de la poblacin. Cuando se disminuye , aumentar de modo que una reduccin en el riesgo de cometer un error de tipo I tendr como resultado un aumento en el riesgo de cometer un error tipo II. Prueba de hiptesis Z para la media (desvo de la poblacin conocido) El estadstico de prueba a utilizar es: La Potencia de una prueba representa la probabilidad de que la hiptesis nula no sea rechazada cuando de hecho es falsa y debera rechazrsele. La potencia de prueba 1- representa la sensibilidad de la prueba estadstica para detectar cambios que se presentan al medir la probabilidad de rechazar la hiptesis nula cuando de hecho es falsa y debera ser rechazada. La potencia de prueba estadstica depende de qu tan diferente en realidad es la media verdadera de la poblacin del valor supuesto. Una prueba de un extremo es ms poderosa que una de dos extremos, y se debera utilizar siempre que sea adecuado especificar la direccin de la hiptesis alternativa. Puesto que la probabilidad de cometer un error tipo I y la probabilidad de cometer un error tipo II tienen una relacin inversa y esta ltima es el complemento de la potencia de prueba (1-), entonces y la potencia de la prueba varan en proporcin directa. Un aumento en el valor del nivel de significacin escogido, tendra como resultado un aumento en la potencia y una disminucin en tendra como resultado una disminucin en la potencia. Un aumento en el tamao de la muestra
48
escogida tendra como resultado un aumento en la potencia de la prueba, una disminucin en el tamao de la muestra seleccionada tendra como resultado una disminucin en la potencia.
Ejemplo: Se realizan controles de calidad y de eficacia de vacunas contra herpes virus bovino-1 (HVB-1) aplicando un novedoso modelo de anlisis que incluye una etapa de estudio en ratones y otra posterior en bovinos. En la segunda etapa se le aplica la vacuna a un grupo de bovinos. Ms tarde se lo desafa con el herpes virus infeccioso, bajo estrictas normas de seguridad, para evaluar si la vacuna ha resultado protectiva. Este mtodo se denomina prueba de potencia, y ya ha sido realizado con xito para la empresa farmacutica Biognesis para controlar vacunas de serie contra HVB-1. El servicio a esta empresa en particular contina en la actualidad. Potencia de la prueba La potencia de una prueba es la probabilidad de rechazar la hiptesis nula cuando sta sea falsa. Se suele simbolizar como 1-. Se suele considerar OK una potencia de al menos 080 (es decir, asumiendo 100 experimentos en que hay un efecto real, lo detectaramos -en promedio- 80 veces.) La potencia de una prueba aumenta cuando aumentamos el tamao muestral. (Por ejemplo, en la prueba t para la diferencia de medias, ello se observa por cuanto n incrementa el valor de la t emprica.) La potencia de una prueba aumenta cuando el tamao del efecto aumenta. (Por ejemplo, en la prueba t para la diferencia de medias, cuanto mayor sea la diferencia de medias, mayor ser el valor de la t emprica.) La potencia de una prueba disminuye cuando reducimos la probabilidad de error de tipo I (alpha o ). Es decir, si alpha es de 001 en lugar de 005, los valores crticos (v.g., las t tericas en el caso de la prueba de diferencia de medias) son algo ms extremos y necesitaremos un valor del estadstico de contraste (v.g., t emprica) mayor para rechazar la hiptesis nula. Potencia de la prueba Hay frmulas estadsticas (y programas en la internet) que permiten determinar la potencia de una prueba dado cierto tamao muestral, y la inversa, es decir, determinar el tamao muestral para una potencia dada. (Claro, que hemos de ser precavidos: para obtener tales valores necesitamos indicar lo que pensamos que sern los parmetros poblacionalesal go que en realidad no sabemos. 3.5 Formulacin de Hiptesis estadsticas Despus de que el PON se ha definido y precisado, el siguiente paso en el proceso de investigacin es establecer la hiptesis de investigacin. En trminos generales el trmino hiptesis se define como una respuesta probable de carcter tentativo a un problema de investigacin y que es factible de verificacin emprica. La hiptesis expresa la relacin entre dos o ms variables que son
49
susceptibles de medicin. Una hiptesis planteada correctamente debe poderse verificar o contrastar contra la evidencia emprica. Lo que se somete a comprobacin no es exactamente la hiptesis ni las variables que la integran, sino la relacin que expresan entre s las variables estudiadas en la investigacin. De acuerdo con Zorrilla (1985) una hiptesis se estructura con tres elementos: a) Unidades de Anlisis. Tambin conocidas como unidades de observacin y representan el objeto de estudio, son ejemplos, las personas, las empresas, los movimientos sociales, los fenmenos naturales, etc. que se someten a investigacin. b) Las Variables. Que son los atributos, caractersticas o propiedades que presentan las unidades de anlisis y que sern sometidas a medicin. c) Enlace Lgico. Son trminos de relacin o enlace entre las unidades de anlisis y las variables, por ejemplo, las expresiones: sientonces, existe relacin entreyetc. De acuerdo con Kerlinger (1983) las hiptesis deben cubrir dos requisitos: a) Expresar la relacin entre una variable y otra. b) Indicar la necesidad de verificar la relacin entre las variables Si no se cumplen ambos requisitos no se tiene una verdadera hiptesis cientfica. La hiptesis es importante porque ayuda a darle una direccin a la investigacin, adems es tambin una prediccin que puede ser probada y que se deriva lgicamente del problema de investigacin. De acuerdo con Therese L. Baker (1997) si el objetivo del estudio es una explicacin entonces una pregunta de investigacin puede ser la base para formular una o ms hiptesis. La abundante literatura existente sobre metodologa de la investigacin, describe una gran variedad de tipos de hiptesis, no obstante, en la presente seccin nicamente se explicarn las siguientes: hiptesis de investigacin, hiptesis de nulidad, hiptesis alternativa e hiptesis estadstica.
a) Hiptesis de Investigacin. Es el tipo de hiptesis al que nos hemos referido anteriormente y se le define como una aseveracin, conjetura o proposicin sobre las probables relaciones entre dos o ms variables. Con frecuencia se pueden expresar en forma descriptiva, correlacionar, de causalidad, de nulidad, etc. dependiendo del propsito y naturaleza de la investigacin que se intenta desarrollar. a1) Hiptesis Descriptiva. La hiptesis descriptiva como su nombre lo indica describe una situacin relacional entre las variables que se someten a estudio. Se utiliza en investigaciones de tipo descriptivo, como pudieran ser los estudios por encuesta. Son ejemplos de hiptesis descriptiva los siguientes: El periodo de recuperacin de la inversin del proyecto Duply Office es de dos aos.
50
Los productos de consumo domstico en Mxico aumentarn un 18 % en los prximos seis meses. a2) Hiptesis Correlacionar. La palabra correlacin es un trmino estadstico que expresa una posible asociacin o relacin entre dos o ms variables, sin que sea importante el orden de presentacin de las variables, ya que no expresan una relacin de causalidad. Para verificarlas se utilizan pruebas estadsticas de correlacin. Son ejemplos de hiptesis correlacionar los siguientes: A mayor apreciacin del dlar norteamericano, mayor depreciacin del peso mexicano. El volumen de importaciones en Mxico disminuye con el aumento en el tipo de cambio peso-dlar. a3) Hiptesis de Causalidad. Las hiptesis de causalidad se formulan para investigaciones experimentales. Expresan una relacin de causa-efecto entre las variables que se someten a estudio. Una hiptesis de causalidad puede expresar una relacin causal entre una variable independiente y una variable dependiente, o bien, puede hacerlo entre ms de una variable independiente y una variable dependiente. Son ejemplos de hiptesis de causalidad: El elevado ndice de inflacin en Mxico es causa del bajo poder adquisitivo del peso mexicano. Los factores de productividad total (insumo humano, materia prima, energa, capital y otros gastos) del sector manufacturero mexicano son los determinantes de la productividad total. b) Hiptesis de Nulidad. Este tipo de hiptesis expresa la ausencia de relacin, diferencia, causalidad, etc. entre dos o ms variables. De acuerdo con DAry, Jacobs y Razavieh (1982) la hiptesis de nulidad permite comparar los descubrimientos con las expectativas mediante mtodos estadsticos, (p. 85). Son ejemplos de hiptesis de nulidad: La oferta de carreras profesionales del Instituto Tecnolgico de Cd. Cuauhtmoc no satisface la demanda de formacin acadmica profesional de los egresados de nivel medio superior en la regin. La tecnologa de punta no representa una ventaja competitiva definitiva de la empresa A al disminuir sus costos de produccin y hacer mas eficientes los procesos productivos. c) Hiptesis Estadsticas. Una hiptesis estadstica expresa en trminos o smbolos estadsticos los anteriores tipos de hiptesis. Se pueden expresar en trminos de: c1) Estadsticas de Estimacin. Diseadas para evaluar la suposicin respecto al valor de alguna caracterstica de una muestra de individuos o unidades de anlisis. c2) Estadsticas de Correlacin. Traduce o transforma una situacin de correlacin entre dos o ms variables a la simbologa estadstica Propia de las pruebas estadsticas de correlacin. c3) Estadsticas de la Diferencia de Medias u otros Valores. En este tipo de hiptesis se compara una estadstica entre dos o ms grupos.
51
Es un ejemplo de hiptesis estadstica la siguiente: La hiptesis No hay relacin entre el aprendizaje (mayor cantidad de impresiones por hora) y el costo por unidad impresa en la compaa Ediciones Tarahumara, se expresa como una hiptesis estadstica de la siguiente manera: Hiptesis nula: Ho: rxy = 0 (no hay relacin entre) Hiptesis alternativa: H1: rxy 0 (existe relacin entre) 3.6 Prueba de hiptesis para la media Cuando se van a realizar pruebas de hiptesis relativas a la media poblacional m se debe saber si la varianza poblacional s es conocida o desconocida, ya que la distribucin subyacente al estadstico de prueba ser la normal estndar si la varianza es conocida, y la distribucin t en caso contrario. Las diferentes hiptesis que se pueden presentar son las siguientes: 1) Ho: m = m0 H1: m > m0 2) Ho: m = m0 H1: m < m0 3) Ho: m = m0 H1: m m0 Las pruebas de hiptesis para la media se basan en el estadstico dado por la media muestral cuya distribucin tiende a la distribucin normal (m, s /n) para muestras grandes. Prueba de hiptesis para la media con varianza conocida Cuando la varianza s es conocida, las pruebas de hiptesis se basan en el hecho de que la variable aleatoria Z definida como , se distribuye normalmente con media cero y varianza unitaria. Para el caso de las hiptesis Ho: m = m0 contra H1: m > m0 vimos, al analizar las mejores pruebas, que la mejor regin crtica de tamao a consista en rechazar H0 si la media muestral era mayor o igual que una constante c dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn. Y los criterios de decisin seran los siguientes: a) Rechace Ho: m = m0 si c, donde. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si Z Za. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin normal estndar a la derecha del valor Z calculado, y rechace Ho: m = m0 si P < a. Para el caso de las hiptesis Ho: m = m0 contra H1: m < m0 la mejor regin crtica de tamao a consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calcula la media muestral, y los criterios de decisin sera los siguientes:
52
a) Rechace Ho: m = m0 si c, donde . b) Calcule el estadstico de prueba y rechace Ho: m = m0 si Z Z1-a. Como Za = -Z1-a se rechaza Ho si Z -Za o equivalentemente, si Z Z a. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin normal estndar a la izquierda del valor Z calculado, y rechace Ho: m = m0 si P < a. Por ltimo, si las hiptesis fueran Ho: m = m0 contra H1: m m0 la mejor regin crtica de tamao a (aunque no es uniformemente ms potente como en el caso de las dos anteriores) consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 mayor igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calcula la media muestral, y los criterios de decisin seran los siguientes: a) Rechace Ho: m = m0 si c1 c2, donde y . b) Calcule el estadstico de prueba y rechace Ho: m = m0 si Z -Za/2 Z Za/2, simplemente, si Z Z a/2. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin normal estnda r a la izquierda del valor Z calculado si Z es negativo, o a la derecha del valor de Z si Z es positivo, y rechace Ho: m = m0 si P < a. Tambin P se puede calcular como el rea a derecha del valor absoluto de Z. Ejemplo: Un inspector de pesos y medidas visita una planta de empacado para verificar que el peso neto de las cajas sea el indicado en la etiqueta. El gerente de la planta asegura al inspector que el peso promedio de cada caja es de 750 gramos con una desviacin estndar de 5 gr. El inspector selecciona, al azar, 100 cajas y encuentra que el peso promedio es de 748 gr. Bajo estas condiciones y usando un nivel de significancia de 0.05, Qu actitud debe tomar el inspector? Solucin. Este problema lo podemos plantear como una prueba de hiptesis del siguiente tipo: 1) Ho: m = m0 = 750 H1: m < m0 (hay preocupacin si el peso medio es inferior al especificado) Con n = 100, a = 0.05, s = 5 gramos. Se tiene que Z0.05 = 1.645. Por lo tanto, la regin crtica est dada por = 750 - 1.645 x 5/10 =749.18. Por lo tanto como la media muestral es 748 gramos, se rechaza la hiptesis de que el promedio de cada caja sea 750 gramos. Por lo tanto, deben tomarse las medias necesarias para corregir esta situacin, que va en contra de los intereses del consumidor. Usando los otros criterios de aceptacin tenemos que Z = - 4.0 y el valor P es aproximadamente cero (P = 0.0). Prueba de hiptesis para la media con varianza desconocida Cuando la varianza s no es conocida, las pruebas de hiptesis se basan en el hecho de que la variable aleatoria T definida como tiene una distribucin t con n-1 grados de libertad. Por lo tanto,
53
al analizar los diferentes casos presentados anteriormente para las pruebas de hiptesis con respecto a la media, bastar con cambiar la varianza poblacional s por su estimativo muestral S y la distribucin normal estndar por la distribucin t. En consecuencia los diferentes casos a analizar sern los siguientes: Si tenemos las hiptesis Ho: m = m0 contra H1: m > m0 la mejor regin crtica de tamao a consiste en rechazar H0 si la media muestral es mayor o igual que la constante c, que en este caso est dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calculan la media muestral y la varianza muestral s dados por: , y los criterios de decisin seran los siguientes: a) Rechace Ho: m = m0 si c, donde. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si T tn - 1, a. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin t a la derecha del valor T calculado, y rechace Ho: m = m0 si P < a. Para el caso de las hiptesis Ho: m = m0 contra H1: m < m0 la mejor regin crtica de tamao a consiste en rechazar H0 si la media muestral es menor o igual que una constante c dada por. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calculan la medi a muestral y la varianza muestral S, y los criterios de decisin sera los siguientes: a) Rechace Ho: m = m0 si c, donde. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si T tn - 1, a. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin t a la izquierda del valor T calculado, y rechace Ho: m = m0 si P < a.
Por ltimo, si las hiptesis fueran Ho: m = m0 contra H1: m m0 la mejor regin crtica de tamao a (aunque no es uniformemente ms potente como en el caso de las dos anteriores) consiste en rechazar H0 si la media muestral es menor o igual que una constante c1 mayor igual que otra constante c2. Por lo tanto, una vez tomada la muestra y obtenidos los valores x1, x2,, xn, se calcula la media muestral, y los criterios de decisin seran los siguientes: a) Rechace Ho: m = m0 si c1 c2, donde y. b) Calcule el estadstico de prueba y rechace Ho: m = m0 si T tn - 1, a/2. c) Calcule el estadstico de prueba y estime P como el rea en la distribucin t a la izquierda del valor T calculado si T es negativo, o a la derecha del valor de T si T es positivo, y rechace Ho: m = m0 si P < a. Tambin P se puede calcular como el rea a derecha del valor absoluto de T.
54
3.7 Prueba de hiptesis para la diferencia de medias Prueba de hiptesis para la diferencia de medias. Supongamos que se toma una muestra aleatoria de n1 de la primera poblacin y una muestra aleatoria de n2, y los datos recolectados provienen de una variable numrica. En la primera poblacin, la media se representa con el smbolo y la desviacin estndar con el smbolo: en la segunda poblacin, la media se representa con el smbolo y la desviacin estndar con el smbolo. El estadstico de prueba usado para determinar la diferencia entre dos medias poblacionales se basa en la diferencia entre las medias de muestras. Si se supone que las muestras son aleatorias y seleccionadas independientemente de las poblaciones que estn distribuidas de forma normal, este estadstico seguir la distribucin normal estandarizada. Si las poblaciones no estn distribuidas de forma normal, la prueba Z sigue siendo la adecuada si las muestras son lo suficientemente grandes (generalmente n1 y n2 30. La siguiente ecuacin define la prueba Z para la diferencia entre dos medias. 3.8 Prueba de hiptesis para la proporcin Las pruebas de hiptesis a partir de proporciones se realizan casi en la misma forma utilizada cuando nos referimos a las medias, cuando se cumplen las suposiciones necesarias para cada caso. Pueden utilizarse pruebas unilaterales o bilaterales dependiendo de la situacin particular. La proporcin de una poblacin Las hiptesis se enuncian de manera similar al caso de la media. Ho: p = p0 H1: p p0 Regla de decisin: se determina de acuerdo a la hiptesis alternativa (si es bilateral o unilateral), lo cual puedes fcilmente hacerlo auxilindote de la tabla 4.4.1. En el caso de muestras pequeas se utiliza la distribucin Binomial. No lo abordaremos por ser complicado y poco frecuente su uso. Diferencia entre las proporciones de dos poblaciones La situacin ms frecuente es suponer que existen diferencias entre las proporciones de dos poblaciones, para ello suelen enunciarse las hiptesis de forma similar al caso de las medias: Ho: p1 = p2 p1 - p2 = 0 H1: p1 p2 Puede la hiptesis alternativa enunciarse unilateralmente. Siendo a1 y a2, el nmero de sujetos con la caracterstica objeto de estudio en las muestras 1 y 2 respectivamente, es decir, en vez de calcular la varianza para cada muestra, se calcula una p
55
conjunta para ambas muestras bajo el supuesto que no hay diferencias entre ambas proporciones y as se obtiene la varianza conjunta. Recuerda que q = 1-p. Est de ms que te diga que este estadgrafo se distribuye normal estndar. La regla de decisin se determina de manera similar a los casos ya vistos anteriormente. El objetivo de la prueba es comparar estas dos proporciones, como estimadores H1: p1 p2 Recuerda que la H1 tambin puede plantearse de forma unilateral. Pruebas de hiptesis para proporciones En el caso de proporciones se mostrara mediante un ejemplo como realizar pruebas de hiptesis para muestras grandes (mayores a 30 elementos).
Ejemplo: El dueo de un caf desea saber si la proporcin de mujeres que entran a su negocio es igual al 60%. Para hacer lo anterior se realiza un muestreo aleatorio de 40 personas, dando un promedio de la muestra de 58%. Paso 1. Determinar la hiptesis Nula Ho y Alternativa Ha. Ho: La cantidad de mujeres que entra al negocio es del 60%. Ha: La cantidad de mujeres que entran al negocio NO ES del 60% (El estudiante debe describir la Ha) Ntese que la hiptesis nula considera IGUAL al 60% por lo tanto es una prueba de hiptesis de dos colas. Paso 2. Determinar el nivel de significancia. Este nivel representa la probabilidad de rechazar una hiptesis nula verdadera, matemticamente se puede considerar cualquier valor entre cero y uno; pero para estudios de pruebas de hiptesis normalmente est entre 0.05 y 0.1. Este nivel est determinado por el analista y debe basarse en las caractersticas del estudio y el riesgo que se considere aceptable de cometer el error tipo I. Nivel de significancia del estudio para el ejemplo: = 0.1 Grficamente el nivel de significancia se distribuye en la curva de distribucin normal tal como se muestra en la figura, ntese que en el caso de pruebas de hiptesis de medias, sta se ubica en la parte media de la distribucin de probabilidad:
56
Paso 3. Calcular los intervalos que implican ese nivel de significancia. Para dicho nivel de significancia (equivale a un nivel de confianza del 90%) los valores de Z son: Z = +/- 1.6448 Grficamente queda de la siguiente manera:
Paso 4. Calcular el estadstico de la prueba. El estadstico Z se calcula de la siguiente manera: En el caso de pruebas de hiptesis para proporciones la ecuacin que se usa es la siguiente:
Dnde:
57
p Proporcin muestral p Proporcin poblacional (considerado en la hiptesis nula) q 1- p Inverso de p. n Nmero de elementos muestreados. z Valor de Z tipificado Para el caso del presente ejemplo:
Paso 5. Determinar si el estadstico cae dentro de la regin que hace la Hiptesis nula verdadera.
Podr notarse, el estadstico esta dentro de la regin que hace verdadera la hiptesis nula. Paso 6. Aceptar o rechazar la hiptesis nula. En este caso como el estadstico de la prueba cae dentro de la regin que hace verdadera la hiptesis nula, sta se ACEPTA y se toma como falsa la hiptesis alternativa: Ho: La cantidad de mujeres que entra al negocio es del 60%. (VERDADERO) Ha: La cantidad de mujeres que entra al negocio NO es del 60%. (FALSO)
58
3.9 Prueba de hiptesis para la diferencia de proporciones En algunos diseos de investigacin, el plan muestral requiere seleccionar dos muestras independientes, calcular las proporciones mustrales y usar la diferencia de las dos proporciones para estimar o probar una diferencia entre las mismas. Las aplicaciones son similares a la diferencia de medias, por ejemplo si dos empresas consultoras ofrecen datos de proporciones de personas que van a votar por el PRI y al hacer dos estudios diferentes salen resultados ligeramente diferentes pero qu tanta diferencia se requiere para que sea estadsticamente significativo? De eso se tratan las pruebas estadsticas de diferencias de proporciones. El estadstico Z para estos casos se calcula de la siguiente manera:
Dnde:
59
Ejemplo: Una muestra de 87 mujeres trabajadoras profesionales mostr que la cantidad promedio que pagan a un fondo de pensin privado el 5% de su sueldo. Una muestra de 76 hombres trabajadores profesionales muestra que la cantidad que paga a un fondo de pensin privado es el 6.1% de su sueldo. Un grupo activista de mujeres desea demostrar que las mujeres no pagan tanto como los hombres en fondos de pensin privados. Si se usa alfa = 0.01 Se confirma lo que el grupo activista de mujeres desea demostrar o no? Paso 1. Determinar la hiptesis Nula Ho y Alternativa Ha. Ntese que este problema es de una cola. Ho: Lo que pagan las mujeres en el fondo de pensin es igual o mayor a lo que pagan los hombres (algunos autores solo le colocan igual). Ha: _______________________________________ (El estudiante debe describir la Ha) La hiptesis alternativa es lo que las mujeres del grupo activista desea demostrar. Paso 2. Determinar el nivel de significancia. Definido por el analista, en este caso se desea usar = 0.01 Grficamente el nivel de significancia se distribuye en la curva de distribucin normal tal como se muestra en la figura:
Paso 3. Calcular los intervalos que implican ese nivel de significancia. Para dicho nivel de significancia el valor de Z es: Z=-2.326
60
Grficamente queda de la siguiente manera:
Paso 4. Calcular el estadstico de la prueba. El estadstico Z para estos casos se calcula de la siguiente manera:
Para el caso del presente ejemplo: considerando la poblacin de mujeres como 1 y la de hombres como 2 tenemos la siguiente sustitucin:
61
Paso 5. Determinar si el estadstico cae dentro de la regin que hace la Hiptesis nula verdadera.
Estadstico de prueba z = -0.3069 Como podr notarse, el estadstico est DENTRO de la regin que hace verdadera la hiptesis nula. Paso 6. Aceptar o rechazar la hiptesis nula. En este caso como el estadstico de la prueba cae DENTRO de la regin que hace verdadera la hiptesis nula, dicha hiptesis se ACEPTA y se toma como falsa la hiptesis alternativa: Ho: El porcentaje de su sueldo que pagan las mujeres en el fondo de pensin es igual a lo que pagan los hombres. (VERDADERO) Ha: El porcentaje del sueldo que pagan las mujeres en el fondo de pensin privado es menor a lo que pagan los hombres. (FALSO)
62
3.10 Prueba de hiptesis para la varianza Es frecuente que se desee comprobar si la variacin o dispersin de una variable ha tenido alguna modificacin, lo cual se hace con la prueba de hiptesis para la varianza. Hiptesis Se puede plantear uno de los siguientes tres tipos de hiptesis: - Prueba de hiptesis a dos colas H0 : H1 : =k k
- Prueba de hiptesis a una cola superior H0 : H1 : =k >k H0 : H1 : k >k
- Prueba de hiptesis a una cola inferior H0 : H1 : =k <k H1 : H1 : k <k
En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida. Si se utiliza la varianza sin corregir ( ) la estadstica de trabajo es la expresin (1.4):
(3.6) Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):
(3.7)
Regla de decisin -Si se ha planteado la hiptesis alternativa como:
63
H1 : k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se
divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura.
Regla de decisin para una prueba de hiptesis a dos colas y pertenecen a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 <T< no se rechaza H0.
de trabajo (T) est entre
lo cual implica aceptar H1 . Es decir, si
- Si se ha planteado la hiptesis alternativa como: H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia
( ) en la parte superior de la distribucin, vase figura .
Regla de decisin para una prueba de hiptesis a una cola superior Z1pertenece a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo no se rechaza H0 .
trabajo (T) es menor que
cual implica aceptar H1 . Es decir, si T <
- Si se ha planteado la hiptesis alternativa como:
64
H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia (
) en la parte inferior de la distribucin, vase figura.
Regla de decisin para una prueba de hiptesis a una cola inferior Z pertenece a una distribucin X2 con (n-1) grado de libertad. Si el valor de la estadstica de
trabajo (T) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si T >Z no se rechaza H0. Ejemplo: Se supone que los dimetros de cierta marca de vlvulas estn distribudos normalmente con una varianza poblacional de 0,2 pulgadas 2 , pero se cree que ltimamente ha aumentado. Se toma una muestra aleatoria de vlvulas a las que se les mide su dimetro, obtenindose los siguientes resultados en pulgadas: 5,5 5,4 5,4 5,6 5,8 5,4 5,5 5,4 5,6 5,7
Con sta informacin pruebe si lo que se cree es cierto. Solucin Se cree que la varianza poblacional ha aumentado, es decir es superior a 0,2; por lo tanto: H0 : H1 : = 0,2 > 0,2
Para realizar esta prueba de hiptesis se utiliza la expresin 3.6
Asumiendo un nivel de confianza del 95 por ciento, en la tabla de la distribucin chi-cuadrado con 9 grados de libertad, se obtiene un valor para Z de 16,919. Como puede observarse en la figura, el valor de la estadstica de trabajo se ubica en la zona de no rechazo de la hiptesis nula, por
65
consiguiente con una confiabilidad del 95 por ciento se puede afirmar que la varianza poblacional no ha aumentado.
Regla de decisin para una prueba de hiptesis a una cola superior 3.11 Prueba de hiptesis para la relacin de varianzas. 3.12 Uso de software estadstico El uso de ordenadores y calculadoras facilita el que los alumnos comprendan mejor temas complejos de matemticas. Es evidente que en muchos casos la tecnologa agiliza y supera, la capacidad de clculo de la mente humana, con ayuda de la tecnologa, los alumnos tienen ms tiempo para concentrarse en enriquecer su aprendizaje matemtico. Las nuevas tecnologas han venido a cambiar por completo el panorama tradicional de como se hacan, se vean y se enseaban las matemticas. Introducirse en este nuevo panorama implica realizar profundos cambios en nuestros programas educativos. Es muy amplia la variedad de aplicaciones informticas disponibles para estadstica y probabilidad:

Excel o Calc Javascript Applet de Java, Geogebra Proyecto Descartes Software Libre Otros Software
Excel/Calc La hoja de clculo Excel o Calc (OpenOffice) es un software considerado como estndar en todos los entornos(educativo, profesional, familiar, etc), que posee la virtud de presentar una interfaz
66
agradable, una facilidad de uso digna de elogio y permite realizar anlisis estadsticos simples o ms complejos y avanzados. Javascript JavaScript, es un lenguaje de programacin de pginas web de lado del cliente, nos permite aadir a las pginas web efectos y funciones adicionales a los contemplados en el estndar HTML. Gracias a que se ejecuta en el navegador(localmente), JavaScript, nos permite responder de manera rpida y eficaz a las acciones del usuario, creando de esta manera aplicaciones interactivas
Applet de Java El lenguaje Java se puede usar para crear los applets de Java. Un applet es un elemento ms de una pgina web, como una imagen o una porcin de texto. Cuando el navegador carga la pgina web, el applet insertado en dicha pgina se carga y se ejecuta.
Proyecto Descartes Descartes (M.E.C.) es un programa realizado en lenguaje applet de java que se caracterizan porque crean "escenas" que se pueden insertar en las pginas web. Descartes no slo convierte una web en una web interactiva sino que, adems, es configurable, es decir, que los usuarios (profesores) pueden "programarlo" para que aparezcan diferentes elementos y distintos tipos de interaccin.
Software Libre "Software Libre" es un asunto de libertad, no de precio.`Software Libre'' se refiere a la libertad de los usuarios para ejecutar, copiar, distribuir, estudiar, cambiar y mejorar el software. Ejemplo: Comprobacin de un estadstico de prueba calculado mediante el Software Minitab que es igual a Z = 2.38 y lo comparamos con el valor critico de Zc = 1.96. Como el estadstico de prueba calculado cae a la derecha del valor critico de Z, se rechaza Ho. Por tanto no se confirma el supuesto del Jefe de la Biblioteca. One-Sample Z Test of mu = 350 vs not = 350 The assumed standard deviation = 52.414 N Mean SE Mean 95% CI Z P 30 372.800 9.569 (354.044, 391.556) 2.38 0.017
67
68
UNIDAD 4. PRUEBAS DE BONDAD DE AJUSTE Y PRUEBAS NO PARAMTRICAS 4.1 Bondad de ajuste La bondad de ajuste o coeficiente de determinacin (R2) es una manera de medir la aproximacin de la recta a la nube de puntos. R2 puede tomar valores entre 0 y 1 (0 y 100 en trminos de tanto por ciento). Cuanto ms se aproxime a 1 mejor ser el ajuste a la nube de puntos y ms fuerte ser la relacin entre las variables que el modelo quiere captar. No se debe confundir con el coeficiente de Pearson (r). 4.1.1 Anlisis Ji-Cuadrada En realidad la distribucin ji-cuadrada es la distribucin muestral de s2. O sea que si se extraen todas las muestras posibles de una poblacin normal y a cada muestra se le calcula su varianza, se obtendr la distribucin muestral de varianzas. Para estimar la varianza poblacional o la desviacin estndar, se necesita conocer el estadstico X 2. Si se elige una muestra de tamao n de una poblacin normal con varianza , el estadstico:
tiene una distribucin muestral que es una distribucin ji-cuadrada con gl=n-1 grados de libertad y se denota X2 (X es la minscula de la letra griega ji). El estadstico ji-cuadrada esta dado por:
donde n es el tamao de la muestra, s2 la varianza muestral y
la varianza de la poblacin de
donde se extrajo la muestra. El estadstico ji-cuadrada tambin se puede dar con la siguiente expresin:
Propiedades de las distribuciones ji-cuadrada
69
1. Los valores de X2 son mayores o iguales que 0. 2. La forma de una distribucin X2 depende del gl=n-1. En consecuencia, hay un nmero infinito de distribuciones X2. 3. El rea bajo una curva ji-cuadrada y sobre el eje horizontal es 1. 4. Las distribuciones X2 no son simtricas. Tienen colas estrechas que se extienden a la derecha; esto es, estn sesgadas a la derecha. 5. Cuando n>2, la media de una distribucin X2 es n-1 y la varianza es 2(n-1). 6. El valor modal de una distribucin X2 se da en el valor (n-3). La siguiente figura ilustra tres distribuciones X2. Note que el valor modal aparece en el valor (n-3) = (gl-2).
La funcin de densidad de la distribucin X2 est dada por:
Para x>0 La tabla que se utilizar para estos apuntes es la del libro de probabilidad y estadstica de Walpole, la cual da valores crticos (gl) para veinte valores especiales de . Para denotar el valor (gl); este valor
crtico de una distribucin X2 con gl grados de libertad se usa el smbolo crtico determina a su derecha un rea de
bajo la curva X2 y sobre el eje horizontal. Por ejemplo a o largo del
para encontrar X20.05(6) en la tabla se localiza 6 gl en el lado izquierdo y lado superior de la misma tabla.
70
4.1.2 Prueba de independencia Cuando cada individuo de la poblacin a estudio se puede clasificar segn dos criterios A y B, admitiendo el primero a posibilidades diferentes y b el segundo, la representacin de las frecuencias observadas en forma de una matriz a x b recibe el nombre de Tabla de contingencia. Los datos se disponen de la forma siendo nij el nmero de individuos que presentan simultneamente la isima modalidad del carcter A y la j-sima del B. La hiptesis nula a contrastar admite que ambos caracteres, A y B, se presentan de forma independiente en los individuos de la poblacin de la cual se extrae la muestra; siendo la alternativa la dependencia estocstica entre ambos caracteres. La realizacin de esta prueba requiere el clculo del estadstico donde: y son las frecuencias absolutas marginales y el tamao muestral total. El estadstico L se distribuye como una con (a - 1)(b - 1) grados de libertad. El contraste se realiza con un nivel de significacin del 5%.
71
Ejemplo: Para estudiar la dependencia entre la prctica de algn deporte y la depresin, se seleccion una muestra aleatoria simple de 100 jvenes, con los siguientes resultados: Sin depresin Deportista No deportista 38 31 Con depresin 9 22 47 53 total
69
31
100
L = (38 32,43)2/32,43 + (31 36,57)2/36,57 + (9 14,57)2/14,57 + (22 16,43)2/16,43 = 0,9567 + 0,8484 + 2,1293 + 1,8883 = 5,8227
El valor que alcanza el estadstico L es 5,8227. Buscando en la tabla terica de Chi Cuadrado para 1 grado de libertad se aprecia Lt = 3,84146 < 5,8227 lo que permite rechazar la hiptesis de independencia de caracteres con un nivel de significacin del 5%, admitiendo por tanto que la prctica deportiva disminuye el riesgo de depresin.
4.1.3 Prueba de la bondad del ajuste Las pruebas de bondad de ajuste tienen por objetivo determinar si los datos se ajustan a una determinada distribucin, esta distribucin puede estar completamente especificada (hiptesis simple) o perteneciente a una clase paramtrica (hiptesis compuesta). Una hiptesis estadstica se defini como una afirmacin o conjetura acerca de la distribucin f(x,q) de una o ms variables aleatorias. Igualmente se plante que la distribucin poda tener uno o ms parmetros desconocidos, que denotamos por q y que la hiptesis se relaciona con este parmetro o conjunto de parmetros En otros casos, se desconoce por completo la forma de la distribucin y la hiptesis entonces se relaciona con una distribucin especfica f(x,q) que podamos asignarle al conjunto de datos de la muestra. El primer problema, relacionado con los parmetros de una distribucin conocida o supuesta es el problema que hemos analizado en los prrafos anteriores. Ahora examinaremos el problema de verificar si el conjunto de datos se puede ajustar o afirmar que
72
proviene de una determinada distribucin. Las pruebas estadsticas que tratan este problema reciben el nombre general de Pruebas de Bondad de Ajuste. Se analizarn dos pruebas bsicas que pueden aplicarse: La prueba Chi - Cuadrado y la prueba de Smirnov-Kolmogorov. Ambas pruebas caen en la categora de lo que en estadstica se denominan pruebas de Bondad de Ajuste y miden, como el nombre lo indica, el grado de ajuste que existe entre la distribucin obtenida a partir de la muestra y la distribucin terica que se supone debe seguir esa muestra. Ambas pruebas estn basadas en la hiptesis nula de que no hay diferencias significativas entre la distribucin muestral y la terica. Ambas pruebas estn basadas en las siguientes hiptesis H0: f(x,q) = f0(x,q) H1: f(x,q) f0(x,q)
Donde f0(x,q) es la distribucin que se supone sigue la muestra aleatoria. La hiptesis alternativa siempre se enuncia como que los datos no siguen la distribucin supuesta. Si se desea examinar otra distribucin especfica, deber realizarse de nuevo la otra prueba suponiendo que la hiptesis nula es esta nueva distribucin. Al especificar la hiptesis nula, el conjunto de parmetros definidos por q puede ser conocido o desconocido. En caso de que los parmetros sean desconocidos, es necesario estimarlos mediante alguno de los mtodos de estimacin analizados con anterioridad. Para formular la hiptesis nula debern tenerse en cuenta los siguientes aspectos o criterios:
a) La naturaleza de los datos a analizar. Por ejemplo, si tratamos de investigar la distribucin que siguen los tiempos de falla de unos componentes, podramos pensar en una distribucin exponencial, o una distribucin gama o una distribucin Weibull, pero en principio no consideraramos una distribucin normal. Si estamos analizando los caudales de un ro en un determinado sitio, podramos pensar en una distribucin logartmica normal, pero no en una distribucin normal. b) Histograma. La forma que tome el histograma de frecuencia es quizs la mejor indicacin del tipo de distribucin a considerar TEST Estn diseados para variables aleatorias discretas con
un numero finito de valores, si esto no ocurriese los valores de la variable se agrupan en un numero finito de clases. 1. Hiptesis nula simple
73
Dada una muestra aleatoria simple de una variable aleatoria X que toma valores en las clases C1; : : : ;Ck ,sea Oi = no de individuos de la muestra en la clase
La idea de una prueba de bondad de ajuste es comparar el histograma,
,con la mejor
densidad de Poisson que le queda a los datos. Si la discrepancia entre stos es demasiado grande, entonces se habla de evidencia en contra del hecho de que f(x) sea Poisson (recuerda que por la Ley
de los Grandes Nmeros, de Poisson).
siempre se parece a f(x), sin importar si sta ltima es o no
Hay teora matemtica (llamada mxima verosimilitud) que dice que, en cierto sentido, la mejor densidad de Poisson que le queda a los datos es aquella que tiene parmetro dado por Es decir, el
problema se reduce a comparar
con
Cmo comparar entre s las dos funciones y ? Esto es equivalente a comparar entre s
y (la letra e es por frecuencia ``esperada'' bajo la densidad de Poisson). Una forma de comparar las ox con las ex es calculando el valor de
La cantidad
se llama estadstica de prueba para bondad de ajuste
. Para entenderla
intuitivamente, debes notar que
es una cantidad positiva o cero.
74
Si las ox las ex se parecen mucho, entonces la cantidad caso de que todas las ox sean iguales a las ex).
ser pequea (y
en el
Entre ms sean las ox y ex las distintas entre s, mayor es el valor de
La moraleja es que una densidad de Poisson.
es una medida de discrepancia entre las ox y ex las que se esperaran bajo
Se dice que
es demasiado grande si excede cierto valor C que depende de cuntas categoras
de x hubo (los valores de C se encuentran calculados por teora estadstica y se anotan en tablas). Un resultado matemtico establece lo siguiente:
Si la densidad f(x) es Poisson, entonces la probabilidad de que
exceda C es solo del 5%.
Esto quiere decir que si se obtiene una muestra de X, y se calcula un valor de que resulta demasiado grande, entonces hay dos posibles explicaciones para ello: A f(x) es Poisson y tuve buensima suerte, pues me ocurri algo que tena slo probabilidad 5% de ocurrir
B f(x) no es Poisson, y por eso me sali un valor de
demasiado grande
Asumir la explicacin A es creer que slo la suerte explica las cosas y que la naturaleza nos juega bromas con cosas poco probables. La explicacin B es mucho ms razonable. La explicacin A es posible, pero poco probable. De hecho, se trata exactamente del razonamiento que usamos en las siguientes dos situaciones: Situacin anloga #1: Suponer que el director de la Lotera Nacional se gan dos veces seguidas el Premio Mayor. Hay dos posibles explicaciones para ello:
A El Director de la LN tuvo una suerte tremenda, pues le ocurri algo que tena slo probabilidad .0000000004 de ocurrir B La urna de la LN estuvo intervenida, y por eso ocurri que el Director de la LN gan dos veces seguidas
Estarn de acuerdo que B es la explicacin natural que elegimos.
75
Situacin anloga #2: El mago me adivin la carta que secretamente eleg. Hay dos explicaciones para ello: A El mago tuvo mucha suerte, pues en realidad me la adivin al azar, lo cual tiene slo
probabilidad 1/52=.019 de ocurrir B El mago tiene poderes mgicos legtimos, y por eso me la pudo adivinar La explicacin B es la que siempre preferimos; por eso nos maravillamos ante el truco del mago.
Conclusin: si
, se interpreta como evidencia en contra de la suposicin de que
f(x) sea Poisson, y si
entonces se concluye que no hay razn para sospechar que
f(x) no sea de Poisson. La posibilidad de que yo concluya errneamente que f(x) no es de Poisson cuando realmente s lo sea, es slo del 5%.
4.1.4 Tablas de contingencia Se emplean para registrar y analizar la relacin entre dos o ms variables, habitualmente de naturaleza cualitativa (nominales u ordinales). Supngase que se dispone de dos variables, la primera el sexo (hombre o mujer) y la segunda recoge si el individuo es zurdo o diestro. Se ha observado esta pareja de variables en una muestra aleatoria de 100 individuos. Se puede emplear una tabla de contingencia para expresar la relacin entre estas dos variables, del siguiente modo: Diestro Zurdo TOTAL Hombre 43 Mujer 44 9 4 13 52 48 100
TOTAL 87
Las cifras en la columna de la derecha y en la fila inferior reciben el nombre de frecuencias marginales y la cifra situada en la esquina inferior derecha es el gran total. La tabla nos permite ver de un vistazo que la proporcin de hombres diestros es aproximadamente igual a la proporcin de mujeres diestras. Sin embargo, ambas proporciones no son idnticas y la significacin estadstica de la diferencia entre ellas puede ser evaluada con la prueba de Pearson, supuesto que las cifras de la tabla son una muestra aleatoria de una poblacin. Si la proporcin de
76
individuos en cada columna vara entre las diversas filas y viceversa, se dice que existe asociacin entre las dos variables. Si no existe asociacin se dice que ambas variables son independientes. El grado de asociacin entre dos variables se puede evaluar empleando distintos coeficientes: el ms simple es el coeficiente phi que se define por = (2 / N) donde 2 se deriva del test de Pearson, y N es el total de observaciones -el gran total-. puede oscilar entre 0 (que indica que no existe asociacin entre las variables) e infinito. A diferencia de otras medidas de asociacin, el coeficiente de Cramer no est acotado. Ejemplo: Supngase que la Federal Correction Agency (de Estados Unidos) desea investigar el interrogante indicado antes: hay diferencia en la readaptacin de la vida civil, de un hombre liberado de una prisin federal, si regresa a vivir a su ciudad natal o se va a vivir a otra parte? En otras palabras, existe relacin entre la readaptacin de la vida civil y el lugar de residencia despus de ser liberado de la prisin? El primer paso en la prueba de hiptesis es establecer las hiptesis nula y alternativa: Ho No existe relacin entre la readaptacin a la vida civil y el lugar de residencia de un
individuo despus de ser liberado de la prisin. H1 existe relacin entre la readaptacin a la vida civil y el lugar donde resida la persona
despus de salir de prisin. Se usar el nivel de significancia de 0.01 para probar la hiptesis. Recuerdese que esto es la probabilidad de un error de tipo I (es decir, que existe la probabilidad de 0.01 de que se rechace una hiptesis nula verdadera). Los psiclogos de la agencia entrevistaron a 200 ex convictos seleccionados aleatoriamente. Utilizando una serie de preguntas, los psiclogos clasificaron la readaptacin a la vida civil de cada individuo como excelente, buena regular o insatisfactoria. Las clasificaciones de los 200 ex convictos fueron cuantificadas como se muestra a continuacin. Por ejemplo, Joseph Camden volvi a su ciudad natal y mostr una excelente readaptacin a la vida civil. Su caso corresponde a una de las 27 marcas que se tienen en la casilla superior de la izquierda, en el cuadro.
77
Se contaron os registros en cada casilla o celda. Los conteos se muestran la siguiente tabla de contingencia. En este caso, a la Federal Correction Agency le interesaba determinar si la readaptacin a la vida civil es contingente o no con respecto al lugar a donde valla a vivir el ex convicto despus de ser liberado.
gl= (nmero de renglones - 1)(nmero de columnas 1) gl= (r - 1)(c - 1) = (2-1)(4-1) =3 Para determinar el valor crtico para 3 grados de libertad y el nivel de 0.01 (seleccionado antes), se consulta el apndice I, y se obtiene 11.345. en consecuencia la regla de decisin es: se rechaza la hiptesis nula si el valor calculado de X2 es mayor que 11.345.
78
Ahora se determinara el valor calculado de X2 las frecuencias observadas se presentan en esta tabla:
Frecuencia esperada fe para la casilla superior izquierda es: 60 x 40 = 24 Puesto que el valor calculado de ji cuadrada 5.729 se encuentra en la regin ubicada a la izquierda de 11.345 se acepta la hiptesis nula al nivel de 0.01. Se concluye que no hay relacin entre la readaptacin a la vida civil y el lugar donde resida el prisionero despus de haber alcanzado su libertad.
4.1.5 Uso del software estadstico. En prctica.
79
4.2 Pruebas no paramtricas Cuando se analizan datos medidos por una variable cuantitativa continua, las pruebas estadsticas de estimacin y contraste frecuentemente empleadas se basan en suponer que se ha obtenido una muestra aleatoria de una distribucin de probabilidad de tipo normal o de Gauss. Pero en muchas ocasiones esta suposicin no resulta vlida, y en otras la sospecha de que no sea adecuada no resulta fcil de comprobar, por tratarse de muestras pequeas. En estos casos disponemos de dos posibles mecanismos: los datos se pueden transformar de tal manera que sigan una distribucin normal, o bien se puede acudir a pruebas estadsticas que no se basan en ninguna suposicin en cuanto a la distribucin de probabilidad a partir de la que fueron obtenidos los datos, y por ello se denominan pruebas no paramtricas (distribution free), mientras que las pruebas que suponen una distribucin de probabilidad determinada para los datos se denominan pruebas paramtricas. Dentro de las pruebas paramtricas, las ms habituales se basan en la distribucin de probabilidad normal, y al estimar los parmetros del modelo se supone que los datos constituyen una muestra aleatoria de esa distribucin, por lo que la eleccin del estimador y el clculo de la precisin de la estimacin, elementos bsicos para construir intervalos de confianza y contrastar hiptesis, dependen del modelo probabilstico supuesto. Cuando un procedimiento estadstico es poco sensible a alteraciones en el modelo probabilstico supuesto, es decir que los resultados obtenidos son aproximadamente vlidos cuando ste vara, se dice que es un procedimiento robusto. Las inferencias en cuanto a las medias son en general robustas, por lo que si el tamao de muestra es grande, los intervalos de confianza y contrastes basados en la t de Student son aproximadamente vlidos, con independencia de la verdadera distribucin de probabilidad de los datos; pero si sta distribucin no es normal, los resultados de la estimacin sern poco precisos. Se deben de usar con: Datos de distribucin libre (no necesariamente normal). Si un grupo tiene distribucin normal mientras el otro no. Si se trata de datos cuantittivos, ordinales o nominales. Con varianza grande, un grupo con varianza de 0 y el otro no. Al trabajar con muestras pequeas. Algunas de las pruebas no paramtricas son las siguientes: Chi cuadrado de Pearson (independencia, bondad de ajuste, homogeneidad)
80
Prueba exacta de Fisher U de mann whitney-w de wilcoxon T de Wilcoxon Mac nemar Kruskall wallis Friedman Q de cichran.
4.2.1 Escala de medicin Se define como un patrn convencional de medicin, y bsicamente consiste en un instrumento capaz de representar con gran fidelidad verbal, grafica o simblicamente el estado de una variable. Hay varios tipos de escalas: nominal, ordinal, intervalo y razn.
NOMINALES Una variable esta medida en la escala nominal cuando utilizan nombre para establecer categoras. Para distinguir los agrupamientos se emplean smbolos, letras e incluso nmeros, aunque estos ltimos solo cumplen una funcin de carcter simblico y no numrico. Los clculos matemticos con estos nmeros no tendrn sentido.
ORDINALES En este nivel se definen varias categoras, pero adems de mostrar un ordenamientos existe una relacin de mayor o menor que entre ellas. Las etiquetas, smbolos o nmeros asignados si indican jerarqua, aunque n es posible conocer la magnitud de la diferencia entre cada una de las categoras.
INTERVALO Esta escala mide las variables de manera numrica. Los nmeros de esta escala permiten establecer distancias entre dos individuos y las operaciones aritmticas de suma y resta son perfectamente realizables y significativas, no as la multiplicacin y divisin. En esta escala el cero es un valor que no indica ausencia de la caracterstica o variable medida, y es colocado arbitrariamente en algn lugar de la escala.
81
DE RAZON Es la escala mas fuerte, dado que usa un sistema numerico en el que el cero es un valor que indica ausencia de la caracteristica que se esta midiendo. Las operaciones aristmeticas de multiplicacion y division adquieren significacion. La diferencia entre dos valores es importante y de magnitd definida. 4.2.2 Mtodos estadsticos contra no paramtricos Las pruebas no paramtricas no necesitan suposiciones respecto a la composicin de los datos poblacionales. Las pruebas no paramtricas son de uso comn: 1.- Cuando no se cumplen las suposiciones requeridas por otras tcnicas usadas, por lo general llamadas pruebas paramtricas. 2.- Cuando es necesario usar un tamao de muestra pequeo y no es posible verificar que se cumplan ciertas suposiciones clave. 3.- Cuando se necesita convertir datos cualitativos a informacin til para la toma de decisiones. Existen muchos casos en los que se recogen datos medidos en una escala nominal u ordinal. Muchas aplicaciones de negocios involucran opiniones o sentimientos y esos datos se usan de manera cualitativa. Las pruebas no paramtricas tienen varias ventajas sobre las pruebas paramtricas: 1.- Por lo general, son fciles de usar y entender. 2.- Eliminan la necesidad de suposiciones restrictivas de las pruebas paramtricas. 3.- Se pueden usar con muestras pequeas. 4.- Se pueden usar con datos cualitativos. Tambin las pruebas no paramtricas tienen desventajas: 1.- A veces, ignoran, desperdician o pierden informacin. 2.- No son tan eficientes como las paramtricas. 3.- Llevan a una mayor probabilidad de no rechazar una hiptesis nula falsa (incurriendo en un error de tipo II). Las pruebas no paramtricas son pruebas estadsticas que no hacen suposiciones sobre la constitucin de los datos de la poblacin. Por lo general, las pruebas paramtricas son mas poderosas que las pruebas no paramtricas y deben usarse siempre que sea posible. Es importante observar, que aunque las pruebas no paramtricas no hacen suposiciones sobre la distribucin de la poblacin que se muestrea, muchas veces se apoyan en distribuciones mustrales como la normal o la ji cuadrada.
82
4.2.3 Prueba de Kolmogorov Smirnov Este contraste, que es vlido nicamente para variables continuas, compara la funcin de distribucin (probabilidad acumulada) terica con la observada, y calcula un valor de discrepancia, representado habitualmente como D, que corresponde a la discrepancia mxima en valor absoluto entre la distribucin observada y la distribucin terica, proporcionando asimismo un valor de probabilidad P, que corresponde, si estamos verificando un ajuste a la distribucin normal, a la probabilidad de obtener una distribucin que discrepe tanto como la observada si verdaderamente se hubiera obtenido una muestra aleatoria, de tamao n, de una distribucin normal. Si esa probabilidad es grande no habr por tanto razones estadsticas para suponer que nuestros datos no proceden de una distribucin, mientras que si es muy pequea, no ser aceptable suponer ese modelo probabilstico para los datos. En estadstica, la prueba de Kolmogrov-Smirnov (tambin prueba K-S) es una prueba no paramtrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre s. En el caso de que queramos verificar la normalidad de una distribucin, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogrov-Smirnov; y, en general, el test de ShapiroWilk o la prueba de Anderson-Darling son alternativas ms potentes. Conviene tener en cuenta que la prueba Kolmogrov-Smirnov es ms sensible a los valores cercanos a la mediana que a los extremos de la distribucin. La prueba de Anderson-Darling proporciona igual sensibilidad con valores extremos. Estadstico La distribucin de los datos Fn para n observaciones yi se define como
Para dos colas el estadstico viene dado por
83
Donde F(x) es la distribucin presentada como hiptesis. 4.2.4 Prueba de Anderson Darling La prueba de Anderson-Darling es usada para probar si una muestra viene de una distribucin especifica. Esta prueba es una modificacin de la prueba de Kolmogorov- Smirnov donde se le da ms peso a las colas de la distribucin que la prueba de Kolmogorov-Smirnov. En estadstica, la prueba de Anderson-Darling es una prueba no paramtrica sobre si los datos de una muestra provienen de una distribucin especfica. La frmula para el estadstico A determina si los datos (observar que los datos se deben ordenar) vienen de una A2 = N S Donde
distribucin con funcin acumulativa F
El estadstico de la prueba se puede entonces comparar contra las distribuciones del estadstico de prueba (dependiendo que F se utiliza) para determinar el P-valor. 4.2.5 Prueba de Ryan Joiner Esta prueba evala la normalidad calculando la correlacin entre sus datos y las puntuaciones normales de sus datos. Si el coeficiente de correlacin se encuentra cerca de 1, es probable que la poblacin sea normal. La estadstica de Ryan-Joiner evala la solidez de esta correlacin; si se encuentra por debajo del valor crtico apropiado, usted rechazar la hiptesis nula de normalidad en la poblacin. Esta prueba es similar a la prueba de normalidad de Shapiro-Wilk. Ejemplo: Se realiza un experimento para un instrumento electrnico que mide de humedad de un producto alimenticio. Las investigaciones toman lecturas del instrumento para valores seleccionando de humedad. Analice los datos y determine lo siguiente: a) Grafica de dispersin de datos.
84
b) Determine la ecuacin de la regresin para mnimos cuadrados y realice las operaciones correspondientes la Y de ajuste de cada uno de los puntos. c) Vuelva a graficar y elabore la lnea de regresin ajustada. Datos:
85
Formulas a utilizar:
Procedimiento:
86
Llenado de tabla:
87
Procedimiento:
Tabla para encontrar el valor de r
88
EJEMPLO CON MINITAB
Los datos tienen que ser introducidos de la siguiente manera:
Se sigue el siguiente procedimiento:
Seleccionamos: Estadsticas tablas prueba chi - cuadrada
89
Y nos queda as:
4.2.6 Prueba de Shappiro Wilk. Aunque esta prueba es menos conocida es la que se recomienda para contrastar el ajuste de nuestros datos a una distribucin normal, sobre todo cuando la muestra es pequea (n<30). Mide el ajuste de la muestra a una recta, al dibujarla en papel probabilstico normal. Este tipo de representacin tambin lo proporcionan algunos programas de estadstica, de tal manera que nos permite adems apreciar el ajuste o desajuste de forma visual: .
90
En escala probabilstica normal se representa en el eje horizontal, para cada valor observado en nuestros datos, la funcin de distribucin o probabilidad acumulada observada, y en el eje vertical la prevista por el modelo de distribucin normal. Si el ajuste es bueno, los puntos se deben distribuir aproximadamente segn una recta a 45. En la imagen vemos que en este ejemplo existe cierta discrepancia. En cualquier caso siempre es adecuado efectuar una representacin grfica de tipo histograma de los datos, y comparar el valor de la media y la mediana, as como evaluar el coeficiente de asimetra y apuntamiento, adems de llevar a cabo una representacin en escala probabilstica de la distribucin de probabilidad esperada versus observada, como la de la figura. En estadstica, el Test de ShapiroWilk, se usa para contrastar la normalidad de un conjunto de datos. Se plantea como hiptesis nula que una muestra x1, ..., xn proviene de una poblacin normalmente distribuida. Fue publicado en 1965 por Samuel Shapiro y Martin Wilk.1Se considera uno de los test ms potentes para el contraste de normalidad, sobre todo para muestras pequeas (n<30). El estadstico del test es:
91
Donde
x(i) (con el subndice i entre parntesis) es el nmero que ocupa la i-sima posicin en la muestra; = (x1 + ... + xn) / n es la media muestral; las constantes ai se calculan2
Donde
Siendo m1, ..., mn son los valores medios del estadstico ordenado, de variables aleatorias independientes e identicamente distribuidas, muestreadas de distribuciones normales. V es la matriz de covarianzas de ese estadstico de orden. La hiptesis nula se rechazar si W es demasiado pequeo.
El test de Shapiro-Wilk es un contraste de ajuste que se utiliza para comprobar si unos datos determinados (X1, X2,, Xn) han sido extrados de una poblacin normal. Los parmetros de la distribucin no tienen por qu ser conocidos. Un contraste de ajuste tiene como objetivo comprobar si con base en la informacin suministrada por una muestra se puede aceptar que la poblacin de origen sigue una determinada distribucin de probabilidad, en nuestro caso, la distribucin normal. y est adecuado para muestras pequeas (n<50). 4.2.7 Aplicaciones del paquete computacional. En prctica.
92
UNIDAD 5. REGRESIN LINEAL SIMPLE Y MLTIPLE. 5.1 Regresin Lineal simple. El anlisis de regresin se usa con propsito de prediccin. La meta del anlisis de regresin es desarrollar un modelo estadstico que se puede usar para predecir los valores de una variable dependiente o de respuesta basados en los valores de al menos una variable independiente o explicativa. En el anlisis de regresin se emplea el diagrama de dispersin para graficar la variable independiente en el eje X y la variable de pendiente en el eje Y. La naturaleza de la relacin entre dos variables puede tomar muchas formas, que van desde algunas funciones matemticas sencillas a otras en extremo complicadas. La relacin ms elemental consiste en una lnea recta o relacin lineal. Se desea estudiar la posible relacin entre los gastos en material informtico, en mltiplos de cien mil euros, de una empresa y sus ingresos globales, en millones de euros. Para ello se recoge una muestra de datos anuales de gastos e ingresos de 65 empresas, los datos mustrales son los de la tabla adjunta. Estudiar la posible existencia de una relacin lineal entre la variable respuesta gasto en material informtico y la variable regresora ingreso global. Para poder crear un modelo de regresin lineal, es necesario que se cumpla con los siguientes supuestos. 1. La relacin entre las variables es lineal. 2. Los errores en la medicin de las variables explicativas son independientes entre s. 3. Los errores tienen varianza constante. (Homocedasticidad) 4. Los errores tienen una esperanza matemtica igual a cero (los errores de una misma magnitud y distinto signo son equiprobables). 5. El error total es la suma de todos los errores. 6. Existen diferentes tipos de regresin lineal que se clasifican de acuerdo a sus parmetros: Regresin lineal simple Slo se maneja una variable independiente por lo que slo cuenta con dos parmetros. Son de la forma. Yi = 0 + 1Xi + i
93
Donde i es el error asociado a la medicin del valor Xi y siguen los supuestos de modo que iN(0,2) (media cero, varianza constante e igual a un y Anlisis Dado el modelo de regresin simple, si se calcula la esperanza (valor esperado) del valor Y, se obtiene: con ).
Derivando respecto a
e igualando a cero, se obtiene:
Obteniendo dos ecuaciones denominadas ecuaciones normales que generan la siguiente solucin para ambos parmetros:
La interpretacin del parmetro 1 es que un incremento en Xi de una unidad, Yi incrementar en 1
94
5.1.1 Prueba de hiptesis en la regresin lineal simple. Una parte importante al evaluar la adecuacin de un modelo de regresin lineal es la prueba de hiptesis sobre los parmetros del modelo y la construccin de ciertos intervalos de confianza. Supongamos que se desea probar la hiptesis de la pendiente es igual a una constante una hiptesis apropiada seria. Ho: 1=0 H1: 10 De modo que ele estadstico T es: To=1//Sxx
Sigue la distribucin T con N-2 grados de libertad. Puede rechazarse H0 si:
|To|>Talf/2.N-2
N de observacin 1 2 3 4 5 6 7 8 9
Nivel de hidrocarburo (x) .99 1.02 1.15 1.29 1.46 1.36 0.87 1.23 1.55
Pureza ( y) 90.01 89.05 91.43 93.74 96.73 94.45 87.59 91.77 99.42
95
10 11 12 13 14 15 1.40 1.19 1.15 0.98 1.01 1.11 93.65 93.54 92.52 90.56 89.54 89.85
16 17 18 19 20
1.20 1.26 1.32 1.43 0.95
90.39 93.25 93.41 94.98 87.33
Ejemplo: De los datos de pureza del oxgeno segn la tabla con estos datos se pueden calcular las siguientes cantidades. N=20 x=23.92 y=1843.21 y=170044.53 x=29.29 xy=2214.66 alf =.001 1=14.97 Sxx=0.86 =1.17 0=74.20 x =1.21 =92.16
Sxx= x- (x)/20 1= Sxy/Sxx o= - (B1) (x) Sxy= xy (x)(y)/20 De modo que el estadstico T es: To=1//Sxx = 14.97/1.17/0.68=11.41
96
|To|>T alf/2.N-2
11.41>2.88 Como se cumple la funcin: Ho=0------ R H10------ A Puesto que el valor de referencia de T es T.005= 2.88el valor estadstico de la prueba est muy lejos de la regin critica lo que implica que debe rechazar Ho.
5.1.2 Calidad del ajuste en regresin lineal simple El ajuste del modelo de regresin requiere varias suposiciones. 1) La estimacin de los parmetros del modelo requiere la suposicin de que los errores son variables aleatorias con media cero y varianza constante.
2) Las pruebas de hiptesis y la estimacin de los intervalos requieren que los errores estn distribuidos de manera normal.
3) Los datos se ajustan a un modelo lineal; Es decir, el comportamiento de las variables es o se aproxima a una relacin lineal
97
Y=Bo+B1X
9.3 11.82 6.15 8.04 8.67
98
10.56 5.52 7.41 9.93 11.19 6.78 95,73
FORMULA Y= B0 + B1(x) donde: * Y: es un valor predicho de la variable dependiente
* B0: es una constante llamada ordenada
* B1: es una constante llamada pendiente
* X: es una variable independientes
99
100
5.1.3 Estimacin y prediccin por intervalo en regresin lineal simple Hay dos objetivos bsicos en el ajuste de un modelo de regresin:
- Conocer la relacin existente entre la variable respuesta y las variables regresoras. En el caso de la regresin lineal simple se estima la mejor recta de regresin que relaciona la variable Y con la variable X y se cuantifica la importancia de dicha relacin por medio del coeficiente de correlacin, r. - Utilizar el modelo de regresin ajustado para predecir el valor de la variable respuesta Y cuando la variable regresora toma un valor determinado, X = xt.
En esta seccin se estudia este segundo objetivo. Esto es, estimada la recta de regresin, cmo predecir el valor de Y sabiendo que la variable regresora toma el valor X = xt? Ante esta pregunta, se deben distinguir dos situaciones diferentes: Estimar la media de la distribucin condicionada de Y/X = xt : E = mt.
Se quiere responder a preguntas del tipo: cul es el gasto medio en material informtico de las empresas que tienen unos ingresos globales de 300 millones anuales?.
Predecir el valor de la variable respuesta en un individuo de la poblacin en estudio del que se sabe que X = xt. Esto es, predecir un valor de la variable condicionada Y/X=xt
Se quiere responder a preguntas del tipo: La empresa MEGA tiene unos ingresos anuales de
300 millones, cul ser el gasto en material informtico de esta empresa?.
Estimacin de las medias condicionadas.

Una vez calculada la recta de regresin de la variable Y respecto a X,
se quiere estimar el parmetro mt = E
. Para ello, como estimador se utiliza el que
proporciona la recta de regresin, sustituyendo xt por x en la ecuacin de la recta,
101
Este estimador verifica las siguientes propiedades:

1. Es centrado o insesgado, E 2. La varianza es, = mt.
3. donde
4. nt se denomina nmero equivalente de observaciones para estimar mt. 5. Teniendo en cuenta que en una muestra de tamao n, la varianza de la media muestral es V ar =
2
/n, la interpretacin de nt es la siguiente: la informacin que proporciona la

n i = 1
muestra, de tamao n, de datos bivariantes
para estimar mt es la misma
que proporcionara una muestra de tamao nt de observaciones univariantes de una poblacin con distribucin igual a la de Y/X = xt. 6. De la expresin de nt se deduce que este valor ser mayor cuanto ms prximo est xt de . Y si xt = se verifica que nt = n. 7. La inversa de nt, htt = 1/nt se denomina valor de influencia de la observacin xt (muy utilizado el nombre en ingls leverage) y se ver ms adelante que es una medida de la influencia de la observacin de la recta de regresin. 8. La distribucin del estimador
t
(si este es uno de los datos muestrales) en el clculo
es normal,
102
9. En la prctica el estadstico anterior no se puede utilizar para calcular intervalos de es desconocido. Por ello, se sustituye por su estimador
R
confianza de mt porque
bajo la hiptesis de normalidad se obtiene la siguiente distribucin,
Al utilizar el modelo de regresin lineal para estimar una media condicionada o predecir una observacin debe de tenerse en cuenta que el mtodo proporciona resultados aceptables dentro del rango de valores muestrales de la X (interpolar), aqu est garantizado que 1 < nt < n. Si xt es un punto muy alejado de (an estando dentro de la nube de observaciones est muy alejado del centro de la misma) entonces nt 1 y la varianza de = n, ahora la varianza de es
t
ser muy grande con lo que se obtienen
estimaciones con poca precisin (mucha variabilidad). El caso opuesto es que xt = y, por tanto, nt
t
2
/n, la menor posible.
Por otra parte, si se quiere predecir fuera del rango de valores mustrales de X (extrapolar), entonces xt - puede ser muy grande y, en consecuencia, nt 0, lo que hace que la precisin de la estimacin de mt sea muy pequea por tener el estimador resultados con muy poca validez.
t
una varianza muy grande y, por tanto, obtener
Prediccin de una observacin.

Se quiere predecir el valor de la variable aleatoria Y/X = xt teniendo en cuenta que se ha ajustado una recta de regresin. El problema es conceptualmente diferente del anterior, ya que en el apartado anterior se estima un parmetro (la media condicionada) y ahora se quiere predecir el resultado de una variable aleatoria. El predictor que se utiliza Cuadrtico Medio de Prediccin. Esto es, funcin
t t
se obtiene como aquel que minimize el Error
se obtiene como el valor que minimiza la siguiente
Al resolver este problema de minimizacin se obtiene como predictor el resultado de sustituir el valor de xt en la recta de regresin calculada,
103
Por tanto, la prediccin de Y/X = xt es la misma que la estimacin de mt pero su varianza aumenta ya que la variabilidad debida a la muestra variable aleatoria que se quiere predecir se incrementa con la variabilidad propia de la . Ahora la varianza de la prediccin es
Var(
- yt) =
Por la hiptesis de normalidad y razonando como en el apartado anterior se obtiene
5.1.4 Uso de software estadstico En practica.
104
5.2 Regresin lineal mltiple En la regresin lineal mltiple vamos a utilizar ms de una variable explicativa; esto nos va a ofrecer la ventaja de utilizar ms informacin en la construccin del modelo y, consecuentemente, realizar estimaciones ms precisas. Al tener ms de una variable explicativa (no se debe de emplear el trmino independiente) surgirn algunas diferencias con el modelo de regresin lineal simple. Una cuestin de gran inters ser responder a la siguiente pregunta: de un vasto conjunto de variables explicativas: x , x , , xk, cules son las que ms influyen en la variable dependiente Y.
1 2
En definitiva, y al igual que en regresin lineal simple, vamos a considerar que los valores de la variable dependiente Y han sido generados por una combinacin lineal de los valores de una o ms variables explicativas y un trmino aleatorio: uxbxbxbbykk+++++=...22110 Los coeficientes son elegidos de forma que la suma de cuadrados entre los valores observados y los pronosticados sea mnima, es decir, que se va a minimizar la varianza residual. Esta ecuacin recibe el nombre de hiperplano, pues cuando tenemos dos variables explicativas, en vez de recta de regresin tenemos un plano:
Con tres variables explicativas tendramos un espacio de tres dimensiones, y as sucesivamente. Vamos a ir introduciendo los elementos de este anlisis a travs de un sencillo ejemplo.
105
Consideramos una muestra de personas como la que sigue a continuacin: Registro X 1 2 3 4 5 6 7 8 sexo X estatura X 158 152 168 159 158 164 156 167 l_roxto pie X 39 38 43 40 41 40 41 44 l_brazo X 68 66 72.5 68.5 68.5 71 67 73 a_espald X 43 40 41 42 44 44.5 36 41.5 d_crne o Y 55 55 54.5 57 57 54 56 58 43 45 48 49 50 51 52 52 peso
mujer mujer mujer mujer mujer mujer mujer mujer
36 34 39 36 36 36 36 37
En base a estos datos, vamos a construir un modelo para predecir el peso de una persona (Y). Esto equivale a estudiar la relacin existente entre este conjunto de variables y la variable peso
En primer lugar tenemos que la variable dependiente es el peso; y las variables que vamos a utilizar para predecir el peso reciben el nombre de variables independientes o explicativas. En la prctica deberemos de elegir cuidadosamente qu variables vamos a considerar como explicativas. Algunos criterios que deben de cumplir sern los siguientes: Tener sentido numrico. No deber de haber variables repetidas o redundantes Las variables introducidas en el modelo debern de tener una cierta justificacin terica. La relacin entre variables explicativas en el modelo y casos debe de ser como mnimo de 1 a 10. La relacin de las variables explicativas con la variable dependiente debe de ser lineal, es decir, proporcional.
106
El modelo de regresin lineal mltiple es idntico al modelo de regresin lineal simple, con la nica diferencia de que aparecen ms variables explicativas: Modelo de regresin simple:
Modelo de regresin mltiple:
Siguiendo con nuestro ejemplo, si consideramos el peso como variable dependiente y como posibles variables explicativas: estatura pie l_brazo a_espald d_craneo
El modelo que deseamos construir es:
Al igual que en regresin lineal simple, los coeficientes b van a indicar el incremento en el peso por el incremento unitario de la correspondiente variable explicativa. Por lo tanto, estos coeficientes van a tener las correspondientes unidades de medida.
107
5.2.2 Pruebas de hiptesis en regresin lineal mltiple Para realizar un anlisis de regresin lineal mltiple se hacen las siguientes consideraciones sobre los datos: a) Linealidad: los valores de la variable dependiente estn generados por el siguiente modelo lineal: b) Homocedasticidad: todas las perturbaciones tienen las misma varianza: c) Independencia: las perturbaciones aleatorias son independientes entre s: d) Normalidad: la distribucin de la perturbacin aleatoria tiene distribucin normal: Las variables explicativas X se obtienen sin errores de medida.
k
Si admitimos que los datos presentan estas hiptesis entonces el teorema de Gauss-Markov establece que el mtodo de estimacin de mnimos cuadrados va a producir estimadores ptimos, en el sentido que los parmetros estimados van a estar centrados y van a ser de mnima varianza.
5.2.3 Intervalos de confianza y prediccin en regresin mltiple Razonando como en el modelo de regresin lineal simple, se deben distinguir dos problemas diferentes: Estimar la media de la distribucin condicionada de Y/ parmetro =
t.
Esto es, se quiere estimar el
Y poder responder a preguntas como la siguiente: cul es el volumen medio de los rboles de dimetro 10 u. y altura 80 u.?. Predecir el valor de la variable respuesta en un individuo del que se conoce que quiere predecir un valor de la variable condicionada Y/ = h. =
h.
Esto es, se
Se quiere responder a preguntas como la siguiente: conociendo que un determinado rbol tiene un dimetro 10 u. y una altura de 80 u. qu volumen se predice para este rbol? 5.2.4 Uso de un software estadstico. En prctica.
108
5.3 Regresin no lineal.
En estadstica, la regresin no lineal es un problema de inferencia para un modelo tipo:

y = f(x,) +
basado en datos multidimensionales x,y, donde f es alguna funcin no lineal respecto a algunos parmetros desconocidos . Como mnimo, se pretende obtener los valores de los parmetros asociados con la mejor curva de ajuste (habitualmente, con el mtodo de los mnimos cuadrados). Con el fin de determinar si el modelo es adecuado, puede ser necesario utilizar conceptos de inferencia estadstica tales como intervalos de confianza para los parmetros as como pruebas de bondad de ajuste. El objetivo de la regresin no lineal se puede clarificar al considerar el caso de la regresin polinomial, la cual es mejor no tratar como un caso de regresin no lineal. Cuando la funcin f toma la forma:
f(x) = ax2 + bx + c
la funcin f es no lineal en funcin de x pero lineal en funcin de los parmetros desconocidos a, b, yc. Este es el sentido del trmino "lineal" en el contexto de la regresin estadstica. Los procedimientos computacionales para la regresin polinomial son procedimientos de regresin lineal (mltiple), en este caso con dos variables predictoras x y x2. Sin embargo, en ocasiones se sugiere que la regresin no lineal es necesaria para ajustar polinomios. Las consecuencias prcticas de esta mala interpretacin conducen a que un procedimiento de optimizacin no lineal sea usado cuando en realidad hay una solucin disponible en trminos de regresin lineal. Paquetes (software) estadsticos consideran, por lo general, ms alternativas de regresin lineal que de regresin no lineal en sus procedimientos.
109
110
111
REFERENCIAS BIBLIOGRAFCAS. Johnson Richard . Probabilidad y estadstica para ingenieros. Quinta edicin. Editorial Prentice Hall. Mxico 1997 Levin, Richard. Rubin, David. Estadstica para administradores. Sexta edicin Editorial Prentice Hall. Mxico 1996 Mendelhall, William. Reinmuth, James. Estadstica para administracin de economa. editorial: Iberoamrica, Mxico 1978 Montgomery, Douglas C. probabilidad y estadstica para ingeniera. Tercera edicin. Editorial Continental CECSA. Ao 1993. Pginas 263-278. Myers. Probabilidad y estadstica para ingenieros. Sexta edicin. Editorial Pearson Probabilidad y estadistica para ingenieros de Miller y Freund. Richard A. Johnson. 14/11/2011 Quinta Edicin Stevenson, William. Estadistica para administracin y economa: conceptos y aplicaciones. Editorial Alfa Omega. Mxico 1981 Triola, Mario F. estadstica. 9 Edicin. Editorial Pearson, Mxico, 2004 Walpole, Ronald E. probabilidad y estadstica para ingenieros. Sexta edicin. Editorial PrenticeHall Iberoamericana. Mxico 1999. Pginas 198-232. Weimer, Richard. Estadistica. Editorial cecsa. Mxico 2004.
REFERENCIAS ELECTRONICAS
http://esta2.galeon.com/Temas1-3.pdf http://esta2.galeon.com/Temas1-3.pdf http://biplot.usal.es/problemas/confianza/INFERENCIA.pdf https://www.u-cursos.cl/ingenieria/2009/2/MA3401/1/material_docente/bajar?id_material=260765 http://biplot.usal.es/problemas/confianza/INFERENCIA.pdf http://www.mitecnologico.com/Main/EstadisticaI http://www.mitecnologico.com/Main/EstadisticaI http://www.mitecnologico.com/Main/EstadisticaI http://www.mitecnologico.com/Main/EstadisticaI http://es.wikibooks.org/wiki/Tablas_estad%C3%ADsticas/Distribuci%C3%B3n_t_de_Student http://www.mitecnologico.com/Main/EstadisticaI http://www.itch.edu.mx/academic/industrial/estadistica1/cap01c.html www.itescam.edu.mx/principal/sylabus/fpdb/recursos/r51656.PDF
112
http://thales.cica.es/rd/Recursos/rd99/ed99-0018-04/MINTCONF.html www.bioestadistica.uma.es/libro/node104.htm www.psico.uniovi.es/Dpto_Psicologia/metodos/tutor.7/p3.html http://www.mitecnologico.com/Main/PruebaDeHipotesisIntroduccion http://www.ditutor.com/inferencia_estadistica/nivel_confianza.html http://www.mitecnologico.com/Main/PotenciaDeLaPrueba www.mitecnologico.com/Main/FormulacionHipotesisEstadisticas http://www.mitecnologico.com/Main/PruebaHipotesisParaMedia http://www.mitecnologico.com/Main/PruebaDeHipotesisIntroduccion http://marcelrzm.comxa.com/EstadisticaInf/34PruebaParaProporcion.pdf http://marcelrzm.comxa.com/EstadisticaInf/37PruebaDeHipotesisParaVarianza.pdf http://www.estadisticaparatodos.es/software/software.html http://enciclopedia.us.es/index.php/Bondad_de_ajuste https://www.itescam.edu.mx/principal/sylabus/fpdb/.../r27622.DOC http://www.monografias.com/trabajos15/prueba-de-independencia/prueba-deindependencia.shtml#PRINDEPEND http://www.cimat.mx/~gil/tcj/1999/estadistica/node9.html http://es.wikipedia.org/wiki/Tabla_de_contingencia http://www.uam.es/personal_pdi/economicas/eva/pdf/tab_conting.pdf http://www.seh-lelha.org/noparame.htm http://www.slideshare.net/freddygarcia/pruebas-no-parametricas-presentation http://aprendeenlinea.udea.edu.co/lms/moodle/file.php/481/Escala_medicio_internet.pdf http://es.wikipedia.org/wiki/Prueba_de_Kolmog%C3%B3rov-Smirnov http://es.wikipedia.org/wiki/Prueba_de_Anderson-Darling http://es.scribd.com/doc/26816059/Prueba-de-Anderson-Darling http://www.seh-lelha.org/noparame.htm http://www.xatakaciencia.com/matematicas/contraste-de-shapiro-wilk http://www.udc.es/dep/mate/estadistica2/sec6_10.html http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.pdf http://humanidades.cchs.csic.es/cchs/web_UAE/tutoriales/PDF/Regresion_lineal_multiple_3.pdf
113

Antologia Estadistica I

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Antologia Estadistica I

Cargado por

Copyright:

Formatos disponibles

ESTADISTICA INFERENCIAL I

INSTITUTO TECNOLGICO SUPERIOR DE LERDO

ANTOLOGIA: ESTADISTICA INFERENCIAL I

M.C. CECILIA GUADALUPE PALACIOS.

INGENIERA INDUSTRIAL PARA MANUFACTURA AUTOMATIZADA.

REFERENCIAS BIBLIOGRAFCAS. ..................................................................................................... 112 REFERENCIAS ELECTRONICAS ......................................................................................................... 112

UNIDAD 1. DISTRIBUCIONES FUNDAMENTALES PARA EL MUESTREO

y la segunda con media

Ms an, se elige una muestra

= 85 libras 14.142 libras 12.247 libras

1.4.5 Distribucin t-student La Distribucin t de Student, tiene por funcin de densidad:

, se denomina grados de libertad de la distribucin.

1.4.7 Distribucin muestral de la relacin de varianzas

. Un estimador es ms eficiente (ms preciso), por tanto,

b) Para la varianza de la poblacin 2 tomaremos la cuasivarianza de la muestra.

DISTRIBUCIN F NORMAL DISTRIBUCIN T JI CUADRADO

Despejando en la ecuacin se tiene:

El resultado es un intervalo que incluye al

el 95% de las veces. Es decir, es un intervalo de

confianza al 95% para la media cuando la variable X es normal y es conocido.

tpica dada por la siguiente expresin:

. Esto se representa como sigue:

. Si estandarizamos, se sigue que:

Estos puntos delimitan la probabilidad

para el intervalo, como se muestra en la siguiente imagen:

Dicho punto es el nmero tal que:

Y en la versin estandarizada se cumple que: Z / 2 = z / 2 As:

Haciendo operaciones es posible despejar para obtener el intervalo:

De lo cual se obtendr el intervalo de confianza:

Obsrvese que el intervalo de confianza viene dado por la media muestral

valor crtico Z / 2 por el error estndar

Considerar la aproximacin asinttica de la distribucin Binomial en la distribucin Normal.

Utilizar un mtodo exacto.

Que, trasladada a la frecuencia relativa, resulta

Tomando como estadstico pivote

es el valor de una distribucin F de Fisher-Snedecor con a y b grados de libertad que (1 ) 100 %.

Si las muestras son suficientemente grandes que

Figura: Cuantiles de la distribucin

Por tanto el intervalo que buscamos es

de la altura de los individuos

(varianza poblacional) el estadstico que nos resulta

Por tanto, para el valor poblacional de la desviacin tpica tenemos que

calculados sobre la muestra.

Buscamos en las tablas de la curva normal el valor de confianza elegido:

que corresponde con el nivel de

= 1.96 y seguimos los pasos propuestos arriba.

, pues en este caso

1 - 0.90 0.95 0.99

/2 0.05 0.025 0.005

1.645 1.96 2.575

- Prueba de hiptesis a una cola superior H0 : H1 : =k >k H0 : H1 : k >k

- Prueba de hiptesis a una cola inferior H0 : H1 : =k <k H1 : H1 : k <k

(3.6) Si se utiliza la varianza corregida, la estadstica de trabajo es la expresin (1.5):

Regla de decisin -Si se ha planteado la hiptesis alternativa como:

de trabajo (T) est entre

lo cual implica aceptar H1 . Es decir, si

( ) en la parte superior de la distribucin, vase figura .

trabajo (T) es menor que

cual implica aceptar H1 . Es decir, si T <

- Si se ha planteado la hiptesis alternativa como:

) en la parte inferior de la distribucin, vase figura.

Para realizar esta prueba de hiptesis se utiliza la expresin 3.6