Documentos de Académico
Documentos de Profesional
Documentos de Cultura
Probabilidad y Estadstica
NDICE
PRIMER DOCUMENTO: MANUAL DEL ESTUDIANTE ------------------ 2
1. LOS MATERIALES DIDCTICOS. ---------------------------------------------------------- 2 2. CARACTERSTICAS DE LA MODALIDAD EDUCATIVA NO ESCOLARIZADA. ------------------------------------------------------------------------------------------------------------ 4 3. RECOMENDACIONES PARA FACILITAR EL ESTUDIO INDEPENDIENTE. -- 5 4. CARACTERSTICAS PROPIAS DE LA MATERIA DE: ESTADSTICA. --------- 7
II
Organizacin y clasificacin de los datos de las tablas ----------------------------- 47 Probabilidad bsica ------------------------------------------------------------------------------- 48 Distribuciones de probabilidad --------------------------------------------------------------- 52
Funcin de probabilidad ----------------------------------------------------------------------------------- 52 Funcin de distribucin ------------------------------------------------------------------------------------ 53 Funcin de densidad --------------------------------------------------------------------------------------- 54 Funcin de distribucin ------------------------------------------------------------------------------------ 56
III
Valor esperado de una variable --------------------------------------------------------------- 57 Media --------------------------------------------------------------------------------------------------- 59 Varianza ----------------------------------------------------------------------------------------------- 60 Desviacin estndar o tpica------------------------------------------------------------------- 61 El coeficiente de variacin --------------------------------------------------------------------- 62 Covarianza ------------------------------------------------------------------------------------------- 62 Coeficiente de correlacin ---------------------------------------------------------------------- 63 Ejemplos ---------------------------------------------------------------------------------------------- 64
IV
MATERIALES DIDCTICOS DE ALTA CALIDAD. Son los elementos de apoyo para el aprendizaje, lo constituyen la Gua Didctica de Estudio y el propio Texto de Autoaprendizaje por asignatura de la Universidad Vasco de Quiroga, diseados para lograr la mejor comprensin de los diferentes contenidos temticos y as alcanzar los objetivos acadmicos preestablecidos. Los materiales especiales para el Sistema No Escolarizado, estn concebidos de tal forma, que se cumplan los objetivos del curso, que satisfagan las necesidades que reclaman las actividades de aprendizaje e integradoras, es decir, que constituyan un verdadero instrumento de apoyo para los estudiantes, mediante el cual se facilite responsablemente el logro de todo el quehacer acadmico de la asignatura. Para una mejor identificacin y aprovechamiento de los referidos Materiales Didcticos, a continuacin se aporta una breve semblanza de stos: 1. GUA DIDCTICA DE ESTUDIO. Que constituye precisamente la gua para el estudiante que se integra a la modalidad no escolarizada y que desea aprobar cada una de las asignaturas. Gua que contiene objetivos generales y particulares de aprendizaje, desarrollo temtico y de subtemas, actividades de aprendizaje, actividades integradoras, formas de evaluacin y acreditacin, bibliografa bsica y complementaria, cuestionarios de auto evaluacin, glosarios y dems elementos importantes para lograr el autoaprendizaje, que a continuacin se detallan: Las Guas Didcticas de Estudio, se integran por las partes siguientes: a) Presentacin. Que seala el objetivo de la misma (Objetivo de Aprendizaje). Enunciado propositivo que establece qu se espera de un estudiante al trmino del proceso de
b)
c)
d)
e)
f)
g)
aprendizaje, (por curso, materia o unidad), la temtica, los propsitos de las actividades de aprendizaje e integradoras y los mecanismos para mantener un contacto permanente con los estudiantes. Sugerencias Metodolgicas. Descripcin del mtodo o tcnicas utilizadas por el asesor, importantes para la mejor comprensin de los temas, as como sugerencias en cuanto a la bsqueda de la informacin, el desarrollo de actividades y los mecanismos de intercambio de experiencias significativas. Criterios de Evaluacin. Donde el asesor considere aspectos tales como el desarrollo de actividades de aprendizaje por tema, entrega de actividades integradores, actividades complementarias y exmenes. Criterios que deben de sealarse desde el principio a los estudiantes, con el fin de generar un clima de orden y confianza entre el asesor y el estudiante. Introduccin a la Asignatura. Donde se proporcione al alumno un panorama general del contenido y pueda percibir de forma completa el propsito de la asignatura y de la gua didctica, evitando con esto dispersin y desgaste innecesario de energas. Estructura por Unidad de Aprendizaje. En donde se conformarn los Objetivos de Aprendizaje, los temas, los conceptos y tpicos a revisar, las Fuentes de Informacin Bsicas y Secundarias y, las actividades de aprendizaje. Que buscarn con todo ello verificar el aprendizaje significativo. Actividad de Aprendizaje. Son todas aquellas actividades que el asesor prev con el propsito de facilitar y comprobar el aprendizaje de los alumnos y la adquisicin de las habilidades necesarias para aplicar los conocimientos adquiridos a su vida personal y futuro ejercicio profesional. Actividad Integradora. Que debe buscar el desarrollo de habilidades propuestas para cada curso, una actitud crtica y de anlisis ante los objetos de estudio, aplicacin de conocimientos en los casos prcticos planteados por el asesor, asimilacin del mtodo de trabajo, y sobre todo, calidad y profundidad.
2. TEXTO DE AUTOAPRENDIZAJE. (TEXTO DE AUTOENSEANZA). Que consiste en la Seleccin de informacin bsica y complementaria, necesaria para cubrir los objetivos temticos de aprendizaje que exige la asignatura, conformado por: Presentacin. ndice. Introduccin.
Objetivos Generales de la Asignatura. Desarrollo del Contenido Temtico. Unidad Temtica desarrollada en Temas y Subtemas. Texto de las Lecturas Bsicas correspondientes a la unidad temtica. Actividades de Aprendizaje Autoevaluacin. Datos Bibliogrficos de los Textos Bsicos y Complementarios. Glosario de Trminos propios de la Asignatura.
Que es capaz de planear adecuadamente su tiempo para el estudio y la evaluacin. Que est dispuesto a retomar las tcnicas de estudio sugeridas por el asesor, as como materiales y actividades. No utilizar ningn pretexto para evadir su responsabilidad. Que valore la importancia de los imprevistos ante sus compromisos de estudio.
Los estudiantes del sistema no escolarizado deben tener la certeza que se cuenta con los mejores asesores, los cuales han demostrado tener disposicin y capacidad para: a) Crear ambientes propicios para el aprendizaje. b) Facilitar la retroalimentacin de experiencias que le permita anticiparse a los problemas, sugiriendo alternativas de solucin, buscando respuestas y explicaciones a los mismos. c) Generar reflexin, confrontacin y anlisis que permitan la construccin de conocimientos significativos. d) Respetar el ritmo de aprendizaje y los intereses del estudiante. e) No fragmentar el conocimiento, sino integrar lgicamente los contenidos con una perspectiva interdisciplinaria. f) Apoyar la investigacin como instrumento de generacin de respuestas a interrogantes y soluciones a problemas. g) Provocar que los estudiantes arriben a la sntesis fundada y motivada del tema visto, a la aportacin de nuevas experiencias de aprendizaje, a generar preguntas sobre aspectos dudosos, para que al final generen su propia autoevaluacin.
3. RECOMENDACIONES INDEPENDIENTE.
PARA
FACILITAR
EL
ESTUDIO
PRIMERA. Para obtener mejores resultados de los materiales didcticos del sistema no escolarizado, el estudiante debe consultar las guas, tratar de realizar de forma ordenada las actividades para el logro de objetivos, reunirse con el asesor cuantas veces lo necesite en los tiempos predeterminados y a travs de los medios de comunicacin elegidos, acudir a los grupos de estudio que existan en su localidad, apoyarse en conferencias complementarias, relacionar lo que aprende con su vida prctica, asistir a las sesiones de retroalimentacin, contemplar sus actividades fijas y su tiempo libre, tener presente los tiempos necesarios para el descanso y la vida cotidiana, establecer tiempos fijos de estudio y prever flexibilidad para los imprevistos. Los materiales didcticos para educacin no escolarizada, recurdese que son elaborados por equipos interdisciplinarios, cuyos contenidos forman un paquete UNIVERSIDAD VASCO DE QUIROGA 5
didctico. Que responden a las preguntas: Por qu se elabora el material? A quin est dirigido? Quin lo selecciona y cmo se va a organizar? Qu medios de comunicacin son los ms idneos? Materiales que provienen y remiten a distintas fuentes de informacin, con el propsito de provocar la reflexin y actitud crtica de los participantes, su inventiva y originalidad de respuestas, estn elaborados en base a los contenidos a ensear as como los intereses y necesidades de los participantes. Organizados a travs de situaciones problemticas, que requieran una solucin y pueda plantearse en el curso. SEGUNDA. Las asesoras sern individuales o grupales. Asesora Individual. Deber partir de una evaluacin diagnstica y compromisos de tiempo de estudio y evaluacin, para seguir con la obtencin de informacin de la materia a cursar, en donde el estudiante debe de esforzarse por resolver el problema, antes de acudir con el asesor, quien precisamente le clarificar sus dudas y se retroalimentar de informacin complementaria significativa. Asesora Grupal. Que buscar el intercambio de experiencias de aprendizaje, actualizando y profundizando el conocimiento de la materia, que le permita facilitar la elaboracin de sus actividades, mediante la socializacin y confrontacin de opiniones, para aplicar lo tericamente adquirido al campo de la realidad. TERCERA. Las principales Obligaciones del estudiante son: Estudiar personalmente de cada asignatura, ya que de l depender el xito de su aprendizaje. Asistir o participar en las Asesoras, de manera presencial o utilizando los medios electrnicos. El alumno que no asista o no participe en las asesoras, debe informar a su asesor para acordar conjuntamente las acciones a seguir, sobre todo en aquellos casos en los que la evaluacin no se sujete solo a un examen, sino existan adems, trabajos que presentar o actividades que desarrollar, las cuales deben ser reportadas puntualmente. Acordar con los asesores sobre los procedimientos a seguir para la recepcin de trabajos, en el caso de los alumnos forneos. Presentarse en los tiempos y formas establecidas por la Universidad para la prctica de las evaluaciones correspondientes, as como entregar el producto de las actividades solicitadas. No recibir o prestar ayuda fraudulenta en las evaluaciones o exmenes correspondientes. La asistencia a las asesoras no es obligatoria, pero s recomendable por las importantes aclaraciones, aportaciones y correcciones que pueda sugerirle el asesor de forma personalizada.
4. CARACTERSTICAS ESTADSTICA.
PROPIAS
DE
LA
MATERIA
DE:
La Estadstica es una rama de las matemticas que busca interpretar un gran volumen de informacin como es el caso de la estadstica descriptiva, con objeto de conocer algunas caractersticas de inters acerca de una poblacin en particular, esta informacin es de gran ayuda para la Informtica, dado que contribuye a disear estrategias eficaces para comerciar productos. Por otra parte sabemos lo complicado que es, realizar un estudio que con lujo de detalles describa a una poblacin en su conjunto, por lo que la inferencia estadstica busca tomar una muestra que sea representativa de una poblacin y a partir de ah, tomar decisiones e interpretar sus detalles. Exige del estudiante un conocimiento bsico de matemticas, de razonamiento lgico, capacidad de abstraccin y deduccin, as como un especial inters por los detalles, pero sin duda es una herramienta poderosa para la interpretacin y solucin de problemas sociales y empresariales. BIENVENIDO Y MUCHO XITO! !!!!!BIENVENIDO LA ESTUDIO DE LA ESTADSTICA Y MUCHO XITO!!!!!
Gua didctica
CREDITOS
El material utilizado para el desarrollo de la presente asignatura fue producido y digitalizado por la Universidad Vasco de Quiroga, a partir de los trabajos e investigaciones realizadas por: Profesor: FAUSTO ARREGUN HUERTA Correo Electrnico: fahii@hotmail.com Ttulo: INGENIERO INDUSTRIAL.
1. 2. 3. 4. 5.
Recoleccin anlisis y representacin de datos. Medidas de centralizacin y dispersin. Distribuciones de probabilidad. Distribuciones de muestreo. Estimacin y decisin estadstica
Para con todo esto, al concluir con el Aprendizaje de ESTADSTICA, contars con conocimientos que te servirn de referencia para otras materias en el transcurso de tu carrera.
METODOLOGA
La presente GUA DIDCTICA, se enfoca principalmente a recordarte que en ningn instante estars sin apoyo, para ello, buscar siempre el intercambio de experiencias entre los interlocutores para aclarar dudas, facilitar la investigacin y ofrecer sugerencias sobre el mejor manejo de la informacin, as como incorporar toda aportacin que surja para mejorar el Ambiente de Aprendizaje. Se te sugiere que para lograr de mejor forma estos propsitos, es conveniente que sigas los pasos que se te sealan a continuacin: Primer Paso. Conoce los Objetivos Generales y de cada Unidad, sus temas, subtemas, sus conceptos y tpicos, con el fin de obtener un panorama completo de los contenidos a tratar, reflexionando sobre los mismos, obteniendo notas personales sobre lo que es importante destacar en cada lectura. Segundo Paso. Una vez conocido el contenido de cada Unidad de forma muy general (y slo despus de esto, ya que de lo contrario su ptica sera parcial), se dar inicio a la realizacin de lo que se denomina ACTIVIDADES DE APRENDIZAJE, con las cuales se lograr llegar a conocer, aprender, aplicar, analizar y elaborar cada uno de los conceptos y tpicos de manera sustentada y no simples opiniones. Actividades que posteriormente te podrs AUTOEVALUAR. Tercer Paso. Si despus de llevado a cabo lo anterior, quedaron dudas, no te preocupes, stas se eliminarn si ests en comunicacin permanente con tu ASESOR, a quien entregars las actividades de aprendizaje solicitadas (investigaciones, cuestionarios), para que sean revisadas, evaluadas y corregidas para tu mejor comprensin. Pero para ello es importante que participes en todas y cada una de
11
las actividades de aprendizaje que se te recomienden. Utilizando las herramientas informativas que se sugieran y que se puedan tener al alcance. Cuarto Paso. Enseguida, debemos comprobar que el Aprendizaje de la ESTADSTICA, sea real y consistente, y esto se logra mediante una forma que se denomina ACTIVIDAD INTEGRADORA. Actividad propia del estudiante y reflejo de la Investigacin diaria. Actividad a la cual se le otorga el mayor grado de calificacin, al momento de evaluar la participacin del alumno, en la materia, y que ser proporcionada por tu ASESOR. Quinto Paso. El hecho de que se determinen Objetivos, Temas, Conceptos, Tpicos, Actividades de Aprendizaje y Autoevaluaciones por Unidad, no significa que se trate del conocimiento de contenidos aislados, sino que, todos los conocimientos que se van adquiriendo forman parte del aprendizaje integral, as pues, lo que se aprende al principio del curso se aplica hasta el final, por lo tanto se requiere de dedicacin y prctica para que el presente documento sea de gran utilidad y su contenido haga efectivo el aprendizaje significativo.
Tareas a realizar por los alumnos de los Cursos No Escolarizados: 1. Leer los textos de autoaprendizaje. 2. Resolver las Actividades de Aprendizaje, y si el Asesor lo indica, envirselas va correo electrnico para su revisin. 3. Contestar las Autoevaluaciones lo ms honestamente posible, con la finalidad de que midas si has adquirido los conocimientos, ya resueltas, podrs verificar si tus respuestas fueron acertadas en la hoja de respuestas que se ubica al final del documento. 4. Realizar las Actividades Integradoras que te indique tu Profesor/Asesor con la finalidad de otorgarte una calificacin. Finalmente, se aprovecha la oportunidad para sealar la BIBLIOGRAFA BSICA, con que cuenta el ESTADSTICA, y que es precisamente la siguiente: ARREGUN HUERTA, Estadstica para Informtica, Universidad Vasco de Quiroga, 2008 William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamrica, 1988 Anderson Sweeney Williams, Estadstica para administracin y economa, Editorial Math Learning Thomson, 2005.
CRITERIOS DE EVALUACIN
Se realizar una evaluacin continua sobre la participacin en actividades de aprendizaje, elaboracin de prcticas, resolucin de las autoevaluaciones y las actividades integradoras que seale el Asesor. De manera fundamental se considerar la calidad del compromiso en cuanto al cumplimiento del alumno a las actividades propuestas, es decir, cumplir en tiempo y forma con las tareas que indique el Asesor, siendo retroalimentado por el mismo. Si llegamos a este punto, es precisamente porque nos importa conocer nuestro trabajo, saber con que dedicacin y seriedad lo hemos venido realizando, pero sobre todo saber, si las metas de aprendizaje se logran, o bien conocer, sobre que aspectos debemos trabajar doblemente en beneficio de todos. Y para ello, se tomarn en cuenta los siguientes CRITERIOS: ACTIVIDADES DE APRENDIZAJE 50% DE LA CALIFICACIN En las que se calificar: a) Conocimiento General y Particular de los contenidos trabajados. b) Aplicacin de la teora en la prctica. c) Elaboracin de las actividades propuestas. d) Actitud y dedicacin. EXAMEN CUATRIMESTRAL ORDINARIO 50% DE LA CALIFICACIN Para acreditar cada materia en un ciclo escolar, los estudiantes tendrn hasta dos oportunidades (evaluacin ordinaria, y evaluacin extraordinaria) si cumplen con las condiciones: El alumno que cumpla con el 60% de actividades acadmicas exigidas por la Universidad-Asesor en la materia respectiva y que haya cubierto el total de sus cuotas, tendr derecho a presentar examen ordinario (final del semestre) que constituye la primera oportunidad. Actividades que sern dadas a conocer a los estudiantes al inicio de cada materia, llevndose un control minucioso de fechas de entrega, por parte del asesor. El alumno que no cumpla en tiempo y forma con el 60% de las actividades acadmicas, pero s ms del 40% de las actividades, tendr derecho a presentar el examen extraordinario (esto constituye la segunda) siempre y cuando no est en esta situacin en ms de dos materias de las que integra el ciclo escolar que cursa. Estos porcentajes pueden llegar a variar, previo aviso del profesor, en algunas unidades en donde se le dar mayor porcentaje a las actividades En caso que alguno de que el examen extraordinario o no rena el 40% de las actividades del curso, el estudiante tendr que tomar el curso nuevamente.
13
RECUERDA, EL LOGRO DEL APRENDIZAJE ES NUESTRA JUSTIFICACIN POR LO TANTO TU PARTICIPACIN ES DECISIVA
AYUDAS
En el caso de requerir ayuda acadmica se puede enviar correo electrnico al Asesor de la materia, mismo que l proporcionar. El asesor tambin podr estar disponible en lnea a travs de herramientas en lnea como lo son los Mensajeros Instantneos de Hotmail, Yahoo, segn lo convenga con el grupo en fecha y horario.
HERRAMIENTAS Y UTILERAS
Todo el material que es desarrollado para nuestros cursos es producido usando programas de uso comn, los cuales pueden ser encontrados fcilmente en internet. En caso de no poder utilizar algn material, puede ser el caso de que necesite instalar alguno de estos programas. Si requiere ayuda para su instalacin no dude en contactarse con el asesor. Para poder visualizar las lecturas deber tener instalado en su computadora los programas adecuados, en particular deber tener el Acrobat Reader. Este puede UNIVERSIDAD VASCO DE QUIROGA 14
encontrarse en internet y obtenerse de manera gratuita en la siguiente direccin electrnica: http://www.latinoamerica.adobe.com/products/acrobat/readstep2.html Una lista de todos los programas que puedes obtener de manera gratuita y que es importante los pudiera tener instalados en su computadora son los mostrados a continuacin: Acrobat Reader .- Para leer archivos creados en formato pdf. Antivirus.- Es una versin libre de un antivirus, es importante que te protejas de los virus informticos. ICQ .- Programa de la categora de mensajeros instantneos. IEXPLORER.- Navegador para internet, para plataformas Windows. Mozilla Firefox. Navegador de Internet, para plataformas Linux y Windows. MSN Messenger.- El mensajero instantneo de Microsoft. Netmeeting.- Programa de comunicacin que permite interactuar en lnea utilizando diversos formatos de archivos. Open Office.- Grupo de programas de uso libre similar al Microsoft Office. Real One Player .- Reproductor de audio y video. WinZip.- Compactador y descompactador de archivos. Yahoo Messenger .- Mensajero instantneo de Yahoo.
Si necesita ayuda para saber donde obtener estos programas y conocer la forma de instalar estos programas podemos auxiliarlo con mucho gusto, solo pngase en contacto con el Asesor de la materia y el le dar instrucciones detalladas.
15
INTRODUCCIN
Al predecir el resultado de una eleccin algunos encuestadores entrevistan a un nmero predeterminado de personas para conocer sus preferencias polticas, se elabora un pronstico en base a esa informacin, para una investigacin de mercado nos interesa conocer de un grupo de potenciales compradores cual modelo de auto eligen, en la industria que porcin de artculos no cumplen con las especificaciones de producto, al estimar un inventario de medicamento de un hospital, la incidencia de algunas variables sociolgicas sobre el consumo de algunos bienes. Todos los casos anteriormente expuestos hacen uso e la estadstica, situaciones de carcter comn para el estudiante de Informtica sin duda. En el mundo laboral la toma de decisiones es algo comn, lo lamentable del caso es que una gran proporcin de estas decisiones estn basadas en corazonadas o en extrapolaciones de decisiones anteriores que corresponden a otro contexto, tiempo y variable. Por tanto contar con informacin til y confiable s la clave para que lo que elijamos tenga mayor grado de certidumbre, la estadstica nos permite presentar esa informacin de manera ms convincente y til, nos muestra las variables que inciden en un determinado efecto, nos permite trabajar con una parte de esa informacin a partir de la cual se pueden inferir comportamientos y resultados. La estadstica descriptiva se ocupa de la descripcin de un conjunto de datos llamado poblacin, como en el censo de un pas, a partir de la cual se describa y extraiga informacin de un cmulo de datos. La estadstica inferencial, es cuando empleamos una muestra que sea representativa de la poblacin, con objeto de anticipar su comportamiento tomando en consideracin una muestra representativa. La probabilidad nos ayuda a razonar a partir de una poblacin conocida hacia una muestra desconocida. En el desarrollo del presente curso tambin tocaremos el anlisis de medidas de tendencia central y dispersin, el trabajo con muestras, as como la regresin lineal simple y mltiple, problemas todos donde buscaremos tomar decisiones ms acertadas valindonos de las tcnicas estadsticas. !!!!!BIENVENIDO SEAS!!!!!
16
17
LECTURAS COMPLEMENTARIAS: William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamrica. Anderson Sweney Williams, Estadstica para administracin y Informtica, Editorial Thomson 2005.
18
19
LECTURAS COMPLEMENTARIAS: William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamrica. Anderson Sweney Williams, Estadstica para administracin y Informtica, Editorial Thomson 2005.
20
Conocer el concepto de funcin de una variable aleatoria continua y obtendr probabilidades a partir de la funcin de densidad. Identificara si la funcin dada es una funcin de densidad y aplicara el tipo de distribucin adecuado para la solucin de problemas.
LECTURAS COMPLEMENTARIAS:
21
William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamrica. Anderson Sweney Williams, Estadstica para administracin y Informtica, Editorial Thomson 2005.
22
LECTURAS COMPLEMENTARIAS: William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamrica. Anderson Sweney Williams, Estadstica para administracin y Informtica, Editorial Thomson 2005.
23
24
LECTURAS COMPLEMENTARIAS: William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamrica.
25
Anderson Sweney Williams, Estadstica para administracin y Informtica, Editorial Thomson 2005.
26
LECTURAS COMPLEMENTARIAS: William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamrica. Anderson Sweney Williams, Estadstica para administracin y Informtica, Editorial Thomson 2005.
27
28
Texto de Autoaprendizaje
29
30
OBJETIVOS PARTICULARES
Al finalizar esta Unidad el estudiante: Definiciones de probabilidad espacio muestral experimento aleatorio probabilidad de eventos independientes y dependientes, uni e interseccin de conjuntos. Probabilidades de eventos independientes y dependientes y aplicara el Teorema de Bayes.
TEMAS Y SUBTEMAS:
UNIDAD 01
2. PROBABILIDAD. 3.7 Definir experimento aleatorio 3.8 Definir espacio muestral de un experimento aleatorio. 3.9 Obtener espacio muestral de un experimento aleatorio dado. 3.10 Definir probabilidad de un punto en el espacio 3.11 Definir espacio muestral equiprobable 3.12 Combinaciones de eventos y probabilidad condicional 3.13 Eventos: definir evento o suceso y ocurrencia de un evento en un espacio muestral dado. 3.14 Obtener la probabilidad de un evento. 3.15 Definir el complemento de un evento y su probabilidad. 3.16 Definir la unin e interseccin de eventos. 3.17 Obtener la probabilidad de la unin e interseccin de eventos. 3.18 Enunciar y aplicar las leyes de probabilidad. 3.19 Definir eventos mutuamente excluyentes. 3.20 Dada una coleccin de eventos determinar si son independientes. 3.21 Establecer y aplicar la ley particular multiplicativa para n eventos independientes. 3.22 Teorema de Bayes 3.23 Aplicaciones del teorema de Bayes. 3.24 Tcnicas de conteo, diagramas de rbol y principio multiplicativo. Aplicar las tcnicas de conteo a travs de permutaciones y combinaciones.
31
32
El espacio de los sucesos. Un experimento, en estadstica, es cualquier proceso que proporciona datos, numricos o no numricos. Un conjunto cuyos elementos representan todos los posibles resultados de un experimento se llama espacio muestral y se representa como S. El espacio muestral de un experimento siempre existe y no es necesariamente nico pues, dependiendo de nuestra valoracin de los resultados, podemos construir diferentes espacios muestrales. Los elementos del espacio muestral se llaman puntos muestrales y son los distintos resultados del experimento. Si consideramos el conjunto de las partes de (P(S)) sus elementos son los sucesos. Un suceso, por tanto, es un subconjunto del espacio muestral.
Existen dos tipos de sucesos: 1. Sucesos simples, que son aquellos que comprenden un slo punto muestral. 2. Sucesos compuestos, que son los que engloban ms de un punto del espacio muestral. Todo suceso compuesto se puede considerar como unin de puntos del espacio muestral o unin de sucesos simples. Azar, suceso aleatorio El azar, en el lenguaje normal, se considera como la caracterstica de un suceso imprevisible. En estadstica esta definicin se modifica aadiendo una propiedad adicional: El azar es la caracterstica de un experimento que produce resultados diversos, impredecibles en cada situacin concreta, pero cuyas frecuencias, a la larga, tienden a estabilizarse hacia un valor "lmite" en el infinito. Como consecuencia, se definen los sucesos aleatorios como los resultados de un experimento cuya variacin (la de los resultados) es debida al azar.
33
Probabilidad La probabilidad de un suceso slo se define para el caso de sucesos aleatorios. Hay varias formas de definir la probabilidad. En primer lugar podemos considerar la definicin intuitiva que nos dice que la probabilidad de un suceso es la posibilidad de que ste ocurra. Esta primera definicin no parece de gran utilidad por ser difcilmente cuantificable. Tambin podemos considerar la definicin clsica de probabilidad. En esta definicin se empieza por considerar todos los resultados posibles de un experimento; despus se contabilizan los resultados favorables a nuestro suceso, es decir, todos aquellos en que el experimento resulta en el suceso considerado; por ltimo, suponiendo que existe simetra recproca de todos los resultados, es decir, que todos los resultados posibles son igualmente posibles, se define la probabilidad como el nmero de casos favorables dividido por el nmero de casos posibles. Esta segunda definicin presenta el inconveniente de que no siempre es posible saber cuntos son los resultados posibles de un experimento y no siempre todos los resultados posibles son igualmente probables. Por tanto, consideraremos la probabilidad definida de otra forma. Supongamos que realizamos muchas veces un experimento y vamos anotando el valor de la frecuencia relativa que, como sabemos, tiende a estabilizarse. Suponiendo que pudiramos realizar el experimento infinitas veces, el valor de estabilizacin de las frecuencias en el infinito sera la probabilidad de los sucesos. Es decir, la probabilidad es el valor de la frecuencia relativa en el infinito. Es importante sealar, que este valor de estabilizacin no es un lmite en el sentido matemtico de la expresin pues, por ser un suceso aleatorio, nadie puede garantizar una ecuacin matemtica para el valor de la frecuencia relativa. Axiomas de Kolmogorov Todo el clculo de probabilidades y, con l, toda la estadstica se basan en tres propiedades que se asignan a las probabilidades, que se llaman axiomas de Kolmogorov 1. La probabilidad de un suceso es siempre mayor o igual que cero y menor o igual que uno Si A es un suceso 2. La probabilidad del espacio muestral es igual a uno:
34
Si S es el espacio muestral Es evidente, pues si realizamos un experimento siempre ha de suceder alguna cosa. Esta propiedad se expresa como que la probabilidad de un suceso cierto es igual a uno. Si S tiene un nico elemento se es un suceso cierto. Como consecuencia, siguiendo el razonamiento anterior, la probabilidad de que no ocurra nada, lo cual es imposible, o en notacin de conjuntos la probabilidad del conjunto vaco (F) es cero. P(F) = 0 Se llama suceso imposible a aquel cuya probabilidad vale cero. 3. Si A y B son sucesos mutuamente excluyentes, es decir, nunca ocurren simultneamente (A B = F) la probabilidad de su unin, es decir, de que ocurra uno u otro es la suma de sus probabilidades.
Se llama suceso contrario del suceso A al suceso A' que se define como A = S A. La probabilidad del suceso contrario es:
35
Se llama probabilidad condicional del suceso B respecto del suceso A a la probabilidad de que, dado que el resultado de un experimento haya sido A sea, simultneamente, B. Este valor se representa como P(B|A).
Por transposicin de trminos en la ecuacin anterior y en la correspondiente a la probabilidad condicional de A respecto de B llegamos a:
Se dice que dos sucesos A y B son independientes si y slo si la probabilidad de su interseccin es igual al producto de sus probabilidades
Sucesos dependientes
Sucesos independientes
ACTIVIDADES DE APRENDIZAJE
Calcular la probabilidad de que caiga un guila en la tirada de dos monedas.
Eventos E1
1 moneda A 1/2
2 moneda A
P(Ei) 1/4
36
E2 E3 E4
S A S
S S A
AUTOEVALUACIN
Encuentra los resultados posibles a un experimento Experimento Lanzar una moneda Seleccionar una parte para inspeccin Telefonema para ventas Tirar un dado Jugar un partido de futbol Resultados
37
38
Otra clasificacin ms operativa de las variables aleatorias sera: Variable discreta: Aquella que se define sobre un espacio muestral numerable, finito o infinito. Espacio numerable es aquel cuyos elementos se pueden ordenar, asignndoles a cada uno un nmero de la serie de los nmeros naturales (del 1 al n del 1 al I). Todas las variables con un nmero finito de valores y todas las que tomen valores en nmeros enteros o racionales (fraccionarios), son variables discretas. Variable continua: Es aquella que se define sobre un espacio asimilable al conjunto de los nmeros reales, es decir, un espacio no numerable (o un espacio infinito de tipo C o infinito dos) En general, la regla de oro es que todas las variables que proceden de experimentos en los que se cuenta son discretas y todas las variables que proceden de experimentos en los que se mide son continuas.
39
Tambin se pregunta cul es la categora socio-profesional en la que se sita el encuestado: Su profesin es:
40
Directivo o empresario. Administrativo. Trabajador manual. Trabajador Autnomo. Funcionario. Jubilado. Estudiante Otras.
Las anteriores variables son de tipo cualitativo, calificndose como de tipo ordinal (la primera) y nominal (la segunda). La distincin entre ellas es clara. En la pregunta sobre la impresin del viaje, la respuesta muy buena indica un nivel de satisfaccin mayor que buena, sta ltima respuesta estara a su vez por encima de normal y mala sealara en nivel mnimo de satisfaccin. Las respuestas pueden, en algn sentido, ordenarse de menos a ms. En cambio, no es posible ordenar de menos a ms las respuestas de una variable como la categora profesional. Las variables cualitativas nominales nicamente ponen nombre a una caracterstica, las variables ordinales llevan asociadas un orden en las respuestas. Las categoras de una variable nominal, al contrario de las de una variable ordinal, no pueden ordenarse de menos a ms. Distribucin de frecuencias. Frecuencia relativa y frecuencia relativa acumulada. La principal herramienta de anlisis de una variable de tipo cualitativo es el simple recuento del nmero de los casos dentro de cada categora. Adems de referirnos a las categoras de una variable, emplearemos tambin el trmino valores de la variable. Supongamos que tenemos una variable A, que puede tomar las categoras A1, A2,, AI. El primer objetivo es conocer cuntos individuos tienen cada caracterstica. La principal herramienta de anlisis de una variable de tipo cualitativo es el simple recuento del nmero de los casos dentro de cada categora. En estadstica, el nmero de veces que se repite una de las categoras o valores de la variable se denomina frecuencia o, de manera ms precisa, frecuencia absoluta (que denotaremos ni). Por distribucin de frecuencias se entiende el registro de todas las posibles categoras o valores de la variable, junto con sus frecuencias asociadas. Adems de las frecuencias absolutas se suelen presentar las frecuencias relativas de cada categora. La frecuencia relativa se define como la frecuencia absoluta dividida por el total de observaciones:
41
Cuando se trabaja con una variable de tipo ordinal (cuyas categoras se pueden ordenar de menor a mayor) se pueden calcular las frecuencias acumuladas. La idea de acumulacin facilita conocer rpidamente el nmero de observaciones que estn por debajo de un determinado valor o categora. Se distingue entre frecuencias acumuladas absolutas y relativas. La frecuencia absoluta acumulada se define como:
Slo tiene sentido hablar de valores acumulados cuando las respuestas de la variable se han ordenado de menor a mayor, lo que slo es posible si la variable cualitativa es de tipo ordinal. La imagen estndar de una distribucin de frecuencias es tan sencilla como la que se muestra en el siguiente cuadro. En la misma apareceran, para el total de n observaciones, los I distintos atributos de la variable, sus frecuencias absolutas, las frecuencias relativas y las frecuencias relativas acumuladas.
42
Ejemplo 1. Rgimen de propiedad de la vivienda. El rgimen de propiedad de la vivienda familiar puede considerarse como una variable cualitativa, distinguiendo tres posibles categoras: la vivienda est en alquiler, la vivienda es de propiedad con la hipoteca pendiente o la vivienda es de propiedad sin hipoteca. Ante una muestra concreta de familias, podemos describir de una manera cuantitativa su relacin con la propiedad de su vivienda. En el cuadro se muestra la distribucin de frecuencias de una muestra de 4791 declarantes. Aunque no es estrictamente necesario suele ser cmodo, cuando se graban los datos, convertir las categoras en etiquetas numricas. En nuestro ejemplo se ha definido una variable denominada vivienda que toma un valor igual a 0 cuando la vivienda es de alquiler, igual a 1cuando la vivienda es de propiedad pero tiene la hipoteca an vigente y valor 2, si la vivienda es de propiedad y sin hipoteca.
En el cuadro aparecen los siguientes conceptos: Los valores que toma la variable (Value). Para esta variable los valores 0, 1 y 2 reflejan las categoras de alquiler, vivienda con hipoteca vigente y vivienda de propiedad (en la columna Value Label se muestran las etiquetas de la variable). La Frecuencia absoluta (Frequency). El nmero de individuos que tiene cada una de las categoras. La frecuencia relativa (Percent) . Definida como el cociente entre la frecuencia absoluta y el nmero total de observaciones. La frecuencia relativa acumulada (Cum Percent). La frecuencia relativa acumulada se define como la suma acumulada de los porcentajes relativos de las categoras anteriores y hasta la propia categora. La vivienda en propiedad y ya pagada, con un 43.1% de los declarantes tiene el mayor porcentaje de individuos. La segunda es la categora de vivienda en alquiler, con un 36.8% de declarantes. Finalmente, la categora con menos individuos corresponde a la de declarantes que viven en vivienda de propiedad,
43
an no pagada. La importancia de cada una de las categoras es fcil de percibir cuando el nmero de categoras de la variable es muy pequeo. Los porcentajes acumulados no tienen una interpretacin inocente cuando se tratan variables de tipo cualitativo. La informacin de que el 56.9% de los individuos viven en rgimen de alquiler o en vivienda propia con hipoteca puede ser una informacin sin sentido. La frecuencia relativa se define como la frecuencia en cada clase dividida por el total de observaciones:
La frecuencia relativa acumulada en cada clase se define, una vez ordenadas las respuestas desde la categora inferior a la superior, como:
En variables de tipo cualitativo nominal el porcentaje acumulado de frecuencias no debe leerse de manera automtica, puesto que al no existir un orden en las categoras, el sentido de la acumulacin puede ser confuso. Diagrama de barras. Los resultados de la distribucin de frecuencias se pueden acompaar de ayudas grficas que facilitan la lectura de la informacin. El diagrama de barras representa, para cada una de las categoras de la variable (indicada en uno de los ejes de la grfica), su frecuencia absoluta o relativa (que se muestra en un segundo eje). Su objetivo es disponer de una visualizacin clara y rpida de la importancia de cada una de las categoras de la variable. En la grfica se muestra el diagrama de barras correspondiente al ejemplo anterior. El diagrama de barras representa grficamente las frecuencias (absolutas o relativas) de la variable.
44
Descripcin de variables cuantitativas Las variables de tipo cuantitativo son aquellas que toman, en lugar de categoras, valores numricos. Las categoras de las variables cualitativas pueden relacionarse con valores numricos, pero eso no las convierte en cuantitativas, puesto que el nmero, en su caso, no es ms que una etiqueta, careciendo de sentido operar matemticamente con ellos. Escala de intervalo y escala de cociente. Desde un punto de vista terico se distingue entre variables cuantitativas medidas en escala de intervalo y en escala de cociente. Las variables cuantitativas tienen una escala de intervalo si se pueden ordenar sus valores y, adems, se pueden realizar con ellos las operaciones de suma y resta. La primera caracterstica la comparte con las variables cualitativas ordinales, pero al contrario que en aqullas, en la escala de intervalo puede medirse la distancia entre distintas observaciones. Permite afirmar, por ejemplo, que un individuo tiene un valor que supera en diez unidades al que toma otro individuo, o que entre dos individuos hay una diferencia de veinte unidades. Las variables con escala de cociente aaden a estas caractersticas la de incorporar un origen no arbitrario. La diferencia esencial es que este segundo tipo de variable admite un cero verdadero (toneladas consumidas o nmero de empleados, por ejemplo, donde el UNIVERSIDAD VASCO DE QUIROGA 45
cero se entiende como inexistencia) y permite el clculo de proporciones entre los distintos valores (una observacin toma un valor que es el doble que el de otra). Normalmente, desde el punto de vista prctico, no siempre se realiza una distincin entre ellas. Distribucin de frecuencias. Diagrama de barras. La idea de recuento, es decir, la idea de crear una distribucin de frecuencias debe ser, como en el caso de las variables cualitativas, el primer paso del anlisis. Observar los distintos valores que toma una variable, ordenarlos de menor a mayor y contar el nmero de veces que aparece cada valor nos dar una idea de su comportamiento. El nico problema que se plantea con una variable de tipo cuantitativo es que suele tomar un nmero de valores mucho mayor que las posibles categoras de una variable cualitativa. La imagen general que se pretende dar con la distribucin de frecuencias puede ser entonces poco til, porque la informacin est poco resumida. El trabajo con intervalos de la variable, en lugar de con cada uno de sus posibles valores, es el procedimiento normal para conseguir una imagen sinttica de la distribucin. Ejemplo 1. Distribucin de frecuencias del nmero de hijos. En este primer ejemplo vamos a obtener la distribucin de frecuencias y el diagrama de barras del nmero de hijos de una muestra de familias espaolas. La muestra de 1254 familias est formada por una seleccin aleatoria de declarantes que ya hemos analizado anteriormente. La distribucin de frecuencias para una muestra de esta variable Nmero de hijos del hogar aparece en el cuadro 1 y su representacin en un diagrama en barras en la grfica
46
El primer resultado interesante de la distribucin es el disponer de los valores que toma la variable, informacin que a priori no conocamos. El nmero de hijos en la muestra toma nicamente valores 0, 1, 2, 3, 4, 5.
47
Clase
Lmite
Marca
Frecuencia
Frecuencia relativa
1 2 3 4 5 6 7
2.3 - 2.7 2.8 - 3.2 3.3 - 3.7 3.8 - 4.2 4.3 - 4.7 4.8 - 5.2 5.3 - ...
4 6 6 4 3 1 1
Probabilidad bsica
Un experimento aleatorio se caracteriza porque repetido muchas veces y en idnticas condiciones el cociente entre el nmero de veces que aparece un resultado (suceso) y el nmero total de veces que se realiza el experimento tiende a un nmero fijo. Esta propiedad es conocida como ley de los grandes nmeros, establecida por Jakob Bernouilli Podemos definir probabilidad de un suceso como el nmero al que tiende la frecuencia relativa asociada al suceso a medida que el nmero de veces que se realiza el experimento crece.
Propiedades de la frecuencia relativa: 1. 0 fr (A) 1 cualquiera que sea el suceso A. 2. fr( ) = fr(A) + fr(B) si = . 3. fr(E) = 1 fr() = 0.
48
Esta definicin presenta el inconveniente de tener que realizar el experimento un gran nmero de veces y adems siempre obtendremos un valor aproximado de la probabilidad. La definicin axiomtica de probabilidad se debe a Kolmogorov, quien consider la relacin entre la frecuencia relativa de un suceso y su probabilidad cuando el nmero de veces que se realiza el experimento es muy grande. Sea E el espacio muestral de cierto experimento aleatorio. La Probabilidad de cada suceso es un nmero que verifica: Cualquiera que sea el suceso A, P(A) 0.
1. Si dos sucesos son incompatibles, la probabilidad de su unin es igual a la suma de sus probabilidades. = P( ) = P(A) + P(B).
2. La probabilidad total es 1. P(E) = 1. Definicin de Laplace. En el caso de que todos los sucesos elementales del espacio muestral E sean equiprobables, Laplace define la probabilidad del suceso A como el cociente entre el nmero de resultados favorables a que ocurra el suceso A en el experimento y el nmero de resultados posibles del experimento.
Experimento: proceso mediante el cual se obtiene una observacin ( o una medida de un fenmeno). Ejemplo: Registrar la produccin diaria en una fbrica. La paridad del dlar con el peso. Eventos A. Los resultados de un experimento se les conoce como eventos y se registran con literales maysculas as la probabilidad de un evento A se denota
49
como P(A)= n/N tambin conocido como frecuencia relativa de probabilidad, si un conjunto no puede ocurrir P(A)=0, si ocurre con seguridad P(A)=1 Interseccin de eventos A y B: Es el evento en donde ambos ocurren, se lee P(AB) Unin de A y B: Denotando como AUB es la probabilidad de que alguno de los 2 eventos ocurra o bien ambos. Eventos mutuamente excluyentes: Donde no pueden ocurrir ambos eventos a la vez, ejemplo que P(AB)=0 A: Suba el dlar B: Baje el dlar C: No haya variacin -
Si A y B son eventos mutuamente excluyentes la probabilidad de que ocurra A o B estara dada por P(AUB) =P(A)+P(B) Ejemplo Un inversionista depositar 10000 en un conjunto de 6 inversiones, tomando la decisin en pares de inversiones, despliega el conjunto eventual I1 I2 I1 I3 I1 I4 I1 I5 I1 I6 I2 I3 I2 I4 I2 I5 I2 I6 I3 I4 I3 I5 I3 I6 I4 I5 I4 I6 I5 I6
15 opciones distintas de inversin Si posteriormente se conoce que las tres primeras fueron las ms lucrativas, que probabilidad hay de que haya seleccionado solo las ms lucrativas. I1 I2 I1 I3 I2 I3 =1/15+1/15+1/15=3/15=0.2=P(A)
50
Evento B
Un experimento consiste en tirar un dado, especifique los eventos simples A: Caer 2 B: Caer impar C: Caer un nmero menor que 4 D: Observar ambos A y B E: Observar A y B, o ambos F: Observar A y C Evento simples: 1,2,3,4,5,6. 1/6-------- 2 3/6-------- 1,3,5, 3/6-------- 1,3,3 O A U B: 4/6------- 1,2,3,4, 1/6-------2 Probabilidad condicional y eventos independientes, dos eventos se relacionan muchas veces de tal manera que la probabilidad de ocurrencia de en evento depende o no de la ocurrencia de otro. P (B/A)= P(AB)/P(A) La probabilidad de B dado que ocurri el evento A P (A/B)= P(AB)/P(B) Son independientes si la probabilidad de uno, no depende de la ocurrencia del otro. P (B/A)= P(B) P(A/B) =P(A) Tambin P(AB) =P(A)P(B) Ejemplo: UNIVERSIDAD VASCO DE QUIROGA 51
Una casa oferta ropa, las prendas se clasifican segn la siguiente tabulacin por gnero y por clase: Lnea Cara 132 516 648
Calcular la probabilidad de que el consumidor sea mujer. A P(A)=721/100 El pedido sea para la lnea cara. B P(B)=648/1000 Que sea para la lnea cara y sea una mujer quien compra. P(AB)=516/1000 Que el pedido sea para la lnea cara, dado que el consumidor es mujer. P(B/A)=P(AB)/P(A)=516/721. e) Demostrar si A y B son eventos independientes si P(B/A)=P(B) como 516/721648/1000 por lo tanto: Son eventos dependientes.
Distribuciones de probabilidad
Recordemos inicialmente que existen las variables aleatorias, siendo aquellas que se asocian a la ocurrencia de un fenmeno aleatorio. Cuando una de estas variables aleatorias toma diversos valores, la probabilidad asociada a cada uno de tales valores puede ser organizada como una distribucin de probabilidad, la cual es la distribucin de las probabilidades asociadas a cada uno de los valores de la variable aleatoria. Las distribuciones de probabilidad pueden representarse a travs de una tabla, una grfica o una frmula, en cuyo caso tal regla de correspondencia se le denomina funcin de probabilidad. Funcin de probabilidad Una variable aleatoria discreta toma cada uno de sus valores con una determinada probabilidad. La relacin entre valores y probabilidades en una variable X se puede expresar de forma tabular de la siguiente manera:
Valores de X P(X = x)
x1 P(x1)
x2 P(x2)
...
xi P(xi)
52
Este mtodo puede ser complicado, e incluso imposible, si los valores de la variable son muchos o infinitos. En algunos casos, existe una forma sistemtica de aplicacin de los valores de la probabilidad a los valores de la variable, de modo tal que se puede establecer una ecuacin que ligue ambos. A esta ecuacin se le llama funcin de probabilidad. Por tanto, la funcin de probabilidad de una variable aleatoria discreta X es una funcin tal que, al sustituir x por un valor de la variable, el valor que toma la funcin es la probabilidad de que la variable X asuma el valor x. Habitualmente, la funcin de probabilidad se representa como f(x). f(x) = P(X = x) Las funciones de probabilidad slo se definen para los valores de la variable aleatoria y deben cumplir tres propiedades: 1. Como consecuencia del primer axioma.
2.
Funcin de distribucin La funcin de distribucin F(x) de una variable aleatoria discreta X, con funcin de probabilidad f(x), es una funcin de la variable en la que al sustituir x por un valor, el valor de la funcin es la probabilidad de que la variable tome valores menores o iguales que dicho valor x.
53
La funcin de distribucin se define para todos los nmeros reales, no slo para los valores de la variable. Su mximo es siempre 1 pues cuando el valor que se sustituye es mayor o igual que el valor mximo de la variable, la probabilidad de que sta tome valores menores o iguales que el sustituido es la probabilidad del espacio muestral. Normalmente, sus valores se dan de forma tabular. Supongamos, por ejemplo que los valores de la variable X sean x1, x2, x3,... , xn
Funcin de densidad Una variable aleatoria continua tiene la caracterstica de tomar cada uno de sus valores con probabilidad infinitesimal, a efectos prcticos, 0. Por tanto, no se pueden expresar en forma tabular. Sin embargo, aunque no se pueden considerar probabilidades de valores concretos, puede calcularse la probabilidad de que la variable tome valores en determinados intervalos (los intervalos en cuestin pueden ser abiertos o cerrados, sin que se modifique la probabilidad total). P(a X b) = P(X = a) + P(a < X < b) + P(X = b) = P(a < X < b)
54
Tal como ocurra en el caso de las variables discretas, cuando existe una asignacin regular de probabilidad se puede definir una funcin que nos permita calcular probabilidades para cualquier intervalo de valores, a esta funcin se le llama funcin de densidad, f(x) La funcin de densidad de una variable aleatoria continua X es una funcin continua tal que su integral entre los extremos de un intervalo nos da el valor de la probabilidad de que X tome valores en ese intervalo.
La representacin grfica de la funcin de densidad en un sistema de ejes cartesianos es la de una curva continua, construida de forma tal que la altura de la curva, sobre el eje de las X, en cada punto es el cociente entre el diferencial de la probabilidad en dicho punto y el diferencial de x. Esta construccin es una extensin por diferenciacin del concepto de histograma. Como consecuencia, la integral de f(x) sobre todo el campo de variacin de X es igual a 1. Es evidente que f(x) es siempre positiva pues si no lo fuera cabra la posibilidad de encontrar intervalos para los cuales la integral sera negativa y eso significara probabilidad negativa, en abierta contradiccin con la definicin de probabilidad. La funcin de densidad siempre se define para todos los valores en el intervalo (-,) Esto no ofrece problemas si el campo de variacin de X se extiende por todo el intervalo; si no fuera as, la funcin se define como igual a cero para todos los valores no incluidos en el campo de variacin de X. La funcin de densidad debe cumplir tres condiciones anlogas a las de la funcin de probabilidad: como consecuencia del primer axioma
por definicin
55
Funcin de distribucin Para variables continuas tambin se define la funcin de distribucin, de la siguiente manera:
Las caractersticas de F(x) son iguales a las expuestas para el caso de las variables discretas, salvo que, obviamente, nunca se expresan en forma tabular. En general, cualquiera que sea el tipo de variable, las funciones de distribucin nos pueden servir para calcular probabilidades. Por ejemplo, en el caso de las variables continuas:
Dada su definicin, resulta que, para variables continuas, la funcin de densidad es la derivada respecto a X de la funcin de distribucin. Las funciones de distribucin de las variables continuas ms interesantes estn tabuladas.
56
Propiedades del valor esperado Al multiplicar todos los valores de una variable por una misma constante, el valor esperado de sta queda multiplicado por el valor de la constante.
57
Al sumar a todos los valores de una variable una misma constante, el valor esperado de sta queda incrementado por el valor de la constante.
Si tenemos dos variables X e Y, discretas o continuas, el valor esperado de su suma o diferencia es la suma o diferencia de sus valores esperados
58
Si las variables anteriores, X e Y son variables aleatorias independientes ocurre que el valor esperado de su producto es igual al producto de sus valores esperados.
Es importante indicar que la independencia de las variables es condicin suficiente pero no necesaria para que el valor esperado del producto de dos variables sea igual al producto de sus valores esperados, es decir, sta es una propiedad de las variables independientes pero se cumple en variables que no son independientes.
Media
Dada una variable aleatoria X con funcin de probabilidad o densidad f(x) podemos definir una funcin de X que sea igual a la variable elevada a un exponente entero no negativo.
k=0 k=1
A este primer momento respecto al origen que es igual al valor esperado se le llama tambin media aritmtica de la variable y se le denomina X, simplemente .
59
En la mayora de los casos, la media expresa la tendencia central de la variable o el orden de magnitud de sus valores. El resto de los momentos respecto al origen tienen escaso inters en la mayora de los casos.
Varianza
Dada una variable aleatoria X con funcin de probabilidad o densidad f(x) podemos definir una funcin de X que sea igual a la diferencia entre la variable y su media aritmtica elevada a un exponente entero no negativo.
k=0 k=1 Es decir, en cualquier variable aleatoria su primer momento respecto de la media es igual a 0. Esta propiedad se utilizar reiteradamente en las demostraciones estadsticas. k=2 Este segundo momento respecto de la media se le llama tambin varianza.
La varianza de una variable mide la dispersin de sus valores respecto al valor central . Para calcular la varianza por un mtodo ms sencillo se utiliza la expresin:
Es decir, la varianza de una variable es igual a la media de los cuadrados menos el cuadrado de la media. UNIVERSIDAD VASCO DE QUIROGA 60
Ejemplo Consideremos la siguiente tabla: Xi 5 7 1 2 4 i..n =19 Por lo tanto Xi-X media 5-3.8=1.2 3.2 -2.8 -1.8 0.2 0 =22.80/(5-1)=57 (Xi-X media) 1.44 10.24 7.84 3.24 0.04 22.80
Desviacin estndar: ser la raz cuadrada de la varianza. = =[i=1..n (Xi- X media )/ n-1]
61
X media=386/5=77.2 S=[i=1..n(Xi- X media )]/n-1= S =[i=1..nXi-(i=1..n Xi)/n]/n-1 S=[(30386-386/5)/5-1]=12.1 S=i=1..n(Xi- X media )/n-1 = 586.8/4=12.1
El coeficiente de variacin
No obstante, la desviacin tpica no resuelve todos los problemas que se pueden plantear, como por ejemplo la comparacin de situaciones en las que la unidad de medida o el orden de magnitud de esta sea diferente. Para resolver esta cuestin se define una medida adimensional de la variabilidad que es el coeficiente de variacin, C V, que se calcula como el cociente entre la desviacin tpica y la media (a veces este cociente se expresa en tanto por ciento multiplicndolo por 100).
Covarianza
En este contexto de la medida de la variacin se plantea el problema de medir la variacin conjunta de variables de variables asociadas. Supongamos que tenemos dos variables aleatorias X e Y, discretas o continuas, con funcin de probabilidad o densidad conjunta f(x,y) y definimos una funcin z(x,y) igual al producto de las desviaciones de cada valor a su media respectiva (es decir, z(x,y) tiene la misma estructura que (X - )2 = (X - ) (X - ) si sustituimos una vez a X por Y).
62
Al valor esperado de z(x,y) se le llama covarianza de las variables X e Y y se representa como xy o cov(x,y).
La covarianza es una medida de la variacin comn a dos variables y, por tanto, una medida del grado y tipo de su relacin. xy es positiva si los valores altos de X estn asociados a los valores altos de Y y viceversa. xy es negativa si los valores altos de X estn asociados a los valores bajos de Y y viceversa. Si X e Y son variables aleatorias independientes cov(x,y) = 0 . La independencia es condicin suficiente pero no necesaria para que la cov(x,y) sea nula.
cov(x,y) = 0
cov(x,y) > 0
cov(x,y) < 0
Se puede deducir, algebraicamente, un medio ms sencillo para calcular la covarianza de dos variables.
Coeficiente de correlacin
En el caso de la covarianza tenemos el mismo problema que se nos present con la varianza, es decir, la covarianza se expresa en trminos del producto de las
63
unidades de medida de ambas variables, lo cual no siempre es fcilmente interpretable. Por otra parte tambin es difcil comparar situaciones diferentes entre s. En este caso, ambos problemas se solucionan de una vez mediante la definicin del coeficiente de correlacin, , que se define como el cociente entre la covarianza y el producto de las desviaciones tpicas de las dos variables.
La correlacin toma valores entre -1 y 1, siendo su signo igual al de la covarianza. Correlaciones con valor absoluto 1 implican que existe una asociacin matemtica lineal perfecta, positiva o negativa, entre las dos variables y correlaciones iguales a 0 implican ausencia de asociacin. Obviamente, las variables independientes tienen correlacin 0, pero nuevamente, la independencia es condicin suficiente pero no necesaria. Correlaciones con valores absolutos intermedios indican cierto grado de asociacin entre los valores de las variables.
Ejemplos
Ejemplo 1: Sea x el nmero observado al tirar un dado, obtenga su valor esperado: X=1,2...,6 con P(1)=P(2)=1/6 E(x)=x=1..6XP(x)=1(1/6)+2(1/6)+...+.6(1/6)=21/6 Ejemplo 2: Se compran dos boletos de $ 5 pesos c/u, de un tiraje de 8,000, el auto tiene un costo de $12,000 Cul ser la ganancia esperada del adquiriente de los boletos? X p(x) $= ocurrencia $-7998/8000 Probabilidad de perder o donar $10 $-2/8000.. Probabilidad de ganar el auto E(x)=-10(7998/8000) +11990(2/8000)=-$7 lo esperado es que done 7 pesos Ejemplo 3: Sea X el nmero de caras en el lanzamiento de 2 monedas, encuentre su valor esperado y varianza. Espacio eventual. S.S C.S S.C X 0 1 1 P(X) E(x) 0 1/4 1/4 (x- ) (0-1)=1 (1-1)=0 (1-1)=0 (x- ) P(x) 0 0 64
C.C
=1.0
2/4 =1.0
(2-1)=1
=1/2=
Ejemplo 4: Sea una variable aleatoria con la distribucin de probabilidad dada X -1 0 1 2 3 4 5 P(x) .05 .1 .4 .2 .1 .1 .05
=E(x)=-1(0.05)+0(0-1)+2(0.2)+3(0.1)+4(0.1)+5(0.05)=1.3 =(-1-1.3)(0.05) (0-1.3)(0.1) (1-1.3)(0.4) (2-1.3)(0.2) (3-1.3)(0.1) (4-1.3)(0.1) (5-1.3)(0.05) =2.27 =2.27=1.506
65
Conocer el concepto de funcin de una variable aleatoria continua y obtendr probabilidades a partir de la funcin de densidad. Identificara si la funcin dada es una funcin de densidad y aplicara el tipo de distribucin adecuado para la solucin de problemas.
66
Distribucin uniforme
La distribucin uniforme es la que corresponde a una variable que toma todos sus valores, x1, x2... , xk, con igual probabilidad; el espacio muestral debe ser finito. Si la variable tiene k posibles valores, su funcin de probabilidad sera:
Donde k es el parmetro de la distribucin (un parmetro es un valor que sirve para determinar la funcin de probabilidad o densidad de una variable aleatoria) La media y la varianza de la variable uniforme se calculan por las expresiones:
67
El histograma de la funcin toma el aspecto de un rectngulo, por ello, a la distribucin uniforme se le suele llamar distribucin rectangular.
Distribucin binomial
La distribucin binomial es tpica de las variables que proceden de un experimento que cumple las siguientes condiciones: 1. El experimento est compuesto de n pruebas iguales, siendo n un nmero natural fijo. 2. Cada prueba resulta en un suceso que cumple las propiedades de la variable binmica o de Bernouilli, es decir, slo existen dos posibles resultados, mutuamente excluyentes, que se denominan generalmente como xito y fracaso. 3. La probabilidad del xito (o del fracaso) es constante en todas las pruebas. P(xito) = p ; P(fracaso) = 1 - p = q 4. Las pruebas son estadsticamente independientes, En estas condiciones, la variable aleatoria X que cuenta el nmero de xitos en las n pruebas se llama variable binomial. Evidentemente, el espacio muestral est compuesto por los nmeros enteros del 0 al n. Se suele decir que una variable binmica cuenta objetos de un tipo determinado en un muestreo de n elementos con reemplazamiento.
68
La funcin de probabilidad de la variable binomial se representa como b(x,n,p) siendo n el nmero de pruebas y p la probabilidad del xito. n y p son los parmetros de la distribucin.
La media y la varianza de la variable binomial se calculan como: Media = = n p Varianza = 2 = n p q Grficamente, el aspecto de la distribucin depende de que sea o no simtrica Por ejemplo, el caso en que n = 4:
Consideremos los llamados ensayos Bernoulli, stos son aquellos experimentos cuyo resultado es uno de dos posibles y mutuamente excluyentes, a los que se denominarn xito y fracaso. Por ejemplo: Los siguientes son ensayos Bernoulli. Un tornillo, puede estar defectuoso o no defectuoso. El sexo de un beb al nacer: nio o nia. La respuesta correcta o incorrecta en un examen. Si consideramos una serie de ensayos Bernoulli que tiene como caractersticas: 1. la probabilidad de xito permanece constante, ensayo tras ensayo; y 2. los ensayos son independientes entre s; Entonces se tiene lo que se denomina experimento binomial, donde el nmero de ensayos se denota con n, la probabilidad de xito con p y la de fracaso con q.
69
Hay que notar que las probabilidades de xito y de fracaso estn relacionadas de la siguiente manera: p+q=1. Ejemplo: Se conoce que un vendedor determinado puede concluir una compra con 20% de probabilidad de xito, si entrevista a 4 prospectos. a) Cul es la probabilidad de que dos compren el producto b) Que al menos dos compren el producto. c) De que compren el producto. p(2)= [4!/(2!(4-2))]*(0.2)(0.8)=0.1536 p(x>2)=p(2)+p(3)+p(4)=0.1808 p(3)= [4!/(3!*1!)]*(0.2)(0.8)=0.0256 p(4)=4C4*(0.2) (0.8)=0.0016 Ejemplo: Se realiza un plan de muestreo para conocer la probabilidad de aceptar un lote defectuoso, se selecciona una muestra de los artculos y una aceptacin de hasta un artculo defectuoso. Se conoce histricamente que el 5% de los artculos tienen algn defecto. P= aceptar lotes buenos. p= aceptar lotes malos p(x1)=p(0)+p(1)=0.91385 p(0)=10C0*(0.05)*(0.95)=0.59873 p(1)=10C1*(0.05) (0.95)=0.31512 p(x>1)=1-p(0)-p(1)=0.0861 Ejemplo: Consideremos un examen con tres preguntas de opcin mltiple, con cuatro opciones, y que ser contestado al azar. 1.- Las flores de la carrastrana frislea son: a) rojas b) azules c) amarillas d) naranjas 2.- Don Luis Inocuo descubri el trideralto de magnesio en: a) 1518 b) 1635 c) 1457 d) 1706 3.- El significado de la palabra ^Xkz es a) Lpiz b) rbol c) miedo d) fiera Con esto contamos con un experimento binomial, ya que la probabilidad de xito permanece constante en las tres preguntas (p=) y las respuestas de una a otra pregunta son independientes entre s. Se cuenta con una cantidad n=3 de ensayos y q=1-p=3/4. Hay que decir que n y p son los llamados parmetros de la distribucin. UNIVERSIDAD VASCO DE QUIROGA 70
Tenemos ahora la variable aleatoria X que representar el nmero de respuestas correctas, siendo sus posibles valores: 0, 1, 2, y 3. Para calcular la distribucin de probabilidad correspondiente, consideraremos como E los xitos y como F los fracasos (el subndice indica el nmero de pregunta). As pues, tenemos que P(X=0)= P (F1F2F3)= P(F1)P(F2)P(F3) =(3/4)3 =
27
/64 =1(3/4)3(1/4)0
P(X=1)=P [(E1F2F3)(F1E2F3) (F1F2E3)]=81/256=3(3/4)2(1/4)1 P(X=2)=P [(E1E2F3)(E1F2E3) (F1E2E3)]=9/64=3(3/4)1(1/4)2 P(X=3)=P E1E2E3)= P(E1)P(E2)P(E3)= (1/4)3 = 1/64=1(3/4)0(1/4)3 Al presentar esta informacin como tabla y su respectivo histograma se obtiene: X 0 1 2 3 P(X=x) 0.422 0.422 0.141 0.016
Distribucin hipergeomtrica
Una variable tiene distribucin hipergeomtrica si procede de un experimento que cumple las siguientes condiciones: 1) Se toma una muestra de tamao n, sin reemplazamiento, de un conjunto finito de N objetos. 2) K de los N objetos se pueden clasificar como xitos y N - K como fracasos. X cuenta el nmero de xitos obtenidos en la muestra. El espacio muestral es el conjunto de los nmeros enteros de 0 a n, de 0 a K si K < n.
71
En este caso, la probabilidad del xito en pruebas sucesivas no es constante pues depende del resultado de las pruebas anteriores. Por tanto, las pruebas no son independientes entre s. La funcin de probabilidad de la variable hipergeomtrica es:
Los parmetros de la distribucin son n, N y K. Los valores de la media y la varianza se calculan segn las ecuaciones:
Si n es pequeo, con relacin a N (n << N), la probabilidad de un xito variar muy poco de una prueba a otra, as pues, la variable, en este caso, es esencialmente binomial; en esta situacin, N suele ser muy grande y los nmeros combinatorios se vuelven prcticamente inmanejables, as pues, la probabilidades se calculan ms cmodamente aproximando por las ecuaciones de una binomial con p = K / N. La media de la variable aproximada ( = n p = n (K / N)) es la misma que la de la variable antes de la aproximacin; sin embargo, la varianza de la variable binomial es ligeramente superior a la de la hipergeomtrica.
El factor por el que difieren ser siempre menor que 1 y tan prximo a 1 como cierto sea que n << N. El aspecto de la distribucin es bastante similar al de la binomial. Como ejemplo, mostramos los casos anlogos a los de las binomiales del apartado anterior (p inicial = 0,25 y n = 4)
72
Ejemplo: Un furgn contiene 20 computadoras, de las cuales 2 presentan defectos, si se seleccionan 3 Cul es la probabilidad de que 2 presenten fallas? P(2)=[3C2*18C1]/20C7=0.01578 Ejemplo: En una seleccin de personal, de entre 20 doctores se seleccionan 10 Cul es la probabilidad de que incluyan a 5 de los mejores? N=20 n=10 r=5 P(x=5)=[5C5*15C5]/20C10=1.3003/184756 P(x=5)0.01625
Distribucin de Poisson
Una variable de tipo Poisson cuenta xitos (es decir, objetos de un tipo determinado) que ocurren en una regin del espacio o del tiempo. El experimento que la genera debe cumplir las siguientes condiciones: 1. El nmero de xitos que ocurren en cada regin del tiempo o del espacio es independiente de lo que ocurra en cualquier otro tiempo o espacio disjunto del anterior. 2. La probabilidad de un xito en un tiempo o espacio pequeo es proporcional al tamao de este y no depende de lo que ocurra fuera de l. 3. La probabilidad de encontrar uno o ms xitos en una regin del tiempo o del espacio tiende a cero a medida que se reducen las dimensiones de la regin en estudio. Como consecuencia de estas condiciones, las variables Poisson tpicas son variables en las que se cuentan sucesos raros. La funcin de probabilidad de una variable Poisson es:
73
Esta caracterstica puede servirnos para identificar a una variable Poisson en casos en que se presenten serias dificultades para verificar los postulados de definicin. La distribucin de Poisson se puede considerar como el lmite al que tiende la distribucin binomial cuando n tiende a y p tiende a 0, siendo np constante (y menor que 7); en esta situacin sera difcil calcular probabilidades en una variable binomial y, por tanto, se utiliza una aproximacin a travs de una variable Poisson con media l = n p. La varianza de la variable aproximada es ligeramente superior a la de la variable binomial.
Las variables Poisson cumplen la propiedad de que la suma de variables Poisson independientes es otra Poisson con media igual a la suma las medias. El aspecto de la distribucin depende muchsimo de la magnitud de la media. Como ejemplo, mostramos tres casos con = 0,5 (izquierda), = 1,5 (derecha) y = 5 (abajo) Obsrvese que la asimetra de la distribucin disminuye al crecer y que, en paralelo, la grfica empieza a tener un aspecto acampanado.
74
Empleada para calcular las llegados de clientes, los reclamos de garantas, los accidentes industriales... Tambin se utiliza para aproximar a la binomial cuando n es grande y p pequeo y cuando la media es menor que 7 Ejemplo: Las lesiones en una fbrica tienen una media de 2.7 accidentes por ao qu probabilidad existe de que el nmero de accidentes sea menor que 2? P(x<2)=p(0)+p(1)=(2.7)*e /0!+(2.7)*e /1! =0.067205+2.7(0.067205)=0.2486 Ejemplo: Compara un experimento binomial con n=25 y p=0,1 con una Poisson Encuentre p(x3) Binomial p(x3=p(0)+p(1)+p(2)+p(3)=0.7635 Numero xito=3 Ensayos=25 Probabilidad de xito=0.1
75
Acumulado=3 Poisson p(x3)=0.7575 =np =25(.1) Difiere tan solo en 0.007 entre binomial y poisson X=3 =2.5 Acumulado=3
76
77
Distribucin normal
La distribucin normal fue definida por De Moivre en 1733 y es la distribucin de mayor importancia en el campo de la estadstica. Una variable es normal cuando se ajusta a la ley de los grandes nmeros, es decir, cuando sus valores son el resultado de medir reiteradamente una magnitud sobre la que influyen infinitas causas de efecto infinitesimal. Las variables normales tienen una funcin de densidad con forma de campana a la que se llama campana de Gauss. Su funcin de densidad es la siguiente:
Los parmetros de la distribucin son la media y la desviacin tpica, y , respectivamente. Como consecuencia, en una variable normal, media y desviacin tpica no deben estar correlacionadas en ningn caso (como desgraciadamente ocurre en la inmensa mayora de las variables aleatorias reales que se asemejan a la normal. La curva normal cumple las siguientes propiedades: 1) El mximo de la curva coincide con la media. 2) Es perfectamente simtrica respecto a la media (g1 = 0). 3) La curva tiene dos puntos de inflexin situados a una desviacin tpica de la media. Es convexa entre ambos puntos de inflexin y cncava en ambas colas.
78
Para calcular probabilidades en intervalos de valores de la variable, habra que integrar la funcin de densidad entre los extremos del intervalo. por desgracia (o por suerte), la funcin de densidad normal no tiene primitiva, es decir, no se puede integrar. Por ello la nica solucin es referirse a tablas de la funcin de distribucin de la variable (calculadas por integracin numrica). Estas tablas tendran que ser de triple entrada (, , valor) y el asunto tendra una complejidad enorme. Afortunadamente, cualquier que sea la variable normal, X, se puede establecer una correspondencia de sus valores con los de otra variable con distribucin
79
normal, media 0 y varianza 1, a la que se llama variable normal tipificada o Z. La equivalencia entre ambas variables se obtiene mediante la ecuacin:
La funcin de distribucin de la variable normal tipificada est tabulada y, simplemente, consultando en las tablas se pueden calcular probabilidades en cualquier intervalo que nos interese. De forma anloga a lo pasaba con las variables Poisson, la suma de variables normales independientes es otra normal.
Ejemplo: Se conoce que el promedio de peso de un lmite de 8 personas en un ascensor es de 1200 libras, con una varianza de 9800 libras^2. Cul ser la probabilidad de que 8 personas excedan de 1300 libras? Datos: Varianza=9800 libras^2 Media=1200 libras X= 1300 libras P(x>=1300)=? Sustituimos en nuestro estimador Z=(1300-1200)/98.994=1.0101 Acotacin: sigma=(varianza)^1/2=(9800)^1/2 Como 1.0101 es positivo quiere decir que se ubica a la derecha de la media, el dato correspondiente en la tabla de la normal es 0.8438, que representa la
80
probabilidad acumulada de todas las ocasiones en que ingresaron 8 personas al ascensor y que no excedieron de 1300 libras, por tanto P(x>=1300 libras)=1-.8438=.1562 o 15.62% De 100 mediciones que se realicen en el ascensor poco mas de 15 veces, la suma de los pesos de las personas excedern de 1300 libras. As la distribucin de probabilidad normal, nos ayuda a inferir sobre futuros comportamientos, a partir de registros establecidos, til para predecir garantas pagaderas a productos que no cumplieron con lo establecido por ejemplo.
AUTOEVALUACIN
Contesta las siguientes preguntas. 1) En una encuesta universitaria se encontr que el 33% de los estudiantes empleaban tarjeta de crdito. a) En una muestra de 6 estudiantes que probabilidad hay de que 2 tengan tarjeta de crdito b) Qu por lo menos 2 tengan tarjeta de crdito c) Si la muestra es de 10 estudiantes que ninguno tenga tarjeta de crdito 2) En 1998 se realiz una encuesta para saber la preferencia en el consumo de refrescos de cola. Se encontr que de 10 personas, 6 preferan Coca y 4 Pepsi. Se selecciona una muestra aleatoria de 3 personas. Utilizando la distribucin hipergeomtrica a) Cul es la probabilidad que 2 prefieran Coca b) Cual es la probabilidad que la mayora prefiera Pepsi 3) A una aerolinea llegan en promedio 48 llamadas por hora a) Qu probabilidad hay de recibir 3 llamadas en el intervalo de 5 minutos b) La probabilidad de recibir 10 llamadas en 15 minutos c) Cul es la probibilidad de ausentarse 3 minutos y no recibir llamadas 4) El tiempo promedio para leer una publicacin del Wall Street Journal es de 49 min, suponga una desviacin estndar de 16 minutos, normalmente distribuidos. a) Cul es la probabilidad de tardar cuando menos una hora b) De que tarde menos de 30 minutos en leerla c) Para el 10% que leen asiduamente esta lectura, cuanto tiempo les toma la actividad.
81
82
Introduccin
El nombre "poblacin" se utiliza en estadstica por motivos histricos, que tienen que ver con el estudio de caractersticas vinculadas a las poblaciones humanas, aunque muchas veces el objeto de estudio sea de una naturaleza completamente distinta. Por ejemplo, si queremos conocer cul es la proporcin de fumadores entre los alumnos de la Escuela (la poblacin), podemos hacer una investigacin exhaustiva (censo) entre todos los alumnos matriculados y preguntarles si son fumadores o no lo son, o bien, seleccionar una parte representativa de la poblacin de alumnos para extraer conclusiones que sern extrapoladas a toda la poblacin. Aunque en este caso la poblacin en estudio es una poblacin humana, nos conviene ms decir que la poblacin es la caracterstica que se est estudiando. En concreto, definimos la variable aleatoria X que vale 1 si un alumno elegido al azar es fumador, y cero si no lo es. Obsrvese que X tiene una distribucin de Bernoulli, b(p) , donde p es la probabilidad de que el alumno elegido al azar sea fumador, esto es, la proporcin de fumadores de la Facultad. Decimos entonces que tenemos una poblacin X ~ b(p), es decir, denominamos poblacin a la variable aleatoria que representa su comportamiento. En un juego de azar, puede que deseemos conocer si una moneda est cargada o no. El comportamiento de esa moneda puede describirse como una variable aleatoria, Y, que vale la unidad si sale cara al hacer un lanzamiento, y cero si sale cruz. En este caso, la poblacin sera la variable aleatoria Y ~ b(p), donde p sera la probabilidad de obtener cara con la moneda. Obsrvese que, aunque el modelo es el mismo, ahora la poblacin no es humana, ni tan siquiera de objetos. Aunque cuando se trata de una poblacin de personas u objetos, sera posible estudiar a todos los individuos, en general no es posible o conveniente hacerlo, por motivos de coste econmico, de tiempo, o de imposibilidad de localizar a todos ellos. Se busca entonces una parte que sea representativa del todo y se le realiza una encuesta. Por ejemplo: si en la Escuela hay 3000 alumnos de los cuales 1000 son fumadores, si escogemos una muestra representativa formada por 30 alumnos, ms o menos 10 de ellos deberan ser fumadores. Esta cifra no se alcanza habitualmente con exactitud, achacando las posibles desviaciones al azar, esto es, a que, aunque el proceso de seleccin de la muestra sea sensato, el azar hace que sea posible, por ejemplo, que los 30 seleccionados sean fumadores (aunque sea bastante raro que ello ocurra).
83
Cada alumno a encuestar, se representa mediante una variable que se distribuye igual que X. Si, en general, encuestamos a n alumnos, les representaremos mediante una variable n-dimensional, , que denominaremos muestra. , que
Una vez encuestados, los resultados sern n nmeros, denominaremos realizacin de la muestra.
As, definimos muestreo como el proceso que nos permite la extraccin de una muestra a partir de una poblacin Hay dos tipos bsicos de muestreo: 1. Muestreo probabilstico. En este tipo de muestreo, la probabilidad de aparicin en una muestra de cualquier elemento de la poblacin es conocida (o calculable). Es el nico cientficamente vlido, y es sobre el que nos extenderemos especialmente. 2. Muestreo no probabilstico. Es aquel en el que la seleccin de los elementos de la muestra no se hacen al azar. El muestreo probabilstico nos garantiza que, a la larga, las muestras que se van obteniendo de la poblacin sean representativas de la misma. Vamos a ver varios tipos de muestreo probabilstico. Muestreo aleatorio simple Muestreo estratificado Muestreo por conglomerados Muestreo sistemtico Muestreo por etapas (o polietpico)
84
Un Parmetro es una caracterizacin numrica de la distribucin de la poblacin de manera que describe, parcial o completamente la funcin de densidad de poblacin de la caracterstica de inters. Una estadstica (un estadstico) es cualquier funcin de las variables aleatorias que se observaron en la muestra, de manera que esta funcin no contiene cantidades desconocidas. La distribucin de muestreo de una estadstica es la distribucin de probabilidad que puede obtenerse como resultado de un nmero infinito de muestras aleatorias independientes, cada una de tamao n provenientes de la poblacin de inters. TEOREMA: Sean x1.x2...........xn, un conjunto independientes normalmente distribuidas con medias E(xi) = y varianzas Var(xi) = i2, para i = 1.2.......n. Si Y = a1x1 + a2x2 + ......+anxn, en donde a1.a2...an son constantes, entonces Y es una variable aleatoria distribuida normalmente Con media E(y) = a11 + a22 +......+ ann Varianza Var(y) = a1212 + a2222 +...+ an2n2. de variables aleatorias
Teorema del lmite central Sean x1.x2.........xn, n variables aleatorias independientes idnticamente distribuidas con media y varianza 2 ambas finitas. La suma de esas variables Sn = x1+x2+ ...+ xn es una variable aleatoria con media n y varianza n2, entonces Z = se distribuye como una normal N(0;1). En otras palabras, el n 2 teorema expresa que cuando n crece sin lmite, la variable z tiende a distribuirse normalmente. Si las variables no son idnticamente distribuidas, se podra xi - i se distribuye como una normal demostrar igualmente que: z =
N(0;1), es decir que la suma de variables independientes tiende a ser normal con media suma de medias y varianza suma de varianzas.
85
Ejemplo: Un embotellador desea reducir los problemas con las agencias de proteccin al consumidor, por tanto debe medir muy bien la cantidad de lquido en cada botella, debe contener 12 onzas, se miden al azar 10 botellas por hora, si los registros marcan una desviacin de 0.2 onzas habr que registrar la maquina a 12.1 onzas Qu probabilidad habr de que la media muestral sea menor que 12 onzas? Datos =12.1=x~ x~=n=0.2/10=0.063 =[x~-]/x~=[12-12.1]/0.0630=1.59 P(x<12)0.5-0.4441=0.056 Habr un 5.6% de probabilidad de incumplir la norma de llenado. Ejemplo: Se selecciona una muestra de 25 unidades que tiene una distribucin normal, con media de 106 desviacin estndar de 12 a) Obtenga la media y desviacin estndar de la muestra. b) Encuentre la probabilidad de que x excede a 110. c) Calcule la probabilidad de que la media muestral se desve de la media poblacional =106 por ms de 4 a) x~==106 x~=/n=12/25=2.4 b) P(x>110)=110-106/2.4=1.666=0.5-0.4515=0.0485 c) P(x>110)+P(x<102)=0.097 Distribucin de la media muestral X : Sea x1, x2, xn una muestra aleatoria de tamao n de una poblacin con funcin de densidad f(x) con media y varianza 2 . La media muestral representada por . n Teorema: Sea x1,x2,..,xn, una muestra aleatoria que consiste de n variables aleatorias independientes normalmente distribuidas con medias E(xi) = y varianzas Var(xi) = 2 , i = 1,2, , n. Entonces la distribucin de la media muestral x es normal con media y varianza E (x) = E (
2
x
i =1
x ) = 1 E ( x ) = 1/n(n.) E( x ) = .
i
. En efecto:
i
86
Var ( x ) = Var xi = n
Var ( x ) = n n n
i 2
Var ( x ) =
.) Luego: Z =
(x ) ~ N(0,1)
Teorema: Sean x1,x2, ..xn una muestra aleatoria de tamao n, de una distribucin normal con media y varianza 2. Entonces zi = (xi )/ son variables aleatorias normales estndar e independientes, i = 1,2,..,n y
z
n 1
2 i
xi -
n i =1
)=.
La distribucin de muestreo de S2: Teorema: Sea X1, X 2,, Xn, una muestra aleatoria de una distribucin normal con media y varianza 2.
Entonces:
xi x
i =1
(n 1)s 2
87
Ejemplo: Si X1, X2,., X10 es una muestra aleatoria de una poblacin distribuida normalmente con media 8 y varianza 9. Calcular la probabilidad de que la varianza muestral sea mayor que 3,753 Sea Z una variable aleatoria normal estndar y sea 2 una aleatoria Ji-cuadrada con v grados de libertad. Entonces si Z y 2 son independientes: T=
Z
2 v
T=
Distribucin F: Supngase que deseamos comparar las varianzas de dos poblaciones normales basados en la informacin contenida en muestras aleatorias independientes de las poblaciones. Supngase que una muestra aleatoria contiene n1 variables aleatorias distribuidas 2 normalmente con una varianza comn 1 y que la otra muestra aleatoria contiene n2 variables aleatorias distribuidas normalmente con una varianza comn Si calculamos estimacin de
2 2
1 2 1
es una
2 2
2 2
2 1
s s
1 2 2 2 2
por
2 1
88
s s
2 2
2 1
2 2
2 1
2 2
2 1 2 2
v2 distribucin F con v1 grados de libertad del numerador y v2 grados de libertad del denominador.
Distribucin de la proporcin muestral: En una poblacin binomial, dada una muestra aleatoria (con reemplazamiento), la proporcin muestral se define como el cociente del nmero de elementos de la muestra que tienen la caracterstica deseada, entre el nmero total de elementos x de la muestra p = . n 1 E ( p ) = E(x/n) = 1/n E(x) = np E ( p ) = p n
v1
Var ( p ) = Var(x/n) =
p ~N
89
Para realizar un muestreo es necesario hacer una lista de los objetos de donde se seleccionara la muestra, los objetos son unidades muestrales y la lista se llama marco muestral. Supongamos que tengamos una poblacin de 50.000 individuos, y que tenemos un listado con sus nombres. Si queremos elegir 100 personas, lo que necesitamos es que el programa elija al azar a 100 individuos de esos 50.000. Otro ejemplo: el arrendador de una compaa de coches desea estimar el nmero de kilmetros que recorren sus coches de una flotilla de 280, se seleccionaron 30, teniendo una media de recorrido de 1342 km, con una desviacin de 227 km. Para un intervalo de confianza de 95% T^1.96 [(280)(227)/30]*280-30/280 T^=Nx =280(1342) 375,760 21,491 354,269 km a 397,251 km Muestreo estratificado En el muestreo estratificado, los investigadores han de dividir a los sujetos en diferentes subpoblaciones (o estratos), en funcin de cierta caracterstica relevante, y despus lo que hacen es un muestro aleatorio simple de cada estrato. Evidentemente, cada individuo debe pertenecer a un estrato (y solo uno), y cada individuo del estrato habr de tener la misma probabilidad de ser escogido como parte de la muestra. Ejemplo: Supongamos que, en Morelia, 70% de los nios de primaria van a escuela pblica y el 30% a privada. Si queremos 1,000 nios, lo que haremos es dividir los alumnos en 2 estratos (pblica y privada) y se eligen aleatoriamente 700 nios de la pblica y aleatoriamente 300 de la concertada. Una estacin de TV desea estimar el nmero promedio de horas que pasa una familia viendo TV, se decidi seleccionar una muestra de 1ro de cada distrito No.de familias Distrito 1 2 3 Ni 12,473 35,241 23,241 N=70892 Tamao muestral Ni 125 352 232 Media muestral x~ 2.92 2.14 3.63 Varianza muestral si 1.96 1.21 3.24
90
x~st=1/N(Nix~+Nx~+...+)= 1/70,892(124(2.92)+35,241(2.14)+23,178(3.63))=2.76 Horas diarias 2.761.961/(70892)[(12473)(1.96/125)+35241(1.21/352)+23178(3.24/232)] 2.760.1 2.66 a 2.86 horas por familia frente a la TV. Un comerciante de electrodomsticos desea estimar el gasto en aparatos caros para el siguiente ao. Se realz una encuesta e 2 pequeas ciudades con los datos a continuacin: Ciudad No.de familias Ni 2149 1872 4021 Tamao muetral ni 200 200 Media muestral $ Xi~ 134 168 Varianza muestral si 40122 37104
1 2
T^1.96Ni(Ni-ni/Ni) si/ni T^=Nx~st=N(1/N(Nixi~+Nx~)=2149(134)+1872(168)=602462 6024621.96(2149)(2149-200/2149)+(1872)(1872-200/1872))=73882 *40122/200 *37104/200 Gastarn entre $528,580 y $676,344 dlares Para el caso de la televisora estimar la proporcin de familias que prefieren los programas de la televisora. p~st=1/N(Nip1~+Np~+Np^)=1/70892(12473(0.21)+35241(0.179+23178(0.34))=0.23 Como la muestra es pequea en relacin a los estratos 0.231.96(1/70892)((12473)(0.21)(0.79)/124+(35241)(0.17)(0.83)/351+(23178)(0.34)( 0.66)/231)=0.03 Es decir entre el 0.2 y 0.26 prefieren los programas. Muestreo por conglomerados En el muestreo por conglomerados, en lugar de considerar cada elemento de la poblacin, lo que consideramos son conglomerados de elementos. El proceso es elegir aleatoriamente uno o varios conglomerados y la muestra estar formada por TODOS los elementos de los conglomerados. Ejemplos:
91
En las encuestas durante las elecciones, los conglomerados pueden ser las mesas electorales, y lo que se hace es escoger algunas mesas al azar (y de ah se toman todos los votos de las mesas seleccionadas). En otros ejemplos, los conglomerados pueden ser los bloques de viviendas, los municipios, etc. Ejemplo: Obtener un intervalo de confianza de 95% para el sueldo anual de una persona, en base a los siguientes datos. Familia 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 No. asalariados mi 2 1 2 2 1 1 2 2 1 3 1 1 3 2 1 1 2 1 2 2 i=imi=33 Ingreso $ 12100,27000 23000 18200,12800 20900,14400 29000 26200 14500,18300 16900,19400 48000 19100,12000,7500 26300 35100 17400,18900,12200 16200,19900 13200 18400 13100,14700 21500 22000,8000 14400,7500 Ingreso total Xi 39100 23000 31000 35300 29000 26200 32800 36300 48000 38600 26300 35100 48500 36100 13200 18400 27800 21500 30000 21500 i=xi=617700
m~=33/20=1.65 M~=19200/12205=1.5731258 x~= 617700/33=18718.18 i=..n xi=20669130000 i=..n ximi=1081800 i=..n mi=63 i=..n(xi-x~mi)=i=..nxi-2x~i=..nximi+x~i=..nmi X~1.96(12205-20)/12205)(20)(1.5713258)(2243802645/19)=2243802645
92
Muestreo por etapas En este caso se combina el muestreo aleatorio simple con el muestreo por conglomerados: Primero se realiza un muestreo por conglomerados (v.g., si los conglomerados son colegios en Morelia, se seleccionan aleatoriamente varios de ellos). Segundo, no se eligen todos los alumnos (como ocurrira en un muestro por conglomerados), sino que se elige una muestra aleatoria. (Dicha muestra puede ser obtenida por muestreo aleatorio simple o puede ser estratificado.) Es decir, hemos tenido 2 etapas de muestreo. Y claro est, es posible tener ms de 2 etapas... Muestreo aleatorio sistemtico Supongamos que tengamos una lista de N elementos (e.g., estudiantes de secundaria) y queramos una muestra de tamao n. En este caso, lo que se hace es ordenarlos (v.g., en funcin de los apellidos) y despus se elige aleatoriamente un elemento entre los N/n=k primeros, y luego se elige de manera sistemtica el que est k lugares despus del primer elemento, y as sucesivamente. Ejemplo: Tenemos 10000 estudiantes (en una lista) y queremos obtener una muestra de 100 estudiantes. Primero elegimos al azar un estudiante entre los 10000/100=100 primeros (supongamos que salga el 26), el segundo elemento ser el estudiante 100+26 (126), el siguiente ser el 226, luego el 326, etc.
93
Cuando se desea estimar una proporcin, el tamao de la muestra siempre debe ser grande, es decir, n 30. Si la muestra se obtiene con reemplazo, x tiene distribucin binomial y debido a que la muestra es grande, por el teorema central del lmite se aproxima a una distribucin normal; por consiguiente:
Debido a que se desconoce la proporcin poblacional, se utiliza la proporcin muestral para estimar la varianza, por lo tanto:
Distribucin de la diferencia de proporciones De dos poblaciones se toman dos muestras aleatorias independientes de tamaos n1 30 y n2 30, y en cada una de ellas se observa una caracterstica o cualidad. La proporcin muestral de elementos con una caracterstica se define como:
94
Distribucin del cociente de varianzas y se De dos poblaciones con distribucin normal y varianzas poblacionales toman dos muestras aleatorias independientes de tamaos n1 y n2 . Como se vi, en la distribucin de la varianza se llega a una distribucin chicuadrado y del cociente de dos chi-cuadrado se obtiene una distribucin F de Snedecor.
Conocidas las distribuciones en el muestreo de los principales estimadores, se tiene la fundamentacin terica que nos permite desarrollar el tema correspondiente a los intervalos de confianza y las pruebas de hiptesis.
95
Cuadros de referencia
96
AUTOEVALUACIN
Se desea conocer las horas que en promedio se dedican a la lectura en una ciudad Determina la media estratificada y un intervalo de 95% de confianza para la media Sector Norte Sur Oriente Poniente hogares 60280 48956 34785 62367 Muestra 301.4 244.78 173.925 311.835 Media muestral 1.15 1.23 1.28 1.02 Desv. Est. 0.27 0.31 0.22 0.26 NiXi 69322 60215.88 44524.8 63614.34 (Ni^2*DE)/ni 3255120 3035272 1530540 3243084
97
Intervalos de confianza
Concepto Hasta ahora se ha hablado de la estimacin puntual, en donde se halla un solo valor o indicador del comportamiento de una variable, pero no se sabe qu tan cerca est el valor estimado del parmetro y generalmente se necesita ms que un valor exacto, un rango dentro del cual esperamos que est el valor del parmetro; por esta razn, es de gran utilidad la estimacin por intervalo en donde se tiene en cuenta la dispersin de los datos y de antemano se conoce la confiabilidad de la estimacin. En esta unidad se desarrolla el tema correspondiente a los intervalos de confianza para la media, la proporcin y la varianza. Intervalo de confianza Cuando se selecciona una muestra aleatoria y se obtiene un estimador puntual (promedio, proporcin, etc.), no se sabe qu tan cerca est dicha estimacin del parmetro, por sta razn es necesario construir un intervalo de confianza, en donde adems de tener en cuenta el grado de dispersin o variacin de los datos y el tamao de la muestra se establece un nivel de confianza o probabilidad de que el valor del parmetro est contenido en dicho intervalo o rango. Para obtener un intervalo de confianza se determinan los valores Z1 y Z2 y a, tales que la confiabilidad de que el parmetro q est dentro de los lmites Z1 y Z2 sea - a , es decir:
Donde: 1- = Se conoce como confiabilidad o nivel de confianza y generalmente est entre el 90 y el 99% = Nivel de significancia o margen de error, del 1 al 10% Z1 y Z2 = son percentiles correspondientes a una distribucin de probabilidad, la cual depende de la distribucin en el muestreo del estimador con el que se est trabajando. Los valores de estos percentiles tambin dependen del nivel de confianza. Grficamente, se hallan dos valores tales que el rea que hay entre Z1 y Z2 sea 1y el rea restante ( ) se divide en dos partes iguales, quedando /2 en la parte
98
inferior y el otro /2 en la parte superior de la distribucin, tal como se observa en la figura. Por esta razn de ahora en adelante Z1 y Z2 se notarn como y .
99
Ejemplo: Un proceso manufacturero usado por una fbrica durante los ltimos 10 aos, tiene una distribucin normal con desviacin estndar de 8 unidades por hora. Se desea estimar un intervalo de confianza del 90 por ciento para el promedio de unidades por hora producido con dicho proceso. Para tal efecto, se toma una muestra aleatoria de la produccin por hora durante 25 horas y se obtiene un promedio de 160 unidades. Solucin: Como la distribucin de la poblacin es normal y se conoce la desviacin estndar poblacional, se utiliza la expresin 2.1 para calcular el intervalo de confianza. El valor de Z se halla en una tabla de la distribucin normal. La confiabilidad es del 90 por ciento, por lo tanto el nivel de significancia o a (0.1) se divide en dos y se deja a /2 en la cola inferior y a /2 en la cola superior. En la figura 2.2, el rea que hay de - a Z es 0,95 y para sta rea el valor de Z en la distribucin normal es 1,64
Interpretacin: El promedio de unidades por hora producidas en dicha fbrica est entre 157 y 163 con una confiabilidad del 90 por ciento. Intervalo de confianza para la media si se selecciona una muestra aleatoria de tamao n 30 de una poblacin con distribucin diferente a la normal. Por las condiciones de la muestra, se utiliza la siguiente expresin:
100
(6.2) Donde Z pertenece a una distribucin normal estndar. Ejemplo: En un estudio elaborado acerca de la duracin de 51 bombillas de semforos en cierta ciudad, se determin un promedio de duracin de 1.795 horas con una desviacin estndar de 489 horas. Halle un intervalo con el 95 por ciento de confiabilidad para estimar la media poblacional. Solucin
Como el tamao de la muestra es mayor que 30, se utiliza la expresin 2.2 y para una confiabilidad del 95 por ciento, el valor de Z en la distribucin normal es 1,96. Reemplazando:
Interpretacin: Con una confiabilidad del 95 por ciento, la duracin promedio de las bombillas de semforos de dicha ciudad, est entre 1,661 y 1,921 horas. Intervalo de confianza para la media si se selecciona una muestra aleatoria de tamao n<30. Como la muestra es pequea, se utiliza la siguiente expresin para despejar el intervalo de confianza para , obtenindose: (6.3) En donde Z pertenece a una distribucin t con (n-1) grado de libertad. Si se trabaja con la desviacin estndar corregida, se utiliza la expresin, obtenindose: (6.4) En donde Z pertenece a una distribucin t con (n-1) grado de libertad.
101
Ejemplo: Se desea hallar un intervalo de confianza para la estatura promedio de todos los estudiantes de ingeniera industrial de la Universidad. Para tal efecto, de los estudiantes de dicha carrera se seleccion una muestra aleatoria de 15 personas a quienes se les pregunt su estatura en metros, obtenindose los siguientes resultados: ESTATURA: 1.50 1.63 1.65 1.74 1.70 1.70 1.50 1.65 1.69 1.69 1.79 1.73 1.69 1.56 1.70
Halle un intervalo de confianza del 95 por ciento. Solucin: Con la informacin disponible se calcul el promedio aritmtico y la desviacin estndar, los que respectivamente son 1,6613 y 0,0808 n = 15 y 1- = 0,95 Como la muestra es pequea se utiliza la expresin 2.3. El valor de Z se halla en una tabla de la distribucin t con 14 grados de libertad, que para un nivel de confianza del 95 por ciento es 2,145. Reemplazando:
Interpretacin. Con un 95 por ciento de confiabilidad, se puede afirmar que la estatura promedio de los estudiantes de ingeniera industrial de la universidad, est entre 1,62 y 1,71 mts.
se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigacin nos indicar hasta qu medida podemos cometerlo (los resultados se someten a error muestral e intervalos de confianza que varan muestra a muestra). Vara segn se calcule al principio o al final. Un estadstico ser ms preciso en cuanto y tanto su error es ms pequeo. Podramos decir que es la desviacin de la distribucin muestral de un estadstico y su fiabilidad. 4. Nivel de Confianza. Probabilidad de que la estimacin efectuada se ajuste a la realidad. Cualquier informacin que queremos recoger est distribuida segn una ley de probabilidad (Gauss o Student), as llamamos nivel de confianza a la probabilidad de que el intervalo construido en torno a un estadstico capte el verdadero valor del parmetro. 5. Varianza Poblacional. Cuando una poblacin es ms homognea la varianza es menor y el nmero de entrevistas necesarias para construir un modelo reducido del universo, o de la poblacin, ser ms pequeo. Generalmente es un valor desconocido y hay que estimarlo a partir de datos de estudios previos. Tamao de muestra para estimar la media de la poblacin Veamos los pasos necesarios para determinar el tamao de una muestra empleando el muestreo aleatorio simple. Para ello es necesario partir de dos supuestos: en primer lugar el nivel de confianza al que queremos trabajar; en segundo lugar, cual es el error mximo que estamos dispuestos a admitir en nuestra estimacin. As pues los pasos a seguir son: 1.- Obtener el tamao muestral considerando que :
donde: : z correspondiente al nivel de confianza elegido : varianza poblacional e: error mximo 2.- Comprobar si se cumple
103
si esta condicin se cumple el proceso termina aqu, y ese es el tamao adecuado que debemos muestrear. Si 3.no Obtener se el cumple, tamao de pasamos la muestra a segn una la tercera siguiente fase: frmula:
Ejemplo: La Secretaria de Salud planea un estudio con el inters de conocer el promedio de horas semanales trabajadas por las mujeres del servicio domstico. La muestra ser extrada de una poblacin de 10000 mujeres que figuran en los registros de la Seguridad Social y de las cuales se conoce a travs de un estudio piloto que su varianza es de 9.648. Trabajando con un nivel de confianza de 0.95 y estando dispuestos a admitir un error mximo de 0.1, cul debe ser el tamao muestral que empleemos? Buscamos en las tablas de la curva normal el valor de el nivel de confianza elegido: arriba. que corresponde con
2.- Comprobamos que no se cumple 10,000 < 3,706*(3,706 - 1); 10,000 < 13,730,730 3.-
104
Se ver la prueba de hiptesis para la media y la proporcin. Hiptesis Una hiptesis estadstica es un supuesto acerca del valor de un parmetro de una poblacin determinada. Este supuesto debe comprobarse con la informacin suministrada por una muestra aleatoria obtenida de dicha poblacin. Cuando se realiza una prueba de hiptesis, se plantean dos hiptesis que deben ser mutuamente excluyentes; una es la hiptesis nula que se nota como H0 y la otra es la hiptesis alternativa que se nota como H1 . Se debe establecer un criterio o regla de decisin segn la cual se rechace, o no, la hiptesis nula. Si se rechaza la hiptesis nula (H0) se acepta hiptesis alternativa (H1). Para establecer esta regla de decisin la distribucin de probabilidad se divide en dos categoras mutuamente excluyentes: la que lleva al rechazo de H0, es decir est en la zona de rechazo y la que lleva al no rechazo de H0 , es decir, est en la zona de no rechazo. Debido a que se est trabajando con una muestra aleatoria, cuando se realiza una prueba de hiptesis se pueden cometer dos tipos de errores. La hiptesis nula (H0) es en realidad verdadera, pero debido a que los datos muestrales parecen ser inconsistentes con ella, se la rechaza (ERROR TIPO I) y la probabilidad de cometer un error tipo I se llama nivel de significancia ( ). Puesto que cuando se comete un error tipo I, seguiramos una accin errnea, se puede definir el nivel de significancia como la probabilidad de decidirnos por H1 dado que H0 es verdadera. Por otro lado, podemos no rechazar H0 siendo en realidad falsa, a este error se le llama ERROR TIPO II. Formulacin de hiptesis El primer paso en la prueba de hiptesis es el planteamiento de las hiptesis, lo que en algunos casos no es una tarea fcil. Hay tres tipos de hiptesis, a saber: 1. Prueba de hiptesis a dos colas H0: = k H1: k 2. Prueba de hiptesis a una cola superior
105
H0 : = k H1 : > k
H0: k H1 : > k
Ntese que las hiptesis siempre se plantean para un parmetro . Una vez establecidas las hiptesis, se selecciona el nivel de significancia o margen de error ( ) el que generalmente se fija entre el uno y el diez por ciento. El tercer paso es la estadstica a probar o estadstica de trabajo, la cual depende de la distribucin en el muestreo del estimador con el que se est trabajando y de los supuestos correspondientes a la poblacin y al tamao de la muestra. Cuando se realizan los clculos siempre se supone que la hiptesis nula (H0) es cierta. El cuarto paso es establecer la regla de decisin, la cual depende de la distribucin de probabilidad de la estadstica a probar, del nivel de significancia ( ) y de la hiptesis alternativa (H1). Finalmente se toma la decisin de no rechazar la hiptesis nula o rechazarla. Prueba de hiptesis para la media
El promedio aritmtico poblacional es un indicador muy importante, por lo tanto, frecuentemente se desea probar si dicho promedio ha permanecido igual, ha aumentado o ha disminuido. A travs de la prueba de hiptesis se determina si la media poblacional es significativamente mayor o menor que algn valor supuesto. Hiptesis Se puede plantear uno de los siguientes tres tipos de hiptesis: 1. Prueba de hiptesis a dos colas H0 : = k H1 : k 2. Prueba de hiptesis a una cola superior H0 : = k H0 : k H1 : >k H1 : > k UNIVERSIDAD VASCO DE QUIROGA 106
En las distribuciones en el muestreo se vio que para el caso de la media, hay tres situaciones, por consiguiente la estadstica de trabajo a utilizar depende de los supuestos de la poblacin y del tamao de la muestra Prueba de hiptesis para la media si la poblacin de donde se obtiene la muestra tiene distribucin normal con conocida. La estadstica de trabajo a usar corresponde a la expresin:
Donde: es el valor que se est suponiendo en la hiptesis nula (H0). Regla de decisin: Si se ha planteado la hiptesis alternativa como: H1 : k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin como se aprecia en la figura
Regla de decisin para una prueba de hiptesis a dos colas. y pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zx) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir:
107
H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, como se aprecia en la figura 3.2
Regla de decisin para una prueba de hiptesis a una cola superior. pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zx) es menor que no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,
Si se ha planteado la hiptesis alternativa como: H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin, como se aprecia en la figura
Regla de decisin para una prueba de hiptesis a una cola inferior. Z pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zx) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1. Es decir,
108
Ejemplo: Un proceso manufacturero usado por una fbrica durante los ltimos aos da una produccin media de 100 unidades por hora con una desviacin estndar de 8 unidades. Se acaba de introducir en el mercado una nueva mquina para realizar ese tipo de producto. Aunque es muy cara comparada con la que est ahora en uso, si la media de produccin de la nueva mquina es de ms de 150 unidades por hora, su adopcin dara bastantes beneficios. Para decidir si se debiera comprar la nueva mquina, a la gerencia de la fbrica se le permite hacer un ensayo durante 35 horas, hallndose un promedio de 160 unidades por hora. Con sta informacin qu decisin se debe tomar si se asume un nivel de confianza del 99 por ciento. Solucin: Segn el enunciado, solo se compra la mquina si la produccin es de ms de 150 unidades por hora, por lo tanto las hiptesis son: H0 : = 150 H1 : > 150 Para elegir la estadstica de trabajo se tiene en cuenta que se conoce la varianza poblacional, por lo tanto se usa la expresin
por el planteamiento de la hiptesis alternativa se trabaja a una cola superior. En la distribucin normal, con una confiabilidad del 99 por ciento el valor de Z es 2,33. Como puede observarse en la siguiente figura, la estadstica de trabajo est en la zona de rechazo de la hiptesis nula, por lo tanto, se acepta que la produccin promedio por hora es superior a las 150 unidades y asumiendo un riesgo del 1 por ciento se puede comprar la nueva mquina.
Regla de decisin para una prueba de hiptesis a una cola inferior. UNIVERSIDAD VASCO DE QUIROGA 109
Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao n 30 de una poblacin con cualquier distribucin. La estadstica de trabajo a usar es la expresin:
Regla de decisin: Es la misma que en el caso anterior y depende en todo caso de la hiptesis alternativa. Ejemplo: La duracin promedio de las llantas producidas por una fbrica de llantas, segn experiencias registradas es de 46.050 kms. Se desea probar si el promedio poblacional ha cambiado; para tal efecto se toma una muestra aleatoria de 60 llantas y se obtiene una duracin promedio de 45.050 kms. con una desviacin estndar de 3.070 kms. Solucin H 0 : = 46.050 H1 : 46.050 Teniendo en cuenta que el tamao de la muestra es grande, como estadstica de trabajo se utiliza
Por la hiptesis alternativa, la regla de decisin es a dos colas. La tabla a utilizar es la de la distribucin normal. Asumiendo un nivel de confianza del 95 por ciento, los correspondientes valores de Z son -1,96 y 1,96. Como puede observarse en la figura, el valor de la estadstica de trabajo est en la zona de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 95 por ciento se acepta que la duracin promedio de las llantas ha cambiado.
110
Regla de decisin para una prueba de hiptesis a dos colas Prueba de hiptesis para la media si se selecciona una muestra aleatoria de tamao n<30 En este caso se tienen dos situaciones, dependiendo de si se utiliza la varianza muestral sin corregir o corregida. Si se utiliza la varianza sin corregir ( ) la estadstica de trabajo es la expresin
Ejemplo: En su calidad de comprador comercial para un supermercado, se toma una muestra aleatoria de doce (12) sobres de caf de una empacadora. Se encuentra que el peso promedio del contenido de caf de cada sobre es 15,97 grs. con una desviacin estndar de 0,15. La compaa empacadora afirma que el peso promedio mnimo del caf es de 16 grs. por sobre. Puede aceptarse sta afirmacin si se asume un nivel de confianza del 90 por ciento? Solucin: Se desea probar si el peso mnimo es de 16 grs., es decir mayor o igual a 16 grs., as que las hiptesis adecuadas son: H0 : 16 H1 : < 16
111
Teniendo en cuenta que el tamao de la muestra es pequeo, como estadstica de trabajo se utiliza la expresin
Como lo indica la hiptesis alternativa, se trabaja a una cola inferior en la tabla de la distribucin t con 11 grados de libertad y una confiabilidad del 90 por ciento, el valor de Z es - 1,363 Como puede observarse, la estadstica de trabajo (-0,663) est ubicada en la zona de no rechazo de la hiptesis nula, por lo tanto, con un nivel de confianza del 90 por ciento no se rechaza que los empacadores de caf tienen la razn, por lo tanto se concluye que el peso promedio de los sobres de caf es mayor o igual a 16 grs.
Regla de decisin para una prueba de hiptesis a una cola inferior Prueba de hiptesis para la proporcin Frecuentemente se desea estimar la proporcin de elementos que tienen una caracterstica determinada, en tal caso, las observaciones son de naturaleza cualitativa. Cuando se analiza informacin cualitativa y se est interesado en verificar un supuesto acerca de la proporcin poblacional de elementos que tienen determinada caracterstica, es til trabajar con la prueba de hiptesis para la proporcin. Hiptesis: Como en el caso de la media, se puede plantear uno de los siguientes tres tipos de hiptesis: 1. Prueba de hiptesis a dos colas
112
Cuando se va a estimar una proporcin el tamao de la muestra (n) siempre debe ser mayor a 30, por lo tanto se tiene un solo caso. La estadstica de trabajo a utilizar es la expresin
Regla de decisin: Si se ha planteado la hiptesis alternativa como: H1: k se tiene una prueba de hiptesis a dos colas, por lo tanto, el nivel de significancia ( ) se divide en dos partes iguales, quedando estos valores en los extremos de la distribucin. y pertenecen a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zp) est entre y no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si < Zp < no se rechaza H0 . Si se ha planteado la hiptesis alternativa como: H1 : > k, se tiene una prueba de hiptesis a una cola superior, quedando el nivel de significancia ( ) en la parte superior de la distribucin, pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zp ) es menor que no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si Zp < no se rechaza H0 . Si se ha planteado la hiptesis alternativa como: H1 : < k, se tiene una prueba de hiptesis a una cola inferior, quedando el nivel de significancia ( ) en la parte inferior de la distribucin
113
Z pertenece a una distribucin normal estndar. Si el valor de la estadstica de trabajo (Zp ) es mayor que Z no se rechaza la hiptesis nula, en caso contrario se rechaza H0 lo cual implica aceptar H1 . Es decir, si Zp > Z no se rechaza H0. Ejemplo: Un fabricante afirma que por lo menos el 90 por ciento de las piezas de una maquinaria que suministra a una fbrica guardan las formas especificadas. Un examen de 200 de esas piezas revel que 160 de ellas no eran defectuosas. Pruebe si lo que afirma el fabricante es cierto. Solucin H0 : 0,9 H1 : < 0,9 Para realizar una prueba de hiptesis para la proporcin se utiliza la expresin:
Asumiendo una confiabilidad del 95 por ciento, el valor correspondiente a Z en la distribucin normal es -1,64 Como puede observarse en la figura, el valor de la estadstica de trabajo se encuentra en la zona de rechazo de la hiptesis nula, por consiguiente, con una confiabilidad del 95 por ciento se concluye que la afirmacin del fabricante no es cierta.
114
La probabilidad de cometer un error tipo 1, se denota con la letra . La probabilidad de cometer un error tipo 2 se denota con la letra .
115
Bibliografa
William Mendenhall, Estadstica para Administradores, Grupo Editorial Iberoamerica, 1988 Anderson Sweeney Williams, Estadstica para administracin y economa, Editorial Math Learning Thomson, 2005.
116