Está en la página 1de 298

ESTADSTICA BSICA PARA NEGOCIOS

Conceptos y aplicaciones

Volumen I: Estadstica descriptiva y Probabilidad bsica.

Marco Luiz Garca

Prefacio Las generaciones anteriores a la era de las Tecnologas de la Informacin TI, crecimos con la afirmacin de que los cursos de estadstica eran complejos, aburridos, incomprensibles, tanto que eran verdaderas pruebas de resistencia, tenacidad y frustracin. Los catedrticos de la materia se concentraban ms en explicar los modelos matemticos que en el uso y aplicacin de los resultados. El propsito de esta edicin es hacer que la Estadstica sea un campo interesante de aplicacin prctica en diversos aspectos de la realidad, especialmente en el rea de negocios. Acorde con el propsito, el libro pretende ser una herramienta de aprendizaje y prctica, utilizando los paquetes de software estadsticos que realicen los complicados y laboriosos clculos matemticos. Especficamente se orientar al uso de la hoja de clculo de Excel y del paquete estadstico SPSS, es decir, se trata de combinar los ltimos avances de la Estadstica y la Tecnologa de la informacin. Se pretende que el aprendizaje de los estudiantes sea a travs de diferentes problemas de la vida real, eliminando los ejemplos inventados o acontecidos en otros contextos que nada tienen que ver con nuestra realidad. En un intento de ser ms pragmticos, se omiten algunos temas que en el rea de negocios raramente se utilizan y que slo confunden y desesperan al estudiante. Es tiempo de terminar con la anacrnica manera de ensear estadstica, que enfatiza sobre el aprendizaje de modelos matemticos y frmulas de clculo que hostigan a los estudiantes y los distrae del verdadero propsito del uso de la Estadstica: proporcionar informacin para la toma de decisiones. Uno de los principales enfoques del libro es preservar y enfatizar sobre la distincin entre los parmetros de la poblacin y los estadsticos de la muestra. La distincin es bsica para el pleno entendimiento del uso de la Estadstica como mtodo para la toma de decisiones. 5

Acerca del contenido, se considera de suma importancia el aprendizaje de la Estadstica descriptiva porque, adems de ser una tcnica de representacin descriptiva de cualquier fenmeno, se considera como prerrequisito para entender y aplicar los conceptos y procesos de la Estadstica inferencial. Ms que el desarrollo de modelos y frmulas matemticas, se considera que la Estadstica es un lenguaje que se puede leer e interpretar, por ello se agrega en la parte final un apartado de apndices que contiene: un repaso a las matemticas bsicas, un glosario de smbolos y trminos generalmente aceptados y una lista de frmulas. Los ejercicios al final de cada captulo son extremadamente importantes para que el estudiante pueda relacionar el marco terico con la aplicacin prctica, al tiempo que el estudiante descubre la utilidad del uso del mtodo estadstico en el campo profesional en el que va a incursionar. El propsito ltimo del contenido es que el estudiante sepa seleccionar las herramientas estadsticas apropiadas para la obtencin y procesamiento de datos y cmo interpretar y entender los resultados de su esfuerzo.

Presentacin Estadstica Bsica para Negocios, Conceptos y Aplicaciones, volumen I Estadstica Descriptiva y Probabilidad Bsica del Mtro. Marco Luiz Garca ve la luz bajo los mejores auspicios. Se trata de una obra en la que el autor aborda el estudio sistemtico de la estadstica y su aplicacin prctica en los negocios en poca moderna, como lo anuncia el ttulo que es fruto de su larga experiencia como docente, consultor particular y estudioso de la materia objeto de este libro. Cuando la teora y la praxis, adems del estudio e investigacin se conjugan, necesariamente da el nacimiento a un producto de calidad que cumple diversos objetivos, como lo seala el autor. En primer trmino, se logra una meta preestablecida que implica muchas horas de trabajo, investigacin, reflexin, manteniendo la perspectiva hacia un propsito definido. De igual forma, esta obra del Mtro. Luiz Garca, est diseada para utilizarse como libro de texto en la materia de estadstica que imparte desde hace varios aos en la Unidad Acadmica de Derecho y Ciencias Sociales Lic. Francisco Hernndez Garca de la Universidad Autnoma de Tamaulipas, atendiendo una necesidad inaplazable de dotar al alumno de un instrumento de estudio integral, didctico, econmico, con ejemplos y sistemas modernos, que esgrimiendo la informtica y el avance tecnolgico de nuestros das, lo convierte en un texto fundamental para aprender los conceptos bsicos de la estadstica y su utilizacin en el diagnstico y planeacin de los negocios. Es de advertirse, sin necesidad de ser un especialista en la materia, que el autor utiliza un lenguaje tcnico preciso, despojado de informacin innecesaria y que por lo mismo se traduce en un material sustantivo para la enseanza de la materia estadstica. Contiene el libro diez captulos en los que abarca el contenido bsico que permite al estudiante entrar en contacto de una manera ms clara y directa con la enseanza de esta disciplina, y adems del basamento terico le ofrece aplicaciones prcticas para su debida utilizacin.

En cualquier rea del conocimiento, es bienvenida una publicacin como el que hoy ofrece el Mtro. Luiz Garca, del que seguramente abrevarn muchas generaciones de estudiantes que lo adoptarn como un referente obligado en la didctica de esta importante materia, para sistematizar el anlisis y la toma de decisiones en la marcha de la empresa.

Lic. Ramiro Gonzlez Sosa


Abogado General de la UAT

Agradecimientos. De manera muy especial quiero manifestar mi agradecimiento al Lic. Carlos Hinojosa Cant por darme la oportunidad de impartir las materias de Estadstica Descriptiva y Estadstica Inferencial que forman parte del pensum de la licenciatura de Negocios Internacionales, recin creada en la UA de Derecho y Ciencias Sociales de la Universidad Autnoma de Tamaulipas. Su encargo me motiv a disear apuntes que fueran entendidos por los estudiantes que tienen formacin preparatoria en las reas sociales. De igual manera y con la misma intensidad expreso mi agradecimiento al matemtico y experto en estadstica, Cristbal Jos Rojas Montoya, actual Delegado Provincial del Instituto Nacional de Estadstica y Delegado Provincial de la Oficina del Censo Electoral en Salamanca, Espaa, a quien conoc circunstancialmente en un viaje que realic a ese maravilloso pas. Abusando de su amabilidad le ped que revisara el contenido del libro y lo hizo en una forma profesional y diligente. Por considerar importante sus observaciones, me permito citar textualmente uno de sus comentarios. Digo esto porque da la impresin que has hecho mucho hincapi en explicar las cosas de una forma muy sencilla y simple, es decir, para personas con poca preparacin matemtica. Si esto es as, me parece estupenda la lnea que has utilizado en la elaboracin del texto. Si los alumnos tienen cierta base matemtica y/o estadstica, el texto les va a parecer muy simple, porque lo van a entender a la primera. Esto, que parece algo malo, puede ser justo lo que t persigues con la creacin de este libro. As que puede ser estupendo segn tus objetivos. Este comentario, viniendo de un experto, es bastante halagador para los propsitos del libro.

10

Contenido Resumido
CAPTULO 1. CAPTULO 2. CAPTULO 3. CAPTULO 4. El mtodo estadstico. Elaboracin de estudios estadsticos. Organizacin y presentacin grfica de datos. Caractersticas de la distribucin de datos numricos. Uso de paquetes estadsticos. Presentacin de datos categricos en tablas y diagramas. Probabilidad bsica. Modelos de distribucin de probabilidad para variables aleatorias discretas. La distribucin normal. Anlisis de series.

CAPTULO 5. CAPTULO 6.

CAPTULO 7. CAPTULO 8.

CAPTULO 9. CAPTULO 10.

11

12

Contenido detallado
Prefacio 1. El mtodo estadstico...................
1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 Introduccin. Definicin del trmino Estadstica Divisin de la Estadstica Trminos comnmente usados en Estadstica Mtodo Estadstico La Estadstica y el uso de programas de cmputo. Resumen. Trminos clave Problemas de repaso del captulo. Mapa conceptual del trmino Estadstica.

17

2. Elaboracin de estudios estadsticos...............


2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.12 Introduccin Tipos de estudios. La obtencin de datos. Tipos de datos, niveles de medicin y escalas de medicin. Definicin operacional. Realizacin de encuestas. Tipo de muestreo Uso de una tabla de nmeros aleatorios. Errores comunes en la aplicacin de una encuesta Resumen. Trminos clave. Problemas de repaso del captulo. Mapa conceptual de los estudios estadsticos.

37

13

3. Organizacin y presentacin grfica de datos numricos.


3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9 3.10 3.11 3.12

81

Introduccin. Tabla de datos originales sin orden y ordenados. Diagrama de tallo y hojas. Tabulacin de datos numricos: distribucin de frecuencia. Histograma o diagrama de distribucin de frecuencias. Polgono de frecuencias. Tabla y polgono de porcentaje acumulado. Diagrama de Pareto. Resumen. Trminos clave. Problemas de repaso del captulo. Mapa conceptual de organizacin y presentacin de datos numricos.

4. Caractersticas de la distribucin de datos numricos.


4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 4.10 4.11 Introduccin Medidas de Posicin de tendencia central. Medidas de dispersin: varianza y desviacin estndar. Anlisis de 5 puntos y grfica de caja de sesgo. Medidas de deformacin. Clculo de mediciones descriptivas de la poblacin. Uso de la desviacin estndar. Resumen. Trminos clave. Problemas de repaso del captulo. mapa conceptual de distribucin de datos numricos

99

5. Uso de paquetes estadsticos.


5.1 5.2 5.3 5.4 5.5 Introduccin. Edicin de datos. Captura de datos. Obtencin de resultados. Definicin de las variables de anlisis. 14

131

5.6

Tabla de frecuencias.

6. Presentacin de datos categricos en tablas y diagramas


6.1 6.2 6.3 6.4 Introduccin. Tabulacin de datos categricos. Eleccin de la grfica apropiada. Tabla de contingencia o de datos cruzados.

143

7. Probabilidad bsica..............
7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 7.10 7.11 Introduccin. Criterios de probabilidad: subjetivo y objetivo. Espacio muestral y tipos de eventos. Formas de examinar el espacio muestral. Probabilidad simple y probabilidad conjunta. Teorema de Bayes. Principios fundamentales para enumerar. Resumen. Trminos clave. Problemas de repaso del captulo. Mapa conceptual de probabilidad.

155

8. Modelos de distribucin de probabilidad para variables aleatorias discretas..


8.1 8.2 8.3 8.4 8.5 8.6 8.7 8.8 8.9 8.10 8.11

187

Introduccin Definicin del concepto. Valor esperado de una variable discreta. Varianza y desviacin estndar de una variable discreta. Ejemplos: Funciones de distribucin de probabilidad discreta. Distribucin Binomial. Caractersticas de la distribucin binomial. Distribucin de Poisson. Caractersticas de la funcin de la distribucin de probabilidades de Poisson. Resumen. 15

8.12 8.13 8.14

Trminos clave. Problemas de repaso. Mapa conceptual de modelos de distribucin

9. La distribucin normal.
9.1 9.2 9.3 9.4 9.5 9.6 9.7 9.8 9.9 9.10 9.11 9.12

215

Introduccin. La funcin de densidad de probabilidad de una variable aleatoria continua. La distribucin normal. Propiedades de la distribucin normal. El modelo matemtico. Ejemplos. Aplicaciones. Uso de distribucin normal como una aproximacin a la distribucin binomial o a la distribucin de Poisson. Resumen Trminos clave. Problemas de repaso del captulo. Mapa conceptual de la distribucin normal

10. Anlisis de series...


10.1 10.2 10.3 10.4 10.5 10.6 Introduccin Construccin de nmeros ndice. Anlisis de patrones bsicos Mtodos de estimacin de las tendencias Correlacin Mapa conceptual de anlisis de series

237

Bibliografa APNDICES

275 277

16

Captulo 1

El mtodo estadstico *********************


Objetivo del Captulo
Presentar una visin general del concepto de Estadstica, su evolucin y aplicacin, particularmente en el rea de negocios

17

18

1.1 Introduccin Si se le preguntara al hombre de la calle qu significa para l el trmino Estadstica, en la mayora de los casos se obtendra respuestas como Estadstica es hocus pocus1 con nmeros. El significado anterior supone que los nmeros manipulados bajo ciertas normas pueden representar cualquier cosa que tengamos en mente, es decir, es un lenguaje. O tambin podramos escuchar decir que la Estadstica es una simple recoleccin de datos. La palabra estadstica a menudo nos trae a la mente imgenes de nmeros apilados en grandes arreglos y tablas, de volmenes de cifras relativas a nacimientos, muertes, impuestos, poblaciones, ingresos, produccin, control de calidad, deudas, crditos y as, largamente podremos enumerar su aplicacin en fenmenos naturales y en todas las actividades del hombre. La Estadstica es mucho ms que nmeros apilados y grficas bonitas. Es una ciencia con tanta antigedad como la escritura. La Estadstica nos auxilia a construir indicadores para la toma de decisiones, por lo tanto, se puede considerar como auxiliar de todas las dems ciencias. La economa, la administracin, la medicina,
1

hocus pocus: apcope de Hoc est corpus meum que los paganos, que no entendan latn, a travs del tiempo relacionaron con palabras mgicas que se decan durante la comunin y que se fue reduciendo a hocus pocus.

19

la biologa, la ingeniera, la administracin pblica, las ciencias sociales, entre otros, se basan fundamentalmente en la aplicacin de la estadstica. En el rea de negocios, la ausencia de estadsticas conlleva un caos generalizado, deja a los administradores y ejecutivos sin informacin relevante que fundamente la toma de decisiones en tiempos de incertidumbre. Cada da de nuestra vida moderna est significado por datos estadsticos relacionados con el mercado de valores, el desempleo, la inflacin, los datos deportivos, los ndices de accidentes, etc. El tema de la estadstica moderna abarca la recoleccin, presentacin y caracterizacin de la informacin que contribuya tanto para el anlisis como para el proceso de toma de decisiones. Al trmino del captulo, el alumno podr comprender: 1. El significado de la palabra Estadstica y la aplicacin del mtodo estadstico. 2. Comprender el significado de los diferentes trminos estadsticos: poblacin, muestra, dato, variable aleatoria, censo, encuesta, entre otros. 3. Apreciar la utilidad de los estudios enumerativos y analticos. 4. Sabr de la existencia de paquetes estadsticos de cmputo disponibles para el clculo de medicin estadstica, lo que facilita su uso sin profundizar el conocimiento de los modelos matemticos que los sustentan. La evolucin de la Estadstica La Estadstica, como todas las ciencias, no surgi de improviso, sino mediante un proceso largo de desarrollo y evolucin, desde hechos de simple recoleccin de datos hasta la diversidad y rigurosa interpretacin que se da hoy en da. As pues, el origen de la Estadstica se remonta a los comienzos de la historia y esto se sabe tanto a travs de crnicas, datos escritos, como de restos arqueolgicos. Lo anterior

20

es explicable porque en ese tiempo se estaba recin formando la sociedad y era algo inherente a la necesidad de saber cosas elementales como: cuntos habitantes tiene la tribu, con cuntos bienes cuenta, cuntos esclavos, etc. Histricamente el desarrollo de la Estadstica moderna se debe a dos fenmenos totalmente separados: La necesidad del gobierno de conocer las caractersticas de su poblacin (nmero, edades, ingresos, produccin, salud, educacin, etc.) y, el desarrollo de modelos matemticos que representan la realidad y la probabilidad del acontecer de fenmenos (sucesos). As, podemos sealar que en Roma, con su perfecta organizacin poltica, jurdica y administrativa favoreci para el desarrollo de la Estadstica. Una muestra es el Censo que se realizaba cada 5 aos y que tena por objeto, no slo saber el nmero de habitantes, sino tambin su cantidad de bienes. Bajo el mandato de Servio Tulio, stos pasaron a ser base constitucional del gobierno. Tambin en un inicio se llevaba un registro de nacimientos y de fallecimientos; pero fue bajo Antoninos que la declaracin de nacimientos adquiri una verdadera institucin legal que era necesaria hacerla ante el "prefecto del erario" en el templo de Saturno y no despus de 30 das de nacimiento. Con la cada del Imperio Romano las estadsticas se pierden en Europa, floreciendo ms, bajo la civilizacin rabe. A finales del siglo XVII, en su obra Political Arithmetick escrita probablemente en 1672 y publicada en 1690, Sir William Petty expone un punto de vista completamente nuevo para la investigacin econmica. En lugar dice- de usar slo palabras comparativas y superlativas, y argumentos intelectuales, he tomado el camino. de expresarme en trminos de Nmero, Peso y Medida; de usar slo argumentos de sentido y de tomar en cuenta nicamente las causas que tengan fundamentos visibles en la naturaleza (Roll, 1969: 92). Petty no slo ense con su prctica y preceptos cmo se deben de recopilar y manejar los datos, sino que puso

21

en su debido lugar la investigacin de los hechos en relacin con el anlisis terico, ante esta contundente evidencia de primaca, se puede afirmar que no slo es el fundador de la economa poltica sino tambin del uso de la estadstica como mtodo de investigacin. Petty es mejor conocido por sus escritos de historia econmica y estadstica previos al trabajo de Adam Smith. Sus trabajos ms famosos son los de tipo demogrfico, Aritmtica poltica y ttulos similares; se trata de los primeros intentos de entender las relaciones entre la poblacin y la economa. Fue el creador del termino pleno empleo y formulador de la Ley de Petty, que establece que el progreso de una economa se aprecia fundamentalmente a travs del creciente volumen de la poblacin que se dedica a los servicios. La formulacin matemtica de la teora de la probabilidad se da en la investigacin de juegos de azar en la poca del Renacimiento. Con las aportaciones del matemtico francs Blaise Pascal y de Chevalier de Mere se dieron las bases para el clculo de la probabilidad. Estos y otros matemticos como Bernoulli, DeMoivre, y Gauss fueron los precursores de la estadstica inferencial. Sin embargo, no fue hasta principios del siglo XX que los estudiosos como Pearson, Fisher, Gosset, Neyman, Wald y Tukey sentaron las bases de desarrollo de los mtodos de la estadstica inferencial que actualmente se aplica en los diversos campos de la investigacin en nuestra actualidad. La evolucin del uso de la Estadstica se puede distinguir en tres etapas: 1.- Primera Fase: Los Censos. 2.- Segunda Fase: De la Descripcin de los Conjuntos a la Aritmtica Poltica. 3.- Tercera Fase: Estadstica y Clculo de Probabilidades.

22

La Estadstica que conocemos hoy en da debe gran parte de su realizacin a los trabajos matemticos de aquellos hombres que desarrollaron la teora de las probabilidades, con la cual se adhiri a las ciencias formales como una ciencia aliada. Fue Godofredo Achenwall, profesor de la Universidad de Gotinga, quien acu en 1760 la palabra estadstica, que extrajo al parecer del trmino italiano statista (estadista). Crea, y con sobrada razn, que los datos de la nueva ciencia seran el aliado ms eficaz del gobernante consciente. La raz remota de la palabra se halla, por otra parte, en el trmino latino status, que significa estado o situacin; esta etimologa aumenta el valor intrnseco de la palabra, por cuanto la estadstica revela el sentido cuantitativo de las ms variadas situaciones. Los progresos ms recientes en el campo de la Estadstica se refieren al ulterior desarrollo del clculo de probabilidades, particularmente en la rama denominada indeterminismo o relatividad, se ha demostrado que el determinismo fue reconocido en la Fsica como resultado de las investigaciones atmicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las fsicas. Es por esta razn que la estadstica se presenta como un poderoso auxiliar de las distintas ciencias y tcnicas; al provocar en stas, la investigacin de las leyes de comportamiento de ciertas variables que intervienen en un fenmeno cuyo valor, gracias a la Estadstica se han puesto de manifiesto. Uso de la Estadstica en el rea de negocios Contabilidad Seleccionar muestras de registros contables para fines de auditoras. Para comprender las tendencias de costos en la contabilidad. Finanzas

23

Para analizar las tendencias de las medidas financieras de la empresa, del mercado financiero y del mercado burstil. Para desarrollar modelos de pronstico de stas medidas. Produccin Para controlar y mejorar los estndares de calidad del producto. Para controlar y mejorar la productividad de la planta. Para conocer el nivel de desempeo. Mercadotecnia Para conocer el mercado potencial del producto y definir el mercado objetivo. Para conocer las fuerzas demogrficas y econmicas del entorno de la empresa. Para definir estrategias de mercado: publicidad, precio, diferenciacin de producto, puntos de venta, con el propsito de incrementar las ventas y la rentabilidad. Para conocer los gustos, preferencias y demanda del consumidor. Para segmentar el mercado por rea geogrfica, tipo de mercado, por tipo de cliente. La Estadstica y la competitividad empresarial En los albores del siglo XXI, el predominio de la economa global (produccin, distribucin y consumo de bienes y servicios a nivel internacional) obliga a las empresas a poner mayor nfasis en la competitividad de sus productos servicios.

24

Se entiende por competitividad a la capacidad de las empresas de producir bienes y servicios en forma eficiente (con costos decrecientes y calidad creciente) y eficaz, haciendo que sus productos sean tiles y atractivos, tanto dentro como fuera del pas. Para ello, es necesario lograr niveles elevados de calidad y productividad que permitan operar con una rentabilidad meritoria. La competitividad exige que las empresas conozcan toda la informacin -interna y externa- relacionada con su negocio, como es la informacin sobre clientes, proveedores, estndares de calidad, costos, produccin, caractersticas de la materia prima, caractersticas de los sistemas de logstica, caractersticas de la competencia, etc. Parte fundamental de la prctica gerencial que procura la competitividad es la aplicacin de ciertos mtodos estadsticos y su adecuada interpretacin de resultados. La interpretacin adecuada de los resultados incluye el reconocimiento de que los datos son substancialmente variables y que su pertinencia y empleo permiten tomar decisiones para mejorar un estado actual, sea sobre produccin, innovacin, mejoramiento de la calidad, diferenciacin del producto, mejoramiento de costos, atencin a nuevos clientes, atencin a nuevos mercados, mejoramiento de precios, etc. Datos gubernamentales, publicaciones gremiales o especializadas) Con el propsito de coordinar los Sistemas Nacionales Estadstico y de Informacin Geogrfica, y brindar el servicio pblico de informacin estadstica y geogrfica sobre el territorio, la poblacin y la economa de Mxico, el gobierno federal cuenta con el Instituto Nacional de Estadstica, Geografa e Informtica (INEGI), rgano desconcentrado de la Secretara de Hacienda y Crdito Pblico, con autonoma tcnica y administrativa. El antecedente ms antiguo fue la Direccin General de Estadstica (DGE) la cual fue creada en 1882. En 1895 se levant el primer Censo de Poblacin.

25

INEGI genera estadsticas de cobertura nacional, regional, estatal y local de temas como: estadsticas sociodemogrficas, estadsticas econmicas, estadsticas de gnero, estadsticas ambientales, estadsticas de ciencia y tecnologa. Adems de su requerimiento constitucional de realizar los censos de poblacin y vivienda, agropecuarios y econmicos, el INEGI tiene que ver con la realizacin de encuestas referidas a la poblacin, al gasto familiar, a la vivienda, fabricacin, transporte, entre otros, y cada cierto tiempo realiza estudios sobre el ndice de precios. Adems de informacin estadstica creada por las instituciones gubernamentales, existen varias publicaciones especializadas en datos industriales o comerciales especficos creadas por organizaciones gremiales, empresas especializadas en el sector, instituciones de educacin o investigacin, medios de comunicacin. 1.2 Definicin del trmino Estadstica Los estudiantes confunden comnmente los dems trminos asociados con las Estadsticas, una confusin que es conveniente aclarar debido a que esta palabra tiene dos significados: a) En primer trmino se usa para referirse a la informacin procesada (siete de cada diez personas prefieren comprar jabn de la marca X que de la marca Z; el 10% de los clientes de supermercados pagan con tarjeta de crdito); b) Tambin se utiliza para referirse al conjunto de tcnicas y mtodos que se utilizan para obtener, procesar, analizar y presentar la informacin pertinente de un estudio. Esta ltima es la razn del libro. Con tantas aplicaciones del trmino Estadstica parece imposible obtener por consenso una sola definicin, sin embargo, es posible hacer una distincin entre las definiciones comnmente aceptadas.

26

La estadstica es considerada como la coleccin de datos numricos los cuales son expresados en trminos de cuentas resumidas, sean stos obtenidos a travs de observaciones directas o a travs de otros datos. (Haber y Runyon, 1977: 6). Tal es el caso de los censos econmicos, demogrficos, de vivienda, entre otros. Tambin es considerada como un mtodo de relacin con esos datos (Ibd.). Esta definicin enfatiza la visin de que la estadstica es una herramienta relacionada con la coleccin, organizacin y anlisis de datos numricos u observaciones. La estadstica, en general, es la ciencia que trata de la recopilacin, organizacin presentacin, anlisis e interpretacin de datos numricos con el fin de realizar una apropiada toma de decisin (Muoz, 2004: 3). Para muchos, la Estadstica es la ciencia auxiliar de todas las ciencias. 1.3 Divisin de la Estadstica Para su mejor estudio, la Estadstica se ha dividido en dos grandes ramas: la Estadstica Descriptiva y la Estadstica Inferencial. Estadstica Descriptiva consiste sobre todo, en la presentacin de datos en forma medidas resumen, de tablas y de grficas. sta comprende cualquier actividad relacionada con los datos y est diseada para resumir o describir las caractersticas variables- del fenmeno en estudio mediante medidas resumen; esto es, sin intentar inferir nada que vaya ms all de los datos, como tales. La estadstica descriptiva puede definirse como aquellos mtodos que incluyen la recoleccin, presentacin y caracterizacin de un conjunto de datos con el fin de describir apropiadamente las diversas caractersticas que distinguen a ese conjunto de datos (Berenson & Levin, 1996: 3). Estadstica Inferencial: se deriva de muestras, de observaciones hechas slo acerca de una parte de un conjunto numeroso de elementos y esto implica que su anlisis requiere de generalizaciones que van ms all de los datos. Como consecuencia, la

27

caracterstica ms importante del reciente crecimiento de la estadstica ha sido un cambio en el nfasis de los mtodos que describen a mtodos que sirven para hacer generalizaciones. La Estadstica inferencial investiga o analiza una poblacin partiendo de una muestra tomada. La Estadstica inferencial puede definirse como aquellos mtodos que hacen posible la estimacin de una caracterstica de una poblacin o la toma de una decisin referente a una poblacin, basndose slo en los resultados de la muestra, (Ibd.) Para entender ambas definiciones, es necesario conocer el significado de los trminos utilizados, representados en la figura 1.1. Fig. 1.1 Funciones del an lisis estadstico

Poblacin (total de alumnos de la UAMFHG)

Datos (observaciones)

Estadstica descriptiva
Muestra (seleccin de algunos alumnos representativos del total de alumnos de la UAMFHG)

Estadstica inferencial

1.4 Trminos comnmente utilizados en estadstica Variable: una caracterstica o fenmeno que puede obtener diferentes valores. Peso, talla, sexo, ingreso, ventas, costos, temperatura, son ejemplos de variables. Una variable es diferente a una constante, la cual nunca cambia de valor, que no puede modificarse, al menos no dentro del contexto o situacin para el cual est previsto.

28

Variables cualitativas: son las variables que expresan distintas cualidades o caractersticas. Cada modalidad que se presenta se denomina atributo o categora y la medicin consiste en una clasificacin de dichos atributos. Variables cuantitativas: son las variables que se expresan mediante cantidades numricas. Las variables cuantitativas adems pueden ser discretas o continuas. Variables independientes: Es la variable que sola o en compaa de otras inciden en el valor de otra. Los cambios en los valores de este tipo de variables determinan cambios en los valores de otra (variable dependiente). Variables dependientes: son las variables de respuesta que se observan en el estudio y que podran estar influenciadas por los valores de las variables independientes. Variable aleatoria: valor de la caracterstica o fenmeno especfico de una observacin escogida al azar. Dato: nmeros o medida que se obtienen a travs de obtener la dimensin de la variable en una observacin. stos pueden ser enumerados por unidades o acumulacin de puntos. Los datos pueden ser de naturaleza numrica o categrica. Por ejemplo, 25 aos de edad, 1.65 metros de altura, 65 kilogramos de peso, son los datos de las variables de edad, estatura y peso de una persona. Poblacin o universo: el nmero total de individuos, objetos o medidas que tienen caractersticas observables comunes, en un espacio comn. Todos los mexicanos, toda la poblacin de Tamaulipas, todas las personas que viven en Cd. Victoria y que tienen entre 12 y 36 aos, todos los estudiantes de la UAT. Censo: Cuando se estudia la totalidad de las unidades que componen la poblacin o universo. Desventaja: errores de observacin, omisiones, duplicaciones, noubicacin (no medibles) del encuestado, enorme volumen de informacin, requie-

29

ren enormes recursos para su elaboracin (tiempo, dinero, personas, instalaciones). Los censos de poblacin y vivienda que realiza el INEGI es un buen ejemplo. Parmetros: los valores de las caractersticas observadas (variables) que representan a la poblacin o universo. Generalmente se utiliza el alfabeto griego para representarlas (ejemplo: ,), que significan la media y la desviacin estndar de la poblacin respectivamente. Muestra: una porcin de la poblacin que, bajo ciertas condiciones de confianza, representa las caractersticas de la poblacin o universo. Estadsticos: son las medidas resumen resultantes, bajo ciertos procedimientos especficos, de los datos originales obtenidos en una muestra. Los estadsticos se utilizan para estimar los parmetros de la poblacin a travs de una muestra. Para su representacin, generalmente se utilizan letras itlicas (ejemplo: X ,S), que significan la media y la desviacin estndar de la muestra. Para relacionar estas definiciones con un ejemplo, suponga que se quiere investigar, mediante una encuesta, la edad y el nivel de ingresos de los alumnos de la UADYCS. La poblacin o el universo en este caso seran todos los estudiantes inscritos en el perodo vigente. La muestra sera slo aquellos estudiantes que se seleccionaron para participar en el estudio, misma que tendra que ser representativa de todas las licenciaturas y de todos los semestres. El objetivo de la encuesta sera describir las caractersticas (variables: edad e ingreso) de toda la poblacin (parmetros). La descripcin se obtendra a travs del uso de estadsticos obtenidos de la muestra. Por lo tanto, se puede decir que la estadstica inferencial es el proceso de utilizar la estadstica muestral para sacar conclusiones acerca de los parmetros de la poblacin.

30

El uso de estadstica inferencial surge de la necesidad de muestrear, sea porque no se tiene acceso a toda la poblacin, sea porque la poblacin es muy grande y en consecuencia obtener sus caractersticas es muy tardado o muy caro. 1.5 Mtodo estadstico El conjunto de tcnicas que se utilizan para medir las caractersticas de la informacin, resumir los valores individuales, y analizar los datos a fin de extraerles el mximo de informacin, es lo que se llama mtodos estadsticos. Los mtodos de anlisis para la informacin cuantitativa se pueden dividir en los siguientes seis pasos: 1. Definicin del problema. 2. Recopilacin de la informacin existente. 3. Obtencin de informacin original. 4. Clasificacin. 5. Presentacin. 6. Anlisis. Definicin del problema En el mbito de los negocios, los problemas tienen que ver con ventas en cantidad y valor, costos, precios, inventarios, consumo, rendimientos, nmero de clientes, oferta, demanda, produccin, control de calidad, satisfaccin del cliente, anlisis de puntos de venta, y todas las variables del entorno que afecten directa e indirectamente a la empresa, como inflacin, paridad monetaria, importaciones, exportaciones, ndices de crecimiento, etc. Recopilacin de la informacin existente Para conocer la dimensin del problema es necesario consultar la informacin histrica interna o externa que est relacionada con el problema que requiere aten-

31

cin. Por ejemplo, si hablamos de un problema de ventas, tendremos que consultar los registros contables, los de inventarios, las ventas por productos, por zona geogrfica, etc. Si el problema es de mercado, tendremos que consultar la informacin existente que produce INEGI, tal como el tamao de la poblacin, el ingreso, el gasto familiar, la edad de la poblacin, el nivel de educacin, etc. Obtencin de informacin original. Siguiendo con el mismo problema de ventas, se requiere de conocer informacin que no existe y que hay que generar, como los precios de la competencia, las preferencias del consumidor, las caractersticas de los productos, estos datos, que se convertirn en informacin, se obtienen en forma directa a travs de la observacin, la experimentacin y la encuesta. Clasificacin La informacin obtenida, existente y original, se clasifica por estratos, por perodos o por ubicacin geogrfica de tal manera que tenga una ponderacin adecuada para su anlisis. Presentacin La informacin clasificada se presenta a travs de tablas y grficas que pueda interpretarse, por ejemplo, la tabla1.1 que se observa en la prxima pgina. Anlisis de la informacin De los datos clasificados y presentados se pueden derivar una serie de anlisis, por ejemplo: las ventas de huevo disminuy en un 10% en unidades, pero en precio aument un 20% en precio por lo que result un aumento del 8% en el valor de lo vendido.

32

Tabla 1.1 Precios y cantid ades vendidas en 2005 -2006


Artculo Huevo (docena) Leche (litro) Carne (kilo) Precio Unit. 10.00 5.00 35.00 2005 Unidades Valor Vendidas ventas 100 120 10 1,000.00 600.00 350.00 1,950.00 Precio Unit 12.00 7.00 42.00 2006 Unidades Valor Vendidas venta 90 140 15 1,080.00 980.00 630.00 2,690.00

1.6 La estadstica y el uso de programas de cmputo El uso de paquetes de cmputo para el clculo estadstico es cada vez ms comn en la comunidad empresarial, acadmica y de investigacin. Bajo esa premisa, el desarrollo del curso considera, que para realizar los anlisis estadsticos de prctica, el alumno tendr acceso a los paquetes estadsticos como el STATISTICA, el SPSS o la hoja de clculo de Excel. As, se pondr mayor atencin al uso de mtodos estadsticos apropiados y anlisis de resultados que a la teora matemtica subyacente a los mtodos. 1.7 Resumen La estadstica es una ciencia matemtica que se refiere a la coleccin, estudio e interpretacin de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, usada tambin en la toma de decisiones en reas de negocios e instituciones gubernamentales. Coloquialmente se puede decir que la Estadstica es la ciencia auxiliar de las ciencias. El predominio de la economa global obliga a las empresas a poner mayor nfasis en la competitividad. Parte fundamental de la competitividad es el pleno conocimiento e adecuada interpretacin de la informacin relacionada con el entorno interno y externo de la empresa.

33

La aplicacin del mtodo estadstico en la realizacin de estudios estadsticos actualmente es imprescindible. La aplicacin del mtodo estadstico se utiliza para describir y para inferir las caractersticas del objeto de estudio, de ah que la estadstica se divide en dos reas de estudio, la estadstica descriptiva y la estadstica inferencial. La estadstica descriptiva, que se dedica a los mtodos de recoleccin, descripcin, visualizacin y resumen de datos originados a partir de los fenmenos en estudio. Los datos pueden ser resumidos numrica o grficamente. Ejemplos bsicos de descriptores numricos son la media y la desviacin estndar. Resmenes grficos incluyen varios tipos de figuras y grficos. La estadstica inferencial, que se dedica a la generacin de los modelos, derivaciones y predicciones asociadas a los fenmenos en cuestin teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la poblacin de estudio. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hiptesis), estimaciones de caractersticas numricas (estimacin, pronsticos de futuras observaciones, descripciones de asociacin (correlacin) o modelamiento de relaciones entre variables (anlisis de regresin). Otras tcnicas de modelamiento incluyen ANOVA, series de tiempo y tendencias de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadstica aplicada. Hay tambin una disciplina llamada estadstica matemtica, la cual se refiere a las bases tericas de la materia. La palabra estadsticas tambin se refiere al resultado de aplicar un algoritmo estadstico a un conjunto de datos, como en estadsticas econmicas, estadsticas criminales, estadsticas de salud, entre otras. Actualmente, el uso generalizado de sistemas de cmputo ha simplificado la realizacin de estudios estadsticos; las hojas de clculo y los paquetes estadsticos son de extraordinaria ayuda; para usarlos correctamente, se requiere utilizar los cono34

cimientos adquiridos en este captulo, ello ayudara a reducir los errores de digitalizacin, clculo y anlisis. 1.8 Trminos clave: Dato Estadstica Estadstica descriptiva Estadstica inferencial Estadstica moderna Estadstico Muestra 1.9 Problemas de repaso del captulo En los siguientes ejercicios, describa una aplicacin especfica e identifique la poblacin y los parmetros que son de inters principal del estudio. 1. Describa una aplicacin de la estadstica en economa o finanzas. 2. Describa una aplicacin de la estadstica en los deportes 3. Describa una aplicacin de la estadstica en la administracin de empresas 4. Describa una aplicacin de la estadstica en el rea de publicidad y mercadotecnia. 5. Describa una aplicacin de la estadstica en la investigacin mdica o en la administracin de la salud. 6. Describa la diferencia entre la estadstica descriptiva y Estadstica inferencial. 7. Describa el Mtodo estadstico. Parmetro Poblacin Universo Variable Variable aleatoria Variable cualitativa Variable cuantitativa

35

1.10 Mapa conceptual del trmino Estadstica

E S T A D S T I C A

Origen Aplicacin Significado

Comienzos de la historia Siglo XVII Siglo XX

Necesidades de Gobierno Desarrollo de modelos de representacin Soporte de todas las ciencias

Informacin procesada Tcnicas y mtodos para el manejo de datos

Estadstica moderna
Descriptiva Inferencial
Mtodo estadstico:
Definicin del problema Recopilacin de informacin Clasificacin Presentacin Anlisis

36

Captulo 2

Elaboracin de estudios estadsticos *********************


Objetivo del Captulo
Mostrar la importancia de disear un estudio estadstico, especialmente los que se requieren elaborar para los negocios y la importancia de obtener buenos datos

37

2.1 Introduccin Las organizaciones modernas enfrentan gran complejidad para su buen funcionamiento. Una de las razones por las cuales las organizaciones modernas son complejas, es que en el mundo globalizado que operan cambia constantemente y presenta nuevos desafos y amenazas. Existe la necesidad permanente de adaptarse al cambio, tanto en las entradas como en las salidas y en el proceso de transformacin. Los administradores de las organizaciones modernas tienen la responsabilidad de conocer cmo, cundo, dnde se deben realizar los cambios de adaptacin a las nuevas exigencias de mercado. Estos cambios no pueden ser implementados sin el conocimiento de la informacin apropiada pertinente, suficiente, oportuna, veraz, econmica y de prediccin. Las organizaciones modernas y competitivas, de cualquier tamao o complejidad deben de medir en forma permanente el nivel de desempeo a travs de conocer informacin sobre costos, cantidad, calidad, productividad, eficiencia de productos, servicios y procesos. Pero tambin debe conocer de los cambios que ocurren en el medio ambiente en que se desarrolla, tales como poblacin, ingresos percpita, competencia, gustos, preferencias, necesidades, precios, etc.

38

Para que un estudio estadstico sea til en el proceso de toma de decisiones, los datos de entrada deben ser de origen fidedigno y cumplir con una serie de caractersticas de codificacin que faciliten su captura, agrupacin, correlacin y anlisis. Por ello el proceso de recoleccin es extremadamente importante en la realizacin de un estudio. Si los datos estn distorsionados por sesgos, ambigedades o malas interpretaciones, lo ms probable es que se elaboren estudios de mala calidad y por lo tanto, en base a ellos, se toman malas decisiones. Esta seccin pretende introducir al alumno a determinar qu tipo de estudios estadsticos se requieren en las organizaciones, cmo se obtienen los datos, cmo se clasifican, agrupan y presentan. Cabe sealar que actualmente el uso generalizado de equipos de cmputo la edad de la tecnologa de la informacin ha facilitado esta tarea de obtencin, procesamiento y presentacin de informacin. An y cuando cada organizacin tiene diferentes necesidades de estudios estadsticos, pedaggicamente y metodolgicamente se pueden hacer generalizaciones que el profesional tendr que adaptar a sus necesidades de aplicacin. Al trmino del captulo, el alumno deber ser capaz de: 1. Conocer los tipos estudios estadsticos que se pueden realizar. 2. Conocer las diferentes fuentes de obtencin de datos. 3. Conocer los diferentes tipos de datos, niveles de medicin y escalas de medicin. 4. Conocer la importancia de disear un estudio estadstico, especialmente los que requieren aplicacin de una encuesta. 5. Saber disear un cuestionario con preguntas objetivas, plenas de significado y alta relacin con el objeto de estudio. 6. Utilizar una tabla de nmeros aleatorios para la definicin de los individuos de la encuesta.

39

2.2 Tipos de estudios. Hay dos tipos de estudios enumerativos y analticos. Los estudios enumerativos son aquellos que muestran cmo son las cosas pero que no tienen la cualidad de predecir por ellos mismos. El censo de poblacin y vivienda es un buen ejemplo de estudio enumerativo. Medir el rendimiento del maz es un estudio enumerativo. Las condiciones de produccin agrcola del 2004 o 2005 o de cualquier ao pasado se han ido y no se repetirn. En ese sentido no existe un proceso subyacente. Los estudios analticos son utilizados para estudiar procesos y pueden predecir, bajo ciertos cambios en el proceso original, los resultados en un futuro (TRADE, 1995: 84). Ambos tipos de estudios utilizan el mtodo estadstico para la toma de decisiones. Ambos utilizan los datos como materia prima para su elaboracin. Los estudios enumerativos involucran la toma de decisiones respecto a una poblacin y/o sus caractersticas (Berenson & Levin, 1996: 5). Un ejemplo de estudio enumerativo sera aquel que se realiza en cierta rea geogrfica, previo a la operacin comercial de una empresa. El objetivo es el de proporcionar estimaciones de las caractersticas de la poblacin y tomar ciertas decisiones sobre ellas. El rea geogrfica definida para el estudio enumerativo se le denomina marco y proporciona los elementos para la seleccin de una muestra. De ah surgen las preguntas de Cuntos son hombres y cuntas mujeres? Cuntos consumen el producto? Qu marca de producto prefieren? Qu nivel de ingresos tienen? Cuntos negocios similares existen? Cul es el aforo vehicular por las principales avenidas?

40

Fig. 2.1 Mapa base para estudio enumerativo de mercado

La tcnica Estadstica permite disear una muestra representativa de un rea geogrfica especfica y determinar, en forma aproximada, sus caractersticas enumerativas en conjunto

Otro ejemplo de un estudio enumerativo es la descripcin del contenido de un tazn de canicas, el tazn completo representa la poblacin, las preguntas del estudio se hacen en relacin a saber Qu hay en el tazn? Cuntas canicas son de color negro, o en qu proporcin son negras? Qu probabilidad existe aleatoriamente de escoger una canica negra? Figura 2.2 Estudio enumerativo.

Muestra

Por otro lado, los estudios analticos involucran realizar alguna actividad sobre un proceso para mejorar el desempeo en el futuro (Ibd.) 41

El estudio de los resultados de un proceso de produccin o de prestacin de servicios considerados durante cierto tiempo, es un ejemplo de estudio analtico. El propsito de un estudio analtico es el de obtener predicciones de comportamientos futuros y de resultados. Esto es la generacin de informacin anticipada para la toma de decisiones para la mejora del proceso y en consecuencia, de los resultados. Un estudio analtico, se refiere al anlisis de procesos. Los procesos, utilizando el enfoque de sistemas, se componen de varias etapas, en forma general: entradas, procesos de transformacin, salidas y retroalimentacin. En un sistema empresarial, las entradas son principalmente materia prima, personas, maquinaria y equipo e informacin; los procesos de transformacin se refieren a las actividades propias de la organizacin, es decir a la transformacin de las entradas en salidas; las salidas son los bienes o servicios que la organizacin oferta al medio ambiente (clientes reales y potenciales). El Dr. Walter Shewhart, un pionero de estudios estadsticos en control de procesos, dice que un proceso consiste en equipo, mtodos, material y personas que son conjuntados para producir salidas en un medio ambiente. Por ejemplo, en agricultura, si bien es cierto que las condiciones de clima predominan en los rendimientos agrcolas, tambin influyen los mtodos de cultivo, el tipo de suelo, el tipo de semilla, los mejoradores agrcolas, las plagas, entre otros. (TRADE, 1995: 84) El anlisis de resultados del sistema organizacional se da a travs de lo que se conoce como retroalimentacin, que no es otra cosa que el anlisis de la informacin de respuesta del medio ambiente a las salidas de la organizacin, reflejadas, en ms de las veces, en ventas, devoluciones, quejas, pedidos, sugerencias, entre otras.

42

Figura 2.3 mbito de aplicacin de estudios analticos


Competidores Proveedores Distribuidores Clientes Empleados Accionistas Sociedad Accionistas Sindicato Gobierno Cmaras Grupos de inters
Gerencia General

Tierra Mano de obra Capital

Administracin y Finanzas

Produccin

Mercadotecnia

Productos o Servicios

Entradas

Proceso

Salidas

Retroalimentacin

Existen cuatro razones bsicas para realizar estudios estadsticos (enumerativos o analticos): a) Contar con material imprescindible en un estudio de investigacin. b) Medir el desempeo y tomar medidas correctivas c) Apoyar la toma de decisiones en la definicin de estrategias d) Para satisfacer nuestra curiosidad. Los estudios estadsticos ms comunes en el rea de negocios, tienen que ver con control de produccin, control de calidad, ventas, crdito, cobros, estudios de mercado (mercado potencial, mercado objetivo, precios de mercado, etc.)

43

La calidad de los estudios estadsticos La calidad de los estudios estadsticos depende de la calidad de los datos que los soporten. Los investigadores han adoptado el trmino GIGO, del ingls garbage in, garbage out, que se traduce como basura entra, basura sale. Lo que el trata de significar es que si los datos obtenidos son equivocados o tienen errores, el estudio ser de mala calidad y su uso para el que fue creado, estar equivocado o tendr errores: se tomarn malas decisiones. Para disear un estudio estadstico, el estudiante debe comprender las distintas fuentes de datos, los tipos de datos que existen y los sistemas de medicin. 2.3 La obtencin de datos Existen varios mtodos de obtencin de datos, depende del tipo de estudio que se quiera realizar. Primero, se puede utilizar datos ya publicados por otras instancias, sean gubernamentales, gremiales o individuales, a este tipo de informacin se le conoce como informacin de fuente secundaria. La de fuente primaria se obtiene en forma directa a travs de la experimentacin, la observacin o el levantamiento de encuesta. Sin importar la fuente, se hace una distincin entre el recolector original de datos y la organizacin o individuo que los compilan. El recolector de datos es la fuente primaria; el compilador es la fuente secundaria. Los datos generados por el usuario son de fuente primaria, los datos generados por terceros, son de fuente secundaria. Los datos primarios se obtienen a travs de: a) disear un experimento, b) realizar observaciones de comportamiento de actitudes u opiniones de los individuos que son de inters del estudio o c) realizar una encuesta. 44

Mtodo de experimentacin La obtencin de datos por el mtodo de la experimentacin es el ms complejo y eficaz de los mtodos empricos, por lo que a veces se utiliza errneamente como sinnimo de mtodo emprico. En este mtodo, el investigador interviene sobre el objeto de estudio modificndolo directa o indirectamente para crear las condiciones necesarias que permitan revelar sus caractersticas fundamentales y sus relaciones esenciales bien sea: -Aislando al objeto y las propiedades que estudia de la influencia de otros factores -Reproduciendo el objeto de estudio en condiciones controladas -Modificando las condiciones bajo las cuales tiene lugar el proceso o fenmeno que se estudia. As, los datos son sacados de la manipulacin sistemtica de variables en un experimento. Una diferencia clara con el mtodo emprico en general es que ste trata de considerar los errores, de modo que una inferencia pueda ser hecha en cuanto a la causalidad del cambio observado. Por ejemplo, para medir los efectos de una bebida vigorizante, a dos grupos de jugadores despus de un partido de futbol, se le pide a uno que tome la bebida en cierta cantidad y despus se le analizan sus signos vitales (presin arterial, pulsaciones, respiracin, dilatacin de pupila, contenido de glucosa, etc.) al otro individuo se le pide que tome slo agua purificada y tambin se le miden los signos vitales. Una vez hecho el experimento se comparan las mediadas de los signos vitales de ambos. Se llamar a un grupo, el de la condicin, experimental y al otro grupo de control. Pero se podra trabajar con varios grupos con distintas cantidades de ingesta de vigorizante.

45

Mtodo de la observacin Fue el primer mtodo utilizado por los cientficos y en la actualidad continua siendo su instrumento universal. Permite conocer la realidad mediante la percepcin sensorial directa de entes y procesos, para lo cual debe poseer algunas cualidades que le dan un carcter distintivo. El mtodo de la observacin permite obtener datos primarios mediante la observacin de la conducta de las personas, acciones y situaciones pertinentes. Por ejemplo, un investigador de mercados de productos lcteos podra visitar puntos de venta y observar a los compradores desde que entran a la tienda, caminan por los anaqueles, toman el producto lcteo, leen las etiquetas y toman la decisin de compra. O una gasolinera podra evaluar la posibilidad de abrir nuevas sucursales mediante la observacin de los esquemas de trfico, las condiciones del rea, la ubicacin de la competencia. La investigacin por el mtodo de observacin obtiene informacin que la gente no puede o no quiere proporcionar. En muchos casos, la observacin es la nica manera de obtener informacin, sin embargo, algunas cosas no pueden observarse, como las emociones, los motivos, o la conducta privada. A causa de esas restricciones, los investigadores suelen utilizar como complemento otros mtodos de recopilacin de datos. En la actualidad muchas empresas utilizan el mtodo de investigacin etnogrfica (ciencia que estudia, describe y clasifica las culturas o pueblos) para observar a individuos en su hbitat natural. Las investigaciones etnogrficas proporcionan a menudo detalles ntimos que no se pueden obtener por la observacin tradicional. Mtodo de encuesta El mtodo de obtencin ms utilizado en los estudios de mercado es la realizacin de una encuesta. Una encuesta es un conjunto de preguntas dirigidas a una muestra representativa de poblacin o de instituciones, con el fin de conocer estados de opinin o hechos especficos. La realizacin de una encuesta debe tener un diseo muestral y un marco de aplicacin. La encuesta es una investigacin estadstica en 46

que la informacin se obtiene de una porcin representativa de las unidades que componen el universo. La encuesta es preferible a los censos (o estudio de toda la poblacin) por las siguientes razones: - La poblacin es grande y, por tanto, imposible de analizar en su totalidad. - Las caractersticas de la poblacin varan si el estudio se prolonga demasiado tiempo. - Reduccin de costes: al estudiar una parte de la poblacin, los gastos de recogida y tratamiento de los datos sern menores que si los obtenemos del total de la poblacin. - Rapidez: al reducir el tiempo de acopio y tratamiento de los datos, se consigue mayor rapidez. - La poblacin es suficientemente homognea respecto a la caracterstica medida, resultara intil gastar recursos en un anlisis exhaustivo. - El proceso de estudio es destructivo o es necesario consumir un artculo para extraer la muestra (ejemplos: vida media de una bombilla, carga soportada por una cuerda, precisin de un proyectil, etc.). 2.4 Tipos de datos, niveles de medicin y escalas de medicin Las variables generan dos tipos de datos: categricos y numricos. Los datos categricos representan categoras de la observacin. Los datos numricos representan dimensin del fenmeno, estos pueden ser discretos o continuos. Un ejemplo de dato categrico sera la respuesta a la pregunta Pertenece usted a un club social? si o no, es una respuesta categrica; igualmente sera un dato categrico la clasificacin de los hoteles de una estrella, dos estrellas, tres estrellas, Gran Turismo; otro ejemplo sera el grado de satisfaccin de un producto o un servicio: muy satisfecho, satisfecho, no satisfecho.

47

Los datos numricos surgen del conteo o de la medicin de los fenmenos. Los datos discretos son respuestas numricas que surgen de un proceso de conteo, los datos continuos son respuesta numrica de un proceso de medicin. Un ejemplo de dato numrico discreto sera el nmero de refrescos que compra al da: 2, 3, 4. Por otro lado, la altura de un estudiante es el ejemplo de una variable numrica continua, 1.72 metros, la medicin acepta fracciones de la unidad. Figura 2.14 Tipo de datos.
Tipo de datos
Categricos

Tipo de pregunta

Respuesta

Numricos

Niveles de medicin En el sentido ms amplio, todos los datos ha obtener son medibles. Incluso los datos numricos discretos pueden considerarse como producto de una medicin mediante el conteo. Todo lo que se observa generalmente es referido como variables. Por ejemplo, si se estudiara el precio de una taza de caf americano en Victoria o en Matamoros, la variable principal sera el precio, seguramente el valor de la variable ser diferente en varios establecimientos, como tambin es variable la cantidad servida y las condiciones ambientales del lugar. Cualquier observacin en particular se denomina valor de la variable. Los tres niveles de medicin en escala reconocidos son: nominal, ordinal y cardinal (intervalo y relacin). 1. La escala nominal se utiliza para nombrar. 2. La escala ordinal se utilizan para representar un ordenamiento. 3. La escala cardinal sirven para representar una cantidad (intervalo o de relacin) 48

Escala de medicin Los datos obtenidos de una variable categrica pueden ser medidos en una escala nominal u ordinal. Las observaciones no ordenadas constituyen el nivel ms bajo de mediada y son referidas como una escala nominal. Se puede asignar un valor numrico para representar la variedad de clases en una escala nominal pero este nmero no tiene propiedades cuantitativas, slo sirven para identificar la clase. Es decir, si los datos observados simplemente se clasifican en diversas categoras, en las que no implica ningn orden. La medicin de variables categricas nominales resultan de la aplicacin de una escala de medicin que permite solo determinar las relaciones = y . El valor que toma una variable categrica nominal indica la categora a la que pertenece; por lo tanto, permite clasificar a los individuos en grupos. Los grupos pueden ser dicotmicos (dos categoras) o politmicos (ms de dos categoras). Por ejemplo: Variable categrica nominal dicotmica: gnero (femenino / masculino). Variable categrica nominal politmica: afiliacin partidista (cuando se distinguen ms de dos partidos) como PRI, PAN, PRD. Figura 2.5 Ejemplos de escala nominal.
Variable categrica
Seguro de automvil Tipo de seguro de vida que se tiene Afiliacin poltica si

Categora
no

Temporal Vitalicio PRIsta PANista PRDsta

El siguiente nivel de medicin, de escala ordinal se refiere cuando la medicin representa un orden en una serie. En esta escala las diferencias son expresadas en trminos de inequidades algebraicas: a es menor que b (a<b) o a es mayor que b

49

(a>b). Las relaciones entre variables sern: ms grande, ms veloz, ms alto, etc. Los nmeros empleados en la escala ordinal no son cuantitativos, slo indican una posicin pero no qu tanto es la diferencia entre las diferentes posiciones de la escala. Ejemplos de aplicacin de la escala ordinal incluye: la designacin de clase de un estudiante en un grupo, la clasificacin de las pelculas, la categora de los empleados, etc. Figura 2.6 Ejemplos de escala ordinal.
Variable categrica
Clase de estudiante en un grupo Clasificacin de pelculas Clasificacin hotelera

Categora
Primero Segundo Tercero G PG PG-13 R X

Finalmente el nivel ms alto de medicin en la ciencia es alcanzado por el uso de nmeros cardinales (escala de intervalo y de relacin). Los valores numricos asociados con esta escala son cuantitativos y por ello permite el uso de operaciones aritmticas como la suma, resta, multiplicacin y divisin. La diferencia entre estos dos tipos de escala radica en que la escala de intervalo emplea un punto arbitrario (cero) de comparacin mientras que la escala de relacin emplea un cero real. La medicin de temperatura en grados Celsius o Fahrenheit son ejemplos de medicin en escala de intervalos. No podemos decir que 40 C es a 20 C como 20 C es a 10 C. Lo anterior se debe a que el punto de medicin 0 C es arbitrario. En esta escala de intervalo utilizada existe lo que se conoce como cero absoluto y se supone que es equivalente a -273 C, por lo que 40 C equivale a 273 C + 40 C de calor; 20 C representa 273 C + 20 C de calor y 10 C representa 273 C + 10 C. 50

Cabe sealar que la diferencia entre dos lecturas tiene el mismo significado en cualquier nivel de la escala, as la diferencia entre 37 C y 39 C es de 2 grados, igual que en las lecturas de 25 C y 27 C. La medicin de las variables categricas ordinales resultan de la aplicacin de una escala de medicin que permite determinar las cuatro relaciones =, , > y <. Lo que permite ordenar a los individuos en un orden creciente o decreciente con relacin a una caracterstica medida. Figura 2.7 ejemplos de escala cardinal (intervalo o relacin)
Variable numrica
Temperatura ( C o F)
o o

Nivel de medicin
Intervalo

Tiempo de calendario (hebreo o islmico) Intervalo Altura (en pulgadas o centmetros) Peso (en libras o kilogramos) Edad (en aos o das) Relacin Relacin Relacin

Generalmente los datos obtenidos de una variable numrica han sido medidos en una escala de intervalo o de relacin. Estas escalas constituyen los niveles ms altos de medicin, son formas ms concretas de medicin, que de una de escala ordinal, porque se puede distinguir no slo la dimensin sino tambin la diferencia con otras observaciones. En la escala de relacin (o de cociente), adems de que las diferencias son significativas e iguales en cualquier punto de la escala, existe un punto cero verdadero que pueda ser tomado en cuenta para realizar comparaciones. Una persona mide 1.80 metros, el doble de alta de una que mide .90 metros.

51

Escala tipo Likert Frecuentemente se requieren conocer las inclinaciones, sentimientos, prejuicios o distorsiones, nociones preconcebidas, ideas, temores, amenazas y convicciones de cierta poblacin acerca de cualquier asunto especfico, como las preferencias. Una manera de realizar este tipo de estudios es aplicando un cuestionario con una serie de tems con respuestas alternativas con una escala de medicin de actitudes, como la escala de Likert, que fue desarrollada por el socilogo Rensis Likert en 1932. La escala Likert, conocida tambin como escala sumativa est en funcin de una serie de tems que reflejan una actitud positiva o negativa acerca de un estmulo o referente; analiza los pensamientos y sentimientos de la persona hacia los hechos. Para realizar un estudio de esta naturaleza, se propone seguir los siguientes pasos: 1. Preparacin de los tems del cuestionario; se elaboran una serie de enunciados afirmativos y negativos sobre el tema o actitud que se pretende medir. El nmero de enunciados elaborados al principio debe ser mayor al nmero final de enunciados incluidos en la versin final. 2. Aplicacin del cuestionario en una muestra representativa de la poblacin cuya actitud deseamos medir. Se le solicita a los sujetos que expresen su acuerdo o desacuerdo frente a cada tem mediante una escala. 3. Asignacin de puntajes a los tems; se le asigna un puntaje a cada tem a fin de clasificarlos segn reflejen actitudes positivas o negativas. 4. Asignacin de puntuaciones a los sujetos; la puntuacin de cada sujeto se obtiene mediante la suma de las puntuaciones de los distintos tems. 5. Anlisis y seleccin de los tems; mediante la aplicacin de pruebas estadsticas se seleccionan los ajustados al momento de efectuar la discriminacin de la actitud en cuestin, rechazando aquellos que no cumplan con este requisito. 52

Despus de concluir la aplicacin del cuestionario, cada elemento se puede analizar por separado o, en algunos casos, las respuestas a cada elemento se suman para obtener una puntuacin total para un grupo de elementos. Por ello las escalas de tipo Likert son un tipo de escalas sumativas. Cada tem est estructurado con cinco o ms alternativas de respuesta. La unidad de anlisis que responde a la escala marcar su grado de aceptacin o rechazo hacia la proposicin expresada en el tem. Los tems por lo general tienen implcita una direccin positiva o negativa. Por ejemplo: Los menonitas son un grupo tnico con excelentes valores hacia el trabajo: ( ) Totalmente de acuerdo ( ) De acuerdo ( ) Indiferente ( ) En desacuerdo ( ) Totalmente en desacuerdo La escala de Likert es un mtodo de escala bipolar que mide tanto el grado positivo como negativo de cada enunciado. A veces se utilizan 4 niveles de respuesta; de esta forma se obliga a elegir un lado de la escala, ya que no existe la posibilidad de neutralidad. Las respuestas a los elementos se pueden sumar, teniendo en cuenta que todos los elementos midan el mismo concepto (p.ej., preferencias de consumo). Es recomendable realizar un anlisis estadstico de los tems con el propsito de ser selectivos. Entre las tcnicas de anlisis se encuentran la correlacin tem-escala por medio del coeficiente de correlacin de Pearson, el coeficiente gamma, el anlisis factorial, el anlisis discriminante, entre otros.

53

2.5 Definicin operacional En un estudio estadstico generalmente participan diferentes tipos de personas, lo que hace necesario establecer la definicin operacional para obtener la respuesta o interpretacin apropiada. En otras palabras, todas las personas que tengan inters en un estudio estadstico especfico, debern hablar el mismo lenguaje. Las personas que participan en un estudio estadstico, se pueden identificar como: responsable del estudio, colaboradores en el diseo, encuestador, encuestado, capturista, compilador y tomador de decisiones. Una definicin operacional proporciona un significado a un concepto o variable que puede comunicarse a otros individuos. Es algo que tiene el mismo significado ayer, hoy y maana para todos los individuos (Berenson & Levin, 1996: 18). En la definicin operacional se debe tener en cuenta que lo que se intenta es obtener la mayor informacin posible de la variable seleccionada, de modo que se capte su sentido y se adece al contexto, y para ello se deber hacer una cuidadosa revisin de la literatura disponible sobre el tema de investigacin. Por ejemplo, la definicin operacional de la variable productividad, podra ser la siguiente: cantidad de bienes producidos por un trabajador en una jornada laboral de ocho horas. En el ejemplo se pretende buscar una relacin entre motivacin y productividad, la definicin operacional de la variable productividad se circunscribe al trabajo realizado por un trabajador en determinado lapso de tiempo y con cierto tipo de incentivos, tales como salarios, premios, beneficios sociales, oportunidades de progreso, estabilidad en el cargo, aumento de sueldo y prolongacin de vacaciones. Si el objeto de estudio hubiese sido otro, por ejemplo, analizar la productividad en relacin con el uso de ciertos materiales o maquinarias, entonces la definicin operacional hubiese sido otra. El investigador, al formular la definicin operacional, debe considerar las condiciones contribuyentes, contingentes y alternativas al problema que trata. Una condicin contribuyente aumenta la posibilidad de que un fenmeno ocurra pero no lo 54

hace implcito o cierto, ya que por s misma no causa el fenmeno sino que es uno entre otros tantos factores que inciden en su ocurrencia. Las condiciones contingentes y alternativas que inciden en la medicin de una variable son ms proclives a ser analizadas en las investigaciones sociales. La operacionalizacin de las variables est estrechamente vinculada al tipo de tcnica o metodologa empleadas para la recoleccin de datos. stas deben ser compatibles con los objetivos de la investigacin, a la vez que responden al enfoque empleado, al tipo de investigacin que se realiza. Estas tcnicas, en lneas generales, pueden ser cualitativas o cuantitativas. Las tcnicas cuantitativas se emplean cuando el universo de estudio es amplio y la complejidad de las variables posibilita una aceptable desagregacin en niveles susceptibles de cuantificarse y ser analizados. En los estudios de tipo social, la encuesta es el instrumento de recoleccin de datos ms utilizado en las investigaciones cuantitativas. Por su parte, las tcnicas cualitativas son ms utilizadas en las investigaciones exploratorias, su flexibilidad permite la construccin de categoras en la bsqueda, anlisis e interpretacin de los datos obtenidos. Con esta tcnica, empleada por ejemplo en las entrevistas en profundidad, se produce una interaccin permanente entre la observacin y la reflexin, entre lo descriptivo y lo explicativo. Cuando nos encontramos con variables complejas, donde el pasaje de la definicin conceptual a su operacionalizacin requiere de instancias intermedias, entonces se puede hacer una distincin entre variables, dimensiones e indicadores. A modo de sntesis, puede afirmarse que el pasaje de la dimensin al indicador hace un recorrido de lo general a lo particular, del plano terico al plano de lo empricamente contrastable. Las dimensiones vendran a ser subvariables o variables con un nivel ms cercano al indicador. Para el caso de definir a la variable productividad, nos encontramos 55

con diferentes subdimensiones que forman parte de la variable, como ser: cantidad de produccin, costo de mano de obra, tiempo de produccin, maquinaria, materiales o energa consumida, desperdicios. Cada una de estas subvariables son las dimensiones de la variable productividad. A su vez, estas dimensiones, para poder ser contrastadas empricamente por el investigador, requieren operacionalizarse en indicadores, que no son otra cosa que parmetros que contribuyen a ubicar la situacin en la que se halla la problemtica a estudiar. En un sentido restringido, los indicadores son datos. Para la variable productividad, por ejemplo, en la dimensin mano de obra, los indicadores podran ser cantidad de productos envasados por un trabajador en ocho horas de trabajo. 2.6 Realizacin de encuestas Las encuestas es lo ms directo y rpido para obtener datos pero puede tener riesgos y lagunas. Dada una poblacin, se calcula la dimensin suficiente de una muestra y se genera procedimiento aleatorio, preferentemente con un equipo de cmputo, para determinar los individuos de la poblacin a los que se les aplicar el cuestionario. La clasificacin de los individuos de la poblacin debe tener la misma estructura numrica que el procedimiento aleatorio definido. Hay dos pasos esenciales, para la realizacin de una encuesta: a) el diseo de las preguntas y, b) el anlisis final para sacar conclusiones a un nivel de estadstica descriptiva. El diseo de las preguntas y anlisis de respuestas es el tratamiento de datos que se espera realizar, lo ms comn es exponer los datos en porcentajes y medidas comparativas al interior y exterior de la muestra. Es muy importante definir las relaciones existentes entre un grupo de variables en las que se suponen que algunas de

56

ellas (denominadas constructos)2 se miden a partir de otras variables observables denominadas indicadores. Los modelos utilizados constan, por lo tanto, de dos partes: a) un modelo estructural que especifica las relaciones de dependencia existente entre las constructos latentes y, b) un modelo de medida que especifica cmo los indicadores se relacionan con sus correspondientes constructos. Una definicin operacional de un constructo se refiere a las operaciones mediante las cuales un investigador determina la presencia, ausencia o magnitud de un fenmeno. Estas operaciones son mediciones o registros numricos, por ejemplo: si se quisiera medir la satisfaccin del cliente sera difcil determinarla recabando las respuestas de que s est o no satisfecho con tal o cual producto. Para ser ms aproximado al concepto de satisfaccin habr que preguntar si el producto cumpli con sus expectativas, si estuvo conforme con la atencin, con el precio, con los tiempos de entrega, con el sistema de venta, entre otros. La variable satisfaccin del cliente es una variable dependiente y el resto son variables independientes. En forma general, se puede expresar como: f(x)= {a, b, c, . z} Donde f(x) es la satisfaccin del cliente y a, b, c, son las variables que la determinan. Para la realizacin de una encuesta (y cualquier tipo de estudio estadstico), adems de la prctica administrativa inherente, se requiere seguir los siguientes pasos: Eleccin del tema de estudio: uso del tiempo libre de los estudiantes

Un constructo es, en trminos generales, una idea. Ms precisamente y segn el filsofo argentino Mario Bunge, Por constructo u objeto conceptual, entendemos una creacin mental. Distinguiremos cuatro clases bsicas de constructos: conceptos, proposiciones, contextos y teoras. En consecuencia, los conceptos, las hiptesis (que son proposiciones), las teoras y las clasificaciones cientficas son constructos.

57

Marco terico del tema: teoras en que se fundamenta el estudio y lo que se desea investigar, a travs de formular las preguntas de investigacin. Disear del instrumento de recoleccin de datos (cuestionario): preguntas numricas o categricas Definir el mbito de aplicacin: local Definicin del universo: Estudiantes de la UA Derecho y Ciencias Sociales Definir el tipo de muestreo: Probabilstico, no probabilstico. Definir el mtodo de aplicacin: personal, correo tradicional, telfono, en lnea. Obtencin y tratamiento de datos: digitalizacin y anlisis estadstico Elaboracin de informe: se refiere a la redaccin de lo que se encontr en la investigacin y comparacin de los parmetros que se conocen. Eleccin del tema Los temas para realizar estudios estadsticos son prcticamente infinitos. Depender del rea de inters del investigador. En el rea de negocios los estudios se disean para estimar los gustos y preferencias del consumidor, los precios de mercado, el mercado objetivo, la disponibilidad de recursos para adquirir el producto, las cantidades promedio de consumo, la impresin de la imagen de la empresa, la competencia, etc. Marco Terico de la investigacin En todo proceso de investigacin, un elemento que direcciona el camino a seguir en todo trabajo cientfico es el marco terico, ya que en base a ste se inicia, contina o hace que sta fracase, posteriormente al planteamiento del problema de

58

estudio (tema de estudio), es decir, que se han definido los objetivos que se pretenden lograr y las interrogantes que se quieren despejar con su realizacin, el siguiente paso consiste en sustentar tericamente el estudio. Este paso implica analizar y exponer aquellas teoras, enfoques tericos, investigaciones y antecedentes en general que se consideran vlidos para un correcto encuadre del estudio. A esta etapa se le denomina elaboracin del marco terico. El marco terico no solamente abarca la revisin de conceptos y/o teoras que apoyan una investigacin. Adems debe tomarse en cuenta el marco de referencia y el marco conceptual en el cual se circunscribe la investigacin a realizar. La observacin, descripcin y explicacin de la realidad a investigarse debe ubicar en la perspectiva de lineamientos de carcter terico. Esto exige del investigador la identificacin de un marco de referencia sustentado en el conocimiento cientfico; por ello, cada investigacin toma en cuenta el conocimiento previamente construido, por lo que al realizarla se apropia parcialmente de la estructura terica ya existente. A esta etapa se le denomina marco referencial que no es otra cosa que conocer, hasta donde sea posible, las investigaciones que se han efectuado sobre el tema. De stas, se puede obtener una visin completa de las formulaciones tericas sobre las cuales se ha de fundamentar el conocimiento cientfico propuesto en las fases de observacin, descripcin y explicacin. Por ejemplo, en el estudio del uso del tiempo libre, que se ha tomado como referencia, lo primero que se tiene que hacer es definir el concepto Tiempo libre que, segn algunos autores, es una situacin donde no existe obligacin de realizar una determinada tarea. En el tiempo libre, los individuos pueden realizar actividades que disfrutan, tales como satisfacer necesidades personales, como el descanso, la distraccin, diversin, el desarrollo personal, la distraccin. El derecho al tiempo libre, no es solo cuestin cuantitativa o temporal, tiene ms un sentido cualitativo, puesto que en l se modifica el estilo de vida del individuo y las

59

estructuras sociales de su entorno. En el tiempo libre se adoptan los principios y valores que se incorporan a la calidad de vida. El marco terico del uso de tiempo libre inicia con la distribucin terica del tiempo disponible. Se sabe que los mdicos recomiendan alrededor de 8 horas de sueo para que el organismo descanse y pueda recuperarse del desgaste cotidiano, esto quiere decir, en nmeros, que un tercio del da se debe dedicar al abandono total de cualquier actividad necesaria para el sostenimiento de la vida y la salud, como las econmicas y las que satisfacen las necesidades fisiolgicas. El segundo bloque en cantidad de tiempo consumido durante el da, es el Tiempo de Trabajo el cual en Mxico se limita, por ley a un mximo de 8 horas durante el horario diurno. Se entiende por trabajo a una actividad fsica o mental realizada por un individuo a cambio de un jornal o de un salario. Si bien el trabajo remunerado es la modalidad laboral ms claramente identificable, no es la nica, ya que existen otras formas no remuneradas y que exigen una considerable cuota de tiempo y de esfuerzo por parte del individuo que se dedica a ellas. Ejemplos de estas formas de trabajo no remunerado, son los estudios (jornada escolar), as como los trabajos realizados en el hogar para su funcionamiento y conservacin (jornada domstica). El tercer tipo es el tiempo social, que se consume en actividades tales como el transporte pblico o privado, en las charlas y reuniones con compaeros de trabajo o de estudios y que exigen cierta obligatoriedad. Asimismo, la asistencia a ciertos actos familiares, sociales, laborales, polticos o pblicos que comprometen la asistencia ineludible del individuo. Tambin los actos y ceremonias de ndole religiosa. Por cierto, es en este tiempo en cuando se produce la formacin de los grupos sociales ms permanentes, en los que surge la amistad y, en etapas ms profundas y avanzadas, las relaciones afectivas de pareja, que como en los casos anteriores, tambin exigen una responsabilidad y obligacin para con el grupo.

60

Por ltimo y como consecuencia de la ocupacin y la utilizacin de los otros tiempos para la satisfaccin de las necesidades econmicas y sociales, queda un residuo, un tiempo restante que queda liberado de toda obligacin: el tiempo libre. Diseo del cuestionario. El cuestionario es un instrumento considerado clsico en las ciencias sociales para la obtencin y registro de datos. Su versatilidad permite utilizarlo como instrumento de investigacin de las caractersticas de personas, procesos y programas. Es un instrumento de recoleccin de datos que puede abarcar aspectos cuantitativos y cualitativos, es decir, considerar las variables numricas y categricas. Su caracterstica singular radica en que para registrar la informacin solicitada a los mismos sujetos, sta tiene lugar de una forma menos profunda e impersonal, que el "cara a cara" de la entrevista. Al mismo tiempo, permite consultar a una parte representativa de la poblacin (muestra) de una manera rpida y econmica. Existe una relacin inversa entre la amplitud de un cuestionario y la tasa de respuesta, en consecuencia, cada pregunta deber de presentarse claramente, con el menor nmero de palabras. Las preguntas deben estar libres de ambigedades. Si fuera necesario evitar confusiones debido a la complejidad de las preguntas, deber de acompaarse de definiciones operacionales para obtener respuestas apropiadas. Es muy conveniente procurar que las respuestas sean en su mayora del tipo numricas o categricas, stas facilitan la codificacin. Las preguntas abiertas (aquellas donde el encuestado exponga su punto de vista) deben de clasificarse u ordenarse apropiadamente. Los datos que se pueden obtener con un cuestionario pertenecen a cuatro categoras: a) Hechos (datos actuales): datos personales del grupo social estudiado: por ejemplo, edad, nivel educativo; datos del ambiente que le rodea: por ejemplo, vivienda, relaciones familiares, de vecindad, de trabajo, etc. y datos de 61

su comportamiento con respecto al tema de estudio (compr, vendi, prob, fue, etc.). b) Opiniones, a las cuales se suman los niveles de informacin, de expectacin, todo lo que se podra llamar datos subjetivos. c) Actitudes y motivaciones, todo lo que empuja a la accin, al comportamiento, y sta a la base de las opiniones. d) Cogniciones, es decir ndices de nivel de conocimiento de los diversos temas estudiados en el cuestionario. Revela el grado de confianza a conceder a las opiniones sobre juicios subjetivos. Las preguntas del cuestionario, segn el modo de formularse, pueden ser cerradas y abiertas. Las cuestiones cerradas ofrecen al usuario que va a ser evaluado todas las alternativas posibles, o al menos todas aquellas que mejor responden a la situacin. El sujeto no tiene sino elegir alguna o algunas, poniendo una seal convenida: una cruz, rodear con un crculo, subrayar.... Suelen ser preguntas con la opcin afirmativa y negativa, y, a veces, no s/sin opinin. Ejemplo: Tiene en su domicilio acceso a Internet? S ( ) No ( ) En otras ocasiones las preguntas estn categorizadas. Al usuario se le da a elegir entre un abanico de opciones. Ejemplo: Cuntos habitantes tiene la ciudad donde vive?
Menos de 2.000. ( ) De 10.001 a 20.000 ( ) De 2.001 a 5.000 ( ) De 20.001 a 50.000 ( ) De 5.001 a 10.000 ( ) De 50.001 a 100.000 ( )

Las respuestas o categoras que se ofrezcan a este tipo de preguntas han de reunir dos condiciones esenciales: que sean exhaustivas y excluyentes. Las categoras o respuestas sern exhaustivas si abarcan todos los casos que pueden darse. En ese caso, ningn encuestado puede dejar de responder por no encontrar su categora. Y

62

sern excluyentes, cuando ningn sujeto al contestar al cuestionario, pueda elegir vlidamente dos respuestas distintas de la misma pregunta. Algunas preguntas se presentan bajo una escala cuantitativa, correspondiente al nmero de veces que se repite una accin determinada. En este caso es conveniente elegir un nmero par de opciones, cuatro o seis, con objeto de evitar que el encuestado pueda responder a la opcin central, sin esforzarse en reflexionar. As ocurre por ejemplo: En las clases tericas del curso de formacin que est haciendo, Toma apuntes o notas de lo que dice el expositor? Nunca ( ) Pocas veces ( ) Con frecuencia ( ) Siempre ( ) Por otro lado, las preguntas abiertas no ofrecen ninguna categora para elegir. Slo contienen la pregunta y no ofrecen ningn tipo de respuesta, dejando sta a la consideracin del sujeto que completa el cuestionario. Posibilidades y limitaciones de las cuestiones abiertas y cerradas. Las preguntas abiertas son ms fciles de formular, puesto que no hay que prever ningn tipo de respuesta ni investigar acerca de la exhaustividad y exclusin de las categoras propuestas. Sin embargo, la dificultad aparece a la hora de tratar la informacin recogida. Es muy difcil reducir contestaciones dispares a unas categoras significativas que permitan recoger la informacin ms relevante, con objeto de poderla cuantificar despus. Siguiendo con la idea de realizar un estudio sobre uso de tiempo libre, a continuacin se sealan algunos cuestionamientos, as como sus posibles respuestas. Actividades de tiempo libre que le gustan y que practica habitualmente: ir de copas; ir a discotecas, bailar; salir a reunirse con amigos; hacer deporte; asistir a competencias deportivas; ir de excursin; ir al cine; ir al teatro; ir a conciertos; escuchar msica; ir a museos, exposiciones; no hacer nada. Al final del captulo, a

63

manera de ejemplo se presenta el cuestionario para investigar el uso de tiempo libre de los estudiantes de la UADYCS. mbito de aplicacin. El mbito de aplicacin de la encuesta se refiere al espacio comprendido dentro de lmites geogrficos determinados. ste puede ser internacional, nacional, regional, local, institucional. Universo. El universo del estudio es el nmero total de individuos u objetos que tienen caractersticas observables comunes, en el mbito de aplicacin definido. Todos los mexicanos, si el mbito es la Repblica mexicana; Todos los tamaulipecos, si el mbito es el estado de Tamaulipas; todas las personas que viven en la colonia Obrera y que tienen entre 12 y 36 aos, si el estudio fuera de esa rea geogrfica. 2.7 Tipo de muestreo Un vez conocido el marco de estudio o listas actualizadas del universo y calculado el tamao apropiado de la muestra, se procede a definir los candidatos a proporcionar los datos. Existen bsicamente dos tipos de muestra: Probabilstica y no probabilstica. Muestreo probabilstico Una muestra probabilstica es aquella en que los sujetos de la muestra se eligen sobre la base de probabilidades. Hay cuatro tipos de muestras de probabilidad ms comunes: aleatoria simple, la muestra sistemtica, la muestra estratificada y, la muestra de agrupacin.

64

a) El muestreo aleatorio simple puede ser de dos tipos: 1. Sin reposicin de los elementos: cada elemento extrado se descarta para la subsiguiente extraccin. Por ejemplo, si se extrae una muestra de una "poblacin" de bombillas para estimar la vida media de las bombillas que la integran, no ser posible medir ms que una vez la bombilla seleccionada. Al descartar el elemento extrado, aumenta la probabilidad de extraccin de los subsiguientes. 2. Con reposicin de los elementos: las observaciones se realizan con reemplazo de los individuos, de forma que la poblacin es idntica en todas las extracciones. En poblaciones muy grandes, la probabilidad de repetir una extraccin es tan pequea que el muestreo puede considerarse sin reposicin aunque, realmente, no lo sea. Para realizar este tipo de muestreo, y en determinadas situaciones, es muy til la extraccin de nmeros aleatorios mediante equipo de cmputo, calculadoras o tablas construidas para ese propsito. b) Muestra sistemtica Se utiliza cuando el universo es de gran tamao o ha de extenderse en el tiempo. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). Luego hay que calcular una constante, que se denomina coeficiente de elevacin, k= N/n; donde N es el tamao del universo y n el tamao de la muestra. Determinar en qu fecha se producir la primera extraccin, para ello hay que elegir al azar un nmero entre 1 y k; de ah en adelante tomar uno de cada k intervalos regulares. Ocasionalmente, es conveniente tener en cuenta la periodicidad del fenmeno. Elegir aleatoriamente un nmero m, entre 1 y k; tomar como muestra los elementos de la lista: {em, em+k, em+2k, em+3k.em+(n-1)k}

65

Esto es lo que se denomina muestreo sistemtico. Cuando el criterio de ordenacin de los elementos en la lista es tal que los elementos ms parecidos tienden a estar ms cercanos, el muestreo sistemtico suele ser ms preciso que el aleatorio simple, ya que recorre la poblacin de un modo ms uniforme. Por otro lado, es a menudo menos probable de cometer errores con un muestreo sistemtico que con el aleatorio simple. c) Muestra estratificada. Consiste en la divisin previa de la poblacin de estudio en grupos o clases que se suponen homogneos respecto a la caracterstica a estudiar. A cada uno de estos estratos se le asignara una cuota que determinara el nmero de miembros del mismo que compondrn la muestra. Dentro de cada estrato el muestreo se realizara mediante el mtodo de muestra aleatoria simple. Segn la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos, existen dos tcnicas de muestreo estratificado: 1. Asignacin proporcional: El tamao de cada estrato en la muestra es proporcional a su tamao en la poblacin. 2. Asignacin ptima: la muestra recoger ms individuos de aquellos estratos que tengan ms variabilidad. Para ello es necesario un conocimiento previo de la poblacin. Por ejemplo, para un estudio de opinin, puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que, dentro de cada uno de estos grupos, puede haber cierta homogeneidad. As, si la poblacin est compuesta de un 55% de mujeres y un 45% de hombres, se tomara una muestra que contenga tambin esa misma proporcin. d) Muestra de agrupacin o conglomerado Cuando la poblacin se encuentra dividida, de manera natural, en grupos que se suponen que contienen toda la variabilidad de la poblacin, es decir, la representan

66

fielmente respecto a la caracterstica a elegir, pueden seleccionarse slo algunos de estos grupos o conglomerados para la realizacin del estudio. Dentro de los grupos seleccionados se ubicarn las unidades elementales, por ejemplo, las personas a encuestar, y podra aplicrsele el instrumento de medicin a todas las unidades, es decir, los miembros del grupo, o slo a algunos de ellos, seleccionados al azar. Este mtodo tiene la ventaja de simplificar la recogida de informacin muestral cuando, dentro de cada conglomerado, se extraen los individuos por el mtodo aleatorio simple, el muestreo se llama bietpico. Las ideas de estratificacin y conglomerados son opuestas. El primero funciona mejor cuanto ms homognea es la poblacin respecto del estrato, aunque ms diferentes son stos entre s. En el segundo, ocurre lo contrario. Los conglomerados deben presentar toda la variabilidad, aunque deben ser muy parecidos entre s. Muestreo no probabilstico El muestreo no probabilstico se realiza cuando la extraccin de la muestra y su tamao para ser representativa se valoran de forma subjetiva. Se basa en una buena estrategia y el buen juicio del investigador. Para muchos estudios slo se dispone de una muestra no probabilstica como una muestra de juicio, de cuota o de parte grande. Figura 2.8 Tipos de muestra
Tipo de muestra

Probabilstica

No Probabilstica

Aleatoria simple Sistemtica Estratificada Agrupacin

De juicio De cuota De parte grande

67

Tamao de la muestra Para que la encuesta pueda ser aplicada con alto grado de confiabilidad, la muestra, del universo debe de cumplir dos requisitos fundamentales: que sea representativa y que sea adecuada. Para que la muestra sea representativa, se requiere especificar una serie de caractersticas que determinan la pertenencia de sus miembros y al universo a que pertenecen. Mientras ms especficas sean sus caractersticas, ms fcil ser su estudio. Si se quisiera hacer un estudio de la vivienda en Cd. Victoria, para un estudio de mercado de muebles del hogar, se requiere ser ms especfico del tipo de vivienda (residencial, de inters social, autoconstruccin, ubicacin geogrfica, entre otras), las variables a obtener podran ser, segn el inters del estudio: nmero de cuartos, mediada de los mismos, usos, necesidades de muebles, nivel de ingreso de los habitantes, entre otras. La especificacin del universo o marco de estudio, reduce los esfuerzos y recursos requeridos para su realizacin. Adems de que la muestra debe cumplir el requisito de representatividad, tambin se requiere que sea adecuada, y lo es, cuando tiene la magnitud suficiente para que las caractersticas objeto del estudio (variables) sean confiables para inferir las caractersticas del universo. Para determinar la magnitud de la muestra existen dos formas, la primera es a travs de conocer el error estndar de la poblacin o por lo menos un error estimado. El error estndar mide la dispersin en torno a la media de una distribucin hipottica. Los valores que forman esta distribucin hipottica son las medidas de todas las posibles muestras de un universo. As pues, la media de esta distribucin es la media de las medias de todas las posibles muestras y se puede considerar como la media verdadera del universo (Goode y Hatt, 1975: 281). La frmula para calcular el tamao de la muestra se deriva de la frmula de estandarizacin:

68

X- Z = x x n
La diferencia entre la media de la muestra y la media de la poblacin se conoce como error de muestreo y se denota como Es. Por lo que la ecuacin queda como: Es = Z /n; despejando nos resulta que n = Z2( /Es)2 Donde Es representa al error estndar, Z es el valor crtico determinado, que corresponde a (1- )/2 del centro de una distribucin normal estandarizada., la desviacin estndar y n el tamao de la muestra. Lo que significa que si se conoce la desviacin estndar de la poblacin y el error estndar se puede conocer el tamao de la muestra. La otra forma de estimar el tamao de la muestra es cuando la distribucin binomial puede ser aproximada a la distribucin normal, esto es cuando np y n(1-p) adquieren un valor de cuanto menos 5.

ps - p p(1-p) n La diferencia entre la porcin de la muestra y la porcin de la poblacin ps - p se conoce como error de muestreo y se denota como e. Por lo que la ecuacin queda como: 2 p(1-p) p(1-p) Z n = e, despejando n se tiene que: n = Z e2
Z= Por ahora es suficiente saber que existe la manera de calcular el tamao de la muestra, la aplicacin prctica se realizar en temas posteriores. Mtodo de aplicacin del cuestionario

Existen bsicamente cuatro modos mediante el cual se realiza el trabajo de la aplicacin del cuestionario de una encuesta: la entrevista personal, la entrevista telefnica, la de correo tradicional y ltimamente a travs de Internet (correo electrnico o de pgina Web). Cada modo tiene ventajas y desventajas de aplicacin.

69

Tabla2.1 Caractersticas de los mtodos de aplicacin del cuestionario

Fuente: Shiffman & Kanuk: Consumer Behavior, 2002

Tratamiento de datos Una vez que se aplican los cuestionarios, se procede a digitalizarlos, considerando cada cuestionario como un registro. Un registro es un conjunto de campos que contienen los datos que pertenecen a una misma repeticin de entidad. La estructura implcita de un registro y el significado de los valores de sus campos exige que dicho registro sea entendido como una sucesin de datos, uno en cada columna de la tabla. Elaboracin de informe de resultados El informe es un documento, en el cual quedan plasmados una serie de procedimientos de obtencin de datos, clculos, resultados, grficas, anlisis y conclusiones, que permiten a otras personas conocer y entender sobre lo que se investig y a las conclusiones a que se han llegado. Todo informe tiene un carcter muy particular. Estar definido segn sus autores, el tipo de trabajo que se reporta y el tema estudiado. Sin embargo, existe un mnimo de apartados que debe contener: Cartula o portada de identificacin ndice de contenido

70

Introduccin o resumen Objetivos que se persiguen Marco Terico en que se fundamenta la investigacin Tratamiento estadstico de datos obtenidos (medidas resumen) Resultados obtenidos (comparacin con la teora) Conclusiones y recomendaciones 2.8 Uso de una tabla de nmeros aleatorios Una tabla de nmeros aleatorios consiste en generar una serie de dgitos aleatorios y ordenarlo en el orden que se generaron en filas y columnas. La tabla de dgitos se utiliza en lugar de utilizar un nfora con cdigos de identificacin de cada uno de los miembros de la poblacin. Para usarla es necesario primero asignar un nmero de cdigo a cada elemento de la poblacin; el elemento escogido como parte de la muestra ser aquel que coincida con los datos encontrados en la tabla. Para encontrar el primer dgito de la tabla, se escoge al azar una casilla y se comienza a agregar un nmero de dgitos igual a los que se utilizaron para definir los elementos de la poblacin. Tabla 2.2 500 nmeros generados aleatoriamente
07100 90373 24960 26488 33661 13259 23749 25534 24894 15189 07100 90373 24960 26488 33661 13259 23749 25534 24894 15189 83910 56611 78253 72888 97998 10168 10017 21426 71997 07445 83910 56611 78253 72888 97998 10168 10017 21426 71997 07445 21710 61976 99909 65107 35231 64810 29109 48093 21129 12329 21710 61976 99909 65107 35231 64810 29109 48093 21129 12329 24202 52068 18888 40414 52187 35963 53734 31101 57979 85458 24202 52068 18888 40414 52187 35963 53734 31101 57979 85458 91421 85578 76917 29831 40572 63702 39652 57484 11609 14730 91421 85578 76917 29831 40572 63702 39652 57484 11609 14730 64858 79534 71939 43688 06496 76212 99004 58751 24902 27438 64858 79534 71939 43688 06496 76212 99004 58751 24902 27438 25927 27277 84748 76738 98954 31559 47986 06848 21507 60155 25927 27277 84748 76738 98954 31559 47986 06848 21507 60155 26152 15619 46603 96551 83952 72504 97556 74224 44859 08726 26152 15619 46603 96551 83952 72504 97556 74224 44859 08726 46286 55571 39459 48329 59223 61955 58590 22680 32722 33059 46286 55571 39459 48329 59223 61955 58590 22680 32722 33059 25868 27581 83049 25989 87956 80005 30420 78024 35990 10565 25868 27581 83049 25989 87956 80005 30420 78024 35990 10565

71

Por ejemplo, si la poblacin es de 1,000 elementos, cada uno de ellos se identifica con un nmero de tres dgitos. Suponiendo que se escogi al azar la casilla de la columna 5 de la segunda fila, el primer nmero formado por cuatro dgitos ser 979, y los subsiguientes sern: 981, 016, 810, 017, 214, 267, 199, 707, 445, .., los nmeros de identificacin de los 1,000 elementos estaran entre el 000 y el 999. Al terminarse la tabla, se contina con el inicio de sta, Si se llegara a repetir un nmero, este se descarta y se contina formando los necesarios. 2.9 Errores comunes en la aplicacin de una encuesta Al momento de recopilar los datos que sern procesados es susceptible de cometer errores, as como durante el cmputo de los mismos. An y cuando la definicin de la muestra utilice el muestreo probabilstico, sta est expuesta a errores de aplicacin. Existen cuatro tipos de errores ms comunes: de cobertura o sesgo, de no respuesta, de muestreo y de medicin. Error de cobertura consiste en la exclusin de ciertos grupos de la poblacin. Para evitar este tipo de error es necesario contar con un marco apropiado de la poblacin o una lista actualizada de todos los sujetos de donde se extraer la muestra. Error de no-respuesta o sesgo de no-respuesta resulta del fracaso de recolectar datos sobre el total de los sujetos de la muestra. Error de Muestreo refleja la variedad o las diferencias de oportunidad de muestra a muestra basndose en la probabilidad de los sujetos que estn siendo seleccionados en las muestras particulares. El error de muestreo puede reducirse tomando tamaos de muestra mayores, aunque esto incrementar el costo de aplicacin. Error de Medicin se refiere a inexactitudes en las respuestas registradas que ocurren debido a una mala formulacin de las preguntas, al influjo del encuestador sobre el encuestado o a las exageraciones o minimizaciones que hace el encuestado.

72

Si la muestra se selecciona correctamente, tendr bsicamente las mismas propiedades que la poblacin de la cual fue extrada; pero si el muestreo se realiza incorrectamente, entonces puede suceder que los resultados no signifiquen nada. Recuerde el acrnimo GIGO. Existen dos maneras de resolver los problemas derivados de los errores de aplicacin: (1) analizando cuidadosamente los datos y tratar de recolectar los datos ms confiables de aquellos individuos cuyas respuestas son inusuales y (2) realizar una nueva muestra aleatoria que sustituya las que se descartaron. Existen otros errores que no tienen nada que ver con la digitalizacin y que no son tan fcilmente identificables. Algunos de estos errores son: Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema, y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilacin y en el anlisis de la informacin. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinin que a aquellos que la contradicen. Un caso extremo de sesgo sera la situacin donde primero se toma una decisin y despus se utiliza el anlisis estadstico para justificar la decisin ya tomada. Datos no comparables: el establecer comparaciones es una de las partes ms importantes del anlisis estadstico, pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables. Proyeccin descuidada de tendencias: la proyeccin simplista de tendencias pasadas hacia el futuro es uno de los errores que ms ha desacreditado el uso del anlisis estadstico.

73

2.10 Resumen. En forma general, existen dos tipos de estudios estadsticos: estudios enumerativos y estudios analticos. Ambos sirven para la toma de decisiones, los primeros sobre las caractersticas de una poblacin y los segundos sobre las caractersticas de un proceso. El captulo trat tambin sobre la recoleccin y presentacin de datos para un estudio estadstico. Lo primero que se defini fue que existen dos tipos de variable: categrica y numrica, a su vez, las variables categricas se pueden medir en una escala nominal u ordinal, mientras que las variables numricas se miden en una escala cardinal (de intervalo o de relacin). La medicin cardinal o escalar son de tipo discreto o continuo. Una vez que se define el tipo de variables (datos) que se requieren para realizar el estudio estadstico, es necesario identificar la fuente que los proporcione. Existen cuatro fuentes para obtener los datos: uso de datos publicados, diseo de experimento, por observacin y realizacin de encuesta. En la realizacin de estudios socio-demogrficos, la forma ms directa y rpida de obtener los datos es a travs de la realizacin de una encuesta, entendiendo a esta como un conjunto de preguntas normalizadas dirigidas a una muestra representativa de poblacin o instituciones, con el fin de conocer estados de opinin o hechos especficos. Para la realizacin de la encuesta se requiere definir o conocer el mbito de estudio, el universo de estudio y definicin de la muestra. Para definir la muestra se utiliza el mtodo no probabilstico y probabilstico, sea cualquiera de los dos mtodos, la definicin de la muestra tiene riesgo de errores, los ms comunes son: error de cobertura o sesgo de seleccin, error de no respuesta o sesgo de no respuesta, error de muestreo y error de medicin.

74

2.11 Trminos clave Datos Datos continuos Datos discretos Definicin operacional Encuesta Error de cobertura Error de medicin Error de muestreo Error de no respuesta Est. de Experimentacin Estudio analtico Estudio de Observacin Estudio enumerativo Fuente primaria Fuente secundaria GIGO 2.12 Problemas de repaso del captulo. 1. Para cada inciso siguiente, indique si el estudio es enumerativo o analtico, argumente la eleccin. a) La universidad requiere conocer el nmero de estudiantes inscritos en clases con horario anterior a las 9:00 hs. b) Una empresa desea reducir el nmero de errores en el clculo de pago de horas extras. c) La Universidad desea determinar si la asistencia total de alumnos inscritos en clases que comienzan antes de las 9:00 horas aumenta o disminuye con relacin al tipo de materia impartida a esas horas. Medicin cardinal Medicin de intervalo Medicin de relacin Medicin nominal Medicin ordinal Muestra adecuada Muestra de agrupacin Muestra estratificada Muestra sistemtica Muestreo con reemplazo Muestreo no probabilstico Muestreo probabilstico Muestreo sin reemplazo Nmeros aleatorios Variable categrica Variable numrica

75

d) La UADYCFHG desea determinar las razones de los estudiantes por las cuales ha aumentado la cantidad de inscritos en la carrera de Negocios Internacionales. e) Una empresa desea realizar un estudio sobre cmo reducir el nmero de errores en la facturacin. f) Una empresa desea saber el nivel de ingresos de sus clientes g) Una empresa desea saber si el sistema de produccin ha reducido el nmero de piezas defectuosa con las mejoras de proceso instrumentadas. h) Una empresa desea conocer el nivel de precios de mercado de los productos que comercializa. i) Una empresa desea saber las caractersticas de preferencia de marca en pasta dental. j) La UAT desea conocer las intenciones de ingreso a la Universidad de los estudiantes de preparatoria. 2. Cul es la diferencia entre una un estudio estadstico enumerativo y un estudio estadstico analtico? 3. Cul es la diferencia entre una variable aleatoria numrica y una categrica? 4. Cul es la diferencia entre un dato discreto y dato continuo? 5. Cules son los niveles de medicin? 6. Qu significa una definicin operacional? 7. Cul es la diferencia entre una muestra probabilstica y una no probabilstica? 8. Cuntos tipos de muestreo probabilstico existen? 9. Cul es la diferencia entre un muestreo simple con reemplazo y un muestreo simple sin reemplazo? 10. Qu tipo de errores ms comunes se presentan en la definicin de la muestra? 76

11. Qu se requiere realizar para editar los datos en una hoja de clculo electrnica o en un paquete estadstico? 12. Determine en cada uno de los incisos si la variable es categrica o numrica. Si es numrica determine si es discreta o continua. a) Nmero de credencial de estudiante b) Tipo de automvil de la VW. c) Cargo mensual, en pesos y centavos, del recibo de consumo de energa elctrica. d) Lugar en que llegaron los corredores en la carrera universitaria. e) Nivel de categora de la planta docente. f) Especialidad acadmica de los catedrticos. g) Disponibilidad de efectivo para actividades de recreacin. h) Ingresos mensuales de los catedrticos. 13. Suponga que requiere editar la siguiente informacin estadstica de los estudiantes de la UADYCFHG despus de la segunda semana de clases, seale el tipo de variable y el nivel y la escala de medicin que le corresponde. a. b. c. d. e. f. g. h. i. j. Matrcula Edad Gnero Estado civil Lugar de origen antes de ingresar a la Universidad Situacin laboral (empleado, desempleado, autoempleo) Dependencia econmica familiar (autnomo, paternal, otro) Nmero de miembros de la familia Ingresos familiares Perodo de estudio (semestre que impera)

77

k. Carrera que estudia l. Turno acadmico m. Nmero de materias que cursa en el perodo actual n. Consideras importante contar con libros de texto? o. Cantidad de dinero gastada en adquirir libros p. Nmero de libros de textos con que cuenta (uno por materia) q. Dispone de computadora personal r. Nmero de horas de uso diario de computadora s. Nmero de horas de uso diario de Internet t. Gasto mensual en uso de Internet (conexin o uso de chat) 14. Elabore un cuestionario de aplicacin en la UADYCS sobre un tema que sea de su inters, como ausentismo, tabaquismo, alcoholismo, deportivismo, aprovechamiento escolar, mtodos de enseanza, etc.

78

2.13 Mapa conceptual de los estudios estadsticos.

Enumerativos

Analticos

Mtodo estadstico Fuente de datos


Secundaria
Gobierno Industria Instancias especializadas

Eleccin del tema Diseo de cuestionario mbito de aplicacin Definicin del universo

nominal Categricos ordinal

Numricos

Cardinal (de intervalo de relacin): discretos -continuos

Primaria

Experimentacin Observacin Encuesta

Definicin de tipo de muestreo Preparacin de datos Mtodo de aplicaacin

79

80

Captulo 3

Organizacin y presentacin grfica de datos numricos **********************


Objetivo del Captulo
Mostrar como organizar y presentar en tablas y diagramas los datos numricos

81

82

3.1 Introduccin En los apartados anteriores se ha visto la importancia de aplicacin del mtodo estadstico y la importancia de contar con datos de origen, confiables y suficientes, a travs del muestreo. Puesto que el muestreo ahorra tiempo, dinero y esfuerzo, se reitera la conveniencia de utilizar la muestra de datos para la realizacin de estudios estadsticos, sean enumerativos o analticos (de proceso). Sin importar si los datos corresponden a una muestra o a una poblacin, cuando estos son en una cantidad mayor de 10, la mejor manera de interpretar sus valores es por medio de un resumen y una representacin grfica. Este apartado se trata sobre la presentacin de datos. En particular se mostrar cmo grandes series de datos numricos pueden presentarse de una manera que facilite su anlisis. Las observaciones independientes pueden registrarse en una forma ordenada o diagrama de tallo de hojas y luego presentarse en forma tabular, como la distribucin de frecuencias o en forma grfica como histograma, polgono de frecuencias o diagrama de Pareto. Al trmino del captulo, el alumno podr comprender: 1. La digitalizacin de datos 2. Presentar los datos en forma resumida, ordenada e interpretativa. 3. La ventaja de construir el diagrama de Tallo y hojas.

83

4. La utilidad de agrupar los datos en clases. 5. Construir los diferentes tablas y diagramas de datos: histograma, polgono de frecuencias o diagrama de Pareto. 3.2 Tabla de datos originales sin orden y ordenados Cuando se recolecta una serie de datos, habitualmente se hace sin ningn orden, es decir se capturan tal y como le llegan al capturista. Posterior a la captura, el analista arreglar los datos de acuerdo a sus necesidades. Generalmente la captura de datos de una encuesta corresponde a un conjunto de registro que contienen, cada uno de ellos, los datos que pertenecen a una misma entidad. Se le asigna automticamente un nmero consecutivo (nmero de registro) que en ocasiones es usado como ndice, aunque lo normal y prctico es asignarle a cada registro un campo clave nominal para su bsqueda. En estadstica, y concretamente en el contexto de una base de datos, un registro representa un tem nico de datos implcitamente estructurados en una tabla (caractersticas de los objetos o sujetos en estudio). En trminos simples, una tabla de una base de datos puede imaginarse formada de filas y columnas o campos. Cada fila de una tabla representa un conjunto de datos relacionados, y todas las filas de la misma tabla tienen la misma estructura. La estructura implcita de un registro y el significado de los valores de sus campos exige que dicho registro sea entendido como una sucesin de datos, uno en cada columna de la tabla. La fila se interpreta entonces como una variable relacional compuesta por un conjunto de secuencias ordenadas, cada una de las cuales consta de dos tems: el nombre de la columna relevante (dato) y el valor que esta fila provee para dicha columna. Supongamos que una empresa est interesada en estudiar las caractersticas del parque vehicular que circul en los Estados Unidos en el ao de 1970. Para ello recopil las caractersticas de los 30 automviles ms vendidos en ese ao. Las variables a estudiar son: rendimiento de millas por galn (mpg); centmetros cbi-

84

cos del motor (engine); caballos de fuerza (horse); peso en libras (weight), tiempo de aceleracin de 0 a 60 millas/hora (accel), ao de fabricacin (year); origen de fabricacin (origin) y nmero de cilindros del motor (cylinder). Los datos obtenidos sin ordenar se presentan en la tabla 3.1 Tabla 3.1 Hoja de captura de registros sin ordenar

En este ejemplo lo que se trata de mostrar es que en un solo registro existen diversas variables relacionadas y que es difcil realizar cualquier anlisis en el orden con

85

que se capturaron los datos. Un primer anlisis estadstico se podra realizar al ordenar los datos en forma ascendente o descendente, es decir de menor a mayor o de mayor a menor. En la tabla 3.2 se puede observar el cambio de posicin de los registros tomando en consideracin el orden de los valores ascendentes de la variable mpg. Tabla 3.2 Hoja de registros ordenada por una variable de inters

En este primer intento de anlisis estadstico podemos observar los valores mnimos y mximos de la variable mpg. Tambin se puede observar la relacin directa 86

o inversa que existe entre las variables. Por ejemplo, se puede observar que a mayor rendimiento, menor tamao del motor, menor fuerza en caballos y menor peso en libras. Es importante sealar que cuando el nmero de registros es ms grande y sobrepasa ms de una hoja de clculo, este procedimiento es poco til. Mientras mayor sea el nmero de observaciones registradas ms difcil es sacar provecho a la clasificacin ordenada. En tales situaciones es til agrupar los datos en un diagrama de tallo y hojas, con el fin de estudiar las caractersticas de los datos. 3.3 Diagrama de tallo y hojas Un diagrama de tallo y hojas separa el valor de los datos en un dgito gua y un dgito gregario, los dos asociados representan el valor del dato. El diagrama de tallo y hojas se puede construir desde la tabla de datos sin ordenar o desde la tabla de datos ordenada. Dependiendo del grado de exactitud que requiere el estudio estadstico, las cifras de los valores, siguiendo la metodologa tradicional, es conveniente trabajar con dos o tres dgitos. Por ejemplo 2,356 libras se puede representar por 2.4 miles de libras; 50.726 toneladas por 51 toneladas. Usando los datos sin ordenar de la tabla 3.1 se construye fcilmente el diagrama de tallo y hojas. Observe que el primer registro tiene el dato de 18, el segundo de 15, el tercero de 18 Registrando todos los valores de la variable mpg sera:
Tallo & hojas 1 85867544454687545548 2 1421765453 El valor del tallo es:10 Cada hoja: 1 caso(s) Nmero de casos: 30

Figura 3.1 Millas por galn Diagrama de tallo y hojas del rendimiento de los automviles sin ordenar (mpg). Fuente: tabla 3.1

87

Colocando los dgitos en forma ascendente de acuerdo a la tabla 3.2, el diagrama arreglado quedara de la siguiente forma:
Tallo & hojas 1 44444455555566778888 2 1124455667 El valor del tallo es:10 Cada hoja: 1 caso(s) Nmero de casos: 30

Figura 3.2 Millas por galn Diagrama de tallo y hojas del rendimiento de los automviles (mpg) ordenada Fuente: tabla 3.2

Tal vez el valor de los datos est muy concentrado y sea conveniente incrementar el nmero de tallos. Aqu lo que procede es dividir cada valor de tallo en valores bajos (0 a 4) y valores altos (5 a 9)

Figura 3.3 Millas por galn Diagrama de tallo y hojas del rendimiento de los automviles (mpg) ordenada y ampliando en nmero de tallos. Fuente: tabla 3.2

3.4 Tabulacin de datos numricos: distribucin de frecuencia Utilizando los datos originales es posible construir tablas y diagramas que faciliten el anlisis estadstico, as, una tabla de mucha utilidad es la tabla de distribucin de frecuencias, en ella se disponen los datos en forma agrupada por categoras, ordenadas en forma ascendente o descendente. Para construir una tabla de frecuencias debe ponerse atencin a 3 conceptos fundamentales:

88

1. Seleccionar el nmero de agrupamientos, o clases. 2. Obtener un intervalo de clase de cada agrupamiento y 3. Establecer los lmites de cada intervalo de clase En forma general, dependiendo el nmero de observaciones, el nmero de clases de intervalo no debe de ser menor de 5 y mayor de 15, ambos extremos dificultan la interpretacin. Cada clase o intervalo tendr una amplitud igual. Una manera para determinar la amplitud de cada agrupamiento o intervalo de clase, es aplicando la relacin del rango y el nmero de intervalos deseado. Considerando los datos de la tabla 3.2, se observa que el rango de la variable mpg es 27-14 = 13. Si se quisiera 6 tipos de clase, los valores de cada clase seran de 13/6= 2.16. Para conveniencia y facilidad de lectura, el intervalo de clase seleccionado se redondea a 2 mpg. Los lmites de los diversos agrupamientos deben de establecerse de manera que incluyan todas las observaciones. As, el primer intervalo de clase se establece desde mayor de 12 hasta menor o igual que 14, el segundo desde mayor de 14 hasta menor o igual que 16 etc. Estableciendo los lmites de cada clase, de esta manera las 30 observaciones se han registrado en 8 clases, como se puede observar en la tabla 3.3 de distribucin de frecuencia y porcentaje de la muestra. Tabla 3.3 Distribucin de frecuencias y porcentaje de la muestra
Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 porcentaje 20.00 26.66 20.00 0.00 10.00 6.66 13.33 3.33

89

La principal ventaja de utilizar la tabla de distribucin de frecuencias es que visualmente se pueden detectar algunas caractersticas de la muestra, tales como el alcance aproximado de las observaciones, que va desde 12 hasta 28 mpg, tendiendo a agruparse en los valores de 12 a 18 mpg. El hecho de agrupar los valores observados en clase, implica transformar una variable de cardinal (de cociente o de intervalo) en una variable categrica ordinal de orden dbil que no se identifica los valores individuales dentro de un intervalo. Para atenuar un poco esta desventaja, se acostumbra a utilizar el punto medio. El punto medio de una clase (o marca de clase) es punto de la mitad de los lmites de cada clase y es representativo del valor de la clase. La tabla de distribucin de frecuencias sirve para dibujar tres importantes diagramas: el histograma o diagrama de distribucin de frecuencias, el polgono de frecuencias y el diagrama de Pareto. 3.5 Histograma o diagrama de distribucin de frecuencias El histograma es una grfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersin. El histograma permite que de un vistazo se pueda tener una idea objetiva sobre la calidad de un producto, el desempeo de un proceso o el impacto de una accin de mejora. La correcta utilizacin del histograma permite tomar decisiones no solo con base en la concentracin de valores, sino tambin con base en la dispersin y formas especiales de comportamiento de los datos. El histograma se construye a partir de la tabla de distribucin de frecuencias. Para evitar posibles anormalidades en la construccin del histograma se procede seguir las siguientes instrucciones: a. Determinar el rango de datos. La diferencia entre el dato mximo y el dato mnimo.

90

b. Obtener el nmero de clases o barras y la longitud de clase. Se puede utilizar los definidos en la tabla de frecuencias. c. Construir los intervalos de clase con relacin al paso anterior. d. Obtener la frecuencia de cada clase. Se cuentan los datos que caen en cada intervalo de clase. e. Graficar el histograma: se grafican en barras, en las que su base es el intervalo de clase y la altura sean las frecuencias de las clases. La grafica de frecuencias del ejemplo del rendimiento de los automviles (mpg), se observa en la figura 3.4 Figura 3.4 Histograma o grfica de distribucin de frecuencias
8

26.66%

20%
6

20%

Frecuencia

13.33%
4

10% 6.66%
2

3.33% 0%
0 12 14 16 18 20 22 24 26 28

Millas por galn

Fuente: Tabla 3.3

Polgono de frecuencias Otro grfico utilizado para el anlisis de datos es el polgono de frecuencias, el cual se forma con la unin lineal de los puntos medios de cada clase. Dado que la unin de los puntos medios es a travs de rectas, el polgono se muestra a veces en forma dentada. Sin embargo mientras mayor sea el nmero de observaciones y los intervalos de clase reducidos, este efecto tiende a suavizarse.

91

Figura 3.5 Polgono de frecuencias


8

26.66%

20%

20%

Frecuencia

13.33% 10%

6.66% 3.33%

0 12 14 16 18 20 22 24 26 28

Millas por galn

Fuente: Tabla 3.3

Tabla y polgono de porcentaje acumulado Estas herramientas de anlisis de datos son de considerable importancia, porque nos sealan cmo se concentran los valores de las observaciones. En el caso del ejemplo, se puede observar que las primeras tres clases concentran 20 observaciones, que en conjunto representan el 66.66%. Para construir la tabla de frecuencia y porcentaje acumulado se parte de la tabla 3.3 de distribucin de frecuencias y porcentajes y se realiza el agregado de cada clase hasta la ltima, que terminar con el nmero total de observaciones y el 100% acumulado. Tabla 3.4 Distribucin de frecuencias y porcentaje acumulado
Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 Frecuencia Porcentaje acumulada porcentaje acumulado 6 20.00 20.00 14 26.66 46.66 20 20.00 66.66 20 0.00 66.66 23 10.00 76.66 25 6.66 83.33 29 13.33 96.67 30 3.33 100.00

92

El polgono de porcentajes acumulados, figura 3.6, se construye a partir de los clculos de la tabla 3.4, donde en el eje horizontal se registran los puntos medios del intervalo de clase y en el eje vertical se registran las frecuencias o porcentajes acumulados partiendo de cero. Figura 3.6 Polgono de frecuencias y porcentajes acumulados
100%
100%

96.67% 83.33% 76.66% 66.66%

80%

60%

Frecuencia

40%

46.66%

20%

20%

0 12 14 16 18 20 22 24 26 28

Millas por galn

Fuente: tabla 3.4

3.8 Diagrama de Pareto El diagrama de Pareto u 80-20, se construye ordenando en una tabla de frecuencias desde la clase que mayor nmero de observaciones tenga hasta la de menor. El diagrama permite llevar a cabo el principio de Pareto (pocos vitales, muchos triviales) es decir, que hay muchos problemas sin importancia frente a unos pocos graves. Hay que tener en cuenta que tanto la distribucin de los efectos como sus posibles causas no son de carcter lineal sino que el 20% de las causas totales hace que sean originadas el 80% de lo efectos.

93

Tabla 3.5 Distribucin de frecuencias y porcentaje acumulado de mayor a menor frecuencia.


Clase 14<x<=16 12<x<=14 16<x<=18 24<x<=26 20<x<=22 22<x<=24 26<x<=28 18<x<=20 Frecuencia 8 6 6 4 3 2 1 0 porcentaje 26.66 20.00 20.00 13.33 10.00 6.66 3.33 0.00 porcentaje acumulado 26.66 46.66 66.66 79.99 89.99 96.65 99.99 99.99

Siguiendo con el mismo ejemplo, y derivado de la tabla 3.5 se puede elaborar el muy til diagrama de Pareto. Figura 3.7 diagrama de Pareto
100% 100%

100%

96.65% 89.99% 79.99%

80%

66.66%
60%

Frecuencia

40%

46.66%

20%

26.66%

0 14-16 12-14 16-18 24-26 20-22 22-24 26-28 18-20

Millas por galn

94

3.9 Resumen El captulo trat sobre el resumen de datos y representacin grfica de los mismos. Al aplicar estadstica a un problema cientfico, industrial o social, se comienza con un proceso o una poblacin a ser estudiada. Esta puede ser una poblacin de personas en un pas, de granos cristalizados en una roca o de bienes manufacturados por una fbrica en particular durante un periodo dado. Tambin podra ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo. Por razones prcticas, en lugar de compilar datos de una poblacin entera, usualmente se estudia un subconjunto seleccionado de la poblacin, llamado muestra. Los datos acerca de la muestra son recogidos por observacin o por experimento, como se pudo observar en el captulo anterior. Los datos obtenidos ahora son agrupados por categoras. Los datos numricos, dentro de un rango creado por la diferencia longitudinal de los valores mnimo y mximo de la muestra, se agrupan por clases de intervalo iguales. Con el fin de que no se traslapen los intervalos de clase, se definen lmites inferiores y superiores en cada intervalo de clase. Una vez decidido, en base al rango de la muestra, en nmero de clases y el tamao de intervalo, se procede a realizar las tablas y diagramas de frecuencias simples o acumuladas. 3.10 Trminos clave Datos sin ordenar Clasificacin ordenada Diagrama de tallo y hojas Rango Clase, lmite de clase Intervalo de clase Tabla de distribucin de frecuencias Diagramas de distribucin de frecuencias: histograma, Polgono de frecuencias, Diagrama de Pareto.

95

3.11 Problemas de repaso del captulo 1. Explique la diferencia entre la tabla datos sin ordenar y ordenados 2. Cundo es ms til utilizar el diagrama de tallo y hojas que una tabla de datos ordenada? 3. Explique la diferencia entre histograma de frecuencia, polgono de frecuencia y polgono de frecuencia acumulado. 4. Cul es ventaja principal de uso del diagrama de Pareto. 5. Los datos de la siguiente tabla son los sueldos de una muestra aleatoria de 100 empleados con licenciatura en Negocios Internacionales egresados entre el ao 2000 y 2005.
24,300 24,750 22,950 25,050 25,950 31,650 24,150 72,500 68,750 16,200 82,500 54,000 26,400 33,900 24,150 29,250 27,600 22,950 34,800 51,000 22,500 48,000 55,000 53,125 21,900 78,125 46,000 45,250 56,550 41,100 23,550 35,100 23,250 29,250 30,750 22,350 30,000 30,750 34,800 60,000 57,000 30,300 38,850 36,150 40,200 28,350 21,750 110,625 21,450 27,750 24,000 42,000 21,900 35,100 16,950 92,000 45,000 27,300 21,150 81,250 32,100 40,800 31,050 31,350 36,000 46,000 60,375 29,100 21,900 103,750 32,550 31,350 27,900 42,300 135,000 36,000 24,000 26,250 31,200 19,200 35,550 45,150 73,750 25,050 27,000 26,850 33,900 26,400 28,050 30,900 20,100 24,000 25,950 24,600 28,500 30,750 40,200 30,000 22,050 78,250

a) Reduzca los datos a 2 dgitos y elabore un diagrama de tallo y hojas sin ordenar y ordenado. b) Forme una tabla de distribucin de frecuencias (simple y acumulada) y de porcentaje (simple y acumulada) c) Elabore el histograma, el polgono de frecuencias y el diagrama de Pareto.

96

3.12 Mapa conceptual de organizacin y presentacin de datos numricos.

Digitalizacin de datos (captura)


Orden ascendente Diagrama Tallo y hojas o descendente Histograma Tabulacin de datos Polgono de frecuencias Diagrama de Pareto

97

98

Captulo 4

Caractersticas de distribucin de datos numricos **********************


Objetivo del Captulo
Comprender las caractersticas de los datos numricos representativas de la poblacin o de la muestra: tendencia central, variacin, forma) y sus mediciones descriptivas de resumen

99

4.1 Introduccin Como se ha visto en los temas anteriores, la fase previa a cualquier estudio estadstico es la recoleccin, organizacin y presentacin de los datos. Los instrumentos auxiliares para realizar esta tarea son bsicamente las tablas de la base de datos, el diagrama tallo y hojas, las tablas y diagramas de distribucin de frecuencias relativas y acumuladas. De aqu en adelante los temas a desarrollar estarn enfocados a la elaboracin de un resumen, descripcin de las caractersticas de la distribucin y la interpretacin de datos. La concentracin de datos numricos de una variable de una poblacin o muestra aleatoria da lugar a tres principales clases de medidas del fenmeno en estudio: medidas de posicin, medidas de dispersin y medidas de deformacin. Es necesario recordar que las caractersticas numricas de la muestra se les denomina estadsticos y las caractersticas de la poblacin parmetros Al trmino del captulo, el alumno deber ser capaz de: 1. Comprender el significado de la concentracin de los datos numricos a travs de las medidas de posicin, medidas de dispersin y medidas de deformacin. 2. Apreciar el valor de las tcnicas de anlisis de datos: los cinco puntos, la grfica de caja y sesgo. 100

4.2 Medidas de Posicin de tendencia central Las medidas de posicin son unos estadsticos que nos sintetizan la informacin sobre los datos que analizamos, facilitando su manejo. En lugar de trabajar con toda la tabla de frecuencias, las medidas de posicin resumen los valores significativos del conjunto de datos. El trmino promedio se utiliza comnmente para describir el valor de la parte central de una distribucin. Sin embargo, existen cinco diferentes medidas de tendencia central que pueden tener diferente valor unas de otras, depender del grado de concentracin de los datos la que tenga mayor peso. Las cinco medidas de posicin de tendencia central son: la media, la mediana, la moda, el rango medio y el eje medio. La media aritmtica La media aritmtica, conocida tambin como media, es el promedio o medicin de tendencia central ms utilizada. Se calcula sumando todos los valores de las observaciones divididas entre el nmero de observaciones. Por lo tanto, una muestra que contiene n observaciones X1, X2, X3, .Xn, la

x se puede calcular sumando todos los valores de X y dividiendo tambin se pueentre el total de observaciones: x = ( X1 + X2 + X3 + .Xn )/n, de expresar mediante la frmula: x = Xi
media aritmtica
n
i=1

En donde: n = tamao de la muestra o nmero de observaciones. Xi = diferentes valores que toma la variable aleatoria de la muestra. x = media o valor promedio de la variable de inters de la muestra. Si la distribucin de valores en grandes y pequeos de la muestra fueran equivalentes, la media aritmtica es un valor representativo de la muestra; pero si hubiera

101

muchos valores pequeos y pocos grandes, viceversa, el valor de la media aritmtica no sera muy representativo. Cuando existen valores extremos significativos la media aritmtica trasmite una representacin distorsionada de los datos; as pues, la media no sera el mejor promedio para describir las caractersticas de la muestra. Para entender esta posible distorsin, a continuacin se presentan dos pequeas muestras con la misma media pero caractersticas completamente distintas. Suponga que, dentro de la misma base de datos se tomaron aleatoriamente dos pequeas muestras de 6 observaciones cada una, la media en ambas es igual, sin embargo tienen diferentes caractersticas. Tabla 4.1 Distribucin de frecuencias de los valores de la variable mpg de dos muestras aleatorias de 6 elementos c/u

Xi de A
16 17 18 18 21 22 112

Xi de B
14 15 17 18 22 26 112

Considerando la frmula para calcular la media, la suma del valor de las observaciones entre el nmero de observaciones, es decir, x = 112/6 = 18.66 para ambas, sin embargo la diferencia de caractersticas se observa en los siguientes grficos, denominados Escala de puntos. Fig. 4.2 Distribucin de los valores de la muestra A

14

16

18

20

22

24

26

102

Fig. 4.3 Distribucin de los valores de la muestra B

14

16

18

20

22

24

26

De hecho los datos de la muestra A son bastante parecidos y se agrupan alrededor de la media de la muestra, en este caso, la media es la medida descriptiva promedio apropiada. Por otro lado, los datos de la muestra B estn muy dispersos y alejados de la media, por lo que sta no es representativa de las caractersticas de la muestra. El significado de dispersin se estudiar ms adelante. La mediana La mediana es el valor que corresponde a la observacin que se encuentra en la mitad del + forma ascendente o descendente; en seguida, se localiza el punto de posicin medio y el valor de ese punto corresponde al valor de la mediana. Si el nmero de observaciones es impar, la localizacin del punto medio se determina utilizando la frmula: (n + 1)/2. Si el nmero de observaciones es par, el punto de posicin se encuentra entre las dos observaciones medias de la clasificacin ordenada. El valor de la mediana corresponde al valor promedio de estas dos observaciones. Muestra de tamao impar. Suponga que en la muestra A del ejemplo anterior, en lugar de seis observaciones se realizaron cinco, con los siguientes valores: 16 1 17 2 18 3 21 4 22 5

Aplicando la frmula (n + 1)/2 = 3; lo que significa que la mediana se localiza en la observacin nmero 3 y tiene un valor de 18. 103

Muestra de tamao par. Para el ejemplo de la muestra B, aplicando la frmula (n + 1)/2, la mediana se localiza en (6 + 1 )/2 = 3.5, es decir entre las observaciones 3 y 4. El valor de la mediana es igual al promedio de las dos observaciones, (17 + 18)/2 = 17.5 14 1 La moda La moda es el valor de las observaciones que aparecen con ms frecuencia. Se obtiene fcilmente de una clasificacin ordenada. La moda no se ve afectada por la ocurrencia de valores extremos, sin embargo slo se utiliza para propsitos descriptivos dado que es el valor ms variable de una serie de muestras, que otras mediciones de tendencia central. En el caso de la muestra A la moda es 18, es el nico valor que se repite. En el caso de la muestra B no hay moda ya que ningn valor se repite. El rango medio El rango medio es una medida de posicin de tendencia central que se obtiene al promediar los valores extremos de las observaciones, es decir la de menor y la de mayor valor. Rango medio = (Xmenor+Xmayor)/2 Para el caso de la muestra A 16 1 17 2 18 3 21 4 22 5 15 2 17 3 . 18 . 4 22 5 26 6

Rango medio A (16 + 22)/2 = 19 Para el caso de la muestra B 14 1 15 2 17 3 18 4 22 5 26 6

104

Rango medio B (14 + 26)/2= 20 En el ejercicio anterior, el rango medio de la muestra A es igual a (16 + 22)/2 = 19, dado que los valores de la muestra A son muy homogneos y cercanos al valor de la media, el valor del rango medio est muy prximo al valor de la media. En el caso de la muestra B el rango medio es igual a (14 + 26)/2 = 20. El rango medio se ve afectado significativamente por la existencia de valores muy extremos dado que slo se consideran stos. Eje medio Una medida de tendencia central que no se ve afectada por los valores extremos es el eje medio. Para conocer el valor del eje medio, primero es necesario localizar las posiciones de los valores del 1er cuartil y 3er cuartil, stos se localizan al trmino de contar el 25% y el 75% del nmero de observaciones, respectivamente. El eje medio se obtiene de promediar esos dos valores. Para identificar los valores de los cuartiles se utilizan las siguientes frmulas: Cuartil 1 = Q1 = valor correspondiente a la posicin 1/4(n + 1) de las observaciones ordenadas. Cuartil 3 = Q2 = valor correspondiente a la posicin 3/4(n + 1) de las observaciones ordenadas. Para estimar el valor de las observaciones del 1er y 3er cuartil, se toma el valor ms prximo a la posicin calculada, si sta se encuentra en el punto medio de dos observaciones, se toma el valor promedio. Las siguientes grficas, tomando los datos de la muestra B tratarn de facilitar el entendimiento del clculo del valor del eje medio. Q1 = valor correspondiente a la posicin 1/4(6 + 1) de las observaciones ordenadas, igual a 1.75, el valor ms prximo a la posicin 1.75 es 15.

105

Q3 = valor correspondiente a la posicin 3/4(6 + 1) de las observaciones ordenadas, igual a 5.25, el valor ms prximo a la posicin 5.25 es 22. 14 1 15 . 2 17 3 18 4 22 5 . 26 6

Nmero de observaciones = 6 Eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5 Como se puede observar, los valores extremos (14) y (26) no afectan al clculo del valor del eje medio. 4.3 Medidas de dispersin: varianza y desviacin estndar. Otra de las caractersticas de la distribucin de las observaciones es que tanto se acercan o se alejan del valor de la media, como se observ en los ejemplos de las medidas de posicin de las muestras A y B, pueden tener la misma tendencia central pero diferir en trminos de variacin. Los valores de la muestra A son mucho menos variables que los de la muestra B. Existen cinco mediciones de variacin: el rango, el rango intercuartil, la varianza, la desviacin estndar y el coeficiente de variacin. El rango (alcance) El rango es la medida de variacin ms fcil de calcular de un conjunto de datos ordenados. El rango es recorrido que existe entre la observacin de mayor valor y la de menor valor. Rango = Xmayor Xmenor Usando los datos de la muestra B 14 15 17 18 22 26

106

El rango es 26 -14 = 12 mpg El rango mide la variacin total de las observaciones, se sabe que cualquier valor de la muestra tendr un valor dentro de ese rango. Aunque es una medicin simple y fcil clculo, el rango no consigue describir realmente el grado de variacin entre el valor menor y el mayor. El rango intercuartil El rango intercuartil es una medida de variacin entre los valores de las observaciones que se encuentran al final del 25% y 75% del nmero de las observaciones. Es decir la diferencia de valor entre el 3er cuartil y el 1er cuartil. Siguiendo con la misma muestra de datos B. La manera de calcularlo es igual a: Rango intercuartil = Q3-Q1 14 15 1 . 2 Nmero de observaciones = 6 Q1 = valor correspondiente a la posicin (6 + 1)/4 de las observaciones ordenadas, igual a 1.75, el valor ms prximo a la posicin 1.75 es 15. Q3 = valor correspondiente a la posicin 3(6 + 1)/4 de las observaciones ordenadas, igual a 5.25, el valor ms prximo a la posicin 5.25 es 22. El rango intercuartil es 22-15 = 7 Esta medicin considera la dispersin entre los valores extremos que se encuentran en la parte media de la muestra, por lo tanto, no se ve influenciada por los valores extremos. El rango intercuartil abarca el 50% de las observaciones ms cercanas a la media. 17 3 18 4 22 5 . 26 6

107

La varianza y la desviacin estndar Las mediciones de rango y rango intercuartil, aunque son muy fciles de calcular y entender su significado no son suficientemente descriptivos ya que no consideran la mayor parte de las observaciones, slo consideran dos valores en cada caso. La varianza y la desviacin estndar son medidas que s consideran al total de los valores de las observaciones. La varianza de la muestra o varianza muestral es muy aproximada al promedio de las diferencias de las observaciones con respecto a la media al cuadrado. As, para la muestra que tiene n observaciones, X1, X2, X3,. Xn, la varianza muestral, S2, puede calcularse como: S2 = [(X1 - x )2 + (X2 - x )2 + (X3 - x )2.+ (Xn - x )2]/n-1 Utilizando la notacin matemtica de sumatoria de las diferencias de las observaciones con respecto a la media, se puede expresar de la siguiente forma: S2 = Donde x = a la media aritmtica; n = el tamao de la muestra Xi = valores iterativos de la variable X El clculo de la varianza se hace del promedio de las diferencias al cuadrado ya que, en una distribucin de tendencia central, la sumatoria de las diferencias lineales se hacen cero o un mnimo, mientras que las diferencias al cuadrado son agregativas. Para ver la diferencia, nuevamente se tomar el conjunto de datos de la muestra B que se ha venido utilizando. 14 1 15 . 2 17 3 18 4 22 5 . 26 6

108

Utilizando el cuasi promedio de diferencias lineales de la muestra B con una media x = 18.66 mpg [(14 - x ) + (15 - x ) + (17 - x ) + (18 - x ) + (22 - x ) + (26 - x )]/ n-1 = [(1418.66) + (15-18.66) + (17 8.66) + (1818.66) + (22 18.66)+(2618.66)]/ 5 = [-10.64 + 10.68] = 0.04/5 = 0.008casi cero Mientras que utilizando el casi promedio de las diferencias al cuadrado se obtiene: S2 = [(14 - x )2 +(15 - x ) 2 + (17 - x )2 +(18 - x ) 2 +(22 - x )2 +(26 - x )2]/ n-1 S2=[(1418.66)2+(15-18.66)2+(178.66)2+(1818.66)2+(22-18.66)2+(2618.66)2]/ 5 S2 = [(-4.66) 2 + (-3.66) 2 + (-1.66) 2 + (-0.66) 2 + (3.34) 2 + 7.34)2 ]/ 5 = S2 = [21.72+13.40+2.76+0.44+11.16+53.88]/5 = 103.3/5 = 20.66 Otra manera de apreciar la diferencia de clculo es a travs de la siguiente tabla: Tabla 4.2 suma de diferencias del valor de las observaciones con respecto a la media. (simples y elevadas al cuadrado)

Xi
14 15 17 18 22 26

X
-18.66 -18.66 -18.66 -18.66 -18.66 -18.66

(Xi-X)
-4.66 -3.66 -1.66 -0.66 3.34 7.34 0
109

(Xi-X)2
21.72 13.40 2.76 0.44 11.16 53.88 103.33

La desviacin estndar de la muestra simplemente se calcula sacando la raz cuadrada de la varianza, cuyo smbolo es s. Puesto que los clculos de la varianza se realizaron elevando al cuadrado las diferencias, sta no podr ser nunca negativa. Mientras que la varianza es casi el promedio de las diferencias cuadradas del valor de las observaciones con respecto a la media, la desviacin estndar es casi el promedio de los valores absolutos de las diferencias de las observaciones con respecto a la media. La varianza y la desviacin estndar miden la dispersin promedio que existe entre el valor de la media y el valor de las observaciones. La varianza es til para ciertos procesamientos de datos, sin embargo, su clculo da como resultado unidades cuadradas: metros cuadrados, kilogramos cuadrados, pesos cuadrados, etc. unidades poco prcticas en el anlisis de datos. La desviacin estndar, dado que su clculo arroja unidades lineales, es la medida de dispersin de mayor utilidad,: metros, kilos, pesos, que son las unidades de medida originales de las observaciones.

S= En la muestra B, con una varianza de 20.66 mpg2, tiene una raz cuadrada de 5.54 mpg, que es igual a la desviacin estndar, lo que significa que el total de las observaciones distan en promedio 5.54 mpg del valor de la media. Esto nos dice que el valor promedio de las observaciones menores se sitan a -5.54 unidades del valor de la media y que el valor promedio de los valores mayores se sita a +5.54 unidades. Si la media tiene un valor de 18.66 mpg; el promedio de los valores menores se sita en (18.66 5.54) =13.12 mpg y el valor promedio de los valores mayores en (18.66 + 5.54) = 24.2 mpg.

110

Coeficiente de variacin El coeficiente de variacin, a diferencia de las anteriores medidas de dispersin, es una medida relativa y describe la relacin del valor del promedio de las desviaciones con respecto a la media, es decir la desviacin estndar entre la media: Coeficiente de variacin = CV = S/ x Regresando a los datos de la muestra B tenemos que: Coeficiente de variacin = CV = 5 .5 4 = .2968

1 8 .6 6

Lo que significa que los valores mayores o menores de la media se desvan aproximadamente un 30% del valor de la media. Interpretacin de las medidas de dispersin Las medidas de dispersin: el rango, el rango intercuartil, la varianza y la desviacin estndar miden el grado de esparcimiento de las observaciones entre ellas y con relacin a un valor central, la media. Mientras ms propagados o dispersos estn los valores, mayor ser el valor de las medidas de dispersin. Mientras ms homogneos sean los valores, menor sern estas mediadas. Si todos los valores de las observaciones fueran iguales, todas las medidas de dispersin seran iguales a cero. 4.4 Anlisis de 5 puntos y grfica de caja de sesgo Despus de conocer las principales propiedades de distribucin de un conjunto de datos numricos: tendencia central, forma y medidas de variacin, es posible, para darnos una idea rpida de la forma de distribucin, realizar un resumen de estas caractersticas a travs de una grfica que considere a dos medidas de tendencia central (la mediana y el rango medio) y dos medidas de variacin (el rango y el rango intercuartil) Xmenor Q1 mediana Q3 Xmayor

111

Para los datos de la muestra B 14 Xmenor 15 = 14; 17 Xmayor = 26 18 22 26

Q1 = al valor de la posicin de (n+1)/4= (6+1)/2 = 1.75 casi 2; el valor que corresponde a casi 2 es 15, por lo tanto Q1= 15 Q3 = al valor de la posicin de 3(n+1)/4= 3(6+1)/4 = 5.25 corresponde a casi 5 es 22, por lo tanto Q3= 22 casi 5; el valor que

Mediana = al valor que se localiza a la mitad de las observaciones = (n+1)/2 = (6+1)/2 = 3.5, por lo tanto, el valor que le corresponde es 17.5, es decir el promedio del valor de las observaciones con valor 17 y 18

14

16

18

20

22

24

26

Se puede observar el sesgo hacia la derecha, es decir, la media es mayor que la mediana, lo que significa que el mayor peso de las observaciones se encuentra a la derecha. Figura 4.4 distribuciones examinadas a travs de la grfica de caja y sesgo

Mmediana = media

Mmediana

Mmedia

media

Mediana

Distribucin equilibrada

Distribucin sesgada a la derecha

Distribucin sesgada a la izquierda

112

Cuando los valores de las observaciones estn claramente sesgadas a la derecha o a la izquierda, como se observa en la figura anterior, las longitudes de los sesgos pueden variar significativamente y no es posible que la mediana se localice al centro de la caja. En la distribucin equilibrada, el nmero y peso de los valores menores y mayores son iguales. En la distribucin sesgada a la derecha, lo que significa es que el mayor nmero de observaciones se encuentran agrupadas en el extremo inferior; el 75% de las observaciones se encuentran entre el extremo menor y el final de la caja (3er cuartil). En la distribucin sesgada a la izquierda, lo que significa es que el mayor nmero de observaciones se encuentran agrupadas en el extremo superior; el 75% de las observaciones se encuentran entre el inicio de la caja (1er cuartil) y el extremo superior. 4.5 Medidas de deformacin Una vez iniciado el anlisis estadstico de resumen de la informacin, para lo cual hemos estudiado las medidas de posicin y dispersin de la distribucin de una variable, necesitamos conocer ms sobre el comportamiento de la distribucin de la misma. No podemos basar nuestras conclusiones nicamente en expresiones que vengan dadas en trminos de medidas de posicin y dispersin. Si bien intentamos generalizar el comportamiento del colectivo que sea objeto de nuestro estudio, para lo cual las medidas de posicin son nuestro mejor instrumento, no debemos proceder a una interpretacin que implique un comportamiento colectivo uniforme, constante e igual a la medida de posicin en cuestin con un error dado por la correspondiente medida de dispersin. Cualquier conjunto de datos tienden a distribuirse de una forma simtrica o asimtrica con respecto a la media. Cuando las observaciones se distribuyen en forma simtrica, significa que el nmero de observaciones menores es igual al nmero de

113

observaciones mayores y la suma de las diferencias de los valores con respecto a la media es igual a cero, (Xi- x ) = 0

Otra caracterstica es que la media y la mediana son iguales. La simetra perfecta es una condicin terica difcil de observar en la realidad. Lo comn es que estas observaciones tiendan a acumularse ms a un lado del centro de recorrido, sea a la izquierda o a la derecha. Para describir la simetra de distribucin de los valores de las observaciones, slo basta comparar la media y la mediana. Si son iguales, prcticamente se considera una distribucin simtrica o normal; si la media excede a la mediana, los datos pueden describirse como de sesgo positivo o sesgada a la derecha; cuando la media es excedida por la mediana, los datos estn generalmente sesgados a la izquierda o sesgo negativo. Esto es: Media = Mediana: simetra o de sesgo cero Media > mediana: sesgo positivo o derecho Media < mediana: sesgo negativo o izquierdo Figura 4.3 Formas de distribucin

Mmediana = media

Mmediana

Mmedia

Mmedia

Mediana

La asimetra es ms ostensible al analizar la representacin grfica de la distribucin, sin embargo, las medidas de forma de una distribucin se basan en su representacin grfica, sin llegar a realizar la misma. Las medidas de forma se clasifican en medidas de asimetra y medidas de curtosis o apuntamiento.

114

Medidas de asimetra ms comunes. Las medidas de asimetra tienen como finalidad el elaborar un indicador que permita establecer el grado de simetra (o asimetra) que presenta una distribucin, sin necesidad de llevar a cabo su representacin grfica. Coeficiente de asimetra de Fisher: ahora se intenta buscar una medida que recoja la simetra o asimetra de una distribucin. Si la distribucin es simtrica, el eje de simetra de su representacin grafica ser una recta paralela al eje de ordenadas, que pasa por el punto cuya abscisa es la media aritmtica. Por ello, cuando la distribucin es asimtrica, referiremos los valores de la distribucin a este promedio. Si una distribucin es simtrica, existe el mismo nmero de valores a la derecha que a la izquierda de la media

, y por tanto el mismo nmero de desviaciones

con signo positivo que con signo negativo, siendo la suma de desviaciones positivas igual a la suma de las negativas. Podemos partir, de las desviaciones (X i - x ) elevadas a una potencia impar para no perder los signos de las desviaciones. Lo ms sencillo sera tomar como medida de asimetra el promedio de estas desviaciones, elevadas a la potencia impar ms simple (que es tres), es decir, tomaramos como medida de asimetra el momento de orden tres centrado en la media. Pero, de hacer esto, esta medida vendra expresada en las mismas unidades que las de la variable elevadas al cubo, por lo que no es invariante ante un cambio de escala. Para conseguir un indicador adimensional, debemos dividir la expresin anterior por una cantidad que venga en sus mismas unidades de medida. Esta cantidad es el cubo de la desviacin estndar, obtenindose as el coeficiente de asimetra de R. A. Fisher, cuya expresin es:

115

Si g1 =0 la distribucin es simtrica, Si g1 >0 la distribucin es asimtrica positiva (a derecha), y Si g1 < 0 la distribucin es asimtrica negativa (a izquierda). Tabla 4.3 Momentos m1, m2 y m3: (Xi- x ), (Xi- x )2, (Xi- x )3
Xi ni

Xi-

(Xi- x )2

(Xi- x )3 (Xi- x )2*ni (Xi- x )3*ni

De la frmula: (1/30 * 1690.66)/(1/30 * 567.37)2/3 = 56.35/82.25 = 0.6851 La distribucin es asimtrica a la derecha, es decir, existe mayor nmero de datos a la izquierda. Coeficiente de asimetra de Pearson: Karl Pearson propuso para distribuciones campaniformes, unimodales y moderadamente asimtricas el coeficiente definido como Ap = ( x - Mo) /, donde Mo es la moda.

116

Como en una distribucin campaniforme simtrica x = Mo = Me, si la distribucin es asimtrica positiva o a derechas,

se desplaza a la derecha de la moda, y por

tanto, x - Mo > 0. En el caso de distribucin asimtrica negativa la media se sita por debajo de Mo, por lo que el valor x - Mo < 0. La desviacin estndar que aparece en el denominador no modifica el signo de la diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia. As tendremos que si Ap = 0 la distribucin es simtrica, si Ap > 0 la distribucin es asimtrica positiva y si Ap < 0 la distribucin es asimtrica negativa. Coeficiente de asimetra de Bowley: Est basado en la posicin de los cuartiles y la mediana, y viene dado por la expresin Ab = (Q3 + Q1 - 2Me)/(Q3 + Q1). Se cumple que si Ab = 0 la distribucin es simtrica, si Ab > 0 la distribucin es asimtrica positiva y si Ab < 0 la distribucin es asimtrica negativa. Q3 y Q1 son los cuartiles tres y uno respetivamente. Coeficiente Curtosis o de apuntamiento El coeficiente curtosis define la distribucin de frecuencias en la zona central de la misma. La mayor o menor concentracin de frecuencias alrededor de la media y en la zona central de la distribucin dar lugar a una distribucin ms o menos apuntada. Por esta razn a las medidas de curtosis se les llama tambin de apuntamiento o concentracin central. En la distribucin normal se verifica que m4 = 34 siendo m el momento de orden 4 respecto a la media y la desviacin estndar. Si consideramos la expresin g2= (m4/4) - 3, su valor ser cero para la distribucin normal. Por ello, como coeficiente de apuntamiento o curtosis se utiliza la expresin:

117

Del ejemplo anterior: Tabla 4.4 Momentos m1, m2 y m4: (Xi- x ), (Xi- x )2, (Xi- x )4
Xi ni

Xi-

(Xi- x )2

(Xi- x )4

(Xi- x )2*ni

(Xi- x )4*ni

De la frmula: [(1/30 * 21,082.58)/ (1/30 * 567.37)2]-3 = -1.03 Tomando la normal como referencia, diremos que una distribucin puede ser ms apuntada que la normal (es decir, leptocrtica) o menos apuntada (es decir, platicrtica). A la distribucin normal, desde el punto de vista de la curtosis, se le llama mesocrtica.

118

Una distribucin es: mesocrtica (apuntamiento igual al de la normal) cuando g2 = 0, leptocrtica (apuntamiento mayor que el de la normal) si g2 > 0, platicrtica (apuntamiento menor que el de la normal) si g2 < 0. 4.6 Clculo de mediciones descriptivas de la poblacin Para explicar el clculo e interpretacin de las medidas descriptivas de posicin de tendencia central, forma y dispersin, se han calculado los estadsticos de los datos de una muestra: A y B. Si se quisiera hacer un estudio descriptivo con mayor exactitud, sera a travs del clculo de los parmetros de la poblacin. La media de la poblacin, con smbolo , se calcula con la frmula:

=
Donde N = tamao de la poblacin Xi = diferentes valores que toma la variable aleatoria de la poblacin. f = frecuencia o repeticin de valores de cada Xi. La moda, el rango medio y el eje medio de la poblacin se calculan igual como se explic en los apartados anteriores. La varianza y la desviacin estndar de la poblacin se simboliza con la letra griega 2 y respectivamente. Se calcula mediante la frmula:

119

2 =

(X i- ) i= 1 N

=
y

(X i - ) i= 1 N

El coeficiente de variacin, seala el grado de dispersin relativa entre la desviacin estndar y el valor de la media Cv = (/) Con los datos de la tabla 3.2, sin agrupar, se obtiene la siguiente tabla de distribucin de frecuencias de la poblacin de 30 vehculos ms vendidos en 1970: Tabla 4.5 Distribucin de frecuencias de los valores de la variable mpg

Aplicando las frmulas tenemos los siguientes resultados: Media:

, = 553/30 = 18.43 mpg.

Mediana: punto de posicin = (N +1)/2 = (30 +1)/2 = 15.5 El valor de la mediana, se toma del valor promedio de las posiciones 15 y 16 de la tabla 4.3, que corresponde a los valores de 17 y 17. El promedio de los dos valores es igual a 17.

120

Moda: el valor que ms aparece en las observaciones es el 15 mpg. Rango medio: rango medio = (Xmenor + Xmayor)/2 = (14 + 27)/2 = 20.5 Q1: punto de posicin 1/4(N +1) = 1/4(30 +1)/4 = 7.75, es decir, la posicin 8, cuyo valor es igual a 15 mpg. Q3: punto de posicin 3/4(N +1) = 3/4(30 +1) = 23.25, es decir, la posicin 23 cuyo valor es igual a 22 mpg. Eje medio: eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5 Rango (alcance): rango = Xmayor Xmenor = 27 14 = 13 Alcance intercuartil; Q3-Q1 = 22 -15 = 7 Varianza: 2 =
(X i - ) i= 1 N
n 2

= [(14 18.43)2 + (15 18.43)2 + (16 18.43)2 + ...(27


n 2

18.43)2 ]/30 = 19.56

Desviacin estndar:

(X i - ) i= 1 N

= 4.42

Coeficiente de variacin: / = 4.42/18.43 = 23.98 Resumen de cinco puntos y caja y sesgo: Xmenor Q1 14 15 mediana 17 Q3 22 Xmayor 27

14

16

18

20

22

24

26 27

Entre los valores de rendimiento mpg de los 30 automviles ms vendidos en el ao 1970, dado que la media excede a la mediana, 18.43 vs 17, se puede considerar

121

como sesgada a la derecha. Conclusin similar se obtiene de observar la grfica de caja y sesgo. Tabla 4.4 Comparacin de medidas de la muestra B y de la poblacin.
Medicin muestral (n= 6) poblacin (N= 30)

Media Mediana Moda Xmenor Xmayor Rango medio Eje medio Rango (alcance) Rango intercuartil Varianza Desviacin estndar Coef. de variacin Forma

18.66 17.5 no 14 26 20 18.5 12 7 20.66 5.54 29.68 sesgo der.

18.43 17 14 y 15 14 27 20.5 18.5 13 7 19.56 4.42 23.98 sesgo der.

Se observa que los valores de medicin descriptivos de la muestra y de la poblacin son bastante similares an y cuando la muestra es muy pequea. En la prctica, es raro realizar estudios con muestras tan pequeas, aqu lo que se trat es de hacer un ejercicio que facilitara el entendimiento de la Estadstica descriptiva. Clculo de mediciones descriptivas de datos agrupados. Cuando en la realizacin del estudio estadstico se utiliza fuente secundaria de datos, es decir revistas, censos, peridico o publicaciones especializadas, generalmente no se dispone de datos originales. La mayora de las veces lo que se obtiene de las fuentes secundarias son las caractersticas de agrupados o estratificados. En esta

122

situacin, donde los datos originales no estn disponibles, las medidas descriptivas pueden estimarse de una manera aproximada. Aunque existen diversas frmulas para calcular las diferentes medidas de tendencia central y de variacin cuando se dispone de datos agrupados, dado que son aproximaciones, es ms fcil para su estimacin utilizar los diagramas de frecuencias relativas y acumuladas para su clculo. A manera de ejercicio, se supone que slo se cuenta con los datos agrupados de la tabla 3.4. Tabla 4.5 distribucin de frecuencia de datos agrupados
Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 Frecuencia Porcentaje acumulada porcentaje acumulado 6 20.00 20.00 14 26.66 46.66 20 20.00 66.66 20 0.00 66.66 23 10.00 76.66 25 6.66 83.33 29 13.33 96.67 30 3.33 100.00

Figura 4.5 Polgono de porcentajes


30

25

20

26.66% 20%

20%

15

Porcentaje

10

10%

13.33%

6.66% 3.33%

0 12 14 16 18 20 22 24 26 28

123

Fig. 4.6 Polgono de porcentajes acumulado


100%

100% 96.67% 83.33% 76.66% 66.66%

90% 80% 70% 60%

Porcentaje

50% 40% 30% 20%

46.66%

20%

0 12 Q1 14 Xmenor 16 Me 18 20 Q2 22 24 26 Xmayor 28

Millas por galn

Utilizando visualmente la figura 4.6, diagrama de porcentaje acumulado, fcilmente se puede estimar el valor de la mediana, sta se localiza aproximadamente trazando una lnea horizontal del 50% del eje vertical (porcentaje) hasta que cruce la curva de porcentaje acumulado, de ah se traza una lnea vertical hasta el eje horizontal de los valores de la variable millas por galn. Aproximadamente el valor de la mediana es 15.5 mpg. De la misma forma se puede aproximar el valor del primer cuartil y del tercer cuartil; Q1 = 13.2 y Q3 = 20.5 de stos valores se calcula el rango intercuartil aproximado a 5.5. El rango se calcula con los valores promedio de la primera clase y de la ltima, es decir 13 y 27 mpg, utilizando la frmula rango = Xmayor Xmenor resulta 27 13 = 14 Desafortunadamente la media, la varianza, la desviacin estndar y el coeficiente de variacin no pueden calcularse una vez que los datos se han agrupado, sin embargo en algunas situaciones pueden realizarse aproximaciones tiles. Si los datos fueran perfectamente simtricos, la media es igual a la mediana, al rango medio y al eje medio; si fueran aproximadamente simtricos, la mejor aproximacin sera un promedio de las tres. La desviacin estndar podra aproximarse como el promedio entre un sexto del rango y tres cuartos del rango intercuartil. Siguiendo con 124

el mismo ejemplo, se tiene que la mediana es igual a 15.5; el rango medio es igual a (Xmenor + Xmayor )/2 = (27 +13)/2 = 20; y el eje medio es igual a (Q1 + Q3) = (13.2 + 20.5)/2 = 16.85; el promedio de estas tres medidas centrales es de (15.5 + 20 + 16.85)/3 = 17.45 La desviacin estndar aproximada sera de (rango/6 + 3 rango intercuartil/4)/2 = (14/6 + 3*7/4) = 3.79; varianza (3.79)2 = 14.36 La tabla 4.6 presenta una comparacin entre el resumen de las medidas descriptivas reales obtenidas de los datos sin procesar, aplicando las frmulas explicadas en los captulos 3 y 4 y las medidas aproximadas de los datos agrupados obtenidas a travs de distribucin de frecuencias y distribucin de frecuencias acumulada. Tabla 4.6 Comparacin de medidas descriptivas de la variable mpg de la poblacin (clculo exacto) y datos agrupados.
Medicin datos poblacin datos agrupados 17.45 15.5 no 13 27 20 16.85 14 7 14.36 3.79 21.71 sesgo der.

Media 18.43 Mediana 17 Moda 15 Xmenor 14 Xmayor 27 Rango medio 20.5 Eje medio 18.5 Rango (alcance) 13 Rango intercuartil 7 Varianza 19.56 Desviacin estndar 4.42 Coef. de variacin 23.98 Forma sesgo der.

125

4.7 Uso de la desviacin estndar. Existen muchas variables asociadas a fenmenos naturales que se distribuyen en forma equilibrada, con respecto a la media. En forma general, basados en los modelos matemticos de Gauss y Bienaym & Chebyshev, se estima que dos de cada tres observaciones se encuentran a una distancia de 1 desviacin estndar de la media (es decir el 67% del total de las observaciones y aproximadamente el 95% de las observaciones estn contenidas en una distancia de 2 desviaciones estndar alrededor de la media. A mediados del siglo XIX, en forma separada, los matemticos Bienaym y Chebyshev encontraron, que sin importar cmo se distribuye una serie de datos de una variable aleatoria, la probabilidad de que las observaciones estn distanciadas de su media en ms de k veces la desviacin tpica, es menor o igual que 1/k2, por lo que, la agrupacin alrededor de la media est dado por la ecuacin (1 - 1/k2), para datos de cualquier distribucin, se tiene que; Al menos [1 (1/22)] *100% = 75.0% de las observaciones estn contenidas dentro de una distancia 2 desviaciones estndar alrededor de la media. Al menos [1 (1/32)] *100% = 88.89% de las observaciones estn contenidas dentro de una distancia 3 desviaciones estndar alrededor de la media. Al menos [1 (1/42)] *100% = 93.75% de las observaciones estn contenidas dentro de una distancia 4 desviaciones estndar alrededor de la media. Aunque el clculo Bienaym-Chebyshev se aplica a cualquier tipo de distribucin de datos, ms adelante se estudiar, en teora de probabilidades, que si los datos forman la distribucin normal, en forma de campana, o campana de Gauss, el 68.26% de todas las observaciones se encuentran alrededor de 1 desviacin estndar, mientras que el 95.44%, 99.73% y 99.99% estarn en 2, 3 y 4 desviaciones estndar.

126

Mientras que en el clculo de Bienaym-Chebyshev nos indica, para cualquier tipo de distribucin, al menos qu tan posible es que una observacin se encuentre alrededor de la media, la aplicacin del modelo de Gauss, para distribuciones normales, nos dice exactamente qu tan probable es que cualquier observacin est lejos o cerca de la media. 4.8 Resumen El clculo de las medidas estadsticas sintetiza la informacin sobre los datos que se han recopilado, facilitando su manejo e interpretacin. En lugar de trabajar con toda la tabla de frecuencias, se calcula tres tipos de medidas estadsticas: de posicin, de forma y de dispersin. Las medidas de posicin, como la media, la mediana, la moda, el rango medio y el eje medio, indican el nivel general del fenmeno, o sea el punto de escala numrica alrededor del cual se agrupa la mayora de las observaciones obtenidas al captar el fenmeno que interesa; las medidas de forma, con slo comparar el valor de la media con el de la mediana, muestran el grado en que las observaciones tienden a acumularse por arriba o por debajo de los valores centrales y tienen por objeto determinar el grado de asimetra de una distribucin de frecuencias; y las medidas de dispersin, como el rango, el rango intercuartil, la varianza, la desviacin estndar y el coeficiente de variacin indican el mayor o menor grado en que las observaciones se alejan del valor central dado por las medidas de posicin. En conjunto, las medidas estadsticas resumen los valores significativos del conjunto de datos. 4.9 Trminos clave Anlisis de datos Medidas de posicin: media, mediana, moda, rango medio, eje medio. Medidas de forma: equilibrada, sesgo a la derecha, sesgo a la izquierda. Medidas de dispersin: rango, rango intercuartil, varianza, desviacin estndar, coeficiente de variacin. Escala de puntos.

127

4.10 Problemas de repaso del captulo 1.- Un grupo de estudiantes de la Universidad han decidido llevar a cabo un fonotn para recabar fondos para la construccin de un Centro de Artes. Los datos siguientes representan las cantidades prometidas (en miles de pesos) por todos los ex alumnos que fueron llamados durante los primeros nueve das: 16, 18, 11, 17, 13, 10, 22, 16 a) Calcule la media, mediana, el rango medio y el rango intercuartil b) Calcule la varianza y la desviacin estndar c) Describa la forma de esta serie de datos d) Describa la cantidad ofrecida por los ex-alumnos e) Escriba un reporte donde estime la cantidad en recaudar si el fonotn dura 30 das 2.- Los siguientes datos representan el precio al menudeo de camisetas de una muestra de 20 tiendas ms frecuentadas de la ciudad.
Precio de camisetas al menudeo

137.4 140 138.8 139.1 144.4

139.2 141.8 137.3 133.5 138.2

141.1 139.7 136.7 136.3 135.6

138 140.9 140.6 136.7 134.1

a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de frecuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto. b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviacin estndar y coeficiente de variacin; elabore el anlisis de 5 puntos y la caja de sesgo. 128

3.- Los siguientes datos corresponden al costo por onza en pesos de muestras aleatorias de 31 champuses etiquetados para cabello normal y 29 para cabello delgado.
Cabello normal 7.9 6.3 1.9 4.9 2.0 1.6 2.3 1.4 9.0 1.3 1.6 2.3 2.8 1.8 3.2 4.7 5.0 0.8 9.0 0.9 5.5 8.7 2.0 8.1 1.3 3.7 6.9 4.4 6.4 8.5 2.1 Cabello fino 6.9 0.9 2.3 1.2 3.2 1.2 1.9 6.3 4.9 8.5 4.4 8.7 2.3 5.0 6.5 1.4 2.0 2.8 2.2 1.8 3.7 1.7 5.1 0.8 0.8 7.8 5.5 1.1 3.5

Para cada conjunto de datos (cabello normal y cabello fino) calcule a) Forme el diagrama de tallo y hojas; elabore las tablas y diagramas de frecuencias absolutas, relativas y acumuladas; elabore el diagrama de Pareto. b) Calcule la media, mediana, eje medio, rango, rango intercuartil, desviacin estndar y coeficiente de variacin; elabore el anlisis de 5 puntos y la caja de sesgo.

129

4.11 Mapa conceptual de distribucin de datos numricos.

Medidas de posicin

Medidas de dispersin

Medidas de deformacin
Medidas de asimetra
Coeficiente Fisher Coeficiente Pearson Coeficiente Bowley

Media

El rango El rango intercuartil


Varianza

Mediana
Moda

Rango medio
Eje medio

Medida Curtosis

Coeficiente Curtosis

Desviacin estndar

130

Captulo 5

Uso de paquetes Estadsticos *********************


Objetivo del Captulo
Mostrar cmo el uso de la computadora ayuda al anlisis estadstico, evitando as los laboriosos clculos matemticos y dedicar ms atencin a la interpretacin para la toma de decisiones.

131

132

5.1 Introduccin Hasta ahora lo que se ha tratado de explicar es la tcnica del manejo de datos para facilitar su anlisis e interpretacin. Cuando son cantidades pequeas de datos, se pueden realizar manualmente, pero cuando la muestra rebasa las 100 observaciones, el trabajo de ordenar y agrupar y calcular las medidas resumen de los datos se complica. Afortunadamente, como se ha dicho desde el inicio, existen paquetes estadsticos que realizan todo este pesado trabajo. Lo que si es cierto, es que en la mayora de los estudios estadsticos es inevitable la digitalizacin manual de datos, como materia prima del estudio. Al trmino del captulo, el alumno deber ser capaz de: 1. Obtener las medidas resumen de una muestra a travs del uso del paquete estadstico SPSS. 2. Obtener los diagramas apropiados para el anlisis grfico de la distribucin de datos. Si el conjunto de registros, denominado la base de datos est bien computado, el paquete estadstico se encarga de realizar todos los clculos estadsticos. Al analista slo le resta saber interpretar los resultados. El programa SPSS (Statistical Package for Social Sciences) permite, mediante su aplicacin, realizar un anlisis descripti-

133

vo de una o varias variables, utilizando grficos que expliquen su distribucin o calculando sus medidas caractersticas. Entre sus muchas prestaciones, tambin figuran el clculo de intervalos de confianza, contrastes de hiptesis, anlisis de regresin o anlisis multivariantes. 5.2 Edicin de datos Una vez que se ha accedido al programa (haciendo clic el icono correspondiente) la interfaz con el usuario se compone de dos ventanas principales: 1. El editor de datos: de aspecto y funcionalidad semejantes a las de cualquier hoja de clculo 2. El visor de resultados, donde irn apareciendo los resultados de los anlisis realizados. Desde ambas ventanas se puede acceder a la barra de mens (desde donde se selecciona el anlisis que se quiere realizar) y a la barra de botones rpidos (desde la que se puede acceder a las opciones de men ms comnmente solicitadas). Al ejecutar el programa estadstico SPSS, para capturar los datos es necesario definir las caractersticas de cada variable. En la parte inferior de la pgina principal hay una pestaa vista de variables que hay que abrir: Figura 5.1 Pgina principal del paquete SPSS

134

Figura 5.2 Pgina principal de Resultados de SPSS.

Antes de definir las caractersticas de las variables, es necesario considerar las siguientes indicaciones. 1. Enlistar todas las variables que se van a analizar, en orden que facilite la captura. 2. Definir el nombre con el que se identifica la variable. 3. Defina si es numrica o categrica, tambin se puede definir si es de fecha, si la separacin de miles se hace coma, si requiere punto, si representa dinero y el nmero de decimales que se requiere. 4. Se requiere establecer un cdigo de equivalencias para los diferentes valores de las variables. Por ejemplo: 1 = femenino y 2 = masculino 5. Se requiere sealar el significado literal de la variable: gnero, nivel de educacin, fecha de nacimiento, categora de empleo, etc. 6. Se requiere establecer la escala de medicin: nominal, ordinal o cardinal (escalar) A manera de ejemplo, utilizando la misma estructura de datos del estudio estadstico de automviles que se ha venido utilizando en los ejercicios de los apartados 135

anteriores, se genera una base de datos de 406 registros. La magnitud de lo datos dificulta el clculo manual de las mediciones descriptivas, por lo que se utiliza los paquetes estadsticos SPSS. En la siguiente figura se puede observar la forma en que se definen las caractersticas de las variables en el paquete estadstico SPSS. Figura 5.3 Caractersticas de las variables de estudio

5.3 Captura de datos. Una vez que se ha diseado la edicin de la presentacin de los datos recabados, se procede a su captura. En la figura 5.4 se puede observar el resultado de estas actividades. Los datos estn listos para su anlisis estadstico. La tabla de datos puede salvarse como archivo de datos con extensin .sav, listo para utilizarse por el paquete estadstico SPSS.

136

Figura 5.4 Presentacin de datos digitados en SPSS

5.4 Obtencin de resultados Habiendo capturado todos los datos de la muestra o de la poblacin, segn sea el caso, a travs del comando analizar/estadsticas descriptivas, se obtendr un men de anlisis. Figura 5.4 Anlisis de datos

137

5.5 Definicin de variable de anlisis Al escoger el sub-men aparece un recuadro de definicin de variables a analizar y de estadsticos a visualizar; en el caso del ejemplo se escoger la variable Miles per Galon (mpg): Figura 5.5 Definicin de variable a analizar

Figura 5.6 Definicin de caractersticas de los estadsticos

138

Figura 5.7 Definicin de caractersticas de los grficos

Figura 5.8 Estadsticos obtenidos

139

Figura 5.9 Grficos obtenidos: Tallo y hojas y caja y sesgo

5.6 Tabla de frecuencias. Si desea conocer la tabla de frecuencias, en el sub-men de estadsticas descriptivas, se obtendra lo siguiente: Figura 5.10 Frecuencias.

140

Figuera 5.11 Tabla de frecuencias no agrupada obtenida


Miles pe r Gallon Frecuenc ia 6 6 2 2 4 2 1 2 2 2 1 30 Porcentaje 20,0 20,0 6,7 6,7 13,3 6,7 3,3 6,7 6,7 6,7 3,3 100,0 Porcentaje vlido 20,0 20,0 6,7 6,7 13,3 6,7 3,3 6,7 6,7 6,7 3,3 100,0 Porcentaje ac umulado 20,0 40,0 46,7 53,3 66,7 73,3 76,7 83,3 90,0 96,7 100,0

V lidos

14 15 16 17 18 21 22 24 25 26 27 Total

Figuera 5.12 Histograma y distribucin de frecuencias

141

5.7 Problemas de repaso del captulo 1. Utilizando el paquete SPSS, obtenga las medidas de posicin, dispersin y distorsin y los diagramas de distribucin de frecuencias y de Pareto de los datos de la siguiente tabla, que son los sueldos de una muestra aleatoria de 100 empleados con licenciatura en Negocios Internacionales egresados entre el ao 2000 y 2005.
24,300 24,750 22,950 25,050 25,950 31,650 24,150 72,500 68,750 16,200 82,500 54,000 26,400 33,900 24,150 29,250 27,600 22,950 34,800 51,000 22,500 48,000 55,000 53,125 21,900 78,125 46,000 45,250 56,550 41,100 23,550 35,100 23,250 29,250 30,750 22,350 30,000 30,750 34,800 60,000 57,000 30,300 38,850 36,150 40,200 28,350 21,750 110,625 21,450 27,750 24,000 42,000 21,900 35,100 16,950 92,000 45,000 27,300 21,150 81,250 32,100 40,800 31,050 31,350 36,000 46,000 60,375 29,100 21,900 103,750 32,550 31,350 27,900 42,300 135,000 36,000 24,000 26,250 31,200 19,200 35,550 45,150 73,750 25,050 27,000 26,850 33,900 26,400 28,050 30,900 20,100 24,000 25,950 24,600 28,500 30,750 40,200 30,000 22,050 78,250

142

Captulo 6

Presentacin de datos categricos en tablas y diagramas. *********************


Objetivo del Captulo
Mostrar cmo organizar y presentar en tablas y diagramas los datos categricos

143

144

6.1 Introduccin Este captulo trata sobre la presentacin de datos categricos, estos se pueden presentar, con el fin de facilitar el anlisis y la toma de decisiones, en forma de tablas y diagramas. Si el inters de anlisis es una variable, se realizarn tablas resumen y diversos diagramas, como el diagrama de pastel, de barras y de puntos. Si el propsito es relacionar dos o ms variables categricas, se realizar una tabla de resultados cruzados. Al terminar el captulo, el alumno podr: 1. Construir tablas y diagramas que representen un resumen de datos categricos. 2. Realizar tablas cruzadas o matriciales que relacionen a dos o ms variables categricas. 3. Utilizar los paquetes estadsticos para presentar resmenes de datos categricos. 6.2 Tabulacin de datos categricos Siguiendo con la misma base de datos de los autos ms vendidos en el ao 1970, se quiere saber el porcentaje del origen: americano, europeo o japons. Para saberlo, se tendr que construir una tabla resumen que agrupe los autos por origen. 145

Tabla 6.1 Resumen de frecuencias y porcentajes por origen 1970


Frecuenc ia 22 6 2 30 Porciento 73.3 20.0 6.7 100.0 Porciento validado 73.3 20.0 6.7 100.0 Porciento ac umulado 73.3 93.3 100.0

A meric ano Europeo Japons Total

Figura 6.1 Diagrama de barras en porciento.

Japons

Pas de origen

Europeo

Americano

20

40

60

80

Porcentaje

Figura 6.2 Diagrama de pastel en porciento.


Japons Europeo

6.0%

20.0%

73.3%
Americano

146

Figura 6.3 Diagrama Pareto en cantidades y en porcentaje


40

Porcentaje

30

100

20

22

50

10

Cantidad

6 0 Americano Europeo 2 Japons 0

Pas de origen

Figura 6.4 Grfica de puntos de cantidades

Americano

Europeo

Pas de origen

Japons

10

20

30

Cantidad

6.3 Eleccin de la grfica apropiada La representacin grfica de datos es una tcnica muy til para la presentacin de informes ejecutivos. Sin muchas explicaciones, objetivamente se pueden interpretar el significado de los datos. Algunas personas confunden el propsito de uso de grficas, muchos creen que los adornos y colores ser la manera de ser efectivos, otros prefieren utilizar la sobriedad grfica en razn de destacar el contenido de las grficas. Es importante sealar que, segn ciertas investigaciones sobre la percep-

147

cin humana, las escalas de longitud son ms fcil de interpretar que las de rea. De ser as, la grfica de puntos de cantidades o porcentaje sera ms fcil de interpretar que la grfica de pastel o de barras. Aunque, hay que destacar que la grfica de pastel es estticamente agradable y muestra la proporcin y suma total de las categoras. La eleccin del tipo de grfica para la presentacin de datos categricos sigue siendo altamente subjetiva y a menudo depende de las preferencias del analista o del receptor. 6.4 Tabla de contingencia o tabla de datos cruzados Muchas de las veces, en los estudios estadsticos, es necesario mostrar la relacin que existe entre dos o ms variables de estudio, la tabla de datos cruzados o de contingencias es una manera de presentar esta situacin. Siguiendo con el estudio de las caractersticas de los autos ms vendidos en el ao 1970, se puede relacionar dos variables categricas, por ejemplo, el origen de fabricacin y el nmero de cilindros. Tabla 6.2 Datos cruzados: pas de origen/nmero de cilindros
3 Cilindros Recuento Pas de origen Americano Europeo Japons 0 0 0 Numero de cilindros 4 Cilindros 5 Cilindros Recuento Recuento 0 0 6 0 2 0 6 Cilindros Recuento 3 0 0 8 Cilindros Recuento 19 0 0

6.5 Uso de paquetes estadsticos en la presentacin de datos categricos Al igual que la tabulacin, diagramacin y tratamiento de datos numricos, cuando el nmero de observaciones es grande, podemos utilizar la computadora para realizar esta ardua tarea. Existen diversos paquetes de anlisis de datos, incluso la hoja de clculo de Excel.

148

En el caso del paquete estadstico SPSS, para el diseo de grficas existe un comando que se llama Grficos y se opera de la siguiente manera: se escoge el tipo de grfico que se desea, en este caso, el de barras. Figura 6.5 Men generador de grficos

Un grfico de barras presenta estadsticos de resumen de una o ms variables, la mayor parte de las veces respecto a los grupos definidos por una o dos variables categricas. La longitud de las barras representa habitualmente la frecuencia de casos de cada categora, un porcentaje del nmero total de casos o una funcin de otra variable (por ejemplo, el valor medio para cada categora). La funcin se puede cambiar en la parte inferior del cuadro de dilogo. Tambin se puede mostrar una clave para identificar la funcin. Figura 6.6 Men para definicin de variable

149

Barras agrupadas y apiladas. Si se asigna una variable categrica a Color o Estilo, las barras de las categoras se podrn agrupar unas junto a otras o apilarse. En las barras apiladas, las categoras de la variable de la leyenda se apilan unas sobre otras. La parte superior de un segmento conforma la base del siguiente. Este tipo de grficos destaca la suma de las categoras; por tanto, slo se debern seleccionar funciones adecuadas para la apilacin en las barras que representan. Si se ha seleccionado una leyenda de apilado de color o de estilo, podr cambiar el eje dependiente para que represente el 100%. En ese caso, los segmentos representarn el porcentaje con el que cada categora contribuye al total. En otras palabras, existe tres opciones: barra simple, donde slo se grafica la escala de valores de cada categora; barra conglomerada, se agrupan por categoras definidas y barra estratificada, al interior de cada barra se puede estratificar por categoras existentes. Para que sea ms objetivo el resultado, se ilustrar con un ejemplo de cada una de ellas. Figura 6.7 Grfica de barras de presentacin de datos categricos: simple, aglomerada y estratificada

Pas de origen

Cantidad

150

6.6 Generacin de tablas En la pestaa Tabla del generador de tablas, se seleccionan las variables y las medidas de resumen que aparecern en la tabla. Lista de variables. En el panel superior izquierdo de la ventana se muestran las variables del archivo de datos. Tablas personalizadas distingue entre dos niveles de medida diferentes para las variables y trata de manera distinta las variables en funcin de su nivel de medida: Categricas. Datos con un nmero limitado de valores o categoras distintas (por ejemplo, sexo o religin). Las variables categricas pueden ser variables de cadena (alfanumricas) o variables numricas que utilizan cdigos numricos para representar a categoras (por ejemplo, 0 = hombre y 1 = mujer). Tambin se hace referencia a estos datos como datos cualitativos. Las variables categricas pueden ser nominales u ordinales: nominal. Una variable puede ser tratada como nominal cuando sus valores representan categoras que no obedecen a una ordenacin intrnseca. Por ejemplo, el departamento de la compaa en el que trabaja un empleado. Son ejemplos de variables nominales: la regin, el cdigo postal o la confesin religiosa. ordinal. Una variable puede ser tratada como ordinal cuando sus valores representan categoras con alguna ordenacin intrnseca. Por ejemplo los niveles de satisfaccin con un servicio, que vayan desde muy insatisfecho hasta muy satisfecho. Las variables categricas definen categoras (filas, columnas y capas) en la tabla y el estadstico de resumen por defecto es el recuento (nmero de casos en cada categora). Por ejemplo, una tabla por defecto de la variable categrica sexo slo mostrar el nmero de hombres y el nmero de mujeres.

151

Las variables de escala se resumen normalmente dentro de las categoras de las variables categricas y el estadstico de resumen por defecto es la media. Por ejemplo, una tabla por defecto de los ingresos dentro de las categoras de sexo mostrar los ingresos medios de los hombres y los ingresos medios de las mujeres. Tambin puede resumir las variables de escala por s mismas, sin utilizar una variable categrica para definir grupos. Esto resulta especialmente til para apilar resmenes de varias variables de escala. Figura 6.7 Men generador de tablas

En la pgina principal de SPSS se escoge el comando Tablas/Tablas personalizadas

Figura 6.8 Men para definir las variables

Aparece en pantalla un rea de trabajo para definir las variables que se desea colocar en las filas o en las columnas. En el ejemplo, se escogi para las filas la variable origen y para las columnas la variable nmero de cilindros.

152

Figura 6.8 Proyecto de presentacin

Aparece en pantalla el proyecto de presentacin. Al darle click al botn de aceptar, e inmediatamente aparece la tabla de datos cruzados.

Tabla 6.3 Datos cruzados de las variables Pas de origen y nmero de cilindros
3 Cylinders Recuento Country of Origin American European Japanese Total 0 0 0 0 Number of Cylinders 4 Cylinders 5 Cylinders Recuento Recuento 0 0 6 0 2 0 8 0 6 Cylinders Recuento 3 0 0 3 8 Cylinders Recuento 19 0 0 19

153

154

Captulo 7

Probabilidad bsica *********************


Objetivo del Captulo
Comprender los conceptos bsicos de probabilidad como base necesaria para el estudio de distribucin de probabilidad e inferencia estadstica

155

156

7.1 Introduccin El concepto o idea que generalmente se tiene del trmino probabilidad es adquirido de forma intuitiva, siendo suficiente para manejarlo en la vida cotidiana. Una definicin rpida del trmino probabilidad sera la posibilidad de que suceda un evento en particular. Cuando un suceso aleatorio se repite un gran nmero de veces, los posibles resultados tienden a presentarse un nmero muy parecido de veces, lo cual indica que la frecuencia de aparicin de cada resultado tiende a estabilizarse, lo que determina la probabilidad de ocurrencia de cada caso en particular. La teora de la probabilidad se usa extensamente en la ciencia y la filosofa para sacar conclusiones sobre la ocurrencia de sucesos potenciales y la mecnica subyacente de sistemas complejos, como los sistemas de produccin, distribucin y consumo de bienes y servicios. Al terminar el captulo el alumno debe de ser capaz de: 1. Utilizar el criterio de probabilidad 2. Utilizar una tabla de contingencia o un diagrama de Venn para determinar las probabilidades de eventos conjuntos.

157

3. Comprender las reglas para encontrar las probabilidades simples, conjuntas y condicionadas de un conjunto de posibles eventos, y aplicar la regla de adicin. 4. Distinguir entre eventos mutuamente excluyentes y colectivamente exhaustivos e independientes. 5. Utilizar el Teorema de Bayes para calcular probabilidades a la luz de nueva informacin. 6. Utilizar las diversas reglas de contar el nmero total de eventos. 7.2 Criterios de probabilidad: subjetivo y objetivo. Para determinar la posibilidad de ocurrencia de un evento existen dos criterios de apreciacin: la probabilidad subjetiva y la probabilidad objetiva. La probabilidad subjetiva de un evento es la que se realiza en base al conocimiento tcito de una persona. Precisamente por su carcter de subjetividad no se considera con validez cientfica, aunque en la vida diaria es de las que ms se utilizan al no apoyarse ms que en el sentido comn y los conocimientos previos de la persona, y no en resultados matemticos o estadsticos. Cul es la probabilidad de que llueva? Cul es la probabilidad de que tenga xito un producto nuevo? La asignacin de probabilidad subjetiva se base en una combinacin de experiencia del individuo, estado de nimo y el anlisis de condiciones particulares. La probabilidad objetiva, aceptada con validez cientfica, es la que se obtiene por el conocimiento previo de un proceso o por la observacin de resultados. Cuando la probabilidad objetiva se basa en el conocimiento anticipado del proceso, probabilidad a priori. En el caso ms simple, cuando cada resultado es igualmente posible, esta posibilidad de ocurrencia puede definirse como: p(A) = X/T, donde X es igual al nmero de resultados en los que ocurre el evento y T es igual al nmero de resultados posibles.

158

Un ejemplo clsico es el mazo de barajas o el juego de dados. Si se quiere encontrar la probabilidad de sacar del mazo de barajas, sin comodn, una carta negra, la respuesta correcta sera 26/52 .50 el 50%, puesto que hay 26 cartas negras de un total de 52. Si se vuelve a incorporar cada carta que se extrae, se mezcla, y se saca nuevamente al azar, la probabilidad de xito o de fracaso, sigue siendo la misma. Inmediatamente no se puede asegurar que salga o no una carta negra, pero podemos afirmar que a largo plazo, si se repite continuamente este proceso, la proporcin de cartas negras extradas ser muy cercana a .50 Existe otro enfoque de probabilidad objetiva, se conoce como probabilidad emprica o a posteriori, aunque se sigue definiendo como la proporcin entre el nmero de resultados favorables y el nmero total de resultados, estos resultados se basan en datos observados, no del conocimiento anterior a un proceso. De total de visitantes de domingo a un museo, la probabilidad de que compren artculos de recuerdo se puede encontrarse seleccionando una muestra aleatoria de la poblacin, de 400 entrevistados 125 aceptaron haber comprado un recuerdo. Por consiguiente, la probabilidad de que un visitante de domingo, seleccionado aleatoriamente, compre un recuerdo es 125/400 = .3125 7.3 Espacio muestral y tipos de eventos Cuando se realiza un experimento, que es cualquier proceso que produce un resultado o una observacin, se van a obtener un conjunto de valores. A este conjunto de valores que puede tomar una variable se le denomina espacio muestral. Por ejemplo: Si se tiene un dado cualquiera, el espacio muestral (EM) es EM={1,2,3,4,5,6}. En el caso de la baraja, el espacio muestral consiste en las 52 cartas, completado por varios eventos, dependiendo de la clasificacin. Si los eventos se clasifican por

159

palo, hay cuatro eventos: picas, corazones, trboles y diamantes; si la clasificacin es por valor de la carta, existen trece eventos: As, Rey, Reyna.2. La manera en que se subdivide el espacio muestral ser el tipo de probabilidad que se estime. Tomando esto en cuenta se pueden distinguir tres tipos de evento: evento simple, evento complemento y evento conjunto. Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se denomina un evento, y si ste consta de un solo elemento entonces es un evento simple. Como el de extraer un As del mazo de la baraja; o una espada, o una carta de color negro. Al evento se le denomina evento A. Los eventos que no forman parte de A se les denomina evento complemento y est representado por A. El evento complemento As son todas las cartas que no sean As; el evento complemento de carta negra, son todas las cartas rojas. Si existen ms de una variable en el suceso, el espacio muestral est formado por las combinaciones de valores de cada una de las variables, entonces es un evento conjunto. Existen eventos que siempre, no importa el nmero de experimentos o su situacin, ocurren, y en cambio existen otros que nunca ocurren. Cuando se tiene toda la certeza de que el evento ocurrir, el evento cierto, tiene una probabilidad de uno; cuando un evento no tiene posibilidad de ocurrir, tiene una probabilidad de cero, es decir, el evento nulo.

160

Figura 7.1 Espacio muestral de un mazo de cartas

Posibles eventos en el espacio muestral del mazo de cartas: Evento simple: As Evento simple: Roja Evento complemento: No As = As Evento complemento: No roja = Roja Evento conjunto: As roja Evento conjunto: No As roja = As roja

En el ejemplo de la muestra de 400 visitantes del domingo al museo, tambin se les pregunt si quedaron satisfechos con el material histrico exhibido, 315 visitantes contestaron que si estaban satisfecho pero 225 de ellos no haban comprado recuerdos, lo que significa que de los 315 que contestaron estar satisfechos 90 tambin compraron un recuerdo. 7.4 Formas de examinar el espacio muestral Existen varias formas de examinar el espacio muestral especfico, lo ms usados son la tabla de datos cruzados y el diagrama de Venn. La tabla de datos cruzados o de contingencia, consiste en construir una matriz de relacin de las variables de inters. Siguiendo con los ejemplos de las barajas y de los visitantes al museo, se construyen las siguientes tablas de datos cruzados.

161

Tabla 7.1 Datos cruzados para analizar el evento As roja


Roja As No As Totales 2 24 26 Negra Totales 2 4 24 48 26 52

El valor de las celdas de la tabla 7.1 de datos cruzados se obtuvo de distribuir el mazo de 52 cartas en cuatro subconjuntos Ases roja y Ases negra, no Ases roja y no Ases negra. La tabla de contingencia para los 400 visitantes del domingo al museo se representa en la tabla 7.2 La tabla de datos cruzados o de contingencia, cuando el espacio muestral es grande, se puede construir con ayuda de un paquete estadstico, como el SPSS. Tabla 7.2 Datos cruzados para analizar compra y satisfaccin
Compraron si no Totales Satisfechos si No Totales 90 35 125 225 50 275 315 85 400

Otra forma de presentar el espacio muestral es utilizando el diagrama de Venn. Este diagrama muestra grficamente los diversos eventos como uniones o intersecciones de crculos. La figura 7.2 representa un diagrama de Venn tpico para una situacin de dos variables, en donde cada variable slo presenta dos eventos: A, A y B, B. En el espacio muestral AB, pueden suceder uniones como AUB, AUB, AUB y AUB; intersecciones como A B, A B, A B y A B. Tomando los datos de la tabla 2, A = 4 y B = 26, se construye el siguiente diagrama de Venn.

162

Figura 7.2 Diagrama de Venn para los eventos A y B

A B

A B = 24

AUB A B

AUB= 28 2 2 24

A B
Espacio muestral de 52 cartas A = Ases = 4 B = cartas negras = 26 A B = Ases negros = 2 A B = Ases o cartas negras = 28 A B = Ases y no cartas negras = 24

A B= 2

Figura 7.2(a) Diagrama de Venn para los eventos A y B

A B

A B= 50

AUB A B

AUB= 350 35 90 225

A B

A B = 90

163

Espacio muestral de 400 visitantes

A = Compraron = 125 B = satisfechos = 315 A B = Compraron-satisfechos = 90 A Compraron o satisfechos = 350 A No compraron- no satisfechos =50 7.5 Probabilidad simple y probabilidad conjunta. Hasta aqu se ha tratado de explicar el concepto de probabilidad, el espacio muestral y los tipos de eventos. Ahora se ver la forma en que se calculan las probabilidades, de acuerdo al tipo de evento que se presente. Lo que debe quedar claro y se considera como la regla ms evidente de la teora de probabilidad es que en todos los casos la probabilidad siempre tiene una proporcin cuyo valor vara entre 0 a 1. Un evento imposible de ocurrir, evento nulo, tiene la probabilidad de cero, y un evento cierto, tiene la probabilidad de 1. Probabilidad simple La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento simple, P(A), como: La probabilidad de sacar un As de un mazo de barajas La probabilidad de sacar una carta negra La probabilidad de compra de los visitantes del domingo al museo La probabilidad de satisfaccin de los visitantes del domingo al museo Utilizando la frmula para encontrar la probabilidad de ocurrencia = X/T, se tiene que:

164

La probabilidad de sacar un As de un mazo de barajas = 4/52 La probabilidad de sacar una carta negra = 26/52 La probabilidad de compra de los visitantes del domingo al museo = 125/400 La probabilidad de satisfaccin de los visitantes del domingo al museo =315/400 Los datos anteriores, para el clculo de probabilidad se pueden extraer de la tabla de datos cruzados o del diagrama de Venn elaborados en el apartado anterior. Aqu se puede apreciar que la probabilidad simple de un evento se puede calcular a travs de la suma de las probabilidades relativas del espacio muestral: P(A) = P(A y B1) + P(A y B2) + P(A y B3)+ P(A y Bn) En la tabla 7.1 se puede observar que la probabilidad de A es igual a: P(A) = P(As negro) + P(As rojo) = 2/52 + 2/52 = 4/52 Probabilidad conjunta Cuando se habla de varios eventos dentro del mismo experimento, probabilidad conjunta, se pueden dar varios casos, como la carta As roja o Rey negro de un mazo de barajas, o que un visitante del domingo al museo que haya comprado un recuerdo y est satisfecho con el material histrico exhibido. Para que se d una probabilidad conjunta significa que ambos eventos A y B deben ocurrir simultneamente. Observando las tablas de datos cruzados de la tabla 7.1, las cartas que son As y negras son las que se encuentran en la celda de la fila As y de la columna Negra, que son 2, por lo que la probabilidad de escoger un As negro es igual a:

165

P(As negro) = Nmero de Ases negros/total de cartas = 2/52 Este resultado tambin puede observarse en el diagrama de Venn de la figura 7.2, el evento conjunto A y B (As negro) y corresponde a la interseccin A B. La probabilidad de escoger aleatoriamente un visitante del domingo al museo y que haya comprado y est satisfecho con el material histrico exhibido, se obtendr de la tabla 7.2 y de la figura 7.2 de la manera siguiente P(comprar y satisfecho) = 90/400 Ahora que se ha analizado la nocin de probabilidad conjunta, debe de recordarse que la probabilidad simple es igual a la suma de las probabilidades relativas o de conjunto de un espacio muestral, es decir: P(A) = P(A y B1) + P(A y B2) + P(A y B3)+ P(A y Bn), donde cada evento conjunto no pueden ocurrir simultneamente, por lo que se les denomina, eventos mutuamente excluyentes, pero tienen que ocurrir, es decir son colectivamente exhaustivos si uno de los eventos debe ocurrir. Los eventos B1, B2, B3. Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colectivamente exhaustivos. Nadie es ambos (mutuamente excluyente) y todos son uno u otro (colectivamente exhaustivos). Regresando al ejemplo de la baraja, la probabilidad de sacar un As se puede expresar de dos maneras: P(As) = 4/52 P(A) = P(As rojo) + P(As negro) = (2/52) + (2/52) = 4/52 = 1/13 = .0769

166

Por otro lado, en ocasiones un evento o ms eventos dependen de otro evento previo, es decir, un evento A ocurre dado que ocurri un evento B. Si existe este tipo de relacin entre eventos se dice que son eventos dependientes o condicionados (el evento A depende del evento B, o el resultado del evento A est condicionado al resultado del evento B). Por otro lado, si no existe tal relacin entre eventos se dice que son eventos independientes. Los criterios de dependencia o de independencia se definirn ms adelante, en trminos de probabilidad condicional. De lo anterior se puede afirmar que las probabilidades de los eventos de un espacio muestral tienen las siguientes propiedades: Las probabilidades relativas son mayores o iguales que cero. La probabilidad relativa del espacio muestral es igual a la unidad. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultneamente, entonces la probabilidad relativa de su unin es la suma de las probabilidades relativas de cada uno. Clculo de probabilidad conjunta Cuando se tienen eventos simples no existe mucho problema en el sentido del clculo de las probabilidades, pues basta con una relacin o el uso directo del clculo combinatorio. Pero en el caso de eventos conjuntos, que son los compuestos por ms de un evento simple, el proceder de manera anloga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de clculo existente. Sin embargo, utilizando las propiedades de la probabilidad, y las siguientes reglas, se podrn expresar las probabilidades de estos eventos en trminos de los eventos simples que lo componen, siempre y cuando se conozcan las probabilidades de stos. La probabilidad de una unin de eventos, se puede calcular de la siguiente manera:

167

Regla 1. (Regla de la adicin general). Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultneamente. Es decir, P(A ) = P(A) + P(B) - P(A B)

La probabilidad de la adicin (unin) considera la ocurrencia del evento A o del evento B o la de ambos A y B. La regla de la adicin consiste en tomar la probabilidad de A y sumarla a la probabilidad B; La interseccin A y B se resta del total porque ya ha sido incluida en las probabilidades relativas de A y B. Para los ejemplos que se han venido presentando, de las tablas 7.1 y 7.2, los clculos de la adicin A y B son los siguientes: De la tabla 7.1, la probabilidad de que sea un As o una carta roja es igual a (4/52 + 26/52) 2/52 = 28/52 De la tabla 7.2, la probabilidad de que compren un recuerdo o estn satisfechos es igual a (125/400 + 315/400) 90/400 = 350/400 Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene: Regla 2. (Regla de exclusin). Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B dado que la interseccin A B (A y B) no existe y tiene un valor igual a cero. Es decir P(A ) = P(A) + P(B)

En los ejemplos anteriores, los eventos no son excluyentes porque existe la interseccin A y B, pero, por ejemplo, si se desea saber la probabilidad de escoger una carta de picas o una carta de corazones si se escogiera slo una carta del mazo de 52. Utilizando la regla de adicin se obtendra:

168

P(picas o corazn) = P(espada) + P(corazn) P(corazn y espada) 13/52 +13/52 -0/52 = 26/52 Para los eventos colectivamente exhaustivos tambin se aplica la ecuacin anterior, por ejemplo, la probabilidad de escoger una carta roja o una carta negra, como son eventos mutuamente excluyentes, pero alguno tiene que suceder, la probabilidad se calcula de la siguiente manera: P(roja o negra) = P(roja) + P(negra) 26/52 + 26/52 = 52/52 = 1 Retomando los conceptos de eventos dependientes o condicionales, se va a definir la probabilidad condicional como sigue: Regla 3. (Regla condicional). La probabilidad de que ocurra un evento A dado que ocurri el evento B (el evento A depende del evento B), y se denota P(A|B), es:
= P(A y B)

Donde P(A y B) es igual a la probabilidad conjunta de A y B, y P(B) es la probabilidad relativa de B. Regresando a los ejemplos de la tabla 7.1 y 7.2, la probabilidad de que ocurra A dado que ocurri B. De la tabla 7.1, cul es la probabilidad de sacar un as negro, dado que las cartas son negras?: P(As|negro) = P(As y negro)/P(negro) = (2/52)/(26/52) = 2/26 De la tabla 7.2, Cul es la probabilidad de que los que hayan comprado estn satisfechos?:

169

P(compra satisfechos) = P(compra y satisfechos)/P(satisfechos) = (90/400)/(315/400) = 90/315 Hay que notar que esta propiedad no es conmutativa, situacin que s ocurre con la probabilidad de unin o la interseccin de eventos, por lo que no hay que confundir P(A|B) y P(B|A). Regla 4 (Regla de independencia). Dos eventos A y B son independientes si y slo si P(A|B) = P(A) y P(B|A) = P(B)

En la primera igualdad se observa que la probabilidad de elegir una carta que sea As, dado que se sabe que es negra es 2/26. Ahora recordemos que la probabilidad de sacar un As es 4/52, lo que se reduce a 2/26. Por lo que se cumple la regla. El color de la carta y ser un As son eventos estadsticamente independientes. Lo mismo sucede con la segunda igualdad, la probabilidad de que sea una carta negra dado que es un As es igual a 2/4 y la probabilidad de que sea una carta negra es 26/52, lo que se reduce a 2/4. Regla 5. (Regla de multiplicacin). P(A|B) = P(A y B)/P(B) Despejando la probabilidad conjunta de P(A y B), tenemos la regla general de la multiplicacin: P(A y B) = P(A|B) P(B) Para mostrar el uso de la regla de la multiplicacin, considerando el mazo de 52 cartas, cul es la probabilidad de que dos cartas consecutivas sean rojas. P(A y B) = P(A|B) P(B)

170

La probabilidad de que la primera carta sea roja es 26/52, puesto que 26 de las 52 cartas son rojas. La probabilidad de que la segunda carta sea tambin roja depende de la primera seleccin. Si la primera carta no se regresa al mazo (muestreo sin reemplazo), entonces el nmero de cartas ser 51, Si la primera carta fue roja, la probabilidad de que la segunda tambin sea roja es 25/51, puesto que 25 cartas rojas siguen en el mazo de 51, por lo tanto, al utilizar la ecuacin de probabilidad condicional, tenemos lo siguiente: P(A y B) = (26/52) (25/51) = 650/2652 = 0.2450 Qu sucede si la primera carta extrada se regresa al mazo (muestreo con reemplazo), entonces la probabilidad de elegir una segunda carta roja es igual a la probabilidad de la primera, es decir: P(A y B) = (26/52) (26/52) = 676/2705 = 0.2499 El ejemplo de muestreo con reemplazo muestra que la segunda seleccin es independiente de la primera, puesto que no tuvo ninguna influencia en su acontecer. As pues, la regla de multiplicacin para eventos independientes se expresa de la siguiente manera: P(A y B) = P(A) P(B) Si esta condicin se cumple para dos eventos, A y B, entonces estadsticamente son independientes. Por lo que: 1. Los eventos A y B son estadsticamente independientes si slo si P(A|B) = P(A) 2. Los eventos A y B son estadsticamente independientes si slo si P(A y B) = P(A) P(B).

171

Conociendo la regla de multiplicacin, retomando la ecuacin para calcular la probabilidad simple de A, de la siguiente manera: P(A) = P(A y B1) + P(A y B2) + P(A y B3)+ P(A y Bn) Y utilizando la regla de multiplicacin, se obtiene: P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)+ P(A|Bn) P(Bn) Donde B1, B2, B3. Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. Para ilustrar esa frmula, utilizando los datos de la tabla 7.1, la probabilidad de escoger un As se aplica de la siguiente manera: P(A) = P(A|B1) P(B1) + P(A|B2)P(B2) P(As) = (2/26)(26/52) + (2/26) + (26/52) 2/52 + 2/52 = 4/52 Otra propiedad que se deriva de todas las anteriores es cuando se busca la probabilidad del complemento de un evento E, que denotaremos como ~E: Regla 6. (Regla de complemento) Si E es un evento y ~E su complemento, entonces: P(E) + P(~E) = 1; otra manera de expresar esta regla es P(~E) = 1 - P(E) 7.6 Teorema de Bayes. El teorema de Bayes, enunciado por Thomas Bayes, en la teora de la probabilidad, es el resultado que da la distribucin de probabilidad condicional de una variable aleatoria A dada B en trminos de la distribucin de probabilidad condicional de la variable B dada A y la distribucin de probabilidad marginal de slo A. Este concepto puede ampliarse para revisar probabilidades basadas en nueva informacin y

172

as determinar la probabilidad de un efecto particular se deba a una causa especfica. El teorema de Bayes se desarrolla a partir de las definiciones de la probabilidad condicional y probabilidad simple, de la siguiente manera: P(A y B) = P(A|B) P(B) P(A y B) = P(B|A) P(A) Si se sustituye la igualdad, queda: P(B|A) P(A) = P(A|B) P(B) Dividiendo entre P(A), se obtiene: P(B|A) = P(A|B) P(B) P(A) Pero como P(A) es igual a P(A|B1) P(B1) + P(A|B2)P(B2)+ P(A|Bn) P(Bn), entonces,

P(B i|A)= P(A|B

P(A|B i)P(B i)
1 ) P(B 1)

+ P(A|B 2)P(B 2)+ P(A|B n) P(B n)

donde Bi es cualquier valor que puede tomar, desde B1 hasta Bn. Para comprender mejor la aplicacin del teorema de Bayes, se aplica en el siguiente ejemplo: En una etapa de la produccin de un artculo se aplica soldadura y para eso se usan tres diferentes robots. La probabilidad de que la soldadura sea defectuosa vara para cada uno de los tres, as como la proporcin de artculos que cada uno procesa, de acuerdo a la siguiente tabla.

173

Tabla 7.3 Produccin y defectos por robot empleado


Robot A B C Defectuosos 0.002 0.005 0.001 Porcentaje de Produccin 18% 42% 40%

Ahora surgen un par de preguntas: Cul es la proporcin global de defectos producida por las tres mquinas. Si se toma un artculo al azar y resulta con defectos en la soldadura, cul es la probabilidad de que haya sido soldado por el robot C. a) La primera pregunta conduce a lo que se conoce con el nombre de frmula de la probabilidad total. Primero es necesario conocer la proporcin global de defectos de los tres robots. Despus de reflexionar un momento se ve que si todas las soldaduras las pusiera el robot C, habra pocos defectos, seran 0.001 o 0.1%. En cambio, si todas las pone el B, sera un desastre!, tendramos cinco veces ms: 0.005 o 0.5%. De modo que en nuestra respuesta debemos tener en cuenta las diferentes proporciones de lo maquinado en cada robot. La idea es empezar por descomponer el evento defectuosoen viene del robot A y es defectuoso' o viene del robot B y es defectuoso o viene del robot C y es defectuoso. En smbolos tendremos: P(d) = P(A y d) + P(B y d) + P(C y d) P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)

174

Antes de ponerle nmeros y resolver nuestro problema fijmonos en la frmula obtenida. Hay tres eventos A, B y C que son ajenos y cubren todo el espacio muestral. Se conoce las probabilidades de cada uno de ellos. Adems, se conoce las probabilidades condicionales de otro evento dado cada uno de ellos. La frmula de arriba se llama frmula de la probabilidad total. Sustituyendo con los nmeros, se tiene que P(d) = (0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001) = 0.00286, casi 3 piezas por cada mil. Es bueno comparar este resultado con los porcentajes de soldaduras defectuosas de cada robot por separado. Se puede ver que el resultado se encuentra entre todas ellas y se encuentra relativamente cerca de los porcentajes de los robots ms utilizados (el B y el C). Esto es muy razonable. b) La segunda pregunta es, a la vez ms simple y ms complicada, conduce a la aplicacin de lo que se conoce con el nombre de teorema de Bayes. La probabilidad que se busca es un condicional pero al revs de las que se tienen. Se busca P(C|d), para calcularla se utiliza la definicin de probabilidad condicional: P(C | d) = [P(C y d)] / [P( d )] El numerador (lo de arriba) se calcula con P(C y d) = P(C) P(d|C) y el denominador se calcula con la frmula de probabilidad total P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)

175

juntando las dos se tiene la frmula de Bayes: P( C|d) = [P(C) P(d|C)] / [P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)] Aplicndola al ejemplo se tiene: P(C|d) = [(0.40)(0.001)]/[(0.18)(0.002) + (0.42)(0.005) + (0.40)(0.001)] o sea: P(C|d) = [0.0004]/[0.00286] = 0.1399; casi 14%. O sea que si se toma una pieza al azar, la probabilidad de que haya sido soldada por el robot C es alta, 40%. Pero, como ese robot produce slo 1 de cada mil soldaduras defectuosas, al saber que la pieza seleccionada es defectuosa, la probabilidad de que provenga del robot C disminuye a solamente 14%. Esto quiere decir que, en este caso el saber que la soldadura es defectuosa, nos provee con una gran cantidad de informacin. Utilizando de nuevo la frmula de Bayes las probabilidades de los robots A y B, se tendra: P(B|d) = 0.7343 y P(A|d) = 0.1259 Comparadas con las probabilidades de cada mquina sin saber que la pieza es defectuosa se observa un gran incremento en la probabilidad de B. Si, por el contrario la pieza no hubiese tenido defectos de soldadura, el mismo teorema de Bayes dara: P(A|no d) = 0.1802, P(B|no d) = 0.4191 y P(C|no d) = 0.4007 Lo anterior se obtiene del siguiente procedimiento: Como la probabilidad de defectuosos P(|d) = .00286, por lo tanto, su probabilidad complemento o P(|no d) = .99714, lo mismo para cada robot, la probabilidad de que sea no defectuoso es igual a la probabilidad complemento de la probabilidad de defectuosos.

176

Tabla 7.4 Produccin y defectos por robot empleado


Robot A B C No Defectuosos 0,998 0,995 0,999 Porcentaje de Produccin 18% 42% 40%

P(A|No d) = P(A y No d)/P (No d)= (.18)(.998)/ .99714 = 0.1802 P(B|no d) = P(B y No d)/P (No d) = (.42)(0.995)/.99714 = 0.4191 P(C|no d) = P(C y No d)/P (No d) = (.42)(0.995)/.99714 = 0.4007 Las probabilidades no son idnticas a las probabilidades no condicionales, pero la diferencia es muy pequea. Para apreciar mejor el cambio, Se ponen en una sola tabla las probabilidades iniciales y las condicionales obtenidas bajo el conocimiento de la soldadura de la pieza. Tabla 7.5 Produccin y probabilidad condicional de defectos y no defectos
Robot A B C Total P( ) 0,18 0,42 0,40
1,00

P( |d) 0,1259 0,7343 0,1399


1,00

P( |no d) 0,1802 0,4191 0,4007


1,00

Es tan grande el xito de los tres robots en el soldado correcto que el saber que la pieza no tiene defectos, prcticamente no altera las probabilidades de produccin en uno u otro. Por el contrario, el robot C es tan bueno, comparado con el B que, al saber que la pieza es defectuosa, las probabilidades cambian dramticamente.

177

En este ejemplo el clculo de probabilidades condicionales nos cuantifica algo que el sentido comn nos dice de otra forma. La frmula de Bayes sirvi para pasar de las probabilidades no condicionales a las condicionales. Otra aplicacin interesante del Teorema de Bayes se relaciona con el rea de diagnstico mdico. Si se considera que la probabilidad que una persona tenga cierta enfermedad es del .03. Se dispone de pruebas de diagnstico para comprobar si la persona realmente tiene la enfermedad, la probabilidad de que la prueba d positivo si la enfermedad est presente es del .90; la probabilidad de que d positivo si la enfermedad no est presente es de .02; dada la informacin, se desea saber: a. Si la prueba de diagnstico mdico ha dado resultado positivo, Cul es la probabilidad que la enfermedad est presente? b. Qu proporcin de todas las pruebas de diagnstico mdico indican resultados positivos c. Si la prueba de diagnstico mdico ha dado resultado negativo, Cul es la probabilidad de que la enfermedad no est presente? Probabilidad de enfermedad, P(E) = .03 Probabilidad prueba positivo dada la enfermedad, P(P|E) = .90 Probabilidad de No enfermedad, P(E) = .97 Probabilidad prueba positivo dada la No enfermedad, P(P|E) = .02

178

Figura 7.3 rbol de decisin para la aplicacin del teorema de Bayes


P(E y P)=P(P IE)P(E) =(.90)(.03)= .0270

P(E y P)=P(P IE)P(E) P(E)=.03 =(.10)(.03)= .0030

P(E y P)=P(P IE)P(E) =(.02)(.97)= .0194

P(E)=.97

P(E y P)=P(P IE)P(E) =(.98)(.97)= .9506

Tabla 7.6 Probabilidad de enfermedad y prob. condicionada.


Probabilidad de Probabilidad Probabilidad Probabilidad enfermedad condicional conjunta revisada P(Ei) P(P|Ei) P(P|Ei)P(Ei) P(Ei|P) 0.03 0.90 0.0270 .0270/.0464 = .582 0.97 0.02 0.0194 .0194/.0464 = .418 0.0464 1.0000

Evento Ei E = tienen una enfermedad E' = No tienen enfermedad

Respuesta a la primera pregunta. Si la prueba de diagnstico mdico ha dado resultado positivo, Cul es la probabilidad que la enfermedad est presente?: P(E|P) = [P(P|E) P(E)]/P(P|E)P(E) + P(P|E)P(E) = [.03 * .90]/ [(.90) (.03) + (.02 ) (.97)]= .0270/.0464 = .582 Respuesta a la segunda pregunta. Qu proporcin de todas las pruebas de diagnstico mdico indican resultados positivos?

179

Se refiere a la probabilidad simple del evento P, es decir al numerador de la operacin anterior: P(P|E)P(E) + P(P|E)P(E), o sea .0464. Respuesta a la tercera pregunta. Si la prueba de diagnstico mdico ha dado resultado negativo, Cul es la probabilidad de que la enfermedad no est presente? P(P|E) = 1 P(P|E) = 1 - .90 = .10 P(P|E) = 1 P(P|E) = 1 - .02 = .98 Utilizando la ecuacin del teorema de Bayes se tiene: P(E|P) = [P(P|E) P(E)]/P(P|E)P(E) + P(P|E)P(E) = [.98 * .97]/ [(.10) (.03) + (.98 ) (.97)]= .9506/.9536 = .997 7.7 Principios fundamentales para enumerar En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situacin dada se convierte en algo difcil de lograr o simplemente tedioso. El anlisis combinatorio, o clculo combinatorio, permite enumerar tales casos o sucesos y as obtener la probabilidad de eventos ms complejos. En el caso de que exista ms de un suceso a observar, habra que contar el nmero de veces que pueden ocurrir todos los sucesos que se desean observar, para ello se utiliza el principio fundamental de conteo, aqu se sealan cinco diferentes principios para enumerar. Principio 1: Si cualquiera de k eventos mutuamente excluyentes y colectivamente exhaustivos puede ocurrir en cada uno de n intentos, el nmero de resultados posible es igual a kn Si una moneda se arroja 10 veces, el nmero de resultados posibles es 210 = 1,024; Si un dado se lanza dos veces, el nmero de resultados posibles es 62 = 36.

180

Principio 2: Si hay k1 eventos del primer intento, k2 eventos del segundo intento y kn eventos del ensimo intento, entonces el nmero de resultados posible es: (k1)(k2).(kn) Si el cdigo de una placa de automvil consistiera en tres letras seguidas de tres dgitos, el nmero total de placas posible sera (27) (27) (27) (10) (10) (10) = 19, 683, 000. Principio 3: El nmero de formas en que n objetos pueden ordenarse es igual a n(n-1)(n-2)(1); conocido en forma abreviada cono n!, o n factorial. 0! = 1. El nmero de formas en que siete libros pueden ordenarse es igual a 7! ) 7*6*5*4*3*2*1= 5040. Principio 4: El nmero de formas de ordenar X objetos seleccionados de n objetos es = n!/(n-X)!, a esta manera de ordenar los X objetos se le denomina permutaciones. Si se tienen 6 libros, pero slo hay espacio para acomodar 4, cuantas maneras diferentes se pueden acomodar los 4 libros: 6!/(6-4)! = 6!/2! = 360 Principio 5: Muchas de las veces no interesa el orden de los resultados, sino, slo en el nmero de formas en que X objetos pueden seleccionarse de n objetos, la manera de calcular es n!/X!(n-X)!, a este clculo se le denomina combinaciones y n su expresin matemtica es Cxn X . 7.8 Resumen

()

La probabilidad es la posibilidad u oportunidad de que suceda un evento particular. La probabilidad involucrada es una porcin o fraccin cuyo valor vara entre cero y uno exclusivamente. Observamos un evento que no tiene posibilidad de ocurrir (es

181

decir, el evento nulo), tiene una probabilidad de cero, mientras que un evento que seguramente ocurrir (es decir, el evento cierto), tiene una probabilidad de uno. Se han definido tres planteamientos de probabilidad. El primero a menudo se denomina como el planteamiento de la probabilidad clsica a priori. Aqu la probabilidad de xito se basa en el conocimiento anterior del proceso involucrado. En el caso ms simple, cuando cada resultado es igualmente posible. En el segundo ejemplo; llamado probabilidad clsica emprica, aunque la probabilidad se sigue definiendo como la proporcin entre el nmero de resultados favorables y el nmero total de resultados, estos resultados se basan en datos observados, no en el conocimiento anterior a un proceso. El tercer planteamiento de probabilidad se denomina el enfoque de probabilidad subjetiva. Los elementos bsicos de la teora de probabilidades son los resultados del proceso o fenmeno bajo estudio. Cada tipo posible de ocurrencia se denomina un evento. Un evento simple puede describirse mediante una caracterstica sencilla. La compilacin de todos los eventos posibles se llama el espacio muestral. La manera en que se subdivide el espacio muestral depende de los tipos de probabilidades que se han de determinar. Tomando esto en cuenta, resulta de inters definir tanto el complemento de un evento como un evento conjunto y su condicin de exclusin y ocurrencia. Definiendo la diversidad de los eventos posibles en un espacio muestral, se puede determinar la probabilidad simple, probabilidad conjunta, probabilidad condicionada y probabilidad independiente.

182

7.9 Trminos clave: Criterio de probabilidad Diagrama de Venn Espacio muestral Evento cierto Evento conjunto Evento nulo Eventos colectivamente exhaustivos Eventos complemento Eventos dependientes o condicionados Eventos independientes Eventos mutuamente excluyentes Eventos simples Principios para enumerar. 7.10 Problemas de repaso 1. Para cada uno de los siguientes eventos, indique si el tipo de probabilidad es a priori, emprica o subjetiva: a) Que al siguiente lanzamiento de una moneda caiga en guila o en figura b) Que el equipo del Guadalajara le gane al equipo del Amrica c) Que el ltimo nmero de la Lotera Nacional sea un 9 d) Que la suma de dos dados lanzados sea 7 e) Que en el siguiente lote de produccin existan 3 piezas defectuosas 2. D tres ejemplos de cada uno de los tipos de probabilidad: a priori, emprica o a posteriori y subjetiva Probabilidad a priori Probabilidad conjunta Probabilidad emprica o a posteriori Probabilidad objetiva Probabilidad simple Probabilidad subjetiva Regla condicional Regla de adicin Regla de complemento Regla de exclusin Regla de independencia Regla de multiplicacin Tabla de datos cruzados Teorema de Bayes

183

3. En una gran rea metropolitana se seleccion una muestra de 1000 encuestados para determinar informacin diversa respecto al comportamiento de los consumidores. Entre las preguntas estaba Disfruta comprar ropa?, de 480 hombres 272 respondieron que s. De las 520 mujeres 488 respondieron que s. a) Construya una tabla de 2x2 y el diagrama de Venn b) D un ejemplo de un evento simple c) D un ejemplo de evento conjunto d) Cul es el complemento de disfruta de comprar ropa? e) Cul es la probabilidad de que el encuestado sea a. sea hombre b. disfrute comprar ropa c. sea mujer d. no disfrute comprar ropa e. sea mujer y disfrute de comprar ropa f. sea hombre y no disfrute comprar ropa g. sea un hombre y disfrute comprar ropa h. sea una mujer o disfrute comprar ropa i. sea un hombre o no disfrute comprar ropa j. sea un hombre o una mujer f. Suponga que el encuestado es mujer. Cul es entonces la probabilidad que no disfrute comprar ropa? g. Suponga que el encuestado elegido disfruta de comprar ropa. Cul es entonces la probabilidad que sea un hombre?

184

h. Disfruta de comprar ropa y el gnero de los encuestados son estadsticamente independientes? Explique. 4. La cerradura de la bveda de un banco consiste en tres discos, cada uno con 30 posiciones. Para que la bveda se abra, cada uno de los tres discos deber estar en la posicin correcta. a) Cuntas combinaciones de discos diferentes existen para la cerradura? b) Cul es la probabilidad de que si se eligi aleatoriamente una combinacin (una posicin de cada disco), sea capaz de abrir la bveda del banco? c) Explique por qu las combinaciones de discos no son combinaciones matemticas expresadas por la ecuacin n!/X!(n-X)! 5. Un estudiante tiene 9 libros que deseara acomodar en un portafolios. Sin embargo slo 4 libros caben en el portafolios. Sin importar el arreglo Cuntas formas hay de colocar 4 libros en un portafolios?

185

7.11 Mapa conceptual de probabilidad

Probabilidad

Tipos de probabilidad

Objetiva

Subjetiva

Simple

Conjunta

Condicional

Apriori

Empirica

Regla de adicin Regla de multiplicacin

Representacin

Independencia estadstica
Tabla de contingencia

Diagrama de Venn

rbol de decisin

Teorema de Bayes

186

Captulo 8

Modelos de distribucin de probabilidad para variables aleatorias discretas *********************


Objetivo del Captulo
Propiciar la compresin del concepto de esperanza matemtica y su aplicacin en la toma de decisiones, as como los diferentes modelos de distribucin de probabilidad de variables discretas

187

188

8.1 Introduccin Utilizando el conocimiento sobre las medidas estadsticas, la teora de la probabilidad y los mtodos de conteo, en este captulo se estudiar el concepto de esperanza matemtica y los modelos de distribucin de probabilidad que representen eventos discretos. Se iniciar definiendo la distribucin de probabilidad y se define las dos caractersticas bsicas de cualquier distribucin de probabilidad: su media o valor esperado E(X) y su varianza, 2. Despus se explicar dos modelos importantes de distribucin de probabilidad discreta: la distribucin binomial y la distribucin de Poisson. Al terminar el captulo, el alumno debe ser capaz de: 1. Calcular el valor esperado y la varianza de una distribucin de probabilidad discreta. 2. Comprender la aplicacin de los modelos de probabilidad binomial y de Poisson 3. Encontrar cualquier probabilidad binomial o de Poisson 4. Saber cundo y cmo se puede utilizar la distribucin de Poisson para aproximar la distribucin de binomial.

189

8.2 Concepto de distribucin de probabilidad discreta Para definir el concepto de distribucin de probabilidad discreta, es necesario recordar que una variable aleatoria es cierto fenmeno de inters cuyo resultado puede expresarse numricamente. La variable aleatoria puede ser discreta (conteo) o continua (medicin). En este captulo se tratar ciertos modelos de distribucin discreta, la que se define como: un listado mutuamente excluyente de todos los resultados posibles para una variable aleatoria, tal que una probabilidad de ocurrencia est asociada con cada resultado. La distribucin de probabilidad para los resultados de una sola vuelta de rodar un dado se describe en la tabla 8.1. La tabla incluye todos los resultados posibles y como son eventos colectivamente exhaustivos, la suma de probabilidades debe de ser igual a 1. La tabla sirve para calcular diferentes posibilidades de ocurrencia. Tabla 8.1 Distribucin de probabilidades tericas de los resultados de arrojar un dado
Resultado Probabilidad

Resultado

1/6 1/6 1/6 1/6 1/6 1/6 1.0

La probabilidad de que sea cualquier nmero, pero slo uno de ellos (1, 2, 3, 4, 5 6) = 1/6: P(4) = 1/6

190

Utilizando la regla de adicin para eventos mutuamente excluyentes, la probabilidad de que sea un par (2, 4 o 6) es igual a: P(par) = P(2) + P(4) + P(6) = 1/6 +1/6 +1/6 =3/6 = , es decir el 50% de probabilidad de que sea un par. La probabilidad de que sea igual o menor de 2: P(2) = P(1) + P(2) = 1/6 + 1/6 = 2/6 = 1/3 8.3 Valor esperado de una variable discreta El valor esperado E(X) de una serie de eventos aleatorios mutuamente excluyentes y colectivamente exhaustivos es la media (). El valor esperado de una variable aleatoria discreta es la suma de todos los resultados ponderados posibles. La ponderacin es la probabilidad asociada a cada uno de los resultados. El E(X) se obtiene de la suma de los productos de cada resultado posible Xi por la probabilidad de ocurrencia P(Xi), el cual se expresa matemticamente de la siguiente manera:

x = E(X) =

X i P ( X i)

i= 1

Para la distribucin terica de los resultados de arrojar un dado, el valor esperado es igual a:

x = E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3.5


Debe considerarse que al arrojar un dado, nunca se podr obtener una cara con valor de 3.5, la interpretacin que debe darse es de que a la larga, despus de muchos tiros, se habr obtenido el mismo nmero de unos, doses.seises, y el valor promedio es 3.5.

191

Suponiendo que un casino le paga a un jugador en pesos el nmero que saque por cada que arroje un dado y le cobra cuatro pesos por cada vez que lo arroja, la pregunta es, a la larga quin sale ganando. Si se considera el valor de cada elemento de la distribucin de probabilidad en pesos, a la larga el jugador obtendra un promedio de 3.5 pesos por jugada, lo que le hara perder 50 centavos por jugada. 8.4 Varianza y desviacin estndar de una variable discreta La varianza de una serie de eventos aleatorios mutuamente excluyentes y colectivamente exhaustivos es el promedio pesado de las diferencias cuadradas entre cada resultado posible y su media, siendo los pesos las probabilidades de cada uno de los resultados respectivos. (2). La varianza de una variable aleatoria discreta es la suma de las diferencias entre cada resultado posible y su media al cuadrado ponderadas. La ponderacin es la probabilidad asociada a cada uno de los resultados. Esta medicin puede obtenerse a travs de la suma de los productos de las diferencias entre los resultados posibles y la media al cuadrado (X i - x )2 por la probabilidad correspondiente P(Xi), el cual se expresa matemticamente de la siguiente manera:
(X - x ) P (X i ) = i= 1 i
2

Adems, como ya se ha visto anteriormente, la desviacin estndar es igual a la raz cuadrada de la varianza, es decir:
=
(X i- x ) 2 P (X i )
i= 1 n

Para la distribucin de probabilidad terica de los resultados de arrojar un dado, la varianza y la desviacin estndar se calculan de la siguiente manera:

2= (1-3.5)2 (1/6) + (2-3.5)2 (1/6) + (3-3.5)2 (1/6) + (4-3.5)2 (1/6) + (5-3.5)2 (1/6) +
(6-3.5)2 (1/6) = 2.9166, 192

Por lo que la desviacin estndar es igual a la raz cuadrada de 2.9166 = 1.71 8.5 Ejemplos: 1. Dadas las siguientes distribuciones de probabilidad
Distribuccin A X 0 1 2 3 4 Distribucin B X 0 1 2 3 4

P(X) 0.50 0.20 0.15 0.10 0.05

P(X) 0.05 0.10 0.15 0.20 0.50

a) Calcule las medias para cada distribucin b) Calcule la desviacin estndar para cada distribucin c) Seale la diferencia de cada distribucin

La media para la distribucin A es igual a 1; para la B es 3 La desviacin estndar es igual para ambas distribuciones La distribucin A est sesgada a la derecha; la B a la izquierda 2. En el juego de dados, la variable aleatoria de inters (X) toma los valores del total de los dos nmeros. La distribucin de probabilidad est dada por la siguiente tabla:

193

Nmero posible 2 3 4 5 6 7 8 9 10 11 12

No de veces que puede salir 1 2 3 4 5 6 5 4 3 2 1 36

Probabilidad de cada evento 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 36/36

a) Determine la media o valor esperado al arrojar un par de dados b) Calcule la varianza y la desviacin estndar Una manera de apostar es que el jugador que apuesta un $1.00 puede perder un $1.00 si la suma de los nmeros de los dados es 5,6,7 u 8; puede ganar un $1.00 si la suma es 3, 4, 9, 10 u 11; o puede ganar $2.00 si la suma es 2 o 12. c) Forme la funcin de distribucin de probabilidades que represente los diferentes resultados en la apuesta d) Determine la media de esta distribucin. e) A la larga, Cul es la ganancia o prdida del jugador y de la casa?

194

Tabla 8.2 Distribucin de probabilidad de valor de arrojar dos dados

La media de la distribucin de arrojar dos dados es igual a 7 La varianza es igual a 5.83 La desviacin estndar es 2.41 La funcin de distribucin de probabilidad con apuesta est dado por la columna V*P La suma para esa funcin de distribucin de probabilidad es igual a -.055 A la larga, el jugador pierde 5.6 centavos por cada peso apostado A la larga, la casa gana 5.6 centavos por peso apostado 8.6 Funciones de distribucin de probabilidad discreta La distribucin de probabilidad de una variable discreta puede especificarse a travs de:

195

1. Un listado terico de resultados y probabilidades consecuencia de la aplicacin de un modelo matemtico representativo. 2. Un listado emprico de resultados y sus frecuencias relativas observadas 3. Un listado subjetivo de resultados asociados con sus probabilidades subjetivas que representan el grado de conviccin del modelador. Se han desarrollado diferentes modelos matemticos para representar la distribucin de probabilidad de diversos fenmenos discretos que ocurren en las ciencias sociales y naturales, a esta expresin matemtica se le conoce como funcin de distribucin de probabilidad. Las ms tiles, incluso para los negocios, han sido la distribucin binomial y la distribucin de Poisson. 8.7 Distribucin Binomial. Frecuentemente nos enfrentamos con el caso de muchos experimentos que pueden dar como resultado slo dos valores posibles xito o fracaso. Denotamos entonces p y 1 p como las probabilidades para cada resultado, que satisfacen la condicin de normalizacin (p) + (1- p) = 1. Al cabo de un nmero n de experimentos, tendremos respectivamente (x) y (n-x). Si estamos interesados en tener experimentos con el primer resultado en un orden determinado, la correspondiente probabilidad ser (p)x (1- p)n-x. Si en cambio no nos interesa el orden, la probabilidad de tener cualquier combinacin est dada por la llamada distribucin binomial: P(X = x|n, p) = (nmero de posibles secuencias) x (probabilidad de una secuencia en particular): x!(n-x)! p (1-p)
n!
x n-x

Al utilizar este modelo matemtico, los clculos pueden ser bastante laboriosos, especialmente al crecer n, sin embargo las probabilidades se consiguen directamen-

196

te de tablas previamente elaboradas, de un software estadstico o de la hoja de clculo de Excel, evitando complicaciones de clculo. Un ejemplo sencillo de la aplicacin del modelo matemtico o funcin de la distribucin de probabilidad binomial es el siguiente: Qu probabilidad existe de que sean dos cincos en tres tiros de un dado?
3! P( X = 2|n = 3, p = 1/6) = 2!(3-2)!(1/6) (1-1/6)
2 3-2

3! 1/36 (5/6)= 3(5)/216 = 15/216 2!1!


La distribucin binomial posee cuatro propiedades esenciales: Las observaciones posibles pueden obtenerse mediante dos mtodos de muestreo distintos. Cada observacin puede considerarse como seleccionada de una poblacin infinita sin reemplazo o de una poblacin finita con reemplazo. Cada observacin puede clasificarse en una de dos categoras mutuamente excluyentes y colectivamente exhaustivas, usualmente denominadas xito y fracaso. La probabilidad de que una observacin se clasifique como xito, p, es constante de observacin a observacin. Por tanto, la probabilidad de que una observacin se clasifique como fracaso, 1 p, es constante para todas las observaciones. El resultado de cualquier observacin, es decir el xito o el fracaso, es independiente del resultado de cualquier observacin. Aplicaciones de la distribucin binomial. En juegos de azar: en la ruleta americana, Cul es la probabilidad de que el rojo salga 15 o ms veces en 19 intentos? 197

En produccin: Cul es la probabilidad de que en una muestra de 20 piezas ninguna salga defectuosa si el 8% de tales piezas son defectuosas? En educacin: Cul es la probabilidad de que un estudiante apruebe un examen de 10 preguntas de respuesta mltiple (cuatro opciones) si escoge aleatoriamente las respuestas? Aprobar es contestar correctamente 6 o ms preguntas. En cada uno de los ejemplos anteriores se cumplen las cuatro propiedades de la distribucin de probabilidad binomial. En el juego de azar, la probabilidad de que salga rojo (xito) es igual a 18/38 y la probabilidad de que sea negro o verde (fracaso) es igual a 20/38. Como la ruleta no tiene memoria, cada vez que se gire, el resultado es independiente de los resultados anteriores o posteriores. Figura 8.1 juego de ruleta americana

Aplicando el modelo matemtico


19-15 n! px(1-p)n-x = 19! (18/38)15 (1-18/38) x!(n-x)! 15!(19-15)!

93,024 4!

(6.7*10 /4.9*10 )(1.6*10 /2*10 )

18

23

(4.1*1027 /9.8*10 29) =(0.0041)

198

Un agente de seguros vende plizas a cinco personas de la misma edad y que disfrutan de buena salud. Segn las tablas actuales, la probabilidad de que una persona en estas condiciones viva 30 aos o ms es 2/3. Hllese la probabilidad de que, transcurridos 30 aos, vivan: 1. Las cinco personas.

2. Al menos tres personas.

3. Exactamente dos personas.

Si en lugar de utilizar el modelo matemtico, se consulta directamente la hoja de clculo de Excel, utilizando el comando F(x)/Estadsticas/DISTR.BINOM Figura 8.2 men de consulta de distribucin binomial en Excel

199

En produccin, la probabilidad de que salgan defectuosos es .08; la probabilidad de fracaso, es decir que no salga ningn defectuoso, utilizando la hoja de clculo de Excel: DISTR.BINOM (0,20,0.08,FALSO), la probabilidad es igual a 0.188. En educacin, la probabilidad de xito es .25, utilizando la hoja de clculo de Excel: =DISTR.BINOM(6,40,0.25,FALSO), la probabilidad de pasar con 6 el examen es de .05 Si quiere utilizar el programa estadstico SPSS, se deber seguir el siguiente procedimiento. 1. Se abre el programa con un variable disponible y se le da un valor cualquiera, por ejemplo 1 2. Se teclea el comando Transformar/calcular variable, como se observa en la figura 8.3 Figura 8.3 men Transformar en SPSS

Al teclear Transformar/calcular variable, aparece la siguiente pantalla:

200

Figura 8.4 men calcular variables en SPSS

En esta pantalla se tiene que realizar el siguiente procedimiento: 1. En el grupo de funciones (men superior del lado derecho) se escoge el comando FDP y FDP centrada, ste corresponde a la funcin de distribucin de probabilidad no acumulada. 2. Posteriormente se escoge el men inferior Pdf.Binom, que corresponde a la funcin de distribucin de probabilidad binomial, se hace doble click y automticamente aparece la leyenda explicativa y, en la parte superior, aparecen los espacios para colocar los valores de clculo. En el caso del ejemplo, se tecleara 15, 19 y 18/38, que corresponden a la probabilidad de que 15 veces aparezca el rojo en 19 intentos con una probabilidad binomial de 18/38. 3. Para que aparezca el comando aceptar, se deber de definir la variable destino, esto es poner el nombre de la variable en la que va aparecer el valor calculado, como se aprecia en la figura 8.5

201

Figura 8.5 resultados del clculo de variable en SPSS

Cuando se trata de calcular la probabilidad acumulada, se sigue el mismo procedimiento, pero en lugar de escoger el comando FDP y FDP centrada, se escoge FDA y FDA centrada, que corresponde a funcin de distribucin de probabilidad acumulada. Siguiendo con el mismo ejemplo, cul es la probabilidad de que en el juego de la ruleta americana en 19 lanzamientos caiga entre cero y 15 veces. Figura 8.6 clculo de probabilidad acumulada en SPSS

El resultado que se obtiene es de 0.99904, como se puede observar en la figura 8.7 202

Figura 8.7 resultados de clculo de probabilidad binomial acumulada en SPSS

8.8 Caractersticas de la distribucin binomial La distribucin de probabilidad binomial puede ser simtrica o sesgada; es simtrica, sin importar el tamao de n, cuando p = 0.5; es sesgada cuando p es 0.5 Mientras ms cercano sea el valor de p a 0.5 y mayor sea el nmero de observaciones, menos sesgada ser la observacin. La media de la distribucin binomial puede obtenerse fcilmente con la multiplicacin de los valores de n y de p.

x = E(X) = n* p
Por ejemplo, si se gira 19 veces la ruleta americana, Cul es el valor esperado del valor de X?, dicho de otra manera, Con qu frecuencia se espera que salga el color rojo? En promedio, a la larga, tericamente se espera: E(X) = 19 (18/38) = 9 Se espera 9 ocurrencias en 19 giros. La desviacin estndar de la distribucin binomial se calcula utilizando la ecuacin:
=

n p (1 -p)

203

En el ejemplo de la ruleta: = 1 9 ( 1 8 /3 8 ) ( 2 0 /3 8 ) 8.9 Distribucin de Poisson La distribucin de Poisson es otra funcin de distribucin que se utiliza mucho, no slo representa numerosos fenmenos discretos, sino que tambin se usa para proporcionar aproximaciones a la distribucin binomial. La distribucin de Poisson parte de la distribucin binomial: cuando en una distribucin binomial se realiza el experimento un nmero "n" muy elevado de veces y la probabilidad de xito "p" en cada ensayo es reducida, entonces se aplica el modelo de distribucin de Poisson. La distribucin de Poisson se aplica en eventos discretos que ocurren en un rea de oportunidad de intervalo continuo: tiempo, longitud, rea, de tal manera que: 1. La probabilidad de observar exactamente un xito en el intervalo es invariable. 2. La probabilidad de observar exactamente ms de un xito en el intervalo es cero. 3. La ocurrencia de un xito en cualquier intervalo es estadsticamente independiente de otra ocurrencia en cualquier otro intervalo. Algunos ejemplos de aplicacin de la distribucin de Poisson: Nmero de llamadas por hora que se reciben en una estacin de bomberos Nmero de automviles que cruzan un puente internacional al da Nmero de manchas en un metro cuadrado de tela = 2.18

204

Nmero de chispas de chocolate por galleta Nmero de defectos por lote en un proceso de produccin En cada uno de los ejemplos anteriores, la variable aleatoria discreta, nmero de xitos por unidad, se ajustan a la aplicacin de la funcin de distribucin de Poisson. El modelo matemtico de la distribucin de Poisson para obtener X xitos, dado que se esperan xitos es:
- x P(X = x|) = e x!

P(X = x|) = la probabilidad de que X = x dado que se conoce . e = constante matemtica aproximada a 2.71828 = nmero esperado de xitos E(X) = x. X = nmero de xitos por unidad. Para comprender mejor la funcin de distribucin de Poisson, se analiza el nmero de clientes que llegan a un banco entre las 12:00 a.m y 1:00 p.m. Cualquier llegada de cliente es un evento discreto sobre un punto en particular sobre el intervalo continuo de una hora. Si durante ese intervalo llegaron en promedio 180 clientes, Cul es la probabilidad que en un minuto lleguen dos clientes? Primero habr que hacer la conversin de clientes/hora a clientes/minuto, el promedio de llegadas por minuto es de 180/60 = 3 P(X = x|) = PX = 2| = 3) = e-3.0(3.0)2/2! = 9/2.718283.0*2 = .2240 El clculo del modelo matemtico de la funcin de distribucin de Poisson es bastante tedioso, Si en lugar de utilizar el modelo matemtico y se dispone del uso de la hoja de clculo de Excel, se utiliza el comando F(x)/Estadsticas/POISSON para obtener la probabilidad de xito. 205

Figura 8.8 men de consulta de distribucin Poisson en Excel

Otra aplicacin El gerente de control de calidad de Galleta Mara est inspeccionando un lote de galletas de chispas de chocolate que se acaban de hornear. Si el proceso de produccin est bajo control, el nmero promedio de chispas por galleta es 6, utilizando la tabla de distribucin de Poisson, cul es la probabilidad de que cualquier galleta inspeccionada a) se encuentren menos de 5 chispas b) se encuentre exactamente 5 chispas c) se encuentre 5 o ms chispas d) se encuentre 4 5 chispas Utilizando la hoja de clculo de Excel se calcula de la siguiente manera: Cuando se dice menos de 5 chispas, quiere decir 0, 1, 2, 3, 4, chispas, por lo que se considera una probabilidad acumulada: POISSON(4,6,VERDADERO) = 0.2851 Exactamente 5 chispas: POISSON(5,6,FALSO) = 0.1606 Cuando se dice 5 o ms quiere decir 1-P(0, 1, 2, 3 y 4) = 0.7149 206

Cuando se dice entre 4 5 se refiere a P(4)+P(5)= 0.2945 Si quiere utilizar el programa estadstico SPSS, se deber seguir el siguiente procedimiento. 3. Se abre el programa con un variable disponible y se le da un valor cualquiera, por ejemplo 1 4. Se teclea el comando Transformar/calcular variable, como se observa en la figura 8.9 Figura 8.9 men Transformar en SPSS

Al teclear Transformar/calcular variable, aparece la siguiente pantalla: Figura 8.10 men calcular variables en SPSS

207

En esta pantalla se tiene que realizar el siguiente procedimiento: 4. En el grupo de funciones (men superior del lado derecho) se escoge el comando FDP y FDP centrada, ste corresponde a la funcin de distribucin de probabilidad no acumulada. 5. Posteriormente se escoge el men inferior Pdf.Poisson, que corresponde a la funcin de distribucin de probabilidad de Poisson, se hace doble click y automticamente aparece la leyenda explicativa y, en la parte superior, aparecen los espacios para colocar los valores de clculo. En el caso del ejemplo, se tecleara 2 y 3 que corresponden a la probabilidad de que 2 aparezcan en un minuto dado que = 3. 6. Para que aparezca el comando aceptar, se deber de definir la variable destino, esto es poner el nombre de la variable en la que va aparecer el valor calculado, como se aprecia en la figura 8.11 Figura 8.11 resultados del clculo de variable en SPSS

Cuando se trata de calcular la probabilidad acumulada, se sigue el mismo procedimiento, pero en lugar de escoger el comando FDP y FDP centrada, se escoge FDA y FDA centrada, que corresponde a funcin de distribucin de probabilidad acumulada. Siguiendo con el mismo ejemplo, cul es la probabilidad de que al menos dos clientes lleguen en un minuto. Cuando se considera al menos dos se refiere a la probabilidad acumulada de que lleguen 2 y 3.

208

Figura 8.12 clculo de probabilidad acumulada en SPSS

El resultado que se obtiene es de 0.99904, como se puede observar en la figura 8.13 Figura 8.13 resultados de clculo de probabilidad binomial acumulada en SPSS

8.10 Caractersticas de la funcin de la distribucin de probabilidades de Poisson. Forma. Cada vez que se especifica el parmetro , puede generarse una distribucin de probabilidad de Poisson especfica. Una distribucin de Poisson estar sesgada a la derecha cuando es pequea, y se aproximar a la simetra al crecer.

209

Una propiedad de esta distribucin es que la media y la varianza son iguales al parmetro , por lo que la desviacin estndar es igual a (raz cuadrada de ) Para aquellas situaciones en las que n es grande (mayor o igual a 20) y p es muy pequea (menor a 0.05), la distribucin de Poisson puede usarse para aproximar la distribucin binomial. La variable aleatoria de la funcin de distribucin de Poisson puede variar tericamente de 0 a . Sin embargo, cuando se usa como una aproximacin a la distribucin binomial, la variable aleatoria de Poisson, el nmero de xitos de n observaciones, claramente no puede exceder el tamao de la muestra n. 8.11 Resumen Se denomina distribucin de variable discreta a aquella cuya funcin de probabilidad slo toma valores positivos en un conjunto de valores de X finito o numerable. Existen tres formas de definir una distribucin de probabilidad discreta: un listado terico, un listado emprico y un listado subjetivo. El desarrollo del contenido del captulo se bas en los de primer tipo, es decir en la obtencin de un listado terico obtenido de un modelo matemtico que represente algunos fenmenos de inters. Como una introduccin al conocimiento de la distribucin de probabilidad se puso como ejemplo la distribucin de probabilidad uniforme, como es la de lanzar un dado de 6 caras, donde la distribucin de probabilidad es de 1/6 para cada cara, la suma de las probabilidades es igual a 1; la media o valor esperado es igual a la suma de los productos de Xi por la probabilidad de Xi, donde Xi toma los valores de 1 hasta n: x = E(X) = ; la varianza de una variable aleatoria discreta es la suma de las diferencias entre cada resultado posible y su media al cuadrado ponderadas. La ponderacin es la probabilidad asociada a
i= 1

X i P ( X i)

cada uno de los resultados: = simplemente es su raz cuadrada.


2

(X i- x ) P (X i )
2

i= 1

; por lo que la desviacin estndar

210

Dos modelos matemticos o funcin de distribucin de variable aleatoria discreta se estudiaron, la distribucin binomial y la distribucin de Poisson. La distribucin binomial se utiliza para analizar una poblacin infinita sin reemplazo o una poblacin finita con reemplazo. Cada observacin puede tomar una de dos categoras: xito o fracaso y el resultado de cualquier observacin es independiente del resto de las observaciones anteriores o posteriores. Los estadsticos de la distribucin binomial se calculan como la media o E(X) = np; la desviacin estndar es igual a la raz cuadrada de np (1-p). La probabilidad de Poisson se aplica en eventos discretos que ocurren en un rea de oportunidad, un intervalo continuo de tiempo, longitud o rea. El rea de oportunidad debe reducirse de tal forma que la probabilidad de observar exactamente un xito es estable, la probabilidad de observar exactamente ms de un xito en el intervalo es cero y, la ocurrencia de un xito en cualquier intervalo es estadsticamente independiente de que ocurra en cualquier otro intervalo. Una propiedad interesante de la distribucin de Poisson es que la media y la varianza son iguales al parmetro . En ambas distribuciones de probabilidad: binomial y Poisson, el clculo de la probabilidad de ocurrencia se puede obtener de tablas previamente elaboradas, de un paquete estadstico, o de la hoja de clculo de Excel. 8.12 Trminos clave Distribucin de probabilidad para una variable aleatoria discreta Esperanza matemtica o valor esperado Varianza y Desviacin estndar de una variable aleatoria discreta Valor monetario esperado Funcin de distribucin de probabilidad discreta Distribucin binomial Distribucin de Poisson

211

8.13 Problemas de repaso del captulo 1. En el juego de dados de sietes, se arroja una vez un par de dados y la suma resultante determina si el jugador gana o pierde su apuesta. Por ejemplo, el jugador puede apostar $1.00 a que la suma es menor, es decir 2, 3, 4 ,5 o 6. Para esta apuesta, el jugador perder $1.00 si el resultado es igual o mayor que siete, es decir 7, 8, 9, 10, 11 y 12. De manera similar, el jugador puede apostar $1.00 a que la suma es mayor que 7, es decir, 8, 9, 10, 11 y 12. Aqu el jugador pierde un $1.00 si el resultado es igual a 7 o menor, es decir 7, 6, 5, 4, 3 2. Un tercer mtodo de juego es apostar $1.00 sobre el resultado de 7. Para esta apuesta el jugador ganar $4.00 si el resultado es 7 y perder $1.00 si no lo es. a) Forme la funcin de distribucin de probabilidad que represente los diferentes resultados que son posibles para cada una de las modalidades sealadas en el prrafo anterior. b) Pruebe que la ganancia o prdida esperada a la larga para el jugador es igual, sin importar el mtodo que se utilice. 2.- Una mquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas defectuosas. Hallar la probabilidad de que al examinar 50 piezas slo haya: a) una defectuosa b) cinco defectuosa 3.- La probabilidad de xito de una determinada vacuna es 0,72. Calcula la probabilidad de a que una vez administrada a 15 pacientes:

212

a) Ninguno sufra la enfermedad b) Todos sufran la enfermedad c) Dos de ellos contraigan la enfermedad 4.- Si se admite que un nmero de telfono de cada cinco est comunicando, cul es la probabilidad de que, cuando se marquen 10 nmeros de telfono elegidos al azar, slo comuniquen dos? 5.- La probabilidad de que un artculo producido por una fbrica sea defectuoso es p 0.002. Se envi un cargamento de 10,000 artculos a unos almacenes. Hallar el nmero esperado de artculos defectuosos, la varianza y la desviacin tpica. 6.- Supngase que estamos investigando la seguridad de un crucero muy peligroso. Los archivos del departamento de trnsito indican una media de cinco accidentes por mes en l. El nmero de accidentes est distribuido conforme a la distribucin de Poisson, el nuevo jefe del departamento quiere calcular la probabilidad de exactamente 0,1,2,3 y 4 accidentes en un mes determinado. 7.- Si un banco recibe en promedio 6 cheques sin fondo por da, Cules son las probabilidades de que reciba, a) cuatro cheques sin fondo en un da dado, b) 10 cheques sin fondos en cualquiera de dos das consecutivos. 8.- En la inspeccin de hojalata producida por un proceso electroltico continuo se identifican 0.2 imperfecciones en promedio por minuto. Determine las probabilidades de identificar a) una imperfeccin en 3 minutos, b) al menos dos imperfecciones en 5 minutos, c) cuando ms una imperfeccin en 15 minuto.

213

8.14 Mapa conceptual de modelos de distribucin de probabilidad para variables aleatorias discretas.

Distribuciones de probabilidad discreta

Definiciones y propiedades

Valor esperado E(X)

Varianza 2

Distribucin Binomial

Aproximacin de Poisson a Binomial

N 20 P .05

Distribucin de Poisson

214

Captulo 9

La distribucin normal *********************


Objetivo del Captulo
Propiciar la compresin del uso de la funcin de distribucin de probabilidad normal de una variable continua y el uso aproximado para variables discretas.

215

216

9.1 Introduccin En este captulo se estudiar la distribucin de probabilidades ms importante en Estadstica, la distribucin normal. Se har nfasis en sus caractersticas y sus diversas aplicaciones. La distribucin normal, tambin llamada distribucin de Gauss o distribucin gaussiana, es la distribucin de probabilidad que con ms frecuencia aparece en estadstica y teora de probabilidades. Esto se debe a dos razones fundamentalmente: Su funcin de densidad es simtrica y con forma de campana, lo que favorece su aplicacin como modelo a gran nmero de variables estadsticas. Es, adems, lmite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teora de las probabilidades gracias a sus propiedades matemticas. Al concluir el captulo, el alumno ser capaz de: 1. Comprender las propiedades de la distribucin normal 2. Encontrar el valor porcentual que corresponde a cualquier punto debajo de la curva 217

3. Saber cundo y cmo utilizar una distribucin normal como aproximacin a las distribuciones de variable aleatoria discreta como la binomial y la de Poisson. 9.2 La funcin de densidad de probabilidad de una variable aleatoria continua Las funciones de densidad de probabilidades continuas surgen de la medicin de diversos fenmenos de inters como la estatura, el peso, el tiempo. La obtencin de probabilidades para fenmenos continuos requiere del conocimiento matemtico de clculo integral, fuera del alcance de este curso. No obstante, dada la importancia de aplicacin, se han construido tablas de probabilidad especial y se han creado programas de cmputo con el fin de eliminar los laboriosos clculos matemticos. La funcin de densidad de probabilidad de una variable continua ms utilizado se le conoce como distribucin normal o gaussiana. 9.3 La distribucin normal La distribucin normal se caracteriza porque los valores se distribuyen en forma de campana, en torno a un valor central que coincide con el valor medio de la distribucin: un 50% de los valores estn a la derecha de este valor central y otro 50% a la izquierda. 9.4 Propiedades de la distribucin normal La distribucin normal tiene varias propiedades tericas importantes, entre las que se encuentran las siguientes: 1. La distribucin de los eventos grficamente se asemeja a una campana simtrica. 2. Las mediciones de tendencia central (media, mediana, moda, alcance medio y eje medio) son idnticas. 3. La dispersin media es igual a 1.33 desviaciones estndar.

218

4. La variable aleatoria tiene un alcance terico de , aunque en la prctica caer entre los valores de 3 desviaciones estndar. 5. La probabilidad de ocurrencia de un evento es igual a la frecuencia relativa 9.5 El modelo matemtico El modelo matemtico que representa la funcin de densidad de probabilidad se denota mediante

f (X)=

1 e-()[(x-x )/x ] 2 x

Dado que e y son nmeros constantes, cada que se modifique la media de la poblacin o la desviacin estndar se generar una distribucin de probabilidad diferente, lo que propicia que exista un nmero infinito de combinaciones y se requerir, para el clculo de probabilidades, un nmero infinito de tablas. Para hacer prctico el uso del modelo matemtico se requiere estandarizar los datos originales. Para estandarizar el modelo matemtico (reducir el modelo) se consideran 3 condiciones: 1. transformar los valores de cualquier variable aleatoria de X a una variable aleatoria normal estandarizada mediante la frmula:

X- Z = x x
2. La distribucin normal estandarizada siempre tiene una z = 0 y 3. Una desviacin estndar z = 1. Bajo estas condiciones siempre se puede convertir cualquier conjunto de datos normalmente distribuidos a su forma estandarizada y determinar cualquier probabilidad deseada a partir de la distribucin normal estandarizada.

219

9.6 Ejemplo: En el montado de una pieza de un proceso de produccin, un analista de tiempos y movimientos de produccin determin que el tiempo promedio, despus de un entrenamiento, un obrero tarda 150 segundos en realizarlo, con una desviacin estndar de 12 segundos. Considerando, que para efectos prcticos el total de las observaciones se distribuyen en 3 (desviaciones estndar) los valores posibles en segundos que los trabajadores tardaran en realizarlo seran: (150-3), (150-2), (150-1), (150-0), (150+1), (150+2) y (150+3), es decir entre los siguientes: 114, 126, 138, 150, 162, 174 y 186. Con el propsito de realizar un anlisis de probabilidades, el analista estandariz los datos normales convirti los valores reales a valores Z-, como se puede observar en la tabla 9.1. Tabla 9.1 Estandarizacin de una variable aleatoria X

La interpretacin grfica de la distribucin normal estandarizada se puede apreciar en la figura 9.1

220

Figura 9.1 Transformacin de escalas de normal a normal estandarizada

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

Uso de las tablas de probabilidad normal. El diagrama en forma de campana de la figura 9.1 ilustra el polgono de frecuencias relativas para la distribucin normal que representa el tiempo (en segundos) de montaje de todos los obreros. Los datos representan la poblacin entera de la plana y por lo tanto, las probabilidades o proporciones totales bajo el rea de la curva es igual a 1. Siguiendo con el ejemplo, el analista desea determinar la probabilidad de que un obrero seleccionado aleatoriamente requiera entre 150 y 162 segundos para montar la pieza. Utilizando los datos estandarizados, la pregunta sera Cul es la probabilidad de que el tiempo del obrero est entre la media y una desviacin estndar? La tabla 9.2 representa las probabilidades, para los valores de Z, es decir, para los valores de X estandarizados. Al usar la tabla se puede observar que todos los valores de Z deben de registrarse hasta con dos decimales. Por lo tanto, el valor de inters del ejemplo ser Z = 1.00. El valor de Z = 1 se localiza en la interseccin de la fila con valor de 1.0 y la columna con valor de .0, la cual indica .3413. La interpretacin se ilustra en la figura 9.2 y representa el 34.13% del rea total debajo de la curva, equivalente al 34.13% de probabilidad de que el obrero escogido aleato-

221

riamente caiga en ese rango. Cada valor representa el rea bajo la curva desde la media o Z= 0 hasta +3Z. Figura 9.2 Distribucin normal estandarizada, rea de inters: P (150 X162
rea = .3413

X- Z = x x

12

=1

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

Utilizando la hoja de clculo de Excel, se utiliza el comando F(x)/Estadsticas /DISTR.NORM.ESTAND(1), se introduce el valor de Z y se obtiene el valor de la probabilidad acumulada, por lo que es necesario restarle el .50 que corresponde a la primera mitad de la curva. A .8413 se le resta .50, se obtiene el rea de .3413, que corresponde al rea entre 0 y 1Z. Figura 9.3 Comando de clculo del valor Z en la hoja de clculo Excel

222

Tabla 9.2 Distribucin normal estandarizada: valores de rea desde la media hasta Z
Z/
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09

0 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.258 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.499 0.4993 0.4995 0.4997

0.004 0.0438 0.0832 0.1217 0.1591 0.195 0.2291 0.2611 0.291 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.492 0.494 0.4955 0.4966 0.4975 0.4982 0.4987 0.4991 0.4993 0.4995 0.4997

0.008 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.483 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4987 0.4991 0.4994 0.4995 0.4997

0.012 0.0517 0.091 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.437 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4988 0.4991 0.4994 0.4996 0.4997

0.016 0.0557 0.0948 0.1331 0.17 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4988 0.4992 0.4994 0.4996 0.4997

0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 -0.0122 0.4906 0.4929 0.4946 0.496 0.497 0.4978 0.4984 0.4989 0.4992 0.4994 0.4996 0.4997

0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.377 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.475 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4989 0.4992 0.4994 0.4996 0.4997

0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.334 0.3577 0.379 0.398 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.485 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4989 0.4992 0.4995 0.4996 0.4997

0.0319 0.0714 0.1103 0.148 0.1844 0.219 0.2517 0.2823 0.3106 0.3365 0.3599 0.381 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.498 0.4986 0.499 0.4993 0.4995 0.4996 0.4997

0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.383 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.489 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 0.499 0.4993 0.4995 0.4997 0.4998

223

Tabla 9.3 Distribucin normal estandarizada: valores de rea desde la media hasta Z
0 -4 -3.9 -3.8 -3.7 -3.6 -3.5 -3.4 -3.3 -3.2 -3.1 -3 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.00003 0.00005 0.00007 0.00011 0.00016 0.00023 0.00034 0.00048 0.00069 0.00097 0.00135 0.00187 0.00256 0.00347 0.00466 0.00621 0.0082 0.01072 0.0139 0.01786 0.02275 0.02872 0.03593 0.04456 0.0548 0.06681 0.08076 0.0968 0.11507 0.13566 0.15865 0.18406 0.21185 0.24196 0.27425 0.30853 0.34457 0.38209 0.42074 0.46017 0.5 0.01 0.00003 0.00005 0.00007 0.0001 0.00015 0.00022 0.00032 0.00047 0.00066 0.00094 0.00131 0.00181 0.00248 0.00336 0.00453 0.00604 0.00798 0.01044 0.01355 0.01743 0.02222 0.02807 0.03515 0.04363 0.0537 0.06552 0.07927 0.0951 0.11314 0.1335 0.15625 0.18141 0.20897 0.23885 0.27093 0.30502 0.3409 0.37828 0.41683 0.4562 0.49601 0.02 0.00003 0.00004 0.00007 0.0001 0.00015 0.00022 0.00031 0.00045 0.00064 0.0009 0.00126 0.00175 0.0024 0.00326 0.0044 0.00587 0.00776 0.01017 0.01321 0.017 0.02169 0.02743 0.03438 0.04272 0.05262 0.06425 0.0778 0.09342 0.11123 0.13136 0.15386 0.17878 0.20611 0.23576 0.26763 0.30153 0.33724 0.37448 0.41293 0.45224 0.49202 0.03 0.00003 0.00004 0.00006 0.0001 0.00014 0.00021 0.0003 0.00043 0.00062 0.00087 0.00122 0.00169 0.00233 0.00317 0.00427 0.0057 0.00755 0.0099 0.01287 0.01659 0.02118 0.0268 0.03362 0.04181 0.05155 0.06301 0.07636 0.09176 0.10935 0.12924 0.1515 0.17618 0.20327 0.23269 0.26434 0.29805 0.33359 0.3707 0.40904 0.44828 0.48803 0.04 0.00003 0.00004 0.00006 0.00009 0.00014 0.0002 0.00029 0.00042 0.0006 0.00084 0.00118 0.00164 0.00226 0.00307 0.00415 0.00554 0.00734 0.00964 0.01255 0.01618 0.02067 0.02619 0.03288 0.04093 0.0505 0.06178 0.07493 0.09012 0.10749 0.12714 0.14917 0.17361 0.20045 0.22965 0.26108 0.2946 0.32997 0.36692 0.40516 0.44433 0.48404 0.05 0.00003 0.00004 0.00006 0.00009 0.00013 0.00019 0.00028 0.0004 0.00058 0.00082 0.00114 0.00159 0.00219 0.00298 0.00402 0.00539 0.00714 0.00939 0.01222 0.01578 0.02018 0.02559 0.03216 0.04006 0.04947 0.06057 0.07353 0.08851 0.10565 0.12507 0.14686 0.17105 0.19766 0.22663 0.25784 0.29116 0.32635 0.36317 0.40129 0.44038 0.48006 0.06 0.00002 0.00004 0.00006 0.00008 0.00013 0.00019 0.00027 0.00039 0.00056 0.00079 0.00111 0.00154 0.00212 0.00289 0.00391 0.00523 0.00695 0.00914 0.01191 0.01539 0.0197 0.025 0.03144 0.0392 0.04846 0.05938 0.07214 0.08691 0.10383 0.12302 0.14457 0.16853 0.19489 0.22363 0.25462 0.28774 0.32276 0.35942 0.39743 0.43644 0.47607 0.07 0.00002 0.00004 0.00005 0.00008 0.00012 0.00018 0.00026 0.00038 0.00054 0.00076 0.00107 0.00149 0.00205 0.0028 0.00379 0.00508 0.00676 0.00889 0.0116 0.015 0.01923 0.02442 0.03074 0.03836 0.04746 0.05821 0.07078 0.08534 0.10204 0.121 0.14231 0.16602 0.19215 0.22065 0.25143 0.28434 0.31917 0.35569 0.39358 0.4325 0.47209 0.08 0.09 0.00002 0.00002 0.00003 0.00003 0.00005 0.00005 0.00008 0.00008 0.00012 0.00011 0.00017 0.00017 0.00025 0.00024 0.00036 0.00035 0.00052 0.00103 0.0005 0.001 0.00074 0.00071 0.00144 0.00139 0.00199 0.00193 0.00272 0.00264 0.00368 0.00357 0.00494 0.0048 0.00657 0.00639 0.00866 0.00842 0.0113 0.01101 0.01463 0.01426 0.01876 0.01831 0.02385 0.0233 0.03005 0.02938 0.03754 0.03673 0.04648 0.04551 0.05705 0.05592 0.06944 0.06811 0.08379 0.08226 0.10027 0.09852 0.119 0.11702 0.14007 0.13786 0.16354 0.16109 0.18943 0.18673 0.21769 0.21476 0.24825 0.24509 0.28095 0.27759 0.31561 0.31206 0.35197 0.34826 0.38974 0.3859 0.42857 0.42465 0.46811 0.46414

224

9.7 Aplicaciones Una vez conociendo el procedimiento y uso de la estandarizacin de una densidad de distribucin normal se pueden resolver distintos cuestionamientos de probabilidad referentes a la distribucin normal, tales como: 1. Cul es la probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 150 segundos o en ms de 162? 2. Cul es la probabilidad de que lo haga entre 136 y 162 segundos? 3. Cul es la probabilidad de que lo haga en menos de 124 segundos? 4. Cul es la probabilidad de que lo haga entre 114 y 138 segundos? 5. Cuntos segundos deben de transcurrir antes de que el 50% de los obreros monten la pieza? 6. Cuntos segundos deben de transcurrir antes de que el 10% de los obreros monten la pieza? 7. Cul es el alcance intercuartil (rango en segundos) esperado para que los obreros monten la pieza? Respuestas a las preguntas Pregunta 1: Encontrar la P(X<150 o X>162). Para determinar la respuesta hay dos maneras de calcularla, utilizando la regla de complemento o la regla de adicin para eventos mutuamente excluyentes. La regla de complemento se aplica como 1(la probabilidad de que ocurra entre 150 y 162 segundos), es decir 1-.3413 = .6587; Usando la tabla 9.3, se observa que el rea bajo la curva normal de -4Z hasta Z = 0 es igual a .50, resulta ser el rea total del lado izquierdo. Ahora, si el rea total del lado derecho es igual a .50, habr que restarle el rea que abarca los valores de 0 a 1Z, que corresponde a .3413, por lo que el rea de ms de 162 segunda es igual a

225

.50 - .3413 = .1587. Aplicando la regla de adicin, se obtiene la probabilidad de que se realice en menos de 150 segundos y se le suma a la probabilidad de que sea en ms de 162. Esto es P(X<150 o X>162) = .50 + .1587 = 6587. El resultado se ilustra en la figura 9.4 Figura 9.4 rea de P(X<150 o X>162).
rea = .3413 rea = .50

X- Z = x x

12

=1

rea = .1587

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

Pregunta 2. Encontrar la P(138 X 162) Para encontrar el rea de probabilidad que se encuentra entre los valores de 138 y 162, se observa en la figura 9.5 que el rea se encuentra entre los valores de Z igual -1 y Z igual a 1. Como la tabla de clculo o el uso de software slo permite calcular la probabilidad de la media hasta un valor positivo o negativo de Z, el rea de inters podr obtenerse en tres pasos: a) Determinar la probabilidad de la media a 162 segundos. b) Determinar la probabilidad de la media a 138 segundos. c) Sumar la probabilidad de ambas. Utilizando las tablas, el primer paso ya se ha determinado anteriormente y tiene un valor de .3413; el segundo paso, el clculo de la probabilidad de 138 segundos se obtiene de restarle a .50, el valor de la probabilidad de -1Z, es decir (.50) (.1587) = .3413. La suma de ambas reas es de .6826.

226

Otra manera de calcularlo es, sabiendo de la simetra de la curva de distribucin normal, se deduce que el rea de 1Z es igual a el rea de -1Z, entonces el rea total ser de (.3415) + (.3415) = .6826. Figura 9.5 rea de P(138 X 162)
rea = .3413 rea = .3413

X- Z = x x

12

= -1

162-150 X- =1 Z = x x = 12

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

Pregunta 3. Encontrar la P (X < 124) Para encontrar el rea de probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 124 segundos, primero tendr que calcularse el valor de Z, podr consultarse directamente en la tabla 9.3 de los valores negativos de Z o directamente el la hoja de clculo de Excel. El rea puede observarse en la figura 9.6 Figura 9.6 rea de P(X< 124)
X- Z = x x 12 = -2.17

rea = .0150

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

227

Pregunta 4. Encontrar la P(124 X 138). Para encontrar el rea de probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza entre 124 y 138 segundos. Puesto que la tabla o la hoja de clculo de Excel slo permiten calcular el rea desde la media hasta cierto valor de Z, la probabilidad de inters se podr obtener en tres pasos. a) Determinar la probabilidad o rea bajo la curva de la media hasta 124 segundos. b) Determinar la probabilidad o rea bajo la curva de la media hasta 138 segundos c) Restar el rea menor a la mayor para evitar doble conteo El rea hasta 124 segundos corresponde al rea entre la media y -2.17 Z, esto es .0150 El rea hasta 138 segundos corresponde al rea entre la media y -1Z, esto es .1587 La resta de reas es igual a .1587 -.0150 = .1437, este resultado se puede observar en la figura 9.7 Figura 9.7 rea de P(124 X 138)
rea = .1587- .0150=.1437

X- 124-150 Z = x x = 12 = -2.17 X- 138-150 Z = x x = 12 = -1 rea para -1Z = .1587

rea = .0150 puesto que Z = -2.17

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

228

Pregunta 5. Para determinar cuntos segundos transcurren antes de que el 50% de los obreros monten la pieza, debe considerarse la simetra de la curva de distribucin normal, si la media es igual a 150 segundos y sta se encuentra exactamente en la mitad de la curva, significa que el 50% de los obreros tardan hasta 150 segundos en montar la pieza. Pregunta 6. Para determinar cuanto tiempo transcurre antes de que el 10% de los obreros terminen de montar la pieza, se busca en la tabla 9.3 de valores negativos de Z, se busca en el interior de la tabla el valor que ms se aproxime al .10 y se encuentra que es el valor de Z = -1.28, que es el valor estandarizado de X. Pero como lo que es de inters es el valor de X, ahora se utiliza la ecuacin de estandarizacin en forma inversa, es decir, conociendo Z, ahora se estima el valor de X.

X- Z = x x ;
150 + (-1.28)(12) = 134.64

x+Z( x) = X

Pregunta 7. Para obtener el rango intercuartil lo primero que se tiene que realizar es el clculo de Q1 y Q3. Como el rea debajo de la curva es simtrica y la densidad de la curva es igual a 1, entonces el primer cuartil se localiza desde la media hasta .2500 del rea izquierda y el tercer cuartil de la media hasta el .2500 del rea derecha, se localizan los valores ms prximos a ella en las tablas 9.3 y 9.2. Se observa que los valores de Z son -.67 y +.67 respectivamente. Utilizando la ecuacin anterior, se tiene que: Q1 = X = x+Z(x) = 150 + (-.67)(12) = 141.96 segundos Q2 = X = x+Z(x) = 150 + (67)(12) = 158.04 segundos El rango intercuartil es igual a Q3 Q1 = 158.04 141.96 = 16.08 segundos.

229

9.8 Uso de distribucin normal como una aproximacin a la distribucin binomial o a la distribucin de Poisson Se ha dicho que la distribucin binomial es simtrica, como la distribucin normal, siempre que p = .5, mientras ms grande sea el nmero de observaciones de la muestra n, y mientras ms cerca se p de .5, ms simtricamente ser la distribucin. Como regla general, cuando np y n(1-np) tengan un valor de al menos 5, se puede utilizar la distribucin normal. Por lo tanto, para encontrar probabilidades aproximadas correspondientes a los valores de la variable aleatoria discreta X se utiliza la siguiente aproximacin:

X- Z = x x
Donde np = a la media de la distribucin binomial

Xa -np np(1-p)

np(1-p) es igual a la desviacin estndar de la distribucin binomial


Xa = nmero ajustado de xitos de x, para variable discretas, de tal forma que Xa = .5 segn sea el caso. Ejemplo. Para ilustrar la aplicacin de utilizar la distribucin normal como una aproximacin a la distribucin binomial, de una muestra n = 1600 llantas, se obtienen aleatoriamente de un proceso continuo en el que la experiencia dice que hay 8% se producen con defecto. Cul es la probabilidad de que en esta muestra no ms de 150 llantas sean defectuosas. Puesto de np = 1600 (.08)= 128 y n(1-p) es igual a 1600(.92) = 1,472 exceden de 5, entonces se puede utilizar la aproximacin de la distribucin normal.

X a-np 1/2 np(1-p) = 150.5 128 /[(1600)(.08)(.92)] = 22.5/10.85 = 2.07

230

Usando la tabla 9.2 se observa que el rea bajo la curva es de .4808, de tal forma que la probabilidad est dado por .5000 + .4808 = .9808. Por otro lado, la distribucin normal tambin puede utilizarse como una aproximacin al modelo de Poisson, siempre que el parmetro (nmero esperado de xitos) sea igual o mayor que 5. Puesto que la media y la varianza de una distribucin de Poisson son iguales a , se recuerda que: Una propiedad de esta distribucin es que la media y la varianza son iguales al parmetro , por lo que la desviacin estndar es igual a (raz cuadrada de ), por lo que

X- Z = x x
Donde

Xa -

= a la media de la distribucin Poisson

es igual a la desviacin estndar de la distribucin se Poisson


Xa = nmero ajustado de xitos de x, para variable discretas, de tal forma que Xa = .5 segn sea el caso. Ejemplo. Para ilustrar la aplicacin de utilizar la distribucin normal como una aproximacin a la distribucin de Poisson, se considera que en una planta de produccin el nmero de interrupciones de trabajo al da por problemas con el equipo es de 12. cul es la probabilidad aproximada de tener 15 interrupciones:

Xa -

15.5 -12.0/(12)1/2 = 1.01

El nmero ajustado de xitos, es de 15.5, se observa que el valor del rea debajo de la curva par Z = 1.01 es de .3438, si se le agrega el rea del lado izquierdo de la curva que es igual a .50, se tiene que la probabilidad aproximada de tener 15 o

231

menos interrupciones en la planta por problemas del equipo, es de .8438, esta aproximacin se acerca bastante a la probabilidad de Poisson exacta, que calculada tiene un valor de .8445. 9.9 Resumen La mayora de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, fsicas y biolgicas, son continuas y se distribuyen segn una funcin de densidad. La funcin de densidad ms utilizada se conoce como distribucin normal o distribucin gaussiana. La caracterstica principal de esta distribucin es que su representacin grfica tiene forma de campana simtrica que ilustra la igualdad de los valores mayores y menores ponderados con respecto a la media. La ponderacin de los valores est dada por la frecuencia relativa de las observaciones y es igual a la probabilidad de ocurrencia. Dado que la funcin de densidad de la distribucin normal est dado por un modelo matemtico que relaciona los valores de la media y la desviacin estndar, existe un gran nmero de valores que representan la densidad de distribucin de probabilidades como poblaciones existan con diferente media o desviacin estndar:

f (X)=

1 e-()[(x-x )/x ] 2 x

Para hacer prctica la aplicacin de la funcin de densidad de la distribucin normal, se requiere estandarizar los valores de Xi a valores Z, considerando a la media con un valor igual a cero y la desviacin estndar igual a 1, el clculo de los valores de Z se realizan mediante la frmula:

X- Z = x x
Una vez estandarizados los valores de Xi, los valores de Z, con valores prcticos de 3, se define el rea que corresponde a los valores de Z, ya sea utilizando la tabla de distribucin normal o un paquete estadstico o la hoja de clculo de Excel.

232

Los valores de 3Z, es decir, 6 desviaciones estndar, cubren un rea de .9974 del total de la densidad de la curva; 2Z, es decir, cuatro desviaciones estndar, cubren el .9772 y 1 desviacin estndar, el .6826. Bajo ciertas condiciones, la funcin de densidad de la distribucin normal, se puede aplicar como una aproximacin de las distribuciones binomial y de Poisson, utilizadas para calcular la distribucin de probabilidad de variables aleatorias discretas. 9.10 Trminos clave Funcin de densidad de probabilidad Distribucin normal o campana de Gauss Estandarizacin Valores Z 9.11 Problemas de repaso del captulo 1.- Una pequea empresa de diseo y fabricacin de piezas mecnicas ha recibido un pedido de cojinetes de dimetro de 1.9 cm. Los lmites de aceptacin son .025 cm. Por experiencia, el gerente de la empresa sabe que el valor esperado es 1.912 cm. y una desviacin estndar de .010 cm. Cul es la probabilidad de que un cojinete muestreado aleatoriamente est? a) Entre la media solicitada y la media real. b) Entre el lmite inferior y el dimetro solicitado. c) Por arriba del lmite superior aceptado. d) Por debajo del lmite superior aceptado. e) Por arriba de que valor de dimetro estar el 93% de los cojinetes. Aproximaciones a la distribucin binomial Aproximacin a la distribucin de Poisson

233

2.- Una empresa que distribuye refrescos embotellados de 2 litros con una desviacin estndar de .05 litros, sabe que si los refrescos que distribuye no satisfacen el 95% del contenido neto, podran ser multados por la PROFECO, tambin sabe que si el contenido es de 2.10 litros puede ocasionar derrames del lquido. a) Qu proporcin de las botellas contendr? 1. Entre 1.90 y 2.0 litros. 2. Entre 1.90 y 2.10 litros. 3. Menos de 1.90 litros. 4. Menos de 1.90 litros o ms de 2.10 litros. 5. Ms de 2.0 litros. 6. Entre 2.05 y 2.10 litros. b) Se espera que al menos el 90% de las botellas tuviera al menos cunto refresco? c) Se espera que al menos el 90% de las botellas contuvieran simtricamente entre qu y qu cantidad? d) Suponga que en un esfuerzo de reducir el nmero de botellas que contienen menos de 1.90 litros, el embotellador calibra la mquina de tal forma que la media es ahora de 2.02 litros. Bajo esa circunstancia Cules seran las respuestas para los incisos a, b y c? 3.- Una alumna del 5. semestre mide 1.70 metros y pesa 61.25 kg. Si la media de estatura del grupo es de 1.65 metro con una desviacin estndar de .06 m. y una media de peso de 56.5 kg. Con una desviacin estndar de .43 kg. Determine si la medida ms inusual de la alumna es la estatura o el peso. 4.- Se sabe que una de cada tres personas que entran a una tienda departamental hace al menos una compra.

234

a) Si se selecciona una muestra de n = 5 personas cul es la probabilidad de que? 1. Dos o ms hagan al menos una compra. 2. A lo ms cuatro hagan al menos una compra. b) Si se selecciona una muestra aleatoria de n = 81 personas, Cul es la probabilidad aproximada de que? 1. 30 o ms hagan al menos una compra 2. A lo ms 40 hagan al menos una compra 5.- Cul es la probabilidad aproximada de que un estudiante apruebe un examen de 100 de cierto y falso si tuviera que adivinar cada respuesta? Cul es la probabilidad aproximada de que un estudiante obtenga exactamente 60 respuestas correctas en un examen de 100 preguntas de cierto y falso si tuviera que adivinar cada respuesta?

235

9.12 Mapa conceptual de la distribucin normal

Distribucin normal

Propiedades

Aproximacin a distribuciones discretas

Evaluacin de supuestos Campana de Gauss

Para binomial cuando np y n(1-p) 5 Para la de Poisson cuando 5

236

Captulo 10

Anlisis de series *********************


Objetivo del Captulo
Mostrar como se puede estudiar la tendencia de crecimiento de un fenmeno, como los precios, la poblacin, la produccin, etc.

237

238

10.1 Introduccin Como ya se ha visto, una de las principales preocupaciones de la Estadstica es el anlisis de cambio de las variables, tanto consideradas individualmente como en conjunto. Para facilitar tal tipo de anlisis estadstico se han creado distintos instrumentos, no solo el para anlisis individual de cada variable, sino que algunos de ellos adquieren mayor mrito cuando se utilizan para comparar entre variables con diferente dimensin. Una de los instrumentos que ms se utilizan en el rea de negocios es el anlisis de series de tiempo o anlisis de series histricas. Su propsito es el de determinar las tasas de crecimiento (negativo o positivo) de un factor en un momento dado con respecto a otro, as como para determinar su tendencia de crecimiento y realizar comparaciones con otros factores que estn relacionados. El anlisis de series histricas sirve para estudiar la tendencia de crecimiento de la poblacin, el ingreso, la demanda, la produccin, las importaciones, las exportaciones y en general, todos los factores que tienen un crecimiento y desarrollo. El anlisis de series de tiempo abarca dos tipos: la construccin de nmeros ndice y anlisis de patrones bsicos.

239

10.2 Construccin de nmeros ndice El problema de la comparacin estadstica se resuelve en buena manera mediante el uso de nmeros ndices. En general un nmero ndice es aquella medida estadstica que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de ms de una en relacin al tiempo o al espacio. Los ndices ms habituales son los que realizan las comparaciones en el tiempo, por lo que, como se ver ms adelante, los nmeros ndices son en realidad series temporales. Un nmero ndice es un nmero relativo con una base igual al 100% y se utiliza como un indicador de comparacin de la variacin de un nmero de un factor (factores) y otro nmero que representa ese mismo factor (factores) en otro lugar o en otro tiempo. Existen muchos nmeros ndices que se pueden construir, por ejemplo los ndices de produccin, los ndices de clientes, los ndices de ventas, etc. Los ndices bien utilizados ayudan a corregir los objetivos y metas de la empresa. Ejemplo. El mes pasado se produjeron 1500 piezas y este mes se produjeron 1250, el ndice nos indica cuanto baj la produccin: 1250 piezas/ 1500 piezas = .8333 * 100% = 83.33% con respecto al mes pasado, que es lo mismo que la produccin se redujo en un 16.66%. Si este mes se vendi $23,000.00 y el mes pasado se vendi $16,500.00 entonces las ventas se comportaron de la siguiente manera: $23,000.00/16,500.00 = 1.39 * 100 = 139%, es decir las ventas aumentaron en un 39% El mes pasado la sucursal A de la empresa vendi $12,500.00 y la sucursal B $32,000, el anlisis sera:

240

$12,500.00/32,000.00 = .39 * 100%, la sucursal A apenas vendi el 39% de lo que vendi la sucursal B Cabe sealar que ms de las veces la comparacin en valores absolutos o reales en dos reas geogrficas diferentes no son vlidos, dado que cada rea geogrfica tiene diferentes caractersticas como la poblacin, el ingreso, los gustos, las preferencias, etc. Para este caso los nmeros ndice son de gran ayuda, ya que elimina la dimensin. Del ejemplo anterior, si la sucursal A vendi el mes anterior al prximo pasado la cantidad de $10,000.00 y la sucursal B $30,000.00, entonces, el anlisis ms apropiado es: Sucursal A: $12,500.00/$10,000.00 = 1.25 * 100%, lo significa que la sucursal A vendi 25% ms. Sucursal B: $32,000.00/$30,000.00 = 1.066 * 100%, lo que significa que la sucursal B vendi el 6.06% La elaboracin de ndices no solo determinar cual ha sido el ritmo de variacin de esta magnitud en cada una de las dos reas, sino que adems posibilitan que se pueda realizar comparaciones entre ambas, pues si se hubiera trabajado en trminos absolutos, entonces, no sera posible comparar las dos variables, pese a que ambas estn expresadas en las mismas unidades de medida, pues las mismas hacen referencia a reas geogrficas muy diferentes. ndices de precios, cantidades y valores Para fines de un estudio de mercado los ndices ms utilizados son los ndices de precios, los ndices de cantidades y los ndices de valores. stos son utilizados para deflactar (quitar la inflacin) a los precios y a los ingresos, que refleja el poder adquisitivo de los valores nominales expresados en unidades monetarias. Cuando

241

los precios no son deflactados, se les denomina a precios corrientes, cuando se les aplica el ndice de deflactacin con respecto a un ao, se les denomina a preciso constantes del ao base. La construccin de los ndices pueden ser simples, cuando slo consideran un factor; compuestos, cuando influyen varios factores, como el ndice de precios al consumidor (varios artculos y varios precios). stos, tambin se pueden construir de base fija, en eslabn. Para entender rpidamente su construccin, se desarrollar los siguientes ejemplos: Ejemplo. Supngase que los precios del caf por kilogramo del pas durante los ltimos 6 aos fue el siguiente: Tabla 10.1 Precios e ndices de precios del caf veracruzano
ndice/ao Precio base 25 1.0 30 1.2 50 2.0 20 .8 22 .88 40 1.6 ndice ao anterior 1.2 1.66 .40 1.1 1.81

Ao 2001 2002 2003 2004 2005 2006

Para su clculo se realizaron las siguientes operaciones: ndices de base fija: 2001/2001; 2002/2001; 2003/2001; .2006/2001 ndice en eslabn o ao anterior: 2002/2001; 2003/2002; 2004/2003; ..2006/2005 Ejemplo. Supongamos que se quiere construir los nmeros ndices simples y compuestos de precios, cantidades y valores de los huevos, leche y carne que se con-

242

sumi en un rea geogrfica (ciudad, colonia, estado, pas), en los aos 2005 y 2006, de acuerdo a los datos siguientes: Tabla 10.2 Precios, cantidades y valor 2005- 2006
Ao Artculo Huevo (docena) Leche (litro) Carne (kilo) 2005 Precio Cantidad Valor de Precio unitario vendida ventas unitario 10.00 5.00 35.00 100 120 10 1000,00 600,00 350,00 1950,00 12.00 7.00 42.00 2006 Cantidad Valor de vendida ventas 90 140 15 1080,00 980,00 630,00 2690,00

Si se desea construir el ndice de cambio de un solo factor, se puede realizar slo dividiendo la cantidad del ao analizado por la cantidad del ao base. Tabla 10.3 ndices simples. 2006/2005

Artculo
Huevo Leche Carne

ndice precio
(12/10) 1.2 (7/5 ) 1.4 (42/35) 1.2

ndice cantidades
(90/100) .9 (140/120) 1.16 (15/10) 1.5

ndice valor
(1080/1000) 1.08 (980/600) 1.63 (630/350) 1.8

Pero si se desea conocer el cambio relativo del costo de la vida, no debe de analizarse el cambio de un solo artculo. Debe incluirse los precios de los artculos ms representativos del gasto de la familia. En este caso y a manera de ejemplo slo se considera la leche, la carne y los huevos. Para un anlisis ms preciso del cambio del costo de la vida se debe considerar el costo de alimentacin, transporte, vivienda, entre otros, incluso lo que oficialmente se llama canasta bsica.

243

Para construir los ndices de precios y de cantidades, quitando el peso especfico de cada artculo por la unidad de medida o por la cantidad, se requiere utilizar la frmula de los ndices de Laspeyres: IPL 2006 = (Pn x Qo)/Po x Qo = [ (12 x 100) + (7 x 120) + (42 x 10) ]/1950 = 1.26 IQL 2006 = (Qn x Po)/Po x Qo = [ (90 x 10) + (140 x 5) + (15 x 35) ]/1950 = 1.08 Para calcular el ndice de valor se utiliza la frmula de Passche I valor 2006 = (Pn x Qn)/Po x Qo = [ (12 x 90) + (7 x 140) + (42 x 15) ]/1950 = 1.37 ndices de inflacin y poder adquisitivo La inflacin es un fenmeno econmico de naturaleza monetaria que por sus consecuencias ha sido, y sigue siendo, fuente de preocupacin para todos los agentes que intervienen en la economa, tanto los privados como los pblicos. Pero ms que hablar de los efectos de la inflacin lo ms conveniente ser definirla cuidadosamente. Samuelson y Nordhaus (1999) la relacionan muy bien con el ndice de precios cuando seala que un ndice de precios es un indicador del nivel medio de precios. La inflacin indica la subida del nivel general de precios. La tasa de inflacin es la tasa de variacin del nivel general de precios y se expresa de la forma siguiente:
Tasa de inflacin ao n

nivel de precios (ao n) - nivel de precios (ao n-1) nivel de precios (ao n-1)

x 100

Lo sustantivo de esta definicin es que el fenmeno en cuestin consiste en un aumento general y sostenido de los precios de todos los bienes y servicios tanto producidos como consumidos. 244

Ese incremento generalizado de precios tiene como consecuencia inmediata que la capacidad de compra del dinero se reduce de forma continuada. Es decir, la cantidad de un bien que puede adquirirse con una unidad monetaria dada (peso, euro, libra, dlar, etc.) es cada vez menor como resultado del incremento del precio de ese bien. Pero si en lugar de tratarse de un solo bien, la subida de precios afecta a todos los bienes de una economa, la situacin sera similar, solo que agravada. As pues, la inflacin reduce la capacidad de compra del dinero o poder adquisitivo del mismo. La siguiente cuestin sera definir un instrumento estadstico que permita cuantificar esa subida generalizada de precios. Es decir, se trata de buscar un ndice de precios que recoja de forma adecuada el fenmeno de la inflacin. A tal efecto, el ndice que suele utilizarse de forma casi universal es el ndice de precios al consumidor (IPC), aunque el mismo tiene algunas limitaciones que no son del alcance de este libro. En Mxico el ndice Nacional de Precios al consumidor INPC se elabora ponderando cada precio segn la importancia econmica del bien o servicio considerado para su clculo. La canasta se obtiene a partir de la Encuesta de Ingreso-Gasto de los Hogares (ENIGH) emitida por el INEGI. Dicha encuesta proporciona los gastos asociados de los hogares en 580 bienes y servicios. Con esta base el Banco de Mxico selecciona algunos productos y servicios y los integra en una canasta bsica y calcula el peso de cada uno en la construccin del INPC, a esto se le conoce como ponderacin. Por ejemplo, si tomamos dos productos incluidos en la canasta bsica del Banco de Mxico: jitomate (ponderacin 0.50) y sal (ponderacin 0.05), el primero afectar ms el comportamiento del INPC, debido a que tiene mayor incidencia en el presupuesto familiar (mayor ponderacin) que la sal. La canasta bsica del Banco de Mxico est compuesta por 80 bienes y servicios 245

agrupados en las siguientes categoras: alimentos, bebidas y tabaco; ropa, calzado y accesorios; vivienda; muebles, aparatos y accesorios domsticos; salud y cuidado personal; transporte; educacin y esparcimiento, as como otros servicios. Tabla 10.4 ndice de Precios nacionales y valor del peso
A o b a s e 2 0 0 2 = 1 0 0 %

Fuente: elaboracin propia en base a Cuaderno de Informacin Oportuna. Precios. INEGI

En la Tabla10.4 se recogen los valores medios anuales del IPC para Mxico en el periodo 2006-2008 con base 2002. Segn el contenido de esta tabla, el nivel medio de los precios en ese periodo de tres aos creci por encima de .34 veces. Esto, dicho en otros trminos, equivale a que si en 2002 un bien costaba 100 pesos, el precio de ese mismo bien en el ao 2008 era 134 pesos, o lo que es igual, con 100 pesos del ao 2008 solo se podra comprar lo que en 2002 con 74. Estas cifras dan una idea bastante clara de cual ha sido la prdida de la capacidad de compra del peso en Mxico en tan slo tres aos. El PIB nominal y PIB real El Producto Interno Bruto (PIB) mide el gasto total en los bienes y servicios en todos los mercados de la economa de un pas. Si el gasto total aumenta de un ao a otro, debe a dos fenmenos econmicos: (1) la economa esta produciendo mas bienes y servicios o (2) los bienes y servicios estn otorgndose a precios ms altos. 246

Cuando se quiere estudiar la evolucin de la economa, se requiere considerar estos dos efectos. En concreto se requiere un indicador de la cantidad total de los bienes y servicios que estn produciendo la economa que no se vea afectado por las variaciones de los precios de dichos bienes y servicios. Para ello, utilizan un indicador llamado PIB real o PIB a precios constantes. El PIB real da respuesta a una pregunta hipottica: Cul ser el crecimiento real del PIB? Para poder realizar un anlisis del PIB real, se requiere escoger un ao base de anlisis. Usualmente se escoge como ao base el ms estable de la serie. Por ejemplo, en la serie de datos del PIB e inflacin 1990-1999 obtenida del INEGI a precios corrientes se observa que el ao 1994 es el que tiene menor inflacin, por lo tanto puede seleccionarse como ao base tabla 10.5 Tabla 10.5 PIB Nacional 1990 -1999
Ao 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 PIB (Corrientes) 2.697.294.027 3.510.654.340 4.198.677.709 4.697.560.701 5.248.801.852 6.645.246.991 9.388.750.603 12.092.586.530 14.694.672.927 16.282.611.699 Inflacin 0,2654 0,2284 0,1558 0,0978 0,0697 0,3477 0,3526 0,2082 0,1590 0,1672

Fuente: elaboracin propia con datos del Banco de informacin sectorial, INEGI 2008

Para realizar la comparacin hay que seguir los siguientes pasos: 1.- Seleccionar el ao base 2.- Establecer el nmero ndice base = 1 3.- Calcular los nmeros ndices en base a la inflacin (variable conocida) a travs 247

de la frmula: Inflacin es = IPC(este ao) menos IPC (del ao pasado) entre IPC (ao pasado). Dado que se conoce la inflacin y el ndice del ao base se procede a calcular los ndices de los aos anteriores y posteriores del ao base. Para el clculo del IP1993: Inflacin 1994 = (IP1994 IP1993)/ IP1993 = 0.0697 = (1 - IP1993)/ IP1993 Despejando: IP1993 = 1/(1.0697) = 0.93 Para el clculo del IP1992: Inflacin 1993 = (IP1993 IP1992)/ IP1992 = 0.0978 = (0.93 - IP1992)/ IP1992 Despejando: IP1992 = .93/(1.0978) = 0.847 Para el clculo del IP1991: Inflacin 1991 = (IP1992 IP1991)/ IP1991 = 0.1558 = (0.847 - IP1991)/ IP1991 Despejando: IP1991 = .847/(1.1558) = 0.7328 Para el clculo del IP1990: Inflacin 1991 = (IP1991 IP1990)/ IP1990 = 0.2284 = (0.7328 - IP1990)/ IP1990 Despejando: IP1991 = .7328/(1.2284) = 0.5965 Para el clculo del IP1995: Inflacin 1995 = (IP1995 IP1994)/ IP1994 = 0.3477 = (IP1995- 1)/ 1 Despejando: IP1995 = 1*(.3477+1) = 1.3477 Para el clculo del IP1996: Inflacin 1996 = (IP1996 IP1995)/ IP1995 = 0.3526 = (IP1996- 1.3477)/ 1.3477 Despejando: IP1995 = 1.3477*(.3526+1) = 1.8229 Para el clculo del IP1997: 248

Inflacin 1997 = (IP1997 IP1996)/ IP1996 = 0.2082 = (IP1997- 1.8229)/ 1.8229 Despejando: IP1995 = 1.8229*(.2082+1) = 2.2024 Para el clculo del IP1998: Inflacin 1998 = (IP1998 IP1997)/ IP1997 = 0.1590 = (IP1998- 2.2024)/ 2.2024 Despejando: IP1995 = 2.2024*(.1590+1) = 2.5525 Para el clculo del IP1999: Inflacin 1999 = (IP1999 IP1998)/ IP1998 = 0.1672 = (IP1999- 2.5525)/ 2.5525 Despejando: IP1995 = 2.5525*(.1672+1) = 2.9792 PIB nominal produccin de bienes y servicios valorada a precios corrientes PIB real produccin de bienes y servicios valorada a precios constantes. Tabla 10.6 PIB Nacional 1990 -1999
( mi l e s d e p e s o s a p r e c i o s d e 1 9 9 4 )

Fuente: elaboracin propia con datos del Banco de informacin sectorial, INEGI 2008

249

La diferencia sustantiva entre el anlisis del PIB a precios corrientes y del PIB a precios constantes radica en que a este ltimo se le descuenta el efecto de la inflacin. Por ejemplo, si quisiramos analizar el crecimiento del PIB entre los aos 1994 y 1999, tendramos que a precios corrientes el crecimiento fue de 16 282 611 699/ 5 248 801 852 = 3.10 veces, es decir, creci 210% ms que 1994. Sin embargo a precios constantes el crecimiento real fue apenas de 5 465 195 514/5 248 801 852 = 1.04, es decir apenas el 4% de crecimiento. ndices burstiles Los ndices burstiles son nmeros ndices que reflejan la evolucin en el tiempo de los precios de los ttulos cotizados en un mercado. La muestra de activos que componen el ndice obedece a ciertos criterios de eleccin que en general tienen que ver con el volumen negociado y la capitalizacin burstil. Dado que existen distintos tipos de ttulos cotizados (acciones, derivados) se pueden calcular diferentes tipos de ndices, aunque los ms conocidos son los que se refieren a las acciones. Los ndices pueden suponer agrupaciones parciales de valores (sectoriales) o globales (generales). Tcnicamente son nmeros ndices temporales complejos y en la mayora de los casos ponderados. La finalidad de los ndices burstiles es reflejar la evolucin en el tiempo de los precios de los ttulos admitidos a cotizacin en Bolsa. En resumen tratan de reflejar el comportamiento de todos los valores que cotizan en la bolsa tomados en conjunto como si fuera una sola unidad. En Mxico el indicador del desarrollo del mercado accionario es el ndice de Precios y Cotizaciones (IPC), calculado en funcin a las variaciones de precios de una seleccin de acciones balanceada, ponderada y representativa del conjunto de acciones cotizadas en la Bolsa Mexicana de Valores.

250

La muestra empleada para su clculo se integra por emisoras de distintos sectores de la economa y se revisa semestralmente. El peso relativo de cada accin se explica por su valor de mercado. Es decir, se trata de un ndice ponderado por valor de capitalizacin. La fecha base es el 30 de octubre de 1978 = 100. Se consideran en l 35 series accionarias clasificadas como de alta y media bursatilidad, es decir, las ms negociadas del mercado tanto por volumen como por importe. Tabla 10.7 ndice de precios y cotizaciones de la bolsa mexicana

10.3 Anlisis de patrones bsicos Los cambios en los fenmenos sociales y econmicos en el pasado pueden ser analizados en base a los cambios de sus patrones bsicos a travs del tiempo. En materia de anlisis de los cambios de series de tiempo es importante, porque el conocimiento del pasado permite predecir con mayor exactitud el comportamiento futuro. Una serie de tiempo que representa una actividad particular, es el resultado de la interaccin de diversos factores dinmicos que pueden ser de tipo econmico, poltico o de influencia social. Los factores de cambio son los que se investigan y 251

estudian para la toma de decisiones. stos se presentan en forma de tendencia, estacional, cclica o irregular. Tendencia.- Los fenmenos de tendencia sealan la direccin del movimiento de una serie de tiempo sobre un largo perodo. El movimiento puede ser de forma ascendente o descendente. Cuando se muestra grficamente, normalmente se hace a travs de una lnea recta o una curva. Variacin estacional.- Los fenmenos de variacin estacional son movimientos peridicos que estn influidos por las condiciones del tiempo, las tradiciones, los hbitos, entre otros. Fluctuaciones cclicas.- Indican expansiones o contracciones de los movimientos alrededor de una cantidad normal. Las fuerzas que los motivan son principalmente factores econmicos: niveles de inversin, produccin, consumo, gasto, entre otras. Movimientos irregulares.- Representan todo tipo de movimientos de una serie de tiempo que no presenten caracterstica en forma de tendencia, estacional o cclica. Estas son de difcil estudio. 10.4 Mtodos de estimacin de las tendencias Para el anlisis de las series de tiempo se puede elaborar un manejo de datos al interior de cada perodo para determinar una cantidad que lo represente en forma de tendencia. Adicionalmente, se tendr que realizar un anlisis cualitativo que explique el comportamiento real: estacional, cclico o irregular. Tendencia lineal La estimacin de una serie de tiempos se puede efectuar a travs del mtodo grfico y el de los mnimos cuadrados.

252

Mtodo grfico En un sistema de coordenadas X y Y, con una escala apropiada en cada uno de los ejes, se grafica, en forma individual, los valores que le corresponden a cada variable. Posteriormente se traza una curva que trata de pasar lo ms cerca de cada uno de los puntos graficados. El mtodo grfico es un mtodo rudimentario y debe ser considerado apenas como una aproximacin. Figura 10.1 Mtodo grf ico
Mtodo Grfico 24 22 20 18

Y
16 14 12 10 -5 -3 -1 X 1 3 5 Regression 95% confid.

Mtodos de mnimos cuadrados El Mtodo de Mnimos Cuadrados Ordinarios es un modelo estadstico que hace parte de un grupo denominado Modelos de Regresin, estos explican la dependencia de una variable "Y" respecto de una o varias variables cuantitativas "X": En el Mtodo de Mnimos Cuadrados Ordinarios se estudia una nica ecuacin con solo dos variables y con una regresin lineal. El anlisis de regresin trata de la dependencia de las variables explicativas, con el

253

objeto de estimar y/o predecir la media o valor promedio poblacional de la variable dependiente en trminos de los valores conocidos o fijos de las variables explicativas. Se trata de encontrar una recta que se ajuste de una manera adecuada a la nube de puntos definida por todos los pares de valores muestrales (Xi,Yi). Este mtodo de estimacin se fundamenta en una serie de supuestos, los que hacen posible que los estimadores poblacionales que se obtienen a partir de una muestra, adquieran propiedades que permitan sealar que los estimadores obtenidos sean los mejores. Pues bien, el mtodo de los mnimos cuadrados ordinarios consiste en hacer mnima la suma de los cuadrados residuales, es decir lo que tenemos que hacer es hallar los estimadores que hagan que esta suma sea lo ms pequea posible. Las de tendencia lineal son aquellos puntos que ms se acercan a una lnea recta. Recordemos que la frmula general de una lnea es Y = a + bX, en donde: Y = valor de la ordenada de un punto sobre la recta, variable dependiente; X = valor de la abscisa de un punto sobre la recta, variable independiente. a = interseccin de la recta en el eje de las Y (altura de la ordenada, desde el origen al punto de interseccin de la lnea recta con el eje de la Y) b = pendiente de la lnea recta Para poder considerar el mtodo de los mnimos cuadrados, se tiene que recurrir a las 2 propiedades matemticas de un grupo de valores de tendencia central, que son: 1.- La suma de las desviaciones de los valores individuales con respecto a la media es igual a cero (Y-Ym) = 0, 2.- La suma de los cuadrados de estas desviaciones es un mnimo. (YYm)2 es un mnimo, es decir tiende a cero. 254

Para obtener la solucin de las dos incgnitas, las constantes a y b en la ecuacin general Y = a + bX, mediante el mtodo de mnimos cuadrados se requiere tener dos ecuaciones obtenidas de la primera derivada de a y de b: El procedimiento consiste entonces en minimizar los residuos al cuadrado Di Di = (Yi-Ym)2 reemplazando Ym por (a +bX) Di = [Yi-(a +bX) ]2 La obtencin de los valores de a y b que minimizan esta funcin es un problema que se puede resolver recurriendo a la derivacin parcial de la funcin en trminos de a y b: llamemos G a la funcin que se va a minimizar: G= [Y-a -bX) ]2 Tomemos las derivadas parciales de G respecto de a y b que son las incgnitas y las igualamos a cero; de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier mtodo ya sea igualacin o matrices para obtener los valores de a y b Derivamos parcialmente la ecuacin respecto de a: dG/da = 2 (Y- a - bX) (-1) = 0 Y na -bX ) = 0 Y = na + b X Primera ecuacin normal
2 2

Derivamos parcialmente la ecuacin respecto de b dG/db = 2 (Y- a - bX) (-X) = 0 -2 (Y a bX ) (X) = 0 XY -aX bX2 = 0 255

XY = aX + bX2

Segunda ecuacin normal

Con el propsito de simplificar la frmula, se considera a X = 0, lo que significa que: I.- Y= na + bX II.- XY = aX + bX2

a = (Y)/n

b = (XY)/ X2

Ejemplo. Supngase una serie de datos de exportacin de un bien a lo largo de 7 aos. Tabla 10.8 Exportaciones de caf mexicano (en miles de toneladas)
Ao 1994 1995 1996 1997 1998 1999 2000 Exportaciones 165 180 259 274 247 225 250

Figura 10.2 Grfico de dispersin

256

Tabla 10.9 Clculo de los parmetros a y b


X -3 -2 -1 0 1 2 3 0 Y 165 180 259 274 247 225 250 1600 X2 9 4 1 0 1 4 9 28 XY -495 -360 -259 0 247 450 750 333

X= 0

Y= 1600

X 2 = 28

XY= 333

a = Y/n = 1600/5= 228.57 b = XY/ X 2 = 333/28 = 11.89 La ecuacin de la rect a es de; Y = 228+11.89X Los nuevos valores cal culados de Y se observan en la tabla 10.5 Tabla 10.10 Nuevos valores de Y
X -3 -2 -1 0 1 2 3 4 5 a 228 228 228 228 228 228 228 228 228 11,89 X -35,67 -23,78 -11,89 0 11,89 23,78 35,67 47,56 59,45 Y 192,33 204,22 216,11 228 239,89 251,78 263,67 275,56 287,45

Figura 10.3 Lnea de regresin 257

Utilizando el paquete estadstico SPSS, con los comandos Analizar /Regresin/mnimos cuadrado en dos fases, se obtienen los valores de las constantes a y b al tiempo que calcula los nuevos valores para la ecuacin de regresin. Tambin calcula la proyeccin para los aos siguientes dando un click en guardar. Figura 10.4 Men de clculo regresin lineal en SPSS

258

Figura 10.5 Men de seleccin de variable dependiente e independiente

Figura 10.6 Resultados de clculo de los parmetros a y b

a b

259

Figura 10.7 Nuevos valores de la lnea de regresin

Nuevos datos calculados

Tendencia exponencial En el caso de la tendencia exponencial la ecuacin general es Y = ae bx , que expresada en logaritmos queda Ln Y = nc + Xb Aplicando el mtodo de mnimos cuadrados, los dos parmetros desconocidos a y b pueden calcularse con las siguientes frmulas bsicas: LnY= nc + Xb LnY * X = Xc + X2b a = ec Ejemplo: Se requiere estimar, de acuerdo a los datos estadsticos de INEGI, la poblacin total del municipio de Victoria para el ao 2010 y 2020 suponiendo que las condiciones que influyen en el crecimiento siguen igual. Los datos que se tienen son:

260

Tabla 10.11 Datos histricos de poblacin de Cd. Victoria

El primer paso es obtener los factores que integran las frmulas bsicas de clculo, como son: n, X, LnY y X2, para ello se tiene que generar la siguiente tabla: Tabla 10.12 Clculo de factores de ecuaciones bsicas

Ecuaciones bsicas: LnY= nc + Xb LnY * X = Xc + X2b

261

a = ec Sustitucin de factores: 90.30 = 8c + 36b 421.35 = 36c + 204b Ahora se tiene dos ecuaciones con dos incgnitas que se pueden resolver en forma simultnea multiplicando la primera ecuacin por -4.5, obteniendo: 421.35 = 36c + 204b -406.35=-36c -162b, si se suma a la segunda ecuacin nos queda: 15 = 42b;

b = .357, sustituyendo el valor de b en la primera ecuacin, se tiene que: 90.30 = 8 c + 36 (.357); 8c = 77.47; c= 9.68 Por lo tanto a = ec = 2.7189.68 = 15,978 Sustituyendo los valores de a y de b en la ecuacin general se tiene: Y = aebx = 15,978 (e(.357)(9)) = (15,978)(24.85) = 397, 053, sera la poblacin estimada para el 2010; para el 2020, sera: Y = aebx = 15,978 (e(.357)(10)) = (15,978) (35.5) = 567,274, para el 2020. La estimacin exponencial, a travs del modelo de regresin no lineal, se puede obtener slo con capturar los datos fuente y hacer click en el paquete estadstico SPSS; tal como se muestra enseguida.

262

Figura 10.8 Datos originales y men de regresin no lineal.

Figura 10.9 Seleccin de variables dependiente e independiente

263

Figura 10.10 Hoja de resultados: valores de a y de b y grfica de la tendencia curvilnea

Figura 10.11 Valores de la curva de regresin (calculados)

nuevos valores de la variable

La estimacin a travs del mtodo de tendencia exponencial para perodos largos es algo inexacto debido a que considera la evolucin total del fenmeno, que en la ltima fase puede cambiar sustancialmente.

264

Tasa anual de crecimiento Existe otra manera de realizar la estimacin exponencial que considera la tasa anual de crecimiento entre un perodo dado. Se puede aplica la frmula Yn = Yo (1 + t)n, donde Yn es la cantidad a calcular, Yo es la cantidad del perodo base, t es la tasa de crecimiento del perodo y n es el nmero de perodos, sea stos, aos, meses, das, etc. Para el caso de la poblacin del municipio de Victoria, la tasa de crecimiento del ltimo perodo se obtiene sustituyendo los valores de las poblaciones de 1990 y 2000; sustituyendo los valores en la ecuacin tenemos: 263,063 = 207,923 (1 +t)10, lo nico que falta conocer es la t = tasa anual de crecimiento, n se refiere a los 10 aos del perodo. t = raz dcima de (263,063/207,923) 1= 1.0238 1 = 0.0238 Para estimar la poblacin para el ao 2010 y 2020, se utiliza la frmula de inters compuesto: Yn = Yo (1 + t)n; 263,063 (1 + 0.0238)10 = 332,821 Yn = Yo (1 + t)n; 263,063 (1 + 0.0238)20 = 421,077 Si comparamos los valores calculados manualmente con los obtenidos con el paquete SPSS, se observar que no existe mucha diferencia, pero si existe diferencia entre el mtodo exponencial y el de inters compuesto. El investigador deber escoger el que ms se acerque a sus pretensiones. Existen mtodos de ajuste para estimaciones ms exactas, pero estn fuera de los propsitos de este libro, aqu slo se trata de dar una idea general de los ms usados y que pueden calcularse con el apoyo de programas de cmputo, ms que realizar los clculos matemticos.

265

Tabla 10. 13 Comparacin de valores estimados obtenidos manualmente, por SPSS y de inters compuesto
Valores Valores Valores obtenidos obtenidos en inters manualmente SPSS compuesto 2010 397,053 397,931 332,821 2020 567,274 568,622 421,077

10.5 Correlacin. El coeficiente de correlacin de Pearson es un ndice estadstico que mide la relacin lineal entre dos variables cuantitativas. A diferencia de la covarianza, la correlacin de Pearson es independiente de la escala de medida de las variables. El clculo del coeficiente de correlacin lineal se realiza dividiendo la covarianza por el producto de las desviaciones estndar de ambas variables:

Siendo:

XY la covarianza de (X,Y) X y Y las desviaciones estndar de las distribuciones marginales.


El valor del ndice de correlacin vara en el intervalo [-1, +1]: Si r = 0, no existe relacin lineal. Pero esto no necesariamente implica una independencia total entre las dos variables, es decir, que la variacin de una de ellas puede influir en el valor que pueda tomar la otra. Pudiendo haber relaciones no lineales entre las dos variables. Estas pueden calcularse con la razn de correlacin.

266

Si r = 1, existe una correlacin positiva perfecta. El ndice indica una dependencia total entre las dos variables denominada relacin directa: cuando una de ellas aumenta, la otra tambin lo hace en idntica proporcin. Si 0 < r < 1, existe una correlacin positiva. Si r = -1, existe una correlacin negativa perfecta. El ndice indica una dependencia total entre las dos variables llamada relacin inversa: cuando una de ellas aumenta, la otra disminuye en idntica proporcin. Si -1 < r < 0, existe una correlacin negativa. Siguiendo con el mismo ejemplo de exportaciones de caf mexicano, para aceptar como vlida la lnea de regresin calculada, se requiere que el ndice de correlacin sea superior a 0.5, como se puede observar en los siguientes clculos utilizando el paquete estadstico SPSS. El valor del ndice de correlacin de Pearson para este ejemplo es de .623, lo que significa se puede aceptar como vlido el clculo. Figura 10.12 Clculo de ndice de correlacin con SPSS

267

Figura 10.13 Resultados del clculo de ndice de correlacin

Figura. 10.14. - Diagramas de correlacin


-r = 1.00 -r = 0.82 -r = 0.57

Y X
-r = 0.0

Y X
-r = -0.38

Y X
-r = -1.00

Y X 10.6 Resumen

Y X

Y X

El anlisis de series histricas sirve para estudiar la tendencia de crecimiento de las variables, tales como la poblacin, el ingreso, la demanda, la produccin, las importaciones, las exportaciones y en general, todos los factores que tienen un crecimiento y desarrollo. El anlisis de series de tiempo abarca dos tipos: la construc-

268

cin de nmeros ndice y anlisis de patrones bsicos. En general un nmero ndice es aquella medida estadstica que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de ms de una en relacin al tiempo o al espacio. Los nmero ndice son nmeros relativos que multiplicados por 100 representan el porcentaje comparado con una cifra original base. Los nmeros ndice se construyen para analizar el cambio de precios, cantidades y valores. Los hay simples y compuestos. Alguno ndices como los de INPC y el IPC de casa bolsa su elaboracin es compleja. Para el anlisis de las series de tiempo se puede elaborar un manejo de datos al interior de cada perodo para determinar una cantidad que lo represente en forma de tendencia. Adicionalmente, se tendr que realizar un anlisis cualitativo que explique el comportamiento real: estacional, cclico o irregular. Para el anlisis de la tendencia del comportamiento de una variable dentro de un perodo dado se puede realizar en forma grfica y a travs del mtodo de mnimos cuadrados, sea para una tendencia lineal o curvilnea. El clculo matemtico para definir la lnea o curva de regresin es ms que complicado tedioso. Afortunadamente con los paquetes de software estadstico como el SPSS se facilita su clculo y estimacin, incluso la grfica dela tendencia. Un instrumento estadstico que sirve de manera auxiliar para aceptar la relacin de una variable dependiente con una independientes es el ndice de correlacin de Pearson, que es el cociente de la divisin de la covarianza de las variables en relacin entre el producto de las desviaciones estndar de las mismas.

269

10.7 Trminos clave ndice de correlacin ndice de Precios y Cotizaciones IPC ndice Nacional de precios al consumidor INPC ndices compuestos ndices simples Inflacin Mtodo de mnimos cuadrados Mtodo grfico Nmeros ndice Tasa anual de crecimiento Tendencia curvilnea Tendencia lineal Variable dependiente Variable independiente

10.8 Problemas de repaso del captulo 1.- El gerente de una tienda de abarrotes desea saber en forma individual y de conjunto, la variacin en precios, cantidades y valores de sus ventas del mes de octubre con respecto a las ventas del mes de octubre del ao pasado. El gerente tiene los siguientes registros:

2.- La Secretara de Desarrollo Econmico y del Empleo del Gobierno del Estado desea realizar, con el mtodo grfico y el de mnimos cuadrados, una estimacin del Producto Percpita de sus habitantes para los aos 2005 y 2006. Para su estimacin cuenta con los siguientes datos:

270

3.- Se quiere ajustar una recta que exprese las ventas de una empresa en funcin de los gastos en publicidad que hace a lo largo de 6 aos (millones de pesos):

a) Elabore la lnea de regresin que represente la tendencia de estas dos variables b) Verifique con el ndice de correlacin su validez c) La empresa quiere obtener 35 millones de ventas, cunto debera gastar en publicidad? 4.- De manera general una cadena de tiendas comerciales quiere estimar la poblacin de Mxico para el ao 2020. Para hacerlo cuenta con los siguientes datos, en

271

millones de personas. Utilizando la tendencia exponencial y la de inters compuesto, realice una estimacin. Poblacin de Mxico en millones de personas

5.- Estime la poblacin del estado de Tamaulipas para el ao 2010, si en el ao 2000, de acuerdo a los datos del XII Censo General de Poblacin y Vivienda haba 2 753 222 habitantes y en el ao 2005, de acuerdo al Conteo de Poblacin y Vivienda eran 3 024 238.

272

10.9 Mapa conceptual de anlisis de series

Anlisis de series
Nmeros ndice Mtodos de estimacin

ndices de correlacin

Simples
Compuestos

Grafico
Mnimos cuadrados Tasa de inters compuesto Tendencia lineal Tendencia Exponencial

273

274

Bibliografa Berenson L. Mark & Levine M. David. (1996). Estadstica Bsica en Administracin, conceptos y aplicaciones. Prentice Hall, Mxico D.F. Goode,W y Hatt. (1975). P. Mtodos de investigacin social. Editorial Trillas, Mxico D. F. Haber, A. and Runyon R. (1977). General Statistics. Addison-Wesley Publishing Company, U.S.A. Samuelson, Paul A. y Nordhaus, William D. (1999) Economa. McGrawHill/Interamericana de Espaa, S.A.U. Madrid. Training Resources and Data Exchange (TRADE). (1995). How to Measure Performance: A Handbook of Techniques and Tools. Safety and Health U.S. Department of Energy. Consultas en Internet: Arsham, Hossein. (s.f.) Razonamiento Estadstico para Decisiones Gerenciales. Disponible en: http://home.ubalt.edu/ntsbarsh/Business-stat/opre504S.htm. Garca Muoz, Toms. (2003). El cuestionario como instrumento de evaluacin/investigacin. Disponible en: http://personal.telefonica.terra.es/web/medellinbadajoz/sociologia/El_Cuestiona rio.pdf Jara, Antonio. (2003). Estadstica aplicada. Marn Fernndez, Josefa. (2002). ESTADSTICA: Prcticas de ordenador con SPSS para Windows. Disponible en: http://www.catedras.fsoc.uba.ar/sautu/pdfs/manual-spss.pdf Recursos educativos para profesores. Exploracin de datos, introduccin a la estadstica descriptiva. Disponible en: http://www.ucv.cl/web/estadistica/index.htm Ruz Muoz David (2004). Manual de Estadstica. Editado por eumednet. ISBN: 84-688-6153-7. Disponible en: http://www.eumed.net/cursecon/libreria/drm/drm-estad.pdf

275

276

Apndices
Apndice I: Repaso a matemticas bsicas Apndice II: Glosario de smbolos Apndice III: Glosario de trminos Apndice IV: Lista de frmulas. 279 283 287 297

277

278

Apndice I

Repaso a matemticas bsicas


Propiedades de las operaciones
La operacin de adicin (+) o se escribe o es comutativa: o es asociativa:

279

tiene una operacin inversa llamada sustraccin: , que es igual a sumar un nmero negativo, tiene un elemento neutro 0 que no altera la suma:

La operacin de multiplicacin () o o se escribe: o es conmutativa: =


o o o

es asociativa: es abreviada por yuxtaposicin: tiene una operacin inversa, para nmeros diferentes a cero, llamada divisin: , que es igual a multiplicar por el recproco,

o o

tiene un elemento neutro 1 que no altera la multiplicacin: es distributiva respecto la adicin:

La operacin de potenciacin o se escribe o es una multiplicacin repetida: ces) o no es ni conmutativa ni asociativa: en general
o

(n vey

tiene una operacin inversa, llamada logaritmo:

280

o o o

puede ser escrita en trminos de raz ensima: y por lo tanto las races pares de nmeros negativos no existen en el sistema de los nmeros reales. (Ver: sistema de nmeros complejos) es distributiva con respecto a la multiplicacin: tiene la propiedad: tiene la propiedad:

Propiedades de la igualdad
La relacin de igualdad (=) es: reflexiva: simtrica: si transitiva: si

entonces y entonces

Leyes de la igualdad
La relacin de igualdad (=) tiene las propiedades siguientes: si y entonces y si entonces si dos smbolos son iguales, entonces, uno puede ser sustituido por el otro. regularidad de la suma: trabajando con nmeros reales o complejos sucede que si entonces . regularidad condicional de la multiplicacin: si y no es cero, entonces .

Leyes de la desigualdad
La relacin de desigualdad (<) tiene las siguientes propiedades:

281

de transitividad: si y si y entonces si y entonces si y entonces

entonces

Regla de los signos


En el producto de nmeros positivos (+) y negativos (-) se cumplen las siguientes reglas:

282

Apndice II

Glosario de smbolos
Operadores matemticos
< > diferente menor que mayor que menor o igual que mayor o igual que raz cuadrada X
n

X elevado a la n potencia

283

N! X

N factorial, multiplica a N por todos sus componentes menores que l y mayores de cero valor absoluto de X, es decir sin signo sumatoria de todas las X, desde X1 hasta Xn
n

i= 1

Xi
n

X i media aritmtica de la muestra X = 1 i=

Letras griegas 2 2 x- /n probabilidad de cometer el error de tipo I, es decir rechazar la Ho cuando es verdadera; nivel de significacin. probabilidad de cometer el error de tipo II, aceptar la Ho cuando es falsa Chi cuadrada media de la poblacin varianza de la poblacin desviacin estndar de la poblacin error muestral error estndar

Letras en espaol a b f Ho H1 i k trmino constante en una ecuacin de regresin pendiente de la lnea recta, que es la relacin de los valores de Y en X frecuencia hiptesis nula hiptesis alternativa iteracin nmero de grupos o categoras

284

N n p p(A) p(AB) Q Q1 Q3 r r2
n

tamao de la poblacin (elementos que la componen) tamao de la muestra (elementos que la componen) proporcin; probabilidad; porcin probabilidad de que ocurra el evento A probabilidad de A dado que ocurri B probabilidad de que no ocurra un evento; proporcin complementaria de p; Q = (1-p) primer cuartil, posicin 25 de la muestra tercer cuartil, posicin 75 de la muestra coeficiente de correlacin de Pearson coeficiente de determinacin
(X i- X ) i= 1 n - 1
(X i- X ) i= 1 n - 1
n 2

S =
S =

varianza de la muestra desviacin estndar de la muestra valores estandarizados t de student con (n-1) grados de libertad valores estandarizados para la distribucin normal

t(n-1) Z

285

286

Apndice III

Glosario de trminos
Abscisa. En el plano cartesiano, se refiere al eje horizontal, comnmente denominado eje de las Xs. Anlisis de varianza. el anlisis de la varianza o anlisis de varianza (ANOVA, segn terminologa inglesa) es una coleccin de modelos estadsticos y sus procedimientos asociados, en el cual la varianza est particionada en ciertos componentes debidos a diferentes variables explicativas. Las primeras tcnicas del anlisis de varianza fueron desarrolladas por el estadstico y genetista R. A. Fisher en los aos 1920 y 1930s y es algunas veces conocido como

287

Anova de Fisher o anlisis de varianza de Fisher, debido al uso de la distribucin F de Fisher como parte del test de significancia estadstica. Arreglo de datos. Ordenar los datos de acuerdo a su magnitud, de menor a mayor o viceversa. Asinttica. Que tiene relacin con una lnea recta. En Estadistica la usamos para definir a la curva de distribucion normal "Gaussiana" ya que es una curva o campana que nunca "pega" en su base y se le llama doblemente asinttica, es decir, de su extremo izquierdo y de su extremo derecho. Censo. Estudio de las caractersticas de la totalidad de las unidades que componen la poblacin o universo. Coeficiente de correlacin. Existen diversos coeficientes que miden el grado de correlacin, adaptados a la naturaleza de los datos. El ms conocido es el coeficiente de correlacin de Pearson (introducido en realidad por Francis Galton), que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estndar. Correlacin. La correlacin indica la fuerza y la direccin de una relacin lineal entre dos variables aleatorias. Se considera que dos variables cuantitativas estn correlacionadas cuando los valores de una de ellas varan sistemticamente con respecto a los valores homnimos de la otra: si tenemos dos variables (A y B) existe correlacin si al aumentar los valores de A lo hacen tambin los de B y viceversa. La correlacin entre dos variables no implica, por s misma, ninguna relacin de causalidad. Dato. (del latn datum), es una representacin simblica (numrica, alfabtica, algortmica etc.), del atributo o caracterstica de una entidad. El dato no tiene valor semntico (sentido) en s mismo, pero convenientemente tratado (pro-

288

cesado) se puede utilizar en la realizacin de clculos o toma de decisiones. Ejemplos de datos: la altura de una montaa, la fecha de nacimiento de un personaje histrico, el peso especfico de una sustancia, el nmero de habitantes de un pas, etc. La informacin representa un conjunto de datos relacionados que constituyen una estructura de menos complejidad (por ejemplo, un captulo de un libro de ciencias). Estadstica descriptiva. Es una parte de la estadstica que se dedica a analizar y representar los datos. Este anlisis es muy bsico, pero fundamental en todo estudio. Aunque hay tendencia a generalizar a toda la poblacin las primeras conclusiones obtenidas tras un anlisis descriptivo, su poder inferencial es mnimo y debera evitarse tal proceder. Estadstica inferencial. Es una parte de la Estadstica que comprende los mtodos y procedimientos para deducir propiedades (hacer inferencias) de una poblacin, a partir de una pequea parte de la misma (muestra). Estadstica. La estadstica es una ciencia con base matemtica referente a la recoleccin, anlisis e interpretacin de datos, que busca explicar condiciones regulares en fenmenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas, desde la fsica hasta las ciencias sociales, desde las ciencias de la salud hasta el control de calidad, y es usada para la toma de decisiones en reas de negocios e instituciones gubernamentales. Estadstico. Es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el objetivo de estimar o contrastar caractersticas de una poblacin o modelo estadstico. Frecuencia absoluta. Es el nmero de veces (ni) que aparece en el estudio el valor de una variable estadstica Xi,

289

Frecuencia absoluta acumulada. Es la suma de las frecuencias absolutas de todos los valores menores o iguales que l, Fi. La frecuencia absoluta acumulada del ltimo valor es igual al nmero de datos. Frecuencia relativa (fi). Es el cociente entre la frecuencia absoluta y el tamao de la muestra (n). Frecuencia relativa acumulada (Fi). Es el cociente entre la frecuencia absoluta acumulada y el nmero total de datos, n. Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi) Frecuencia. Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Se suelen representar con histogramas y con diagramas de Pareto. Grados de libertad. Es un estimador del nmero de categoras independientes en una prueba particular o experimento estadstico. Se encuentran mediante la frmula n-1, donde n = nmero de sujetos en la muestra (tambin pueden ser representados por k-1 donde k = nmero de grupos, cuando se realizan operaciones con grupos y no con sujetos individuales). Hiptesis alternativa. Es una hiptesis de contraste (oposicin) con la hiptesis nula, se representa como H1. Hiptesis nula. En estadstica, una hiptesis nula es una hiptesis construida para anular o refutar. Cuando se le utiliza, la hiptesis nula se presume verdadera hasta que una evidencia estadstica en la forma de una prueba de hiptesis indique lo contrario. Se representa como Ho. Intervalo de clase. Rango utilizado para dividir el conjunto de posibles valores numricos al trabajar con grandes cantidades de datos. Por ejemplo, si los valores

290

estn entre 1 y 100, se podran definir grupos por medio de los intervalos 1-25, 26-50, 51-75, 76-100 cuando el intervalo de la clase es 25. Intervalo de confianza. Par de nmeros entre los cuales se estima que estar cierto valor desconocido con una determinada probabilidad de acierto. Formalmente, estos nmeros determinan un intervalo, que se calcula a partir de datos de una muestra, y el valor desconocido es un parmetro poblacional. Media armnica. Representada H, de una cantidad finita de nmeros es igual al recproco, o inverso, de la media aritmtica de los recprocos de dichos nmeros. Media geomtrica. Es la raz n-sima del producto de todos los nmeros. Media muestral. Es una medida cuantitativa, derivada de un conjunto de datos de una muestra, con el objetivo de estimar o contrastar caractersticas de una poblacin o modelo estadstico. Media ponderada. Es la medida de un conjunto de valores de una variable X a los que se han asignado pesos (ponderaciones). Su clculo se realiza a travs de la sumatoria de los valores individuales de la variable multiplicados por la ponderacin correspondiente, dividida entre la sumatoria de las ponderaciones. Media. Es el promedio de medida de una caracterstica (variable) de un conjunto de nmeros; llamada media aritmtica, es igual a la suma de todos sus valores dividida por el nmero de sumandos. Mediana. Es el valor de la variable que deja el mismo nmero de datos antes y despus que l, una vez ordenados estos. De acuerdo con esta definicin el conjunto de datos menores o iguales que la mediana representarn el 50% de

291

los datos, y los que sean mayores que la mediana representarn el otro 50% del total de datos de la muestra. La mediana coincide con el percentil 50, con el segundo cuartil y con el quinto decil. Mtodo estadstico. El conjunto de tcnicas que se utilizan para medir las caractersticas de la informacin, resumir los valores individuales, y analizar los datos a fin de extraerles el mximo de informacin. Moda. Es el valor que cuenta con una mayor frecuencia en una distribucin de datos. Muestra. Porcin de la poblacin que, bajo ciertas condiciones de confianza, representa las caractersticas de la poblacin o universo. Nivel de confianza. La probabilidad de xito que se desea obtener en la estimacin se representa por 1 . El nivel de confianza y la amplitud del intervalo varan conjuntamente, de forma que un intervalo ms amplio tendr ms posibilidades de acierto (mayor nivel de confianza), mientras que para un intervalo ms pequeo, que ofrece una estimacin ms precisa, aumentan sus posibilidades de error. Nivel de significacin. Es la probabilidad de fallar en la estimacin en el intervalo de confianza, dado un nivel de confianza (1-), se representa por . Tambin se conoce como la probabilidad de cometer un error de tipo I, es decir, rechazar la hiptesis nula cuando sta es verdadera. La suma del nivel de confianza y el nivel de significacin es igual a 1. Ordenada. En el plano cartesiano se refiere al eje vertical, comnmente denominado eje de las Ys.

292

Parmetro. Es una medida definida sobre valores numricos de una poblacin, como la media aritmtica, la varianza o su desviacin estndar. Poblacin o universo. Nmero total de individuos, objetos o medidas que tienen caractersticas observables comunes, en un espacio comn. Potencia de prueba. (1-) es la probabilidad de no cometer un error de tipo II, es decir rechazar la hiptesis nula cuando esta es verdaderamente falsa y debera ser rechazada. Primer cuartil. Es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesin (ordenada). Regin crtica. Es la proporcin del rea debajo de la curva que incluye los valores de rechazo de una hiptesis nula. Tercer cuartil. Es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. Valor absoluto. En matemtica, el valor absoluto de un nmero real es su valor numrico sin su respectivo signo, sea este positivo (+) o negativo (-); o en otras palabras, su distancia en la recta numrica hasta el valor cero, independiente al lado que pertenezca. Variable continua. Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. Por ejemplo el peso (2.3 kg, 2.4 kg, 2.5 kg...) o la altura (1.64 m, 1.65 m, 1.66 m...), que solamente est limitado por la precisin del aparato medidor, en teora permiten que siempre exista un valor entre dos cualesquiera.

293

Variable cualitativa nominal. En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. Variable cualitativa ordinal. La variable puede tomar distintos valores ordenados siguiendo una escala establecida, aunque no es necesario que el intervalo entre mediciones sea uniforme, por ejemplo, leve, moderado, grave. Variable discreta. Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores especficos que la variable pueda asumir. Ejemplo: El nmero de hijos (1, 2, 3, 4, 5). Variable. Es una caracterstica (magnitud, vector o nmero) que puede ser medida, adoptando diferentes valores en cada uno de los casos de un estudio, como el peso, talla, edad, temperatura, longitud, etc. Variables cualitativas. Son las variables que expresan distintas cualidades, caractersticas o modalidad. Cada modalidad que se presenta se denomina atributo o categora y la medicin consiste en una clasificacin de dichos atributos. Las variables cualitativas pueden ser ordinales y nominales. Las variables cualitativas pueden ser dicotmicas cuando slo pueden tomar dos valores posibles como s y no, hombre y mujer o son politmicas cuando pueden adquirir tres o ms valores. Dentro de ellas podemos distinguir: Variables cuantitativas. Son las variables que se expresan mediante cantidades numricas. Variables dependientes. Son las variables de respuesta que se observan en el estudio y que podran estar influenciadas por los valores de las variables independientes.

294

Variables independientes. Es la variable que sola o en compaa de otras inciden en el valor de otra. Los cambios en los valores de este tipo de variables determinan cambios en los valores de otra (variable dependiente).

295

296

Apndice IV

Lista de frmulas
Clculo de medidas resumen Media = Rango medio = Xmenor + Xmayor n Cuartil 1 = Q1 = (n + 1)/4 de las observaciones ordenadas. Mediana = (n + 1)/2 de las observaciones ordenadas, es igual a la mediana. Cuartil 3 = Q3 = valor correspondiente a la posicin 3(n + 1)/4 Varianza de la muestral = S2 = (X1 - X)2 + (X2 - X)2 + .+ (Xn - X)2 n-1

297

(X i- X ) Varianza de la muestra expresada en forma sinttica: S2 = i = 1 n - 1

Desviacin estndar de la muestra = S = 1( X i - X ) i=


n - 1

Coeficiente de variacin = CV =
n

(S )
X

Media de la poblacin = = Varianza de la poblacin


2

fX i
i= 1

N
n 2

i = 1(X N- ) i=

(X i - ) Desviacin estndar de la poblacin = = i = 1 N


Coeficiente de variacin de la poblacin = CVpob = Error estndar Es = S/n Clculo de probabilidades

( )

P(A) = X/T, probabilidad simple, donde X es igual al nmero de resultados en los que ocurre el evento y T es igual al nmero de resultados posibles. P(A) = P(A y B1) + P(A y B2) + P(A y B3)+ P(A y Bn), probabilidad de A, donde cada evento conjunto no pueden ocurrir simultneamente, por lo que se les denomina, eventos mutuamente excluyentes, pero tienen que ocurrir, es decir son colectivamente exhaustivos si uno de los eventos debe ocurrir. La probabilidad de A es igual a suma de sus probabilidades parciales.

298

P(AUB) = P(A) + P(B) - P(A B), regla de adicin. P(AUB) = P(A) + P(B), regla de adicin cuando A y B son mutuamente excluyentes.
= P(A y B)

P(A|B) = P(A) y P(B|A) = P(B), regla de independencia. P(A|B) = P(A y B)/P(B) P(A y B) = P(A|B) P(B), regla de multiplicacin. P(A y B) = P(A) P(B) regla de multiplicacin para eventos independientes. P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)+ P(A|Bn) P(Bn), donde B1, B2, B3 Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. P(E) + P(~E) = 1, suma de probabilidad complemento. Teorema de Bayes:

P(B i|A)= P(A|B

P(A|B i)P(B i)
1 ) P(B 1)

+ P(A|B 2)P(B 2)+ P(A|B n) P(B n)

Permutaciones = n!/(n-X)! Combinaciones = n!/X!(n-X)! Valor esperado de la distribucin de un variable discreta = x = E(X) = X i P ( X i)
i= 1 n

Varianza de la distribucin de un variable discreta =

=
2

(X i- x ) P (X i )
2

i= 1

Desviacin estndar de la distribucin de un variable discreta = = Distribucin de probabilidad binomial:

(X i- x ) 2 P (X i )
i= 1

n! px(1-p) n-x x!(n-x)!


299

Distribucin de probabilidad de Poisson:

- x P(X = x|) = e x!
2

1 e-()[(x-x )/x ] Distribucin normal: f (X)= 2 x

Estandarizacin de valores reales a valores Z: Z =

X-x x

Aproximacin a la distribucin normal de la distribucin binomial.

X- Z = x x

Xa -np np(1-p)

Aproximacin a la distribucin normal de la distribucin Poisson.

X- Z = x x
Clculo de ndices

Xa -

ndice de Precios Laspayere = IPL = (Pn x Qo)/Po x Qo ndice de cantidades Laspayere =IQL 2006 = (Qn x Po)/Po x Qo Para el ndice de valor se utiliza la frmula de Passche, IPQ = (Pn x Qn)/Po x Qo Mtodo de mnimos cuadrados: Y = a +bX a = (Y)/n b = (XY)/ X2

300

También podría gustarte