ESTADÍSTICA BÁSICA PARA NEGOCIOS

Conceptos y aplicaciones

Volumen I: Estadística descriptiva y Probabilidad básica.

Marco Luiz García

3

4

Prefacio Las generaciones anteriores a la era de las Tecnologías de la Información TI, crecimos con la afirmación de que los cursos de estadística eran complejos, aburridos, incomprensibles, tanto que eran verdaderas pruebas de resistencia, tenacidad y frustración. Los catedráticos de la materia se concentraban más en explicar los modelos matemáticos que en el uso y aplicación de los resultados. El propósito de esta edición es hacer que la Estadística sea un campo interesante de aplicación práctica en diversos aspectos de la realidad, especialmente en el área de negocios. Acorde con el propósito, el libro pretende ser una herramienta de aprendizaje y práctica, utilizando los paquetes de software estadísticos que realicen los complicados y laboriosos cálculos matemáticos. Específicamente se orientará al uso de la hoja de cálculo de Excel y del paquete estadístico SPSS, es decir, se trata de combinar los últimos avances de la Estadística y la Tecnología de la información. Se pretende que el aprendizaje de los estudiantes sea a través de diferentes problemas de la vida real, eliminando los ejemplos inventados o acontecidos en otros contextos que nada tienen que ver con nuestra realidad. En un intento de ser más pragmáticos, se omiten algunos temas que en el área de negocios raramente se utilizan y que sólo confunden y desesperan al estudiante. Es tiempo de terminar con la anacrónica manera de enseñar estadística, que enfatiza sobre el aprendizaje de modelos matemáticos y fórmulas de cálculo que hostigan a los estudiantes y los distrae del verdadero propósito del uso de la Estadística: proporcionar información para la toma de decisiones. Uno de los principales enfoques del libro es preservar y enfatizar sobre la distinción entre los parámetros de la población y los estadísticos de la muestra. La distinción es básica para el pleno entendimiento del uso de la Estadística como método para la toma de decisiones. 5

Acerca del contenido, se considera de suma importancia el aprendizaje de la Estadística descriptiva porque, además de ser una técnica de representación descriptiva de cualquier fenómeno, se considera como prerrequisito para entender y aplicar los conceptos y procesos de la Estadística inferencial. Más que el desarrollo de modelos y fórmulas matemáticas, se considera que la Estadística es un lenguaje que se puede leer e interpretar, por ello se agrega en la parte final un apartado de apéndices que contiene: un repaso a las matemáticas básicas, un glosario de símbolos y términos generalmente aceptados y una lista de fórmulas. Los ejercicios al final de cada capítulo son extremadamente importantes para que el estudiante pueda relacionar el marco teórico con la aplicación práctica, al tiempo que el estudiante descubre la utilidad del uso del método estadístico en el campo profesional en el que va a incursionar. El propósito último del contenido es que el estudiante sepa seleccionar las herramientas estadísticas apropiadas para la obtención y procesamiento de datos y cómo interpretar y entender los resultados de su esfuerzo.

6

Presentación Estadística Básica para Negocios, Conceptos y Aplicaciones, volumen I Estadística Descriptiva y Probabilidad Básica del Mtro. Marco Luiz García ve la luz bajo los mejores auspicios. Se trata de una obra en la que el autor aborda el estudio sistemático de la estadística y su aplicación práctica en los negocios en época moderna, como lo anuncia el título que es fruto de su larga experiencia como docente, consultor particular y estudioso de la materia objeto de este libro. Cuando la teoría y la praxis, además del estudio e investigación se conjugan, necesariamente da el nacimiento a un producto de calidad que cumple diversos objetivos, como lo señala el autor. En primer término, se logra una meta preestablecida que implica muchas horas de trabajo, investigación, reflexión, manteniendo la perspectiva hacia un propósito definido. De igual forma, esta obra del Mtro. Luiz García, está diseñada para utilizarse como libro de texto en la materia de estadística que imparte desde hace varios años en la Unidad Académica de Derecho y Ciencias Sociales “Lic. Francisco Hernández García” de la Universidad Autónoma de Tamaulipas, atendiendo una necesidad inaplazable de dotar al alumno de un instrumento de estudio integral, didáctico, económico, con ejemplos y sistemas modernos, que esgrimiendo la informática y el avance tecnológico de nuestros días, lo convierte en un texto fundamental para aprender los conceptos básicos de la estadística y su utilización en el diagnóstico y planeación de los negocios. Es de advertirse, sin necesidad de ser un especialista en la materia, que el autor utiliza un lenguaje técnico preciso, despojado de información innecesaria y que por lo mismo se traduce en un material sustantivo para la enseñanza de la materia estadística. Contiene el libro diez capítulos en los que abarca el contenido básico que permite al estudiante entrar en contacto de una manera más clara y directa con la enseñanza de esta disciplina, y además del basamento teórico le ofrece aplicaciones prácticas para su debida utilización.

7

para sistematizar el análisis y la toma de decisiones en la marcha de la empresa. Luiz García. Ramiro González Sosa Abogado General de la UAT 8 .En cualquier área del conocimiento. es bienvenida una publicación como el que hoy ofrece el Mtro. del que seguramente abrevarán muchas generaciones de estudiantes que lo adoptarán como un referente obligado en la didáctica de esta importante materia. Lic.

Por considerar importante sus observaciones.Agradecimientos. 9 .” Este comentario. Así que puede ser estupendo según tus objetivos. Abusando de su amabilidad le pedí que revisara el contenido del libro y lo hizo en una forma profesional y diligente. De igual manera y con la misma intensidad expreso mi agradecimiento al matemático y experto en estadística. porque lo van a entender a la primera. me permito citar textualmente uno de sus comentarios. para personas con poca preparación matemática. puede ser justo lo que tú persigues con la creación de este libro. recién creada en la UA de Derecho y Ciencias Sociales de la Universidad Autónoma de Tamaulipas. viniendo de un experto. me parece estupenda la línea que has utilizado en la elaboración del texto. Carlos Hinojosa Cantú por darme la oportunidad de impartir las materias de Estadística Descriptiva y Estadística Inferencial que forman parte del pensum de la licenciatura de Negocios Internacionales. a quien conocí circunstancialmente en un viaje que realicé a ese maravilloso país. Su encargo me motivó a diseñar apuntes que fueran entendidos por los estudiantes que tienen formación preparatoria en las áreas sociales. Si los alumnos tienen cierta base matemática y/o estadística. España. es bastante halagador para los propósitos del libro. actual Delegado Provincial del Instituto Nacional de Estadística y Delegado Provincial de la Oficina del Censo Electoral en Salamanca. el texto les va a parecer muy simple. es decir. De manera muy especial quiero manifestar mi agradecimiento al Lic. “Digo esto porque da la impresión que has hecho mucho hincapié en explicar las cosas de una forma muy sencilla y simple. Esto. Si esto es así. Cristóbal José Rojas Montoya. que parece algo malo.

10 .

Contenido Resumido CAPÍTULO 1. CAPÍTULO 10. CAPÍTULO 7. CAPÍTULO 3. CAPÍTULO 6. 11 . Análisis de series. La distribución normal. El método estadístico. CAPÍTULO 5. Uso de paquetes estadísticos. Presentación de datos categóricos en tablas y diagramas. CAPÍTULO 4. Probabilidad básica. Organización y presentación gráfica de datos. CAPÍTULO 2. CAPÍTULO 9. CAPÍTULO 8. Modelos de distribución de probabilidad para variables aleatorias discretas. Características de la distribución de datos numéricos. Elaboración de estudios estadísticos.

12 .

.....11 2.1 1.Contenido detallado Prefacio 1.6 1..9 2.5 1. Tipo de muestreo Uso de una tabla de números aleatorios.12 Introducción Tipos de estudios.... Resumen.3 2... Definición del término “Estadística” División de la Estadística Términos comúnmente usados en Estadística Método Estadístico La Estadística y el uso de programas de cómputo. Realización de encuestas.10 Introducción.8 1...5 2. 1.6 2. Elaboración de estudios estadísticos…. Errores comunes en la aplicación de una encuesta Resumen.12 2. Mapa conceptual del término Estadística. Definición operacional.10 2...2 2..…………..4 1. Mapa conceptual de los estudios estadísticos. Términos clave Problemas de repaso del capítulo. 37 13 ..8 2.7 1.3 1. Problemas de repaso del capítulo.4 2. 2.2 1....7 2..... niveles de medición y escalas de medición.. 17 2... Tipos de datos..1 2. La obtención de datos. Términos clave..9 1. El método estadístico…………………………..

14 131 .3 4. Diagrama de Pareto.4 5. Resumen. Organización y presentación gráfica de datos numéricos…………………………………………………. Tabulación de datos numéricos: distribución de frecuencia. Edición de datos. Características de la distribución de datos numéricos…….12 81 Introducción.1 3. Cálculo de mediciones descriptivas de la población. Definición de las variables de análisis. Captura de datos.11 Introducción Medidas de Posición de tendencia central.10 3. mapa conceptual de distribución de datos numéricos 99 5.6 3.6 4. Problemas de repaso del capítulo.2 3. 4. Análisis de 5 puntos y gráfica de caja de sesgo. Obtención de resultados.2 5. Términos clave. 4. 5.5 Introducción.7 4. Medidas de dispersión: varianza y desviación estándar. Tabla y polígono de porcentaje acumulado.3 5. Mapa conceptual de organización y presentación de datos numéricos. Medidas de deformación.7 3.9 3.4 3. Tabla de datos originales sin orden y ordenados. Uso de paquetes estadísticos………………………………. Problemas de repaso del capítulo.11 3. Resumen.3. Términos clave.9 4.1 4. Uso de la desviación estándar.4 4. Diagrama de tallo y hojas.5 3.2 4. Histograma o diagrama de distribución de frecuencias.10 4.8 4. Polígono de frecuencias.8 3.5 4. 3.3 3.1 5.

. Probabilidad básica……………………………….9 7. Elección de la gráfica apropiada. Ejemplos: Funciones de distribución de probabilidad discreta. 7.2 6. Varianza y desviación estándar de una variable discreta.. Resumen.2 8. Principios fundamentales para enumerar.5 8. Valor esperado de una variable discreta...6 Tabla de frecuencias. Características de la distribución binomial.1 8. 143 7. Características de la función de la distribución de probabilidades de Poisson. Distribución Binomial.11 Introducción.2 7.8 8.6 7..7 8. Probabilidad simple y probabilidad conjunta.4 8. Teorema de Bayes.5 7.11 187 Introducción Definición del concepto. Tabla de contingencia o de datos cruzados.1 6.3 6.4 Introducción. Mapa conceptual de probabilidad.5.10 7. Criterios de probabilidad: subjetivo y objetivo. Tabulación de datos categóricos. Resumen. Problemas de repaso del capítulo.8 7.... Espacio muestral y tipos de eventos.3 8. Términos clave.6 8. Presentación de datos categóricos en tablas y diagramas… 6. 6.9 8. Distribución de Poisson.1 7... Modelos de distribución de probabilidad para variables aleatorias discretas…………………………….. 15 .3 7.10 8. 155 8.7 7. 8.. Formas de examinar el espacio muestral...4 7.

Análisis de patrones básicos Métodos de estimación de las tendencias Correlación Mapa conceptual de análisis de series 237 Bibliografía APÉNDICES 275 277 16 . Propiedades de la distribución normal.2 10. Aplicaciones. Problemas de repaso. Ejemplos.13 8. 9.5 9.8 9.7 9.5 10. Mapa conceptual de la distribución normal 10.1 10.9 9.3 10.3 9.6 9.8. Resumen Términos clave. La distribución normal…………………………………….2 9. La distribución normal.4 10. La función de densidad de probabilidad de una variable aleatoria continua. Mapa conceptual de modelos de distribución 9. Análisis de series………………………………………….10 9..4 9..12 8. Problemas de repaso del capítulo. El modelo matemático.11 9.6 Introducción Construcción de números índice. 10. Uso de distribución normal como una aproximación a la distribución binomial o a la distribución de Poisson.1 9.14 Términos clave.12 215 Introducción.

Capítulo 1 El método estadístico ********************* Objetivo del Capítulo Presentar una visión general del concepto de Estadística. particularmente en el área de negocios 17 . su evolución y aplicación.

18 .

1 hocus pocus: apócope de Hoc est corpus meum que los paganos. largamente podremos enumerar su aplicación en fenómenos naturales y en todas las actividades del hombre. control de calidad. la medicina. es un lenguaje. la administración. de volúmenes de cifras relativas a nacimientos.1 Introducción Si se le preguntara al hombre de la calle qué significa para él el término Estadística. Es una ciencia con tanta antigüedad como la escritura.1. El significado anterior supone que los números manipulados bajo ciertas normas pueden representar cualquier cosa que tengamos en mente. por lo tanto. ingresos. muertes. a través del tiempo relacionaron con palabras mágicas que se decían durante la comunión y que se fue reduciendo a hocus pocus. créditos y así. es decir. poblaciones. impuestos. La economía. deudas. La Estadística nos auxilia a construir indicadores para la toma de decisiones. 19 . en la mayoría de los casos se obtendría respuestas como “Estadística es “hocus pocus1 con números”. O también podríamos escuchar decir que la Estadística es una simple recolección de datos. producción. La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas. que no entendían latín. La Estadística es mucho más que números apilados y gráficas bonitas. se puede considerar como auxiliar de todas las demás ciencias.

sino mediante un proceso largo de desarrollo y evolución. Así pues. la ingeniería. los datos deportivos. entre otros. desde hechos de simple recolección de datos hasta la diversidad y rigurosa interpretación que se da hoy en día. el alumno podrá comprender: 1. la administración pública. presentación y caracterización de la información que contribuya tanto para el análisis como para el proceso de toma de decisiones.la biología. como de restos arqueológicos. El significado de la palabra “Estadística” y la aplicación del método estadístico. censo. la inflación. 4. La evolución de la Estadística La Estadística. encuesta. la ausencia de estadísticas conlleva un caos generalizado. El tema de la estadística moderna abarca la recolección. los índices de accidentes. las ciencias sociales. muestra. En el área de negocios. Comprender el significado de los diferentes términos estadísticos: población. deja a los administradores y ejecutivos sin información relevante que fundamente la toma de decisiones en tiempos de incertidumbre. Lo anterior 20 . Apreciar la utilidad de los estudios enumerativos y analíticos. 3. Cada día de nuestra vida moderna está significado por datos estadísticos relacionados con el mercado de valores. dato. entre otros. Al término del capítulo. lo que facilita su uso sin profundizar el conocimiento de los modelos matemáticos que los sustentan. no surgió de improviso. etc. Sabrá de la existencia de paquetes estadísticos de cómputo disponibles para el cálculo de medición estadística. el origen de la Estadística se remonta a los comienzos de la historia y esto se sabe tanto a través de crónicas. el desempleo. datos escritos. 2. variable aleatoria. como todas las ciencias. se basan fundamentalmente en la aplicación de la estadística.

podemos señalar que en Roma. 1969: 92). Peso y Medida. Bajo el mandato de Servio Tulio. de expresarme en términos de Número. he tomado el camino…. sino que puso 21 . sino también su cantidad de bienes. éstos pasaron a ser base constitucional del gobierno. jurídica y administrativa favoreció para el desarrollo de la Estadística. Petty no sólo enseñó con su práctica y preceptos cómo se deben de recopilar y manejar los datos. bajo la civilización árabe.es explicable porque en ese tiempo se estaba recién formando la sociedad y era algo inherente a la necesidad de saber cosas elementales como: cuántos habitantes tiene la tribu. de usar sólo argumentos de sentido y de tomar en cuenta únicamente las causas que tengan fundamentos visibles en la naturaleza” (Roll. etc. floreciendo más. y argumentos intelectuales. etc. el desarrollo de modelos matemáticos que representan la realidad y la probabilidad del acontecer de fenómenos (sucesos).) y. Con la caída del Imperio Romano las estadísticas se pierden en Europa. “En lugar –dice. producción. pero fue bajo Antoninos que la declaración de nacimientos adquirió una verdadera institución legal que era necesaria hacerla ante el "prefecto del erario" en el templo de Saturno y no después de 30 días de nacimiento. no sólo saber el número de habitantes.de usar sólo palabras comparativas y superlativas. Históricamente el desarrollo de la Estadística moderna se debe a dos fenómenos totalmente separados: La necesidad del gobierno de conocer las características de su población (número. Una muestra es el Censo que se realizaba cada 5 años y que tenía por objeto. ingresos. en su obra Political Arithmetick escrita probablemente en 1672 y publicada en 1690. edades. Así. con su perfecta organización política. salud. con cuántos bienes cuenta. Sir William Petty expone un punto de vista completamente nuevo para la investigación económica. A finales del siglo XVII. cuántos esclavos. educación. También en un inicio se llevaba un registro de nacimientos y de fallecimientos.

se puede afirmar que no sólo es el fundador de la economía política sino también del uso de la estadística como método de investigación.Tercera Fase: Estadística y Cálculo de Probabilidades. que establece que el progreso de una economía se aprecia fundamentalmente a través del creciente volumen de la población que se dedica a los servicios. 3.Primera Fase: Los Censos.. Con las aportaciones del matemático francés Blaise Pascal y de Chevalier de Mere se dieron las bases para el cálculo de la probabilidad. y Gauss fueron los precursores de la estadística inferencial. ante esta contundente evidencia de primacía. La evolución del uso de la Estadística se puede distinguir en tres etapas: 1. Neyman. La formulación matemática de la teoría de la probabilidad se da en la investigación de juegos de azar en la época del Renacimiento. Fue el creador del termino pleno empleo y formulador de la Ley de Petty. Sus trabajos más famosos son los de tipo demográfico. Petty es mejor conocido por sus escritos de historia económica y estadística previos al trabajo de Adam Smith.Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política. 22 . Aritmética política y títulos similares.. Sin embargo. Wald y Tukey sentaron las bases de desarrollo de los métodos de la estadística inferencial que actualmente se aplica en los diversos campos de la investigación en nuestra actualidad. DeMoivre.. 2. Gosset. se trata de los primeros intentos de entender las relaciones entre la población y la economía. no fue hasta principios del siglo XX que los estudiosos como Pearson. Estos y otros matemáticos como Bernoulli. Fisher.en su debido lugar la investigación de los hechos en relación con el análisis teórico.

quien acuñó en 1760 la palabra estadística. al provocar en éstas. se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas. profesor de la Universidad de Gotinga. Fue Godofredo Achenwall. que significa estado o situación. gracias a la Estadística se han puesto de manifiesto. con la cual se adhirió a las ciencias formales como una ciencia aliada. Es por esta razón que la estadística se presenta como un poderoso auxiliar de las distintas ciencias y técnicas. Uso de la Estadística en el área de negocios Contabilidad Seleccionar muestras de registros contables para fines de auditorías. por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones.La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades. que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente. por otra parte. Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades. Para comprender las tendencias de costos en la contabilidad. esta etimología aumenta el valor intrínseco de la palabra. Creía. la investigación de las leyes de comportamiento de ciertas variables que intervienen en un fenómeno cuyo valor. y con sobrada razón. que extrajo al parecer del término italiano statista (estadista). en el término latino status. Finanzas 23 . particularmente en la rama denominada indeterminismo o relatividad. La raíz remota de la palabra se halla.

preferencias y demanda del consumidor. 24 . por tipo de cliente. Para definir estrategias de mercado: publicidad. Para controlar y mejorar la productividad de la planta. Para segmentar el mercado por área geográfica. Para conocer las fuerzas demográficas y económicas del entorno de la empresa. puntos de venta. Para desarrollar modelos de pronóstico de éstas medidas. del mercado financiero y del mercado bursátil. tipo de mercado. Producción Para controlar y mejorar los estándares de calidad del producto. diferenciación de producto. el predominio de la economía global (producción.Para analizar las tendencias de las medidas financieras de la empresa. Mercadotecnia Para conocer el mercado potencial del producto y definir el mercado objetivo. con el propósito de incrementar las ventas y la rentabilidad. distribución y consumo de bienes y servicios a nivel internacional) obliga a las empresas a poner mayor énfasis en la competitividad de sus productos servicios. precio. La Estadística y la competitividad empresarial En los albores del siglo XXI. Para conocer los gustos. Para conocer el nivel de desempeño.

características de la materia prima. estándares de calidad. órgano desconcentrado de la Secretaría de Hacienda y Crédito Público. y brindar el servicio público de información estadística y geográfica sobre el territorio. la población y la economía de México. producción. Datos gubernamentales. atención a nuevos mercados. con autonomía técnica y administrativa. innovación. atención a nuevos clientes. Geografía e Informática (INEGI). es necesario lograr niveles elevados de calidad y productividad que permitan operar con una rentabilidad meritoria. diferenciación del producto. mejoramiento de la calidad. como es la información sobre clientes. etc. sea sobre producción. publicaciones gremiales o especializadas) Con el propósito de coordinar los Sistemas Nacionales Estadístico y de Información Geográfica. Para ello. En 1895 se levantó el primer Censo de Población. tanto dentro como fuera del país.relacionada con su negocio. La competitividad exige que las empresas conozcan toda la información -interna y externa. el gobierno federal cuenta con el Instituto Nacional de Estadística. proveedores. costos.Se entiende por competitividad a la capacidad de las empresas de producir bienes y servicios en forma eficiente (con costos decrecientes y calidad creciente) y eficaz. 25 . mejoramiento de costos. El antecedente más antiguo fue la Dirección General de Estadística (DGE) la cual fue creada en 1882. características de la competencia. mejoramiento de precios. etc. haciendo que sus productos sean útiles y atractivos. Parte fundamental de la práctica gerencial que procura la competitividad es la aplicación de ciertos métodos estadísticos y su adecuada interpretación de resultados. La interpretación adecuada de los resultados incluye el reconocimiento de que los datos son substancialmente variables y que su pertinencia y empleo permiten tomar decisiones para mejorar un estado actual. características de los sistemas de logística.

b) También se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para obtener. estadísticas de ciencia y tecnología. estadísticas ambientales. Además de su requerimiento constitucional de realizar los censos de población y vivienda. estadísticas de género. agropecuarios y económicos.2 Definición del término “Estadística” Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas. existen varias publicaciones especializadas en datos industriales o comerciales específicos creadas por organizaciones gremiales. instituciones de educación o investigación. 1. es posible hacer una distinción entre las definiciones comúnmente aceptadas.INEGI genera estadísticas de cobertura nacional. el 10% de los clientes de supermercados pagan con tarjeta de crédito). empresas especializadas en el sector. a la vivienda. entre otros. procesar. estadísticas económicas. Además de información estadística creada por las instituciones gubernamentales. fabricación. el INEGI tiene que ver con la realización de encuestas referidas a la población. una confusión que es conveniente aclarar debido a que esta palabra tiene dos significados: a) En primer término se usa para referirse a la información procesada (siete de cada diez personas prefieren comprar jabón de la marca X que de la marca Z. Con tantas aplicaciones del término Estadística parece imposible obtener por consenso una sola definición. 26 . sin embargo. analizar y presentar la información pertinente de un estudio. estatal y local de temas como: estadísticas sociodemográficas. al gasto familiar. Esta última es la razón del libro. transporte. regional. y cada cierto tiempo realiza estudios sobre el índice de precios. medios de comunicación.

La estadística. También es considerada como un método de relación con esos datos (Ibíd. 2004: 3). Para muchos. de tablas y de gráficas. organización y análisis de datos numéricos u observaciones. como tales.). de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. la 27 . de vivienda. presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente las diversas características que distinguen a ese conjunto de datos (Berenson & Levin. entre otros. la Estadística es la ciencia auxiliar de todas las ciencias. la Estadística se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Estadística Inferencial. organización presentación. análisis e interpretación de datos numéricos con el fin de realizar una apropiada toma de decisión (Muñoz. 1996: 3). La estadística descriptiva puede definirse como aquellos métodos que incluyen la recolección.3 División de la Estadística Para su mejor estudio. (Haber y Runyon.del fenómeno en estudio mediante medidas resumen. sean éstos obtenidos a través de observaciones directas o a través de otros datos. demográficos. Estadística Inferencial: se deriva de muestras. sin intentar inferir nada que vaya más allá de los datos. en la presentación de datos en forma medidas resumen. esto es. Tal es el caso de los censos económicos. Ésta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir las características – variables.La estadística es considerada como la colección de datos numéricos los cuales son expresados en términos de cuentas resumidas. en general. Como consecuencia. Estadística Descriptiva consiste sobre todo. 1. 1977: 6). es la ciencia que trata de la recopilación. Esta definición enfatiza la visión de que la estadística es una herramienta relacionada con la colección.

al menos no dentro del contexto o situación para el cual está previsto. Fig. representados en la figura 1. La Estadística inferencial puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población. 28 . que no puede modificarse. temperatura. Peso.4 Términos comúnmente utilizados en estadística Variable: una característica o fenómeno que puede obtener diferentes valores. La Estadística inferencial investiga o analiza una población partiendo de una muestra tomada.) Para entender ambas definiciones. Una variable es diferente a una constante. sexo.característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones. es necesario conocer el significado de los términos utilizados. costos. ingreso.1 Funciones del an álisis estadístico Población (total de alumnos de la UAMFHG) Datos (observaciones) Estadística descriptiva Muestra (selección de algunos alumnos representativos del total de alumnos de la UAMFHG) Estadística inferencial 1. basándose sólo en los resultados de la muestra. (Ibíd. 1. la cual nunca cambia de valor.1. ventas. son ejemplos de variables. talla.

Éstos pueden ser enumerados por unidades o acumulación de puntos. objetos o medidas que tienen características observables comunes. 25 años de edad. Variables dependientes: son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Población o universo: el número total de individuos. duplicaciones. Todos los mexicanos. Victoria y que tienen entre 12 y 36 años. Desventaja: errores de observación. Variables cuantitativas: son las variables que se expresan mediante cantidades numéricas. toda la población de Tamaulipas. todos los estudiantes de la UAT.Variables cualitativas: son las variables que expresan distintas cualidades o características. Variable aleatoria: valor de la característica o fenómeno específico de una observación escogida al azar. estatura y peso de una persona. son los datos de las variables de edad. en un espacio común. Los datos pueden ser de naturaleza numérica o categórica. Dato: números o medida que se obtienen a través de obtener la dimensión de la variable en una observación. Las variables cuantitativas además pueden ser discretas o continuas. 1. enorme volumen de información. todas las personas que viven en Cd. Los cambios en los valores de este tipo de variables determinan cambios en los valores de otra (variable dependiente). requie- 29 . omisiones. 65 kilogramos de peso.65 metros de altura. Por ejemplo. noubicación (no medibles) del encuestado. Censo: Cuando se estudia la totalidad de las unidades que componen la población o universo. Variables independientes: Es la variable que sola o en compañía de otras inciden en el valor de otra.

La población o el universo en este caso serían todos los estudiantes inscritos en el período vigente. suponga que se quiere investigar. Para su representación. Estadísticos: son las medidas resumen resultantes. Los censos de población y vivienda que realiza el INEGI es un buen ejemplo. La muestra sería sólo aquellos estudiantes que se seleccionaron para participar en el estudio. la edad y el nivel de ingresos de los alumnos de la UADYCS. mediante una encuesta.S). generalmente se utilizan letras itálicas (ejemplo: X . personas. representa las características de la población o universo. instalaciones). que significan la media y la desviación estándar de la muestra. que significan la media y la desviación estándar de la población respectivamente. se puede decir que la estadística inferencial es el proceso de utilizar la estadística muestral para sacar conclusiones acerca de los parámetros de la población. bajo ciertos procedimientos específicos. 30 .σ). bajo ciertas condiciones de confianza. dinero. Muestra: una porción de la población que. misma que tendría que ser representativa de todas las licenciaturas y de todos los semestres. Los estadísticos se utilizan para estimar los parámetros de la población a través de una muestra. de los datos originales obtenidos en una muestra. El objetivo de la encuesta sería describir las características (variables: edad e ingreso) de toda la población (parámetros). Por lo tanto. Generalmente se utiliza el alfabeto griego para representarlas (ejemplo: µ. La descripción se obtendría a través del uso de estadísticos obtenidos de la muestra. Para relacionar estas definiciones con un ejemplo.ren enormes recursos para su elaboración (tiempo. Parámetros: los valores de las características observadas (variables) que representan a la población o universo.

Recopilación de la información existente Para conocer la dimensión del problema es necesario consultar la información histórica interna o externa que esté relacionada con el problema que requiere aten- 31 . es lo que se llama métodos estadísticos. satisfacción del cliente. 3. 1. Definición del problema En el ámbito de los negocios. precios. consumo. Obtención de información original. número de clientes. demanda.5 Método estadístico El conjunto de técnicas que se utilizan para medir las características de la información. como inflación. índices de crecimiento. 2. y todas las variables del entorno que afecten directa e indirectamente a la empresa. Presentación. 4. y analizar los datos a fin de extraerles el máximo de información. Clasificación. los problemas tienen que ver con ventas en cantidad y valor. Recopilación de la información existente. oferta. 6. etc. paridad monetaria. sea porque la población es muy grande y en consecuencia obtener sus características es muy tardado o muy caro. Definición del problema. resumir los valores individuales. costos. importaciones. análisis de puntos de venta. rendimientos. exportaciones. 5. inventarios.El uso de estadística inferencial surge de la necesidad de muestrear. sea porque no se tiene acceso a toda la población. control de calidad. producción. Los métodos de análisis para la información cuantitativa se pueden dividir en los siguientes seis pasos: 1. Análisis.

estos datos. tendremos que consultar la información existente que produce INEGI. el nivel de educación. tal como el tamaño de la población. las características de los productos. la tabla1. el gasto familiar. Por ejemplo. se requiere de conocer información que no existe y que hay que generar. se clasifica por estratos. etc. que se convertirán en información. por períodos o por ubicación geográfica de tal manera que tenga una ponderación adecuada para su análisis. el ingreso. las preferencias del consumidor. Análisis de la información De los datos clasificados y presentados se pueden derivar una serie de análisis. etc. pero en precio aumentó un 20% en precio por lo que resultó un aumento del 8% en el valor de lo vendido. Siguiendo con el mismo problema de ventas. la experimentación y la encuesta. las ventas por productos. por ejemplo. tendremos que consultar los registros contables. 32 . los de inventarios. Presentación La información clasificada se presenta a través de tablas y gráficas que pueda interpretarse.ción. si hablamos de un problema de ventas. por zona geográfica. se obtienen en forma directa a través de la observación.1 que se observa en la próxima página. por ejemplo: las ventas de huevo disminuyó en un 10% en unidades. existente y original. Obtención de información original. Clasificación La información obtenida. como los precios de la competencia. la edad de la población. Si el problema es de mercado.

00 7.00 Precio Unit 12.00 35. Coloquialmente se puede decir que la Estadística es la ciencia auxiliar de las ciencias.000. se pondrá mayor atención al uso de métodos estadísticos apropiados y análisis de resultados que a la teoría matemática subyacente a los métodos. el SPSS o la hoja de cálculo de Excel.00 2006 Unidades Valor Vendidas venta 90 140 15 1.00 1.00 630. Es aplicable a una amplia variedad de disciplinas. que para realizar los análisis estadísticos de práctica.7 Resumen La estadística es una ciencia matemática que se refiere a la colección.080.950.00 1.00 980.00 5. Parte fundamental de la competitividad es el pleno conocimiento e adecuada interpretación de la información relacionada con el entorno interno y externo de la empresa.1 Precios y cantid ades vendidas en 2005 -2006 Artículo Huevo (docena) Leche (litro) Carne (kilo) Precio Unit. estudio e interpretación de los datos obtenidos en un estudio.Tabla 1. Así.690. usada también en la toma de decisiones en áreas de negocios e instituciones gubernamentales.6 La estadística y el uso de programas de cómputo El uso de paquetes de cómputo para el cálculo estadístico es cada vez más común en la comunidad empresarial. 10. Bajo esa premisa. 33 .00 600. el alumno tendrá acceso a los paquetes estadísticos como el STATISTICA. 1. El predominio de la economía global obliga a las empresas a poner mayor énfasis en la competitividad.00 350. académica y de investigación.00 2.00 42. desde la física hasta las ciencias sociales.00 2005 Unidades Valor Vendidas ventas 100 120 10 1. el desarrollo del curso considera.

Ejemplos básicos de descriptores numéricos son la media y la desviación estándar.La aplicación del método estadístico en la realización de estudios estadísticos actualmente es imprescindible. derivaciones y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. estadísticas criminales. estimaciones de características numéricas (estimación. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis). pronósticos de futuras observaciones. la estadística descriptiva y la estadística inferencial. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población de estudio. se requiere utilizar los cono34 . de ahí que la estadística se divide en dos áreas de estudio. que se dedica a la generación de los modelos. Resúmenes gráficos incluyen varios tipos de figuras y gráficos. que se dedica a los métodos de recolección. la cual se refiere a las bases teóricas de la materia. La aplicación del método estadístico se utiliza para describir y para inferir las características del objeto de estudio. La estadística inferencial. Actualmente. estadísticas de salud. como en estadísticas económicas. Otras técnicas de modelamiento incluyen ANOVA. La estadística descriptiva. series de tiempo y tendencias de datos. visualización y resumen de datos originados a partir de los fenómenos en estudio. entre otras. para usarlos correctamente. Los datos pueden ser resumidos numérica o gráficamente. las hojas de cálculo y los paquetes estadísticos son de extraordinaria ayuda. descripción. descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Hay también una disciplina llamada estadística matemática. La palabra estadísticas también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos. el uso generalizado de sistemas de cómputo ha simplificado la realización de estudios estadísticos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada.

Describa la diferencia entre la estadística descriptiva y Estadística inferencial. Describa una aplicación de la estadística en los deportes 3. Describa una aplicación de la estadística en la investigación médica o en la administración de la salud.8 Términos clave: Dato Estadística Estadística descriptiva Estadística inferencial Estadística moderna Estadístico Muestra 1. 6.cimientos adquiridos en este capítulo. ello ayudaría a reducir los errores de digitalización. Describa el Método estadístico. cálculo y análisis. 1. 2. Parámetro Población Universo Variable Variable aleatoria Variable cualitativa Variable cuantitativa 35 . Describa una aplicación de la estadística en economía o finanzas. describa una aplicación específica e identifique la población y los parámetros que son de interés principal del estudio. 7. 5. 1.9 Problemas de repaso del capítulo En los siguientes ejercicios. Describa una aplicación de la estadística en el área de publicidad y mercadotecnia. Describa una aplicación de la estadística en la administración de empresas 4.

10 Mapa conceptual del término Estadística E S T A D Í S T I C A Origen Aplicación Significado • Comienzos de la historia • Siglo XVII • Siglo XX • Necesidades de Gobierno • Desarrollo de modelos de representación • Soporte de todas las ciencias • Información procesada • Técnicas y métodos para el manejo de datos Estadística moderna Descriptiva Inferencial Método estadístico: Definición del problema Recopilación de información Clasificación Presentación Análisis 36 .1.

Capítulo 2 Elaboración de estudios estadísticos ********************* Objetivo del Capítulo Mostrar la importancia de diseñar un estudio estadístico. especialmente los que se requieren elaborar para los negocios y la importancia de obtener buenos datos 37 .

económica y de predicción.2. preferencias. etc. de cualquier tamaño o complejidad deben de medir en forma permanente el nivel de desempeño a través de conocer información sobre costos. precios. cantidad. ingresos percápita.1 Introducción Las organizaciones modernas enfrentan gran complejidad para su buen funcionamiento. Existe la necesidad permanente de adaptarse al cambio. tales como población. suficiente. necesidades. productividad. veraz. Las organizaciones modernas y competitivas. Una de las razones por las cuales las organizaciones modernas son complejas. dónde se deben realizar los cambios de adaptación a las nuevas exigencias de mercado. es que en el mundo globalizado que operan cambia constantemente y presenta nuevos desafíos y amenazas. cuándo. Los administradores de las organizaciones modernas tienen la responsabilidad de conocer cómo. eficiencia de productos. gustos. calidad. competencia. tanto en las entradas como en las salidas y en el proceso de transformación. 38 . oportuna. servicios y procesos. Pero también debe conocer de los cambios que ocurren en el medio ambiente en que se desarrolla. Estos cambios no pueden ser implementados sin el conocimiento de la información apropiada pertinente.

Cabe señalar que actualmente el uso generalizado de equipos de cómputo “la edad de la tecnología de la información” ha facilitado esta tarea de obtención. procesamiento y presentación de información. Esta sección pretende introducir al alumno a determinar qué tipo de estudios estadísticos se requieren en las organizaciones. 2. especialmente los que requieren aplicación de una encuesta.Para que un estudio estadístico sea útil en el proceso de toma de decisiones. 5. 3. 39 . Aún y cuando cada organización tiene diferentes necesidades de estudios estadísticos. cómo se obtienen los datos. Utilizar una tabla de números aleatorios para la definición de los individuos de la encuesta. Conocer las diferentes fuentes de obtención de datos. en base a ellos. ambigüedades o malas interpretaciones. Conocer la importancia de diseñar un estudio estadístico. Al término del capítulo. se toman malas decisiones. pedagógicamente y metodológicamente se pueden hacer generalizaciones que el profesional tendrá que adaptar a sus necesidades de aplicación. Saber diseñar un cuestionario con preguntas objetivas. agrupan y presentan. Conocer los diferentes tipos de datos. 4. agrupación. los datos de entrada deben ser de origen fidedigno y cumplir con una serie de características de codificación que faciliten su captura. correlación y análisis. plenas de significado y alta relación con el objeto de estudio. Por ello el proceso de recolección es extremadamente importante en la realización de un estudio. Conocer los tipos estudios estadísticos que se pueden realizar. lo más probable es que se elaboren estudios de mala calidad y por lo tanto. 6. el alumno deberá ser capaz de: 1. niveles de medición y escalas de medición. Si los datos están distorsionados por sesgos. cómo se clasifican.

Ambos tipos de estudios utilizan el método estadístico para la toma de decisiones.2 Tipos de estudios. El área geográfica definida para el estudio enumerativo se le denomina marco y proporciona los elementos para la selección de una muestra. El objetivo es el de proporcionar estimaciones de las características de la población y tomar ciertas decisiones sobre ellas. Los estudios enumerativos son aquellos que muestran cómo son las cosas pero que no tienen la cualidad de predecir por ellos mismos. Los estudios enumerativos involucran la toma de decisiones respecto a una población y/o sus características (Berenson & Levin. El censo de población y vivienda es un buen ejemplo de estudio enumerativo. previo a la operación comercial de una empresa. 1995: 84). 1996: 5). En ese sentido no existe un proceso subyacente. Medir el rendimiento del maíz es un estudio enumerativo. De ahí surgen las preguntas de ¿Cuántos son hombres y cuántas mujeres? ¿Cuántos consumen el producto? ¿Qué marca de producto prefieren? ¿Qué nivel de ingresos tienen? ¿Cuántos negocios similares existen? ¿Cuál es el aforo vehicular por las principales avenidas? 40 . Un ejemplo de estudio enumerativo sería aquel que se realiza en cierta área geográfica. bajo ciertos cambios en el proceso original. Ambos utilizan los datos como materia prima para su elaboración. Los estudios analíticos son utilizados para estudiar procesos y pueden predecir. Las condiciones de producción agrícola del 2004 o 2005 o de cualquier año pasado se han ido y no se repetirán. los resultados en un futuro (TRADE. Hay dos tipos de estudios “enumerativos” y “analíticos”.2.

1 Mapa base para estudio enumerativo de mercado La técnica Estadística permite diseñar una muestra representativa de un área geográfica específica y determinar. las preguntas del estudio se hacen en relación a saber ¿Qué hay en el tazón? ¿Cuántas canicas son de color negro. sus características enumerativas en conjunto Otro ejemplo de un estudio enumerativo es la descripción del contenido de un tazón de canicas. en forma aproximada. los estudios analíticos involucran realizar alguna actividad sobre un proceso para mejorar el desempeño en el futuro (Ibíd. el tazón completo representa la población.) 41 . 2.Fig. o en qué proporción son negras? ¿Qué probabilidad existe aleatoriamente de escoger una canica negra? Figura 2.2 Estudio enumerativo. Muestra Por otro lado.

en agricultura. sugerencias. entre otras. El propósito de un estudio analítico es el de obtener predicciones de comportamientos futuros y de resultados. en ventas. los mejoradores agrícolas. (TRADE. El Dr. también influyen los métodos de cultivo. el tipo de semilla. Un estudio analítico. que no es otra cosa que el análisis de la información de respuesta del medio ambiente a las salidas de la organización. maquinaria y equipo e información. en más de las veces. Los procesos. es decir a la transformación de las entradas en salidas. dice que un proceso consiste en equipo. personas. pedidos.El estudio de los resultados de un proceso de producción o de prestación de servicios considerados durante cierto tiempo. entre otros. el tipo de suelo. las plagas. quejas. de los resultados. los procesos de transformación se refieren a las actividades propias de la organización. devoluciones. las salidas son los bienes o servicios que la organización oferta al medio ambiente (clientes reales y potenciales). En un sistema empresarial. 42 . salidas y retroalimentación. material y personas que son conjuntados para producir salidas en un medio ambiente. métodos. en forma general: entradas. procesos de transformación. se refiere al análisis de procesos. se componen de varias etapas. Por ejemplo. las entradas son principalmente materia prima. es un ejemplo de estudio analítico. reflejadas. Walter Shewhart. si bien es cierto que las condiciones de clima predominan en los rendimientos agrícolas. Esto es la generación de información anticipada para la toma de decisiones para la mejora del proceso y en consecuencia. 1995: 84) El análisis de resultados del sistema organizacional se da a través de lo que se conoce como retroalimentación. utilizando el enfoque de sistemas. un pionero de estudios estadísticos en control de procesos.

mercado objetivo. tienen que ver con control de producción. b) Medir el desempeño y tomar medidas correctivas c) Apoyar la toma de decisiones en la definición de estrategias d) Para satisfacer nuestra curiosidad. Los estudios estadísticos más comunes en el área de negocios. crédito. etc. cobros. ventas. control de calidad. precios de mercado. estudios de mercado (mercado potencial.3 Ámbito de aplicación de estudios analíticos Competidores Proveedores Distribuidores Clientes Empleados Accionistas Sociedad Accionistas Sindicato Gobierno Cámaras Grupos de interés Gerencia General Tierra Mano de obra Capital Administración y Finanzas Producción Mercadotecnia Productos o Servicios Entradas Proceso Salidas Retroalimentación Existen cuatro razones básicas para realizar estudios estadísticos (enumerativos o analíticos): a) Contar con material imprescindible en un estudio de investigación.Figura 2.) 43 .

los tipos de datos que existen y los sistemas de medición. estará equivocado o tendrá errores: se tomarán malas decisiones. Lo que el trata de significar es que si los datos obtenidos son equivocados o tienen errores. del inglés garbage in. los datos generados por terceros. b) realizar observaciones de comportamiento de actitudes u opiniones de los individuos que son de interés del estudio o c) realizar una encuesta. la observación o el levantamiento de encuesta. Los datos primarios se obtienen a través de: a) diseñar un experimento. garbage out. 44 . 2. Sin importar la fuente.3 La obtención de datos Existen varios métodos de obtención de datos. Primero. se hace una distinción entre el recolector original de datos y la organización o individuo que los compilan. La de fuente primaria se obtiene en forma directa a través de la experimentación. el estudio será de mala calidad y su uso para el que fue creado. Para diseñar un estudio estadístico. gremiales o individuales. que se traduce como basura entra. basura sale. a este tipo de información se le conoce como información de fuente secundaria. Los datos generados por el usuario son de fuente primaria. el compilador es la fuente secundaria. El recolector de datos es la fuente primaria. se puede utilizar datos ya publicados por otras instancias. sean gubernamentales. son de fuente secundaria.La calidad de los estudios estadísticos La calidad de los estudios estadísticos depende de la calidad de los datos que los soporten. Los investigadores han adoptado el término GIGO. el estudiante debe comprender las distintas fuentes de datos. depende del tipo de estudio que se quiera realizar.

experimental y al otro grupo de control. Pero se podría trabajar con varios grupos con distintas cantidades de ingesta de vigorizante. dilatación de pupila. el de la condición. se le pide a uno que tome la bebida en cierta cantidad y después se le analizan sus signos vitales (presión arterial. etc. Por ejemplo.Método de experimentación La obtención de datos por el método de la experimentación es el más complejo y eficaz de los métodos empíricos. por lo que a veces se utiliza erróneamente como sinónimo de método empírico. Una vez hecho el experimento se comparan las mediadas de los signos vitales de ambos. de modo que una inferencia pueda ser hecha en cuanto a la causalidad del cambio observado. Una diferencia clara con el método empírico en general es que éste trata de considerar los errores. para medir los efectos de una bebida vigorizante. Se llamará a un grupo. a dos grupos de jugadores después de un partido de futbol. respiración. Así. contenido de glucosa. los datos son sacados de la manipulación sistemática de variables en un experimento. 45 . En este método. pulsaciones. el investigador interviene sobre el objeto de estudio modificándolo directa o indirectamente para crear las condiciones necesarias que permitan revelar sus características fundamentales y sus relaciones esenciales bien sea: -Aislando al objeto y las propiedades que estudia de la influencia de otros factores -Reproduciendo el objeto de estudio en condiciones controladas -Modificando las condiciones bajo las cuales tiene lugar el proceso o fenómeno que se estudia.) al otro individuo se le pide que tome sólo agua purificada y también se le miden los signos vitales.

o la conducta privada. La investigación por el método de observación obtiene información que la gente no puede o no quiere proporcionar. la ubicación de la competencia. Una encuesta es un conjunto de preguntas dirigidas a una muestra representativa de población o de instituciones. En muchos casos. Permite conocer la realidad mediante la percepción sensorial directa de entes y procesos. los investigadores suelen utilizar como complemento otros métodos de recopilación de datos. la observación es la única manera de obtener información. algunas cosas no pueden observarse. La encuesta es una investigación estadística en 46 . Método de encuesta El método de obtención más utilizado en los estudios de mercado es la realización de una encuesta. Las investigaciones etnográficas proporcionan a menudo detalles íntimos que no se pueden obtener por la observación tradicional. un investigador de mercados de productos lácteos podría visitar puntos de venta y observar a los compradores desde que entran a la tienda. las condiciones del área.Método de la observación Fue el primer método utilizado por los científicos y en la actualidad continua siendo su instrumento universal. La realización de una encuesta debe tener un diseño muestral y un marco de aplicación. leen las etiquetas y toman la decisión de compra. caminan por los anaqueles. Por ejemplo. toman el producto lácteo. con el fin de conocer estados de opinión o hechos específicos. El método de la observación permite obtener datos primarios mediante la observación de la conducta de las personas. como las emociones. describe y clasifica las culturas o pueblos) para observar a individuos en su hábitat natural. O una gasolinera podría evaluar la posibilidad de abrir nuevas sucursales mediante la observación de los esquemas de tráfico. En la actualidad muchas empresas utilizan el método de investigación etnográfica (ciencia que estudia. sin embargo. acciones y situaciones pertinentes. para lo cual debe poseer algunas cualidades que le dan un carácter distintivo. los motivos. A causa de esas restricciones.

La población es suficientemente homogénea respecto a la característica medida.4 Tipos de datos. . Los datos categóricos representan categorías de la observación.El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: vida media de una bombilla. estos pueden ser discretos o continuos. . etc. satisfecho. Un ejemplo de dato categórico sería la respuesta a la pregunta ¿Pertenece usted a un club social? si o no. dos estrellas. es una respuesta categórica. 2.). se consigue mayor rapidez. carga soportada por una cuerda.Las características de la población varían si el estudio se prolonga demasiado tiempo.que la información se obtiene de una porción representativa de las unidades que componen el universo. precisión de un proyectil. Los datos numéricos representan dimensión del fenómeno. imposible de analizar en su totalidad. niveles de medición y escalas de medición Las variables generan dos tipos de datos: categóricos y numéricos. .Rapidez: al reducir el tiempo de acopio y tratamiento de los datos. .La población es grande y. La encuesta es preferible a los censos (o estudio de toda la población) por las siguientes razones: . Gran Turismo. otro ejemplo sería el grado de satisfacción de un producto o un servicio: muy satisfecho. 47 . por tanto. . igualmente sería un dato categórico la clasificación de los hoteles de una estrella. resultaría inútil gastar recursos en un análisis exhaustivo.Reducción de costes: al estudiar una parte de la población. los gastos de recogida y tratamiento de los datos serán menores que si los obtenemos del total de la población. tres estrellas. no satisfecho.

la variable principal sería el precio. Todo lo que se observa generalmente es referido como variables. la altura de un estudiante es el ejemplo de una variable numérica continua. 3. los datos continuos son respuesta numérica de un proceso de medición.Los datos numéricos surgen del conteo o de la medición de los fenómenos.14 Tipo de datos. 3. Incluso los datos numéricos discretos pueden considerarse como producto de una medición mediante el conteo. La escala cardinal sirven para representar una cantidad (intervalo o de relación) 48 . seguramente el valor de la variable será diferente en varios establecimientos. La escala ordinal se utilizan para representar un ordenamiento. La escala nominal se utiliza para nombrar. como también es variable la cantidad servida y las condiciones ambientales del lugar. 2. Cualquier observación en particular se denomina “valor de la variable”. Figura 2. 1. Un ejemplo de dato numérico discreto sería el número de refrescos que compra al día: 2. Por ejemplo. ordinal y cardinal (intervalo y relación). si se estudiara el precio de una taza de café americano en Victoria o en Matamoros. la medición acepta fracciones de la unidad. Los datos discretos son respuestas numéricas que surgen de un proceso de conteo. Tipo de datos Categóricos Tipo de pregunta Respuesta Numéricos Niveles de medición En el sentido más amplio. Los tres niveles de medición en escala reconocidos son: nominal.72 metros. 1. 4. Por otro lado. todos los datos ha obtener son medibles.

Figura 2. Variable categórica nominal politómica: afiliación partidista (cuando se distinguen más de dos partidos) como PRI. Se puede asignar un valor numérico para representar la variedad de clases en una escala nominal pero este número no tiene propiedades cuantitativas.5 Ejemplos de escala nominal. por lo tanto.Escala de medición Los datos obtenidos de una variable categórica pueden ser medidos en una escala nominal u ordinal. permite clasificar a los individuos en grupos. Es decir. PRD. Variable categórica Seguro de automóvil Tipo de seguro de vida que se tiene Afiliación política si Categoría no Temporal Vitalicio PRIísta PANista PRDísta El siguiente nivel de medición. Las observaciones no ordenadas constituyen el nivel más bajo de mediada y son referidas como una escala nominal. El valor que toma una variable categórica nominal indica la categoría a la que pertenece. La medición de variables categóricas nominales resultan de la aplicación de una escala de medición que permite solo determinar las relaciones = y ≠. sólo sirven para identificar la clase. de escala ordinal se refiere cuando la medición representa un orden en una serie. Los grupos pueden ser dicotómicos (dos categorías) o politómicos (más de dos categorías). Por ejemplo: Variable categórica nominal dicotómica: género (femenino / masculino). PAN. si los datos observados simplemente se clasifican en diversas categorías. en las que no implica ningún orden. En esta escala las diferencias son expresadas en términos de inequidades algebraicas: a es menor que b (a<b) o a es mayor que b 49 .

50 . Ejemplos de aplicación de la escala ordinal incluye: la designación de clase de un estudiante en un grupo.6 Ejemplos de escala ordinal. Figura 2. La medición de temperatura en grados Celsius o Fahrenheit son ejemplos de medición en escala de intervalos. etc. 20º C representa 273º C + 20º C de calor y 10º C representa 273º C + 10º C. resta. más veloz. Los números empleados en la escala ordinal no son cuantitativos. sólo indican una posición pero no qué tanto es la diferencia entre las diferentes posiciones de la escala. la categoría de los empleados. En esta escala de intervalo utilizada existe lo que se conoce como cero absoluto y se supone que es equivalente a -273º C. Las relaciones entre variables serán: más grande. La diferencia entre estos dos tipos de escala radica en que la escala de intervalo emplea un punto arbitrario (cero) de comparación mientras que la escala de relación emplea un cero real. Los valores numéricos asociados con esta escala son cuantitativos y por ello permite el uso de operaciones aritméticas como la suma. multiplicación y división. más alto. la clasificación de las películas. etc. por lo que 40º C equivale a 273º C + 40º C de calor.(a>b). Variable categórica Clase de estudiante en un grupo Clasificación de películas Clasificación hotelera Categoría Primero Segundo Tercero G PG PG-13 R X Finalmente el nivel más alto de medición en la ciencia es alcanzado por el uso de números cardinales (escala de intervalo y de relación). No podemos decir que 40º C es a 20º C como 20º C es a 10º C. Lo anterior se debe a que el punto de medición 0º C es arbitrario.

existe un punto cero verdadero que pueda ser tomado en cuenta para realizar comparaciones. La medición de las variables categóricas ordinales resultan de la aplicación de una escala de medición que permite determinar las cuatro relaciones =. 51 . Figura 2. porque se puede distinguir no sólo la dimensión sino también la diferencia con otras observaciones. el doble de alta de una que mide . además de que las diferencias son significativas e iguales en cualquier punto de la escala. que de una de escala ordinal.80 metros. > y <.90 metros. Estas escalas constituyen los niveles más altos de medición. Una persona mide 1. son formas más concretas de medición. igual que en las lecturas de 25º C y 27º C. ≠.Cabe señalar que la diferencia entre dos lecturas tiene el mismo significado en cualquier nivel de la escala. En la escala de relación (o de cociente). Lo que permite ordenar a los individuos en un orden creciente o decreciente con relación a una característica medida.7 ejemplos de escala cardinal (intervalo o relación) Variable numérica Temperatura ( C o F) o o Nivel de medición Intervalo Tiempo de calendario (hebreo o islámico) Intervalo Altura (en pulgadas o centímetros) Peso (en libras o kilogramos) Edad (en años o días) Relación Relación Relación Generalmente los datos obtenidos de una variable numérica han sido medidos en una escala de intervalo o de relación. así la diferencia entre 37º C y 39º C es de 2º grados.

nociones preconcebidas. Para realizar un estudio de esta naturaleza. como las preferencias. sentimientos. 2. 3. El número de enunciados elaborados al principio debe ser mayor al número final de enunciados incluidos en la versión final. 52 . mediante la aplicación de pruebas estadísticas se seleccionan los ajustados al momento de efectuar la discriminación de la actitud en cuestión. amenazas y convicciones de cierta población acerca de cualquier asunto específico. rechazando aquellos que no cumplan con este requisito. Asignación de puntuaciones a los sujetos. La escala Likert. que fue desarrollada por el sociólogo Rensis Likert en 1932. 5. prejuicios o distorsiones.Escala tipo Likert Frecuentemente se requieren conocer las inclinaciones. ideas. 4. la puntuación de cada sujeto se obtiene mediante la suma de las puntuaciones de los distintos ítems. se elaboran una serie de enunciados afirmativos y negativos sobre el tema o actitud que se pretende medir. Preparación de los ítems del cuestionario. Asignación de puntajes a los ítems. Una manera de realizar este tipo de estudios es aplicando un cuestionario con una serie de ítems con respuestas alternativas con una escala de medición de actitudes. conocida también como escala sumativa está en función de una serie de ítems que reflejan una actitud positiva o negativa acerca de un estímulo o referente. como la escala de Likert. temores. se le asigna un puntaje a cada ítem a fin de clasificarlos según reflejen actitudes positivas o negativas. Se le solicita a los sujetos que expresen su acuerdo o desacuerdo frente a cada ítem mediante una escala. Aplicación del cuestionario en una muestra representativa de la población cuya actitud deseamos medir. analiza los pensamientos y sentimientos de la persona hacia los hechos. Análisis y selección de los ítems. se propone seguir los siguientes pasos: 1.

cada elemento se puede analizar por separado o. las respuestas a cada elemento se suman para obtener una puntuación total para un grupo de elementos. Las respuestas a los elementos se pueden sumar. preferencias de consumo). Entre las técnicas de análisis se encuentran la correlación ítem-escala por medio del coeficiente de correlación de Pearson. Es recomendable realizar un análisis estadístico de los ítems con el propósito de ser selectivos.Después de concluir la aplicación del cuestionario. entre otros. A veces se utilizan 4 niveles de respuesta. Por ello las escalas de tipo Likert son un tipo de escalas sumativas. el análisis discriminante. 53 . teniendo en cuenta que todos los elementos midan el mismo concepto (p.. en algunos casos. Cada ítem está estructurado con cinco o más alternativas de respuesta. Los ítems por lo general tienen implícita una dirección positiva o negativa. el coeficiente gamma.ej. ya que no existe la posibilidad de neutralidad. el análisis factorial. La unidad de análisis que responde a la escala marcará su grado de aceptación o rechazo hacia la proposición expresada en el ítem. Por ejemplo: “Los menonitas son un grupo étnico con excelentes valores hacia el trabajo”: ( ) Totalmente de acuerdo ( ) De acuerdo ( ) Indiferente ( ) En desacuerdo ( ) Totalmente en desacuerdo La escala de Likert es un método de escala bipolar que mide tanto el grado positivo como negativo de cada enunciado. de esta forma se obliga a elegir un lado de la escala.

de modo que se capte su sentido y se adecúe al contexto. El investigador. 1996: 18). Una definición operacional proporciona un significado a un concepto o variable que puede comunicarse a otros individuos. podría ser la siguiente: cantidad de bienes producidos por un trabajador en una jornada laboral de ocho horas. aumento de sueldo y prolongación de vacaciones. al formular la definición operacional. En la definición operacional se debe tener en cuenta que lo que se intenta es obtener la mayor información posible de la variable seleccionada. tales como salarios. Si el objeto de estudio hubiese sido otro. Una condición contribuyente aumenta la posibilidad de que un fenómeno ocurra pero no lo 54 . premios. deberán hablar el mismo lenguaje. todas las personas que tengan interés en un estudio estadístico específico. colaboradores en el diseño. entonces la definición operacional hubiese sido otra. la definición operacional de la variable productividad se circunscribe al trabajo realizado por un trabajador en determinado lapso de tiempo y con cierto tipo de incentivos. oportunidades de progreso. beneficios sociales. Las personas que participan en un estudio estadístico.2. compilador y tomador de decisiones. hoy y mañana para todos los individuos (Berenson & Levin. contingentes y alternativas al problema que trata. la definición operacional de la variable productividad. lo que hace necesario establecer la definición operacional para obtener la respuesta o interpretación apropiada. encuestado. En el ejemplo se pretende buscar una relación entre motivación y productividad. y para ello se deberá hacer una cuidadosa revisión de la literatura disponible sobre el tema de investigación. encuestador. debe considerar las condiciones contribuyentes.5 Definición operacional En un estudio estadístico generalmente participan diferentes tipos de personas. se pueden identificar como: responsable del estudio. analizar la productividad en relación con el uso de ciertos materiales o maquinarias. En otras palabras. Es algo que tiene el mismo significado ayer. por ejemplo. capturista. estabilidad en el cargo. Por ejemplo.

Éstas deben ser compatibles con los objetivos de la investigación. En los estudios de tipo social. análisis e interpretación de los datos obtenidos. del plano teórico al plano de lo empíricamente contrastable. Las condiciones contingentes y alternativas que inciden en la medición de una variable son más proclives a ser analizadas en las investigaciones sociales. Por su parte. entonces se puede hacer una distinción entre variables. dimensiones e indicadores. su flexibilidad permite la construcción de categorías en la búsqueda. al tipo de investigación que se realiza. en líneas generales. entre lo descriptivo y lo explicativo.hace implícito o cierto. Las técnicas cuantitativas se emplean cuando el universo de estudio es amplio y la complejidad de las variables posibilita una aceptable desagregación en niveles susceptibles de cuantificarse y ser analizados. La operacionalización de las variables está estrechamente vinculada al tipo de técnica o metodología empleadas para la recolección de datos. las técnicas cualitativas son más utilizadas en las investigaciones exploratorias. Para el caso de definir a la variable productividad. Estas técnicas. nos encontramos 55 . Las dimensiones vendrían a ser subvariables o variables con un nivel más cercano al indicador. Con esta técnica. ya que por sí misma no causa el fenómeno sino que es uno entre otros tantos factores que inciden en su ocurrencia. a la vez que responden al enfoque empleado. pueden ser cualitativas o cuantitativas. Cuando nos encontramos con variables complejas. empleada por ejemplo en las entrevistas en profundidad. se produce una interacción permanente entre la observación y la reflexión. A modo de síntesis. donde el pasaje de la definición conceptual a su operacionalización requiere de instancias intermedias. la encuesta es el instrumento de recolección de datos más utilizado en las investigaciones cuantitativas. puede afirmarse que el pasaje de la dimensión al indicador hace un recorrido de lo general a lo particular.

Dada una población. que no son otra cosa que parámetros que contribuyen a ubicar la situación en la que se halla la problemática a estudiar. lo más común es exponer los datos en porcentajes y medidas comparativas al interior y exterior de la muestra. Para la variable productividad. preferentemente con un equipo de cómputo. b) el análisis final para sacar conclusiones a un nivel de estadística descriptiva. los indicadores son datos. costo de mano de obra. para la realización de una encuesta: a) el diseño de las preguntas y.6 Realización de encuestas Las encuestas es lo más directo y rápido para obtener datos pero puede tener riesgos y lagunas. estas dimensiones. Cada una de estas subvariables son las dimensiones de la variable productividad. desperdicios. tiempo de producción. maquinaria. La clasificación de los individuos de la población debe tener la misma estructura numérica que el procedimiento aleatorio definido. materiales o energía consumida. para determinar los individuos de la población a los que se les aplicará el cuestionario. como ser: cantidad de producción. En un sentido restringido.con diferentes subdimensiones que forman parte de la variable. El diseño de las preguntas y análisis de respuestas es el tratamiento de datos que se espera realizar. por ejemplo. en la dimensión mano de obra. para poder ser contrastadas empíricamente por el investigador. los indicadores podrían ser cantidad de productos envasados por un trabajador en ocho horas de trabajo. 2. Es muy importante definir las relaciones existentes entre un grupo de variables en las que se suponen que algunas de 56 . A su vez. requieren operacionalizarse en indicadores. Hay dos pasos esenciales. se calcula la dimensión suficiente de una muestra y se genera procedimiento aleatorio.

con el sistema de venta. Más precisamente y según el filósofo argentino Mario Bunge. en términos generales. Para la realización de una encuesta (y cualquier tipo de estudio estadístico). los conceptos. c. b. z} Donde f(x) es la satisfacción del cliente y a. con el precio. proposiciones. Para ser más aproximado al concepto de satisfacción habrá que preguntar si el producto cumplió con sus expectativas. Distinguiremos cuatro clases básicas de constructos: conceptos. La variable satisfacción del cliente es una variable dependiente y el resto son variables independientes. por ejemplo: si se quisiera medir la satisfacción del cliente sería difícil determinarla recabando las respuestas de que sí está o no satisfecho con tal o cual producto. de dos partes: a) un modelo estructural que especifica las relaciones de dependencia existente entre las constructos latentes y. por lo tanto. Los modelos utilizados constan. “Por constructo u objeto conceptual. con los tiempos de entrega. se puede expresar como: f(x)= {a. si estuvo conforme con la atención. Una definición operacional de un constructo se refiere a las operaciones mediante las cuales un investigador determina la presencia. las teorías y las clasificaciones científicas son constructos. Estas operaciones son mediciones o registros numéricos. una idea. además de la práctica administrativa inherente. 57 . b) un modelo de medida que especifica cómo los indicadores se relacionan con sus correspondientes constructos. entre otros. …. En consecuencia. ausencia o magnitud de un fenómeno. las hipótesis (que son proposiciones). contextos y teorías”. se requiere seguir los siguientes pasos: Elección del tema de estudio: uso del tiempo libre de los estudiantes 2 Un constructo es. b. c. En forma general.ellas (denominadas constructos)2 se miden a partir de otras variables observables denominadas indicadores. son las variables que la determinan. entendemos una creación mental.

la impresión de la imagen de la empresa. la competencia. Elección del tema Los temas para realizar estudios estadísticos son prácticamente infinitos. En el área de negocios los estudios se diseñan para estimar los gustos y preferencias del consumidor. ya que en base a éste se inicia. a través de formular las preguntas de investigación. continúa o hace que ésta fracase. correo tradicional. Marco Teórico de la investigación En todo proceso de investigación. el mercado objetivo. Diseñar del instrumento de recolección de datos (cuestionario): preguntas numéricas o categóricas Definir el ámbito de aplicación: local Definición del universo: Estudiantes de la UA Derecho y Ciencias Sociales Definir el tipo de muestreo: Probabilístico.Marco teórico del tema: teorías en que se fundamenta el estudio y lo que se desea investigar. teléfono. los precios de mercado. posteriormente al planteamiento del problema de 58 . un elemento que direcciona el camino a seguir en todo trabajo científico es el marco teórico. no probabilístico. en línea. etc. las cantidades promedio de consumo. Definir el método de aplicación: personal. la disponibilidad de recursos para adquirir el producto. Dependerá del área de interés del investigador. Obtención y tratamiento de datos: digitalización y análisis estadístico Elaboración de informe: se refiere a la redacción de lo que se encontró en la investigación y comparación de los parámetros que se conocen.

las investigaciones que se han efectuado sobre el tema. no es solo cuestión cuantitativa o temporal. Además debe tomarse en cuenta el marco de referencia y el marco conceptual en el cual se circunscribe la investigación a realizar. descripción y explicación de la realidad a investigarse debe ubicar en la perspectiva de lineamientos de carácter teórico. El marco teórico no solamente abarca la revisión de conceptos y/o teorías que apoyan una investigación. enfoques teóricos. Por ejemplo. diversión. en el estudio del uso del tiempo libre. por ello. El derecho al tiempo libre. investigaciones y antecedentes en general que se consideran válidos para un correcto encuadre del estudio. como el descanso. los individuos pueden realizar actividades que disfrutan. es decir. De éstas. Esto exige del investigador la identificación de un marco de referencia sustentado en el conocimiento científico. descripción y explicación. según algunos autores. tiene más un sentido cualitativo. el siguiente paso consiste en sustentar teóricamente el estudio. “cada investigación toma en cuenta el conocimiento previamente construido. que se ha tomado como referencia. la distracción. hasta donde sea posible. se puede obtener una visión completa de las formulaciones teóricas sobre las cuales se ha de fundamentar el conocimiento científico propuesto en las fases de observación. Este paso implica analizar y exponer aquellas teorías. En el tiempo libre. A esta etapa se le denomina “marco referencial” que no es otra cosa que conocer. puesto que en él se modifica el estilo de vida del individuo y las 59 . por lo que al realizarla se apropia parcialmente de la estructura teórica ya existente”. La observación. tales como satisfacer necesidades personales. la distracción. que se han definido los objetivos que se pretenden lograr y las interrogantes que se quieren despejar con su realización. A esta etapa se le denomina “elaboración del marco teórico”. lo primero que se tiene que hacer es definir el concepto “Tiempo libre” que.estudio (tema de estudio). el desarrollo personal. es una situación donde no existe obligación de realizar una determinada tarea.

El segundo bloque en cantidad de tiempo consumido durante el día. que se consume en actividades tales como el transporte público o privado. como las económicas y las que satisfacen las necesidades fisiológicas. es en este tiempo en cuando se produce la formación de los grupos sociales más permanentes.estructuras sociales de su entorno. Ejemplos de estas formas de trabajo no remunerado. es el “Tiempo de Trabajo” el cual en México se limita. en las charlas y reuniones con compañeros de trabajo o de estudios y que exigen cierta obligatoriedad. Asimismo. en números. son los estudios (jornada escolar). que como en los casos anteriores. En el tiempo libre se adoptan los principios y valores que se incorporan a la calidad de vida. así como los trabajos realizados en el hogar para su funcionamiento y conservación (jornada doméstica). Se sabe que los médicos recomiendan alrededor de 8 horas de sueño para que el organismo descanse y pueda recuperarse del desgaste cotidiano. Se entiende por trabajo a una actividad física o mental realizada por un individuo a cambio de un jornal o de un salario. Por cierto. políticos o públicos que comprometen la asistencia ineludible del individuo. sociales. 60 . que un tercio del día se debe dedicar al abandono total de cualquier actividad necesaria para el sostenimiento de la vida y la salud. las relaciones afectivas de pareja. ya que existen otras formas no remuneradas y que exigen una considerable cuota de tiempo y de esfuerzo por parte del individuo que se dedica a ellas. por ley a un máximo de 8 horas durante el horario diurno. no es la única. la asistencia a ciertos actos familiares. También los actos y ceremonias de índole religiosa. laborales. también exigen una responsabilidad y obligación para con el grupo. Si bien el trabajo remunerado es la modalidad laboral más claramente identificable. El tercer tipo es el “tiempo social”. El marco teórico del uso de tiempo libre inicia con la distribución teórica del tiempo disponible. en etapas más profundas y avanzadas. en los que surge la amistad y. esto quiere decir.

en consecuencia.Por último y como consecuencia de la ocupación y la utilización de los otros tiempos para la satisfacción de las necesidades económicas y sociales. relaciones familiares. queda un residuo. de trabajo. un tiempo restante que queda liberado de toda obligación: el tiempo libre. que el "cara a cara" de la entrevista. permite consultar a una parte representativa de la población (muestra) de una manera rápida y económica. datos del ambiente que le rodea: por ejemplo. etc. vivienda. Su característica singular radica en que para registrar la información solicitada a los mismos sujetos. de vecindad. Es un instrumento de recolección de datos que puede abarcar aspectos cuantitativos y cualitativos. Es muy conveniente procurar que las respuestas sean en su mayoría del tipo numéricas o categóricas. Las preguntas deben estar libres de ambigüedades. ésta tiene lugar de una forma menos profunda e impersonal. deberá de acompañarse de definiciones operacionales para obtener respuestas apropiadas. procesos y programas. Si fuera necesario evitar confusiones debido a la complejidad de las preguntas. con el menor número de palabras. Diseño del cuestionario. considerar las variables numéricas y categóricas. Los datos que se pueden obtener con un cuestionario pertenecen a cuatro categorías: a) Hechos (datos actuales): datos personales del grupo social estudiado: por ejemplo. Existe una relación inversa entre la amplitud de un cuestionario y la tasa de respuesta. edad. éstas facilitan la codificación. nivel educativo. es decir. El cuestionario es un instrumento considerado clásico en las ciencias sociales para la obtención y registro de datos. Su versatilidad permite utilizarlo como instrumento de investigación de las características de personas. Al mismo tiempo. cada pregunta deberá de presentarse claramente. Las preguntas abiertas (aquellas donde el encuestado exponga su punto de vista) deben de clasificarse u ordenarse apropiadamente. y datos de 61 .

000 ( ) De 50. pueden ser cerradas y abiertas.000 ( ) De 2. Al usuario se le da a elegir entre un abanico de opciones. o al menos todas aquellas que mejor responden a la situación. Revela el grado de confianza a conceder a las opiniones sobre juicios subjetivos. rodear con un círculo. etc.001 a 5.001 a 10. todo lo que empuja a la acción. Ejemplo: ¿Tiene en su domicilio acceso a Internet? Sí ( ) No ( ) En otras ocasiones las preguntas están categorizadas. fue.000 ( ) De 20. a veces. de expectación. d) Cogniciones. y.su comportamiento con respecto al tema de estudio (compró. a las cuales se suman los niveles de información. Suelen ser preguntas con la opción afirmativa y negativa.001 a 20. no sé/sin opinión. Las cuestiones cerradas ofrecen al usuario que va a ser evaluado todas las alternativas posibles. todo lo que se podría llamar datos subjetivos. El sujeto no tiene sino elegir alguna o algunas. probó. ningún encuestado puede dejar de responder por no encontrar su categoría. c) Actitudes y motivaciones.000 ( ) Las respuestas o categorías que se ofrezcan a este tipo de preguntas han de reunir dos condiciones esenciales: que sean exhaustivas y excluyentes.001 a 100.000. según el modo de formularse.). es decir índices de nivel de conocimiento de los diversos temas estudiados en el cuestionario.. Y 62 . subrayar. ( ) De 10.001 a 50.. En ese caso. b) Opiniones.. al comportamiento. y ésta a la base de las opiniones. vendió. Ejemplo: ¿Cuántos habitantes tiene la ciudad donde vive? Menos de 2. poniendo una señal convenida: una cruz. Las preguntas del cuestionario. Las categorías o respuestas serán exhaustivas si abarcan todos los casos que pueden darse.000 ( ) De 5.

Algunas preguntas se presentan bajo una escala cuantitativa. a continuación se señalan algunos cuestionamientos. hacer deporte. cuando ningún sujeto al contestar al cuestionario. ¿Toma apuntes o notas de lo que dice el expositor? Nunca ( ) Pocas veces ( ) Con frecuencia ( ) Siempre ( ) Por otro lado. ir al cine. bailar. dejando ésta a la consideración del sujeto que completa el cuestionario. ir a discotecas. a 63 . ir a conciertos. Al final del capítulo. con objeto de evitar que el encuestado pueda responder a la opción central. asistir a competencias deportivas. exposiciones. con objeto de poderla cuantificar después. Es muy difícil reducir contestaciones dispares a unas categorías significativas que permitan recoger la información más relevante. la dificultad aparece a la hora de tratar la información recogida.serán excluyentes. puesto que no hay que prever ningún tipo de respuesta ni investigar acerca de la exhaustividad y exclusión de las categorías propuestas. Sin embargo. las preguntas abiertas no ofrecen ninguna categoría para elegir. Posibilidades y limitaciones de las cuestiones abiertas y cerradas. Las preguntas abiertas son más fáciles de formular. Sólo contienen la pregunta y no ofrecen ningún tipo de respuesta. escuchar música. Actividades de tiempo libre que le gustan y que practica habitualmente: ir de copas. no hacer nada. Así ocurre por ejemplo: En las clases teóricas del curso de formación que está haciendo. ir a museos. ir al teatro. En este caso es conveniente elegir un número par de opciones. sin esforzarse en reflexionar. pueda elegir válidamente dos respuestas distintas de la misma pregunta. salir a reunirse con amigos. así como sus posibles respuestas. cuatro o seis. correspondiente al número de veces que se repite una acción determinada. ir de excursión. Siguiendo con la idea de realizar un estudio sobre uso de tiempo libre.

la muestra estratificada y. nacional.manera de ejemplo se presenta el cuestionario para investigar el uso de tiempo libre de los estudiantes de la UADYCS. la muestra de agrupación. El ámbito de aplicación de la encuesta se refiere al espacio comprendido dentro de límites geográficos determinados. Todos los mexicanos. si el estudio fuera de esa área geográfica. 64 . Ámbito de aplicación. todas las personas que viven en la colonia Obrera y que tienen entre 12 y 36 años. 2. si el ámbito es la República mexicana.7 Tipo de muestreo Un vez conocido el marco de estudio o listas actualizadas del universo y calculado el tamaño apropiado de la muestra. local. Universo. Muestreo probabilístico Una muestra probabilística es aquella en que los sujetos de la muestra se eligen sobre la base de probabilidades. institucional. en el ámbito de aplicación definido. Éste puede ser internacional. si el ámbito es el estado de Tamaulipas. Hay cuatro tipos de muestras de probabilidad más comunes: aleatoria simple. El universo del estudio es el número total de individuos u objetos que tienen características observables comunes. la muestra sistemática. regional. Todos los tamaulipecos. Existen básicamente dos tipos de muestra: Probabilística y no probabilística. se procede a definir los candidatos a proporcionar los datos.

2. la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición aunque. Determinar en qué fecha se producirá la primera extracción. En poblaciones muy grandes. b) Muestra sistemática Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo. para ello hay que elegir al azar un número entre 1 y k. si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran. em+2k. Luego hay que calcular una constante.em+(n-1)k} 65 . y en determinadas situaciones. realmente. Al descartar el elemento extraído. no será posible medir más que una vez la bombilla seleccionada. Para realizar este tipo de muestreo. de forma que la población es idéntica en todas las extracciones. Sin reposición de los elementos: cada elemento extraído se descarta para la subsiguiente extracción.a) El muestreo aleatorio simple puede ser de dos tipos: 1. Elegir aleatoriamente un número m. entre 1 y k. Por ejemplo. calculadoras o tablas construidas para ese propósito. k= N/n. es muy útil la extracción de números aleatorios mediante equipo de cómputo. no lo sea. Con reposición de los elementos: las observaciones se realizan con reemplazo de los individuos. que se denomina coeficiente de elevación. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). em+3k…. donde N es el tamaño del universo y n el tamaño de la muestra. es conveniente tener en cuenta la periodicidad del fenómeno. de ahí en adelante tomar uno de cada k intervalos regulares. Ocasionalmente. aumenta la probabilidad de extracción de los subsiguientes. em+k. tomar como muestra los elementos de la lista: {em.

puede haber cierta homogeneidad. Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto a la característica a estudiar. c) Muestra estratificada. es decir. Por otro lado. 2. Para ello es necesario un conocimiento previo de la población. existen dos técnicas de muestreo estratificado: 1. dentro de cada uno de estos grupos. el muestreo sistemático suele ser más preciso que el aleatorio simple. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos. Dentro de cada estrato el muestreo se realizaría mediante el método de muestra aleatoria simple. la representan 66 .Esto es lo que se denomina muestreo sistemático. en grupos que se suponen que contienen toda la variabilidad de la población. Por ejemplo. puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que. es a menudo menos probable de cometer errores con un muestreo sistemático que con el aleatorio simple. para un estudio de opinión. Asignación proporcional: El tamaño de cada estrato en la muestra es proporcional a su tamaño en la población. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos. ya que recorre la población de un modo más uniforme. se tomaría una muestra que contenga también esa misma proporción. de manera natural. si la población está compuesta de un 55% de mujeres y un 45% de hombres. Así. d) Muestra de agrupación o conglomerado Cuando la población se encuentra dividida.

Muestreo no probabilístico El muestreo no probabilístico se realiza cuando la extracción de la muestra y su tamaño para ser representativa se valoran de forma subjetiva.fielmente respecto a la característica a elegir. por ejemplo. los miembros del grupo. pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio. El primero funciona mejor cuanto más homogénea es la población respecto del estrato. Figura 2. aunque deben ser muy parecidos entre sí. Para muchos estudios sólo se dispone de una muestra no probabilística como una muestra de juicio. seleccionados al azar. ocurre lo contrario. Las ideas de estratificación y conglomerados son opuestas. aunque más diferentes son éstos entre sí. Dentro de los grupos seleccionados se ubicarán las unidades elementales. Este método tiene la ventaja de simplificar la recogida de información muestral cuando. dentro de cada conglomerado. el muestreo se llama bietápico. las personas a encuestar. En el segundo. Los conglomerados deben presentar toda la variabilidad. Se basa en una buena estrategia y el buen juicio del investigador. o sólo a algunos de ellos.8 Tipos de muestra Tipo de muestra Probabilística No Probabilística Aleatoria simple Sistemática Estratificada Agrupación De juicio De cuota De parte grande 67 . de cuota o de parte grande. es decir. se extraen los individuos por el método aleatorio simple. y podría aplicársele el instrumento de medición a todas las unidades.

reduce los esfuerzos y recursos requeridos para su realización. ubicación geográfica. la primera es a través de conocer el error estándar de la población o por lo menos un error estimado. El error estándar mide la dispersión en torno a la media de una distribución hipotética. entre otras). Además de que la muestra debe cumplir el requisito de representatividad. 1975: 281). entre otras. se requiere especificar una serie de características que determinan la pertenencia de sus miembros y al universo a que pertenecen. y lo es. también se requiere que sea adecuada. Para determinar la magnitud de la muestra existen dos formas. más fácil será su estudio. según el interés del estudio: número de cuartos. de interés social. Los valores que forman esta distribución hipotética son las medidas de todas las posibles muestras de un universo. nivel de ingreso de los habitantes. Para que la muestra sea representativa. Mientras más específicas sean sus características. La especificación del universo o marco de estudio. se requiere ser más específico del tipo de vivienda (residencial. la media de esta distribución es la media de las medias de todas las posibles muestras y se puede considerar como la media verdadera del universo (Goode y Hatt. autoconstrucción. usos. las variables a obtener podrían ser. cuando tiene la magnitud suficiente para que las características objeto del estudio (variables) sean confiables para inferir las características del universo.Tamaño de la muestra Para que la encuesta pueda ser aplicada con alto grado de confiabilidad. del universo debe de cumplir dos requisitos fundamentales: que sea representativa y que sea adecuada. mediada de los mismos. Victoria. Así pues. Si se quisiera hacer un estudio de la vivienda en Cd. La fórmula para calcular el tamaño de la muestra se deriva de la fórmula de estandarización: 68 . la muestra. para un estudio de mercado de muebles del hogar. necesidades de muebles.

69 .. Lo que significa que si se conoce la desviación estándar de la población y el error estándar se puede conocer el tamaño de la muestra. la aplicación práctica se realizará en temas posteriores. despejando nos resulta que n = Z2(σ /Es)2 Donde Es representa al error estándar. esto es cuando np y n(1-p) adquieren un valor de cuanto menos 5. la de correo tradicional y últimamente a través de Internet (correo electrónico o de página Web). la entrevista telefónica.X-µ Z = σx x n La diferencia entre la media de la muestra y la media de la población se conoce como error de muestreo y se denota como Es. La otra forma de estimar el tamaño de la muestra es cuando la distribución binomial puede ser aproximada a la distribución normal. despejando n se tiene que: n = Z e2 Z= Por ahora es suficiente saber que existe la manera de calcular el tamaño de la muestra.p p(1-p) n La diferencia entre la porción de la muestra y la porción de la población ps . Por lo que la ecuación queda como: 2 p(1-p) p(1-p) Z n = e. Z es el valor crítico determinado. Cada modo tiene ventajas y desventajas de aplicación.α)/2 del centro de una distribución normal estandarizada. Por lo que la ecuación queda como: Es = Z σ/n½.p se conoce como error de muestreo y se denota como e. σ la desviación estándar y n el tamaño de la muestra. que corresponde a (1. ps . Método de aplicación del cuestionario Existen básicamente cuatro modos mediante el cual se realiza el trabajo de la aplicación del cuestionario de una encuesta: la entrevista personal.

cálculos. 2002 Tratamiento de datos Una vez que se aplican los cuestionarios. el tipo de trabajo que se reporta y el tema estudiado. uno en cada columna de la tabla. que permiten a otras personas conocer y entender sobre lo que se investigó y a las conclusiones a que se han llegado. se procede a digitalizarlos. gráficas. Sin embargo. Todo informe tiene un carácter muy particular. en el cual quedan plasmados una serie de procedimientos de obtención de datos. análisis y conclusiones. considerando cada cuestionario como un registro. existe un mínimo de apartados que debe contener: Carátula o portada de identificación Índice de contenido 70 . Estará definido según sus autores. Elaboración de informe de resultados El informe es un documento. La estructura implícita de un registro y el significado de los valores de sus campos exige que dicho registro sea entendido como una sucesión de datos. resultados.1 Características de los métodos de aplicación del cuestionario Fuente: Shiffman & Kanuk: Consumer Behavior. Un registro es un conjunto de campos que contienen los datos que pertenecen a una misma repetición de entidad.Tabla2.

el elemento escogido como parte de la muestra será aquel que coincida con los datos encontrados en la tabla. se escoge al azar una casilla y se comienza a agregar un número de dígitos igual a los que se utilizaron para definir los elementos de la población.2 500 números generados aleatoriamente 07100 90373 24960 26488 33661 13259 23749 25534 24894 15189 07100 90373 24960 26488 33661 13259 23749 25534 24894 15189 83910 56611 78253 72888 97998 10168 10017 21426 71997 07445 83910 56611 78253 72888 97998 10168 10017 21426 71997 07445 21710 61976 99909 65107 35231 64810 29109 48093 21129 12329 21710 61976 99909 65107 35231 64810 29109 48093 21129 12329 24202 52068 18888 40414 52187 35963 53734 31101 57979 85458 24202 52068 18888 40414 52187 35963 53734 31101 57979 85458 91421 85578 76917 29831 40572 63702 39652 57484 11609 14730 91421 85578 76917 29831 40572 63702 39652 57484 11609 14730 64858 79534 71939 43688 06496 76212 99004 58751 24902 27438 64858 79534 71939 43688 06496 76212 99004 58751 24902 27438 25927 27277 84748 76738 98954 31559 47986 06848 21507 60155 25927 27277 84748 76738 98954 31559 47986 06848 21507 60155 26152 15619 46603 96551 83952 72504 97556 74224 44859 08726 26152 15619 46603 96551 83952 72504 97556 74224 44859 08726 46286 55571 39459 48329 59223 61955 58590 22680 32722 33059 46286 55571 39459 48329 59223 61955 58590 22680 32722 33059 25868 27581 83049 25989 87956 80005 30420 78024 35990 10565 25868 27581 83049 25989 87956 80005 30420 78024 35990 10565 71 . Tabla 2. La tabla de dígitos se utiliza en lugar de utilizar un ánfora con códigos de identificación de cada uno de los miembros de la población. Para usarla es necesario primero asignar un número de código a cada elemento de la población.8 Uso de una tabla de números aleatorios Una tabla de números aleatorios consiste en generar una serie de dígitos aleatorios y ordenarlo en el orden que se generaron en filas y columnas.Introducción o resumen Objetivos que se persiguen Marco Teórico en que se fundamenta la investigación Tratamiento estadístico de datos obtenidos (medidas resumen) Resultados obtenidos (comparación con la teoría) Conclusiones y recomendaciones 2. Para encontrar el primer dígito de la tabla.

así como durante el cómputo de los mismos. 016. ésta está expuesta a errores de aplicación. si la población es de 1. Error de no-respuesta o sesgo de no-respuesta resulta del fracaso de recolectar datos sobre el total de los sujetos de la muestra. los números de identificación de los 1. de no respuesta.000 elementos estarían entre el 000 y el 999. 810. y los subsiguientes serán: 981. 707. ………. 72 . el primer número formado por cuatro dígitos será 979. de muestreo y de medición. Si se llegara a repetir un número. Error de Medición se refiere a inexactitudes en las respuestas registradas que ocurren debido a una mala formulación de las preguntas. 2.9 Errores comunes en la aplicación de una encuesta Al momento de recopilar los datos que serán procesados es susceptible de cometer errores. Al terminarse la tabla. Aún y cuando la definición de la muestra utilice el muestreo probabilístico. Error de Muestreo refleja la variedad o las diferencias de oportunidad de muestra a muestra basándose en la probabilidad de los sujetos que están siendo seleccionados en las muestras particulares. Existen cuatro tipos de errores más comunes: de cobertura o sesgo.. aunque esto incrementará el costo de aplicación. 199. al influjo del encuestador sobre el encuestado o a las exageraciones o minimizaciones que hace el encuestado. cada uno de ellos se identifica con un número de tres dígitos. 214.Por ejemplo. Suponiendo que se escogió al azar la casilla de la columna 5 de la segunda fila. 445. El error de muestreo puede reducirse tomando tamaños de muestra mayores. Para evitar este tipo de error es necesario contar con un marco apropiado de la población o una lista actualizada de todos los sujetos de donde se extraerá la muestra.000 elementos. este se descarta y se continúa formando los necesarios. se continúa con el inicio de ésta. Error de cobertura consiste en la exclusión de ciertos grupos de la población.. 017. 267.

73 . Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico. Algunos de estos errores son: Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema. tendrá básicamente las mismas propiedades que la población de la cual fue extraída. y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. Existen otros errores que no tienen nada que ver con la digitalización y que no son tan fácilmente identificables.Si la muestra se selecciona correctamente. entonces puede suceder que los resultados no signifiquen nada. pero si el muestreo se realiza incorrectamente. pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables. Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada. Existen dos maneras de resolver los problemas derivados de los errores de aplicación: (1) analizando cuidadosamente los datos y tratar de recolectar los datos más confiables de aquellos individuos cuyas respuestas son inusuales y (2) realizar una nueva muestra aleatoria que sustituya las que se descartaron. Recuerde el acrónimo GIGO.

a su vez. error de muestreo y error de medición. existen dos tipos de estudios estadísticos: estudios enumerativos y estudios analíticos. los primeros sobre las características de una población y los segundos sobre las características de un proceso. Para la realización de la encuesta se requiere definir o conocer el ámbito de estudio.2. En forma general. las variables categóricas se pueden medir en una escala nominal u ordinal. En la realización de estudios socio-demográficos. Existen cuatro fuentes para obtener los datos: uso de datos publicados. Para definir la muestra se utiliza el método no probabilístico y probabilístico. por observación y realización de encuesta. Lo primero que se definió fue que existen dos tipos de variable: categórica y numérica. la definición de la muestra tiene riesgo de errores.10 Resumen. diseño de experimento. la forma más directa y rápida de obtener los datos es a través de la realización de una encuesta. con el fin de conocer estados de opinión o hechos específicos. El capítulo trató también sobre la recolección y presentación de datos para un estudio estadístico. Una vez que se define el tipo de variables (datos) que se requieren para realizar el estudio estadístico. Ambos sirven para la toma de decisiones. los más comunes son: error de cobertura o sesgo de selección. error de no respuesta o sesgo de no respuesta. 74 . entendiendo a esta como un conjunto de preguntas normalizadas dirigidas a una muestra representativa de población o instituciones. sea cualquiera de los dos métodos. el universo de estudio y definición de la muestra. es necesario identificar la fuente que los proporcione. mientras que las variables numéricas se miden en una escala cardinal (de intervalo o de relación). La medición cardinal o escalar son de tipo discreto o continuo.

Para cada inciso siguiente. indique si el estudio es enumerativo o analítico. argumente la elección.11 Términos clave Datos Datos continuos Datos discretos Definición operacional Encuesta Error de cobertura Error de medición Error de muestreo Error de no respuesta Est. a) La universidad requiere conocer el número de estudiantes inscritos en clases con horario anterior a las 9:00 hs.12 Problemas de repaso del capítulo. 1. de Experimentación Estudio analítico Estudio de Observación Estudio enumerativo Fuente primaria Fuente secundaria GIGO 2. b) Una empresa desea reducir el número de errores en el cálculo de pago de horas extras. c) La Universidad desea determinar si la asistencia total de alumnos inscritos en clases que comienzan antes de las 9:00 horas aumenta o disminuye con relación al tipo de materia impartida a esas horas. Medición cardinal Medición de intervalo Medición de relación Medición nominal Medición ordinal Muestra adecuada Muestra de agrupación Muestra estratificada Muestra sistemática Muestreo con reemplazo Muestreo no probabilístico Muestreo probabilístico Muestreo sin reemplazo Números aleatorios Variable categórica Variable numérica 75 .2.

¿Cuáles son los niveles de medición? 6. e) Una empresa desea realizar un estudio sobre cómo reducir el número de errores en la facturación. f) Una empresa desea saber el nivel de ingresos de sus clientes g) Una empresa desea saber si el sistema de producción ha reducido el número de piezas defectuosa con las mejoras de proceso instrumentadas. ¿Cuál es la diferencia entre un dato discreto y dato continuo? 5. ¿Cuál es la diferencia entre una un estudio estadístico enumerativo y un estudio estadístico analítico? 3. ¿Cuál es la diferencia entre un muestreo simple con reemplazo y un muestreo simple sin reemplazo? 10. ¿Qué tipo de errores más comunes se presentan en la definición de la muestra? 76 . ¿Cuál es la diferencia entre una muestra probabilística y una no probabilística? 8. 2.d) La UADYCFHG desea determinar las razones de los estudiantes por las cuales ha aumentado la cantidad de inscritos en la carrera de Negocios Internacionales. j) La UAT desea conocer las intenciones de ingreso a la Universidad de los estudiantes de preparatoria. ¿Qué significa una definición operacional? 7. ¿Cuál es la diferencia entre una variable aleatoria numérica y una categórica? 4. ¿Cuántos tipos de muestreo probabilístico existen? 9. i) Una empresa desea saber las características de preferencia de marca en pasta dental. h) Una empresa desea conocer el nivel de precios de mercado de los productos que comercializa.

paternal. desempleado. a. b. h) Ingresos mensuales de los catedráticos. g) Disponibilidad de efectivo para actividades de recreación. e. d. f) Especialidad académica de los catedráticos. autoempleo) Dependencia económica familiar (autónomo. a) Número de credencial de estudiante b) Tipo de automóvil de la VW. 13. Determine en cada uno de los incisos si la variable es categórica o numérica. señale el tipo de variable y el nivel y la escala de medición que le corresponde. e) Nivel de categoría de la planta docente. Matrícula Edad Género Estado civil Lugar de origen antes de ingresar a la Universidad Situación laboral (empleado. g. j. i. del recibo de consumo de energía eléctrica. ¿Qué se requiere realizar para editar los datos en una hoja de cálculo electrónica o en un paquete estadístico? 12. f. Suponga que requiere editar la siguiente información estadística de los estudiantes de la UADYCFHG después de la segunda semana de clases. Si es numérica determine si es discreta o continua. h. d) Lugar en que llegaron los corredores en la carrera universitaria. c. en pesos y centavos. otro) Número de miembros de la familia Ingresos familiares Período de estudio (semestre que impera) 77 . c) Cargo mensual.11.

Turno académico m. Número de materias que cursa en el período actual n. aprovechamiento escolar. como ausentismo. Número de horas de uso diario de Internet t. Número de libros de textos con que cuenta (uno por materia) q. deportivismo. Cantidad de dinero gastada en adquirir libros p.k. métodos de enseñanza. etc. alcoholismo. 78 . Gasto mensual en uso de Internet (conexión o uso de chat) 14. Número de horas de uso diario de computadora s. Dispone de computadora personal r. Elabore un cuestionario de aplicación en la UADYCS sobre un tema que sea de su interés. Carrera que estudia l. ¿Consideras importante contar con libros de texto? o. tabaquismo.

Enumerativos Analíticos Método estadístico Fuente de datos Secundaria •Gobierno •Industria •Instancias especializadas Elección del tema Diseño de cuestionario Ámbito de aplicación Definición del universo • nominal Categóricos •ordinal Numéricos •Cardinal (de intervalo –de relación): discretos -continuos Primaria •Experimentación •Observación •Encuesta Definición de tipo de muestreo Preparación de datos Método de aplicaación 79 .13 Mapa conceptual de los estudios estadísticos.2.

80 .

Capítulo 3 Organización y presentación gráfica de datos numéricos ********************** Objetivo del Capítulo Mostrar como organizar y presentar en tablas y diagramas los datos numéricos 81 .

82 .

confiables y suficientes. La digitalización de datos 2. Las observaciones independientes pueden registrarse en una forma ordenada o diagrama de tallo de hojas y luego presentarse en forma tabular. 83 . En particular se mostrará cómo grandes series de datos numéricos pueden presentarse de una manera que facilite su análisis. a través del muestreo. Este apartado se trata sobre la presentación de datos. el alumno podrá comprender: 1. se reitera la conveniencia de utilizar la muestra de datos para la realización de estudios estadísticos. como la distribución de frecuencias o en forma gráfica como histograma. cuando estos son en una cantidad mayor de 10.3. sean enumerativos o analíticos (de proceso). la mejor manera de interpretar sus valores es por medio de un resumen y una representación gráfica. Puesto que el muestreo ahorra tiempo.1 Introducción En los apartados anteriores se ha visto la importancia de aplicación del método estadístico y la importancia de contar con datos de origen. 3. ordenada e interpretativa. Sin importar si los datos corresponden a una muestra o a una población. dinero y esfuerzo. Presentar los datos en forma resumida. La ventaja de construir el diagrama de Tallo y hojas. Al término del capítulo. polígono de frecuencias o diagrama de Pareto.

un registro representa un ítem único de datos implícitamente estructurados en una tabla (características de los objetos o sujetos en estudio). aunque lo normal y práctico es asignarle a cada registro un campo clave nominal para su búsqueda. cada una de las cuales consta de dos ítems: el nombre de la columna relevante (dato) y el valor que esta fila provee para dicha columna. En estadística. uno en cada columna de la tabla. y todas las filas de la misma tabla tienen la misma estructura. Generalmente la captura de datos de una encuesta corresponde a un conjunto de registro que contienen. es decir se capturan tal y como le llegan al capturista. Construir los diferentes tablas y diagramas de datos: histograma. En términos simples.2 Tabla de datos originales sin orden y ordenados Cuando se recolecta una serie de datos.4. los datos que pertenecen a una misma entidad. La utilidad de agrupar los datos en clases. La fila se interpreta entonces como una variable relacional compuesta por un conjunto de secuencias ordenadas. 3. 5. polígono de frecuencias o diagrama de Pareto. Supongamos que una empresa está interesada en estudiar las características del parque vehicular que circuló en los Estados Unidos en el año de 1970. Para ello recopiló las características de los 30 automóviles más vendidos en ese año. Cada fila de una tabla representa un conjunto de datos relacionados. cada uno de ellos. el analista arreglará los datos de acuerdo a sus necesidades. y concretamente en el contexto de una base de datos. Se le asigna automáticamente un número consecutivo (número de registro) que en ocasiones es usado como índice. habitualmente se hace sin ningún orden. Posterior a la captura. Las variables a estudiar son: rendimiento de millas por galón (mpg). centímetros cúbi- 84 . La estructura implícita de un registro y el significado de los valores de sus campos exige que dicho registro sea entendido como una sucesión de datos. una tabla de una base de datos puede imaginarse formada de filas y columnas o campos.

Los datos obtenidos sin ordenar se presentan en la tabla 3.1 Hoja de captura de registros sin ordenar En este ejemplo lo que se trata de mostrar es que en un solo registro existen diversas variables relacionadas y que es difícil realizar cualquier análisis en el orden con 85 . año de fabricación (year).cos del motor (engine). caballos de fuerza (horse). origen de fabricación (origin) y número de cilindros del motor (cylinder). peso en libras (weight). tiempo de aceleración de 0 a 60 millas/hora (accel).1 Tabla 3.

que se capturaron los datos. Un primer análisis estadístico se podría realizar al ordenar los datos en forma ascendente o descendente, es decir de menor a mayor o de mayor a menor. En la tabla 3.2 se puede observar el cambio de posición de los registros tomando en consideración el orden de los valores ascendentes de la variable mpg. Tabla 3.2 Hoja de registros ordenada por una variable de interés

En este primer intento de análisis estadístico podemos observar los valores mínimos y máximos de la variable mpg. También se puede observar la relación directa 86

o inversa que existe entre las variables. Por ejemplo, se puede observar que a mayor rendimiento, menor tamaño del motor, menor fuerza en caballos y menor peso en libras. Es importante señalar que cuando el número de registros es más grande y sobrepasa más de una hoja de cálculo, este procedimiento es poco útil. Mientras mayor sea el número de observaciones registradas más difícil es sacar provecho a la clasificación ordenada. En tales situaciones es útil agrupar los datos en un diagrama de tallo y hojas, con el fin de estudiar las características de los datos. 3.3 Diagrama de tallo y hojas Un diagrama de tallo y hojas separa el valor de los datos en un dígito guía y un dígito gregario, los dos asociados representan el valor del dato. El diagrama de tallo y hojas se puede construir desde la tabla de datos sin ordenar o desde la tabla de datos ordenada. Dependiendo del grado de exactitud que requiere el estudio estadístico, las cifras de los valores, siguiendo la metodología tradicional, es conveniente trabajar con dos o tres dígitos. Por ejemplo 2,356 libras se puede representar por 2.4 miles de libras; 50.726 toneladas por 51 toneladas. Usando los datos sin ordenar de la tabla 3.1 se construye fácilmente el diagrama de tallo y hojas. Observe que el primer registro tiene el dato de 18, el segundo de 15, el tercero de 18…… Registrando todos los valores de la variable mpg sería:
Tallo & hojas 1 85867544454687545548 2 1421765453 El valor del tallo es:10 Cada hoja: 1 caso(s) Número de casos: 30

Figura 3.1 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles sin ordenar (mpg). Fuente: tabla 3.1

87

Colocando los dígitos en forma ascendente de acuerdo a la tabla 3.2, el diagrama arreglado quedaría de la siguiente forma:
Tallo & hojas 1 44444455555566778888 2 1124455667 El valor del tallo es:10 Cada hoja: 1 caso(s) Número de casos: 30

Figura 3.2 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada Fuente: tabla 3.2

Tal vez el valor de los datos está muy concentrado y sea conveniente incrementar el número de tallos. Aquí lo que procede es dividir cada valor de tallo en valores bajos (0 a 4) y valores altos (5 a 9)

Figura 3.3 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada y ampliando en número de tallos. Fuente: tabla 3.2

3.4 Tabulación de datos numéricos: distribución de frecuencia Utilizando los datos originales es posible construir tablas y diagramas que faciliten el análisis estadístico, así, una tabla de mucha utilidad es la tabla de distribución de frecuencias, en ella se disponen los datos en forma agrupada por categorías, ordenadas en forma ascendente o descendente. Para construir una tabla de frecuencias debe ponerse atención a 3 conceptos fundamentales:

88

1. Seleccionar el número de agrupamientos, o clases. 2. Obtener un intervalo de clase de cada agrupamiento y 3. Establecer los límites de cada intervalo de clase En forma general, dependiendo el número de observaciones, el número de clases de intervalo no debe de ser menor de 5 y mayor de 15, ambos extremos dificultan la interpretación. Cada clase o intervalo tendrá una amplitud igual. Una manera para determinar la amplitud de cada agrupamiento o intervalo de clase, es aplicando la relación del rango y el número de intervalos deseado. Considerando los datos de la tabla 3.2, se observa que el rango de la variable mpg es 27-14 = 13. Si se quisiera 6 tipos de clase, los valores de cada clase serían de 13/6= 2.16. Para conveniencia y facilidad de lectura, el intervalo de clase seleccionado se redondea a 2 mpg. Los límites de los diversos agrupamientos deben de establecerse de manera que incluyan todas las observaciones. Así, el primer intervalo de clase se establece desde mayor de 12 hasta menor o igual que 14, el segundo desde mayor de 14 hasta menor o igual que 16 etc. Estableciendo los límites de cada clase, de esta manera las 30 observaciones se han registrado en 8 clases, como se puede observar en la tabla 3.3 de distribución de frecuencia y porcentaje de la muestra. Tabla 3.3 Distribución de frecuencias y porcentaje de la muestra
Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 porcentaje 20.00 26.66 20.00 0.00 10.00 6.66 13.33 3.33

89

La principal ventaja de utilizar la tabla de distribución de frecuencias es que visualmente se pueden detectar algunas características de la muestra, tales como el alcance aproximado de las observaciones, que va desde 12 hasta 28 mpg, tendiendo a agruparse en los valores de 12 a 18 mpg. El hecho de agrupar los valores observados en clase, implica transformar una variable de cardinal (de cociente o de intervalo) en una variable categórica ordinal de orden débil que no se identifica los valores individuales dentro de un intervalo. Para atenuar un poco esta desventaja, se acostumbra a utilizar el punto medio. El punto medio de una clase (o marca de clase) es punto de la mitad de los límites de cada clase y es representativo del valor de la clase. La tabla de distribución de frecuencias sirve para dibujar tres importantes diagramas: el histograma o diagrama de distribución de frecuencias, el polígono de frecuencias y el diagrama de Pareto. 3.5 Histograma o diagrama de distribución de frecuencias El histograma es una gráfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión. El histograma permite que de un vistazo se pueda tener una idea objetiva sobre la calidad de un producto, el desempeño de un proceso o el impacto de una acción de mejora. La correcta utilización del histograma permite tomar decisiones no solo con base en la concentración de valores, sino también con base en la dispersión y formas especiales de comportamiento de los datos. El histograma se construye a partir de la tabla de distribución de frecuencias. Para evitar posibles anormalidades en la construcción del histograma se procede seguir las siguientes instrucciones: a. Determinar el rango de datos. La diferencia entre el dato máximo y el dato mínimo.

90

Se puede utilizar los definidos en la tabla de frecuencias. Dado que la unión de los puntos medios es a través de rectas.4 Histograma o gráfica de distribución de frecuencias 8 26. c. el polígono se muestra a veces en forma dentada. 91 . Sin embargo mientras mayor sea el número de observaciones y los intervalos de clase reducidos. d.66% 2 3. Graficar el histograma: se grafican en barras.33% 0% 0 12 14 16 18 20 22 24 26 28 Millas por galón Fuente: Tabla 3. Obtener la frecuencia de cada clase. se observa en la figura 3. en las que su base es el intervalo de clase y la altura sean las frecuencias de las clases. Obtener el número de clases o barras y la longitud de clase. este efecto tiende a suavizarse. Construir los intervalos de clase con relación al paso anterior.3 Polígono de frecuencias Otro gráfico utilizado para el análisis de datos es el polígono de frecuencias.66% 20% 6 20% Frecuencia 13. e. La grafica de frecuencias del ejemplo del rendimiento de los automóviles (mpg).33% 4 10% 6.4 Figura 3.b. Se cuentan los datos que caen en cada intervalo de clase. el cual se forma con la unión lineal de los puntos medios de cada clase.

66%.66% 6 20% 20% Frecuencia 4 13.66 20 20.3 de distribución de frecuencias y porcentajes y se realiza el agregado de cada clase hasta la última.00 14 26. que terminará con el número total de observaciones y el 100% acumulado.33% 0 12 14 16 18 20 22 24 26 28 Millas por galón Fuente: Tabla 3. En el caso del ejemplo. Tabla 3.5 Polígono de frecuencias 8 26.00 66.67 30 3.33 96.4 Distribución de frecuencias y porcentaje acumulado Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 Frecuencia Porcentaje acumulada porcentaje acumulado 6 20. que en conjunto representan el 66.66% 3.66 83.00 66.66 20 0.33% 10% 2 6.00 20. porque nos señalan cómo se concentran los valores de las observaciones.66 46.66 23 10.33 100.3 Tabla y polígono de porcentaje acumulado Estas herramientas de análisis de datos son de considerable importancia.00 76.Figura 3. Para construir la tabla de frecuencia y porcentaje acumulado se parte de la tabla 3. se puede observar que las primeras tres clases concentran 20 observaciones.00 92 .66 25 6.33 29 13.

67% 83. muchos triviales) es decir.4 3. se construye ordenando en una tabla de frecuencias desde la clase que mayor número de observaciones tenga hasta la de menor. figura 3. El diagrama permite llevar a cabo el principio de Pareto (pocos vitales.8 Diagrama de Pareto El diagrama de Pareto u 80-20. donde en el eje horizontal se registran los puntos medios del intervalo de clase y en el eje vertical se registran las frecuencias o porcentajes acumulados partiendo de cero.4. que hay muchos problemas sin importancia frente a unos pocos graves. se construye a partir de los cálculos de la tabla 3.6.66% 80% 60% Frecuencia 40% 46. 93 .66% 66.66% 20% 20% 0 12 14 16 18 20 22 24 26 28 Millas por galón Fuente: tabla 3. Figura 3.33% 76.6 Polígono de frecuencias y porcentajes acumulados 100% 100% 96. Hay que tener en cuenta que tanto la distribución de los efectos como sus posibles causas no son de carácter lineal sino que el 20% de las causas totales hace que sean originadas el 80% de lo efectos.El polígono de porcentajes acumulados.

00 porcentaje acumulado 26.66 66.99 89.00 6.66% 20% 26.66 3.66 46.65 99.00 13.99 Siguiendo con el mismo ejemplo.33 0. y derivado de la tabla 3.99 99. Clase 14<x<=16 12<x<=14 16<x<=18 24<x<=26 20<x<=22 22<x<=24 26<x<=28 18<x<=20 Frecuencia 8 6 6 4 3 2 1 0 porcentaje 26.5 se puede elaborar el muy útil diagrama de Pareto.33 10.66 20.99% 79.66 79.5 Distribución de frecuencias y porcentaje acumulado de mayor a menor frecuencia.7 diagrama de Pareto 100% 100% 100% 96.99% 80% 66.00 20.Tabla 3.66% 60% Frecuencia 40% 46.99 96. Figura 3.65% 89.66% 0 14-16 12-14 16-18 24-26 20-22 22-24 26-28 18-20 Millas por galón 94 .

límite de clase Intervalo de clase Tabla de distribución de frecuencias Diagramas de distribución de frecuencias: histograma.9 Resumen El capítulo trató sobre el resumen de datos y representación gráfica de los mismos. Los datos acerca de la muestra son recogidos por observación o por experimento. en número de clases y el tamaño de intervalo. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo.10 Términos clave Datos sin ordenar Clasificación ordenada Diagrama de tallo y hojas Rango Clase. Al aplicar estadística a un problema científico. llamado muestra. 3. Diagrama de Pareto. Una vez decidido. de granos cristalizados en una roca o de bienes manufacturados por una fábrica en particular durante un periodo dado. se comienza con un proceso o una población a ser estudiada. se procede a realizar las tablas y diagramas de frecuencias simples o acumuladas. Los datos obtenidos ahora son agrupados por categorías. se agrupan por clases de intervalo iguales.3. dentro de un rango creado por la diferencia longitudinal de los valores mínimo y máximo de la muestra. se definen límites inferiores y superiores en cada intervalo de clase. 95 . como se pudo observar en el capítulo anterior. Los datos numéricos. en base al rango de la muestra. Por razones prácticas. Polígono de frecuencias. Esta puede ser una población de personas en un país. en lugar de compilar datos de una población entera. usualmente se estudia un subconjunto seleccionado de la población. industrial o social. Con el fin de que no se traslapen los intervalos de clase.

500 68.750 34.250 30.050 78.000 25.050 31. 5.100 24.150 73.000 55.000 26.900 35.550 35.200 19.100 40.100 16.550 31.550 41.900 42.375 29.000 46. Explique la diferencia entre la tabla datos sin ordenar y ordenados 2.000 57.900 78.750 25.000 27.750 22.125 46.950 92.400 33.200 82. Explique la diferencia entre histograma de frecuencia.150 81. 96 .200 35.350 36.600 22.000 45.125 21.300 135.800 60.500 48.500 30.200 30.150 72.000 21.350 21.200 28.850 36.050 30. Los datos de la siguiente tabla son los sueldos de una muestra aleatoria de 100 empleados con licenciatura en Negocios Internacionales egresados entre el año 2000 y 2005.750 40.400 28.250 29. b) Forme una tabla de distribución de frecuencias (simple y acumulada) y de porcentaje (simple y acumulada) c) Elabore el histograma.150 40.11 Problemas de repaso del capítulo 1.050 27.000 42. el polígono de frecuencias y el diagrama de Pareto.250 32.950 34.000 24. polígono de frecuencia y polígono de frecuencia acumulado.300 21.950 31.000 22.950 24.250 56.750 22.350 27.500 54.000 60.150 29.750 24.000 30. 4.250 a) Reduzca los datos a 2 dígitos y elabore un diagrama de tallo y hojas sin ordenar y ordenado.800 31.900 103.600 28.100 23. ¿Cuál es ventaja principal de uso del diagrama de Pareto.550 45.050 25. ¿Cuándo es más útil utilizar el diagrama de tallo y hojas que una tabla de datos ordenada? 3.950 25.3.850 33.900 20.650 24.450 27.100 23.000 30.900 26.750 110.625 21.750 32.000 45.000 26.300 24.000 36.250 31.300 38. 24.000 22.000 53.100 21.250 27.900 24.000 26.800 51.750 16.350 30.

3. Digitalización de datos (captura) Orden ascendente Diagrama Tallo y hojas o descendente Histograma Tabulación de datos Polígono de frecuencias Diagrama de Pareto 97 .12 Mapa conceptual de organización y presentación de datos numéricos.

98 .

variación.Capítulo 4 Características de distribución de datos numéricos ********************** Objetivo del Capítulo Comprender las características de los datos numéricos representativas de la población o de la muestra: tendencia central. forma) y sus mediciones descriptivas de resumen 99 .

descripción de las características de la distribución y la interpretación de datos. medidas de dispersión y medidas de deformación. Los instrumentos auxiliares para realizar esta tarea son básicamente las tablas de la base de datos. Comprender el significado de la concentración de los datos numéricos a través de las medidas de posición. medidas de dispersión y medidas de deformación. la gráfica de caja y sesgo. Apreciar el valor de las técnicas de análisis de datos: los cinco puntos. 100 .4. el diagrama tallo y hojas. 2. el alumno deberá ser capaz de: 1. De aquí en adelante los temas a desarrollar estarán enfocados a la elaboración de un resumen.1 Introducción Como se ha visto en los temas anteriores. la fase previa a cualquier estudio estadístico es la recolección. Es necesario recordar que las características numéricas de la muestra se les denomina “estadísticos” y las características de la población “parámetros” Al término del capítulo. La concentración de datos numéricos de una variable de una población o muestra aleatoria da lugar a tres principales clases de medidas del fenómeno en estudio: medidas de posición. las tablas y diagramas de distribución de frecuencias relativas y acumuladas. organización y presentación de los datos.

2 Medidas de Posición de tendencia central Las medidas de posición son unos estadísticos que nos sintetizan la información sobre los datos que analizamos. pero si hubiera 101 .Xn. Por lo tanto. la mediana. dependerá del grado de concentración de los datos la que tenga mayor peso. Se calcula sumando todos los valores de las observaciones divididas entre el número de observaciones. el rango medio y el eje medio. una muestra que contiene n observaciones X1. X2. X3. la moda. la media aritmética es un valor representativo de la muestra. la x se puede calcular sumando todos los valores de X y dividiendo también se pueentre el total de observaciones: x = ( X1 + X2 + X3 + ……. El término “promedio” se utiliza comúnmente para describir el valor de la parte central de una distribución. facilitando su manejo. En lugar de trabajar con toda la tabla de frecuencias. Sin embargo. Si la distribución de valores en grandes y pequeños de la muestra fueran equivalentes. conocida también como media. las medidas de posición resumen los valores significativos del conjunto de datos. Xi = diferentes valores que toma la variable aleatoria de la muestra. La media aritmética La media aritmética.4. ……. de expresar mediante la fórmula: x = Xi media aritmética n i=1 n En donde: n = tamaño de la muestra o número de observaciones. existen cinco diferentes medidas de tendencia central que pueden tener diferente valor unas de otras.Xn )/n. Las cinco medidas de posición de tendencia central son: la media. es el promedio o medición de tendencia central más utilizada. x = media o valor promedio de la variable de interés de la muestra.

4. Cuando existen valores extremos significativos la media aritmética trasmite una representación distorsionada de los datos. a continuación se presentan dos pequeñas muestras con la misma media pero características completamente distintas. sin embargo la diferencia de características se observa en los siguientes gráficos. Tabla 4. la media no sería el mejor promedio para describir las características de la muestra. denominados Escala de puntos. dentro de la misma base de datos se tomaron aleatoriamente dos pequeñas muestras de 6 observaciones cada una. la suma del valor de las observaciones entre el número de observaciones. Suponga que. Para entender esta posible distorsión. así pues. sin embargo tienen diferentes características.2 Distribución de los valores de la muestra “A” 14 16 18 20 22 24 26 102 . la media en ambas es igual.muchos valores pequeños y pocos grandes. el valor de la media aritmética no sería muy representativo. x = 112/6 = 18.66 para ambas.1 Distribución de frecuencias de los valores de la variable mpg de dos muestras aleatorias de 6 elementos c/u Xi de A 16 17 18 18 21 22 112 Xi de B 14 15 17 18 22 26 112 ∑ Considerando la fórmula para calcular la media. Fig. es decir. viceversa.

Si el número de observaciones es par.Fig. Suponga que en la muestra “A” del ejemplo anterior. 4. 103 . los datos de la muestra “B” están muy dispersos y alejados de la media. se localiza el punto de posición medio y el valor de ese punto corresponde al valor de la mediana. El significado de dispersión se estudiará más adelante. la media es la medida descriptiva promedio apropiada. lo que significa que la mediana se localiza en la observación número 3 y tiene un valor de 18. por lo que ésta no es representativa de las características de la muestra. Muestra de tamaño impar. El valor de la mediana corresponde al valor promedio de estas dos observaciones.3 Distribución de los valores de la muestra “B” 14 16 18 20 22 24 26 De hecho los datos de la muestra “A” son bastante parecidos y se agrupan alrededor de la media de la muestra. en lugar de seis observaciones se realizaron cinco. con los siguientes valores: 16 1 17 2 18 3 21 4 22 5 Aplicando la fórmula (n + 1)/2 = 3. en seguida. Si el número de observaciones es impar. La mediana La mediana es el valor que corresponde a la observación que se encuentra en la mitad del + forma ascendente o descendente. en este caso. la localización del punto medio se determina utilizando la fórmula: (n + 1)/2. Por otro lado. el punto de posición se encuentra entre las dos observaciones medias de la clasificación ordenada.

sin embargo sólo se utiliza para propósitos descriptivos dado que es el valor más variable de una serie de muestras. 18 . (17 + 18)/2 = 17. Se obtiene fácilmente de una clasificación ordenada. es decir entre las observaciones 3 y 4. es decir la de menor y la de mayor valor. aplicando la fórmula (n + 1)/2. es el único valor que se repite. En el caso de la muestra “A” la moda es 18. que otras mediciones de tendencia central.Muestra de tamaño par. Rango medio = (Xmenor+Xmayor)/2 Para el caso de la muestra “A” 16 1 17 2 18 3 21 4 22 5 15 2 17 3 . El valor de la mediana es igual al promedio de las dos observaciones. la mediana se localiza en (6 + 1 )/2 = 3. El rango medio El rango medio es una medida de posición de tendencia central que se obtiene al promediar los valores extremos de las observaciones. La moda no se ve afectada por la ocurrencia de valores extremos.5 14 1 La moda La moda es el valor de las observaciones que aparecen con más frecuencia. Para el ejemplo de la muestra “B”. En el caso de la muestra “B” no hay moda ya que ningún valor se repite. 4 22 5 26 6 Rango medio “A” (16 + 22)/2 = 19 Para el caso de la muestra “B” 14 1 15 2 17 3 18 4 22 5 26 6 104 .5.

Las siguientes gráficas. el valor más próximo a la posición 1. El rango medio se ve afectado significativamente por la existencia de valores muy extremos dado que sólo se consideran éstos. Para identificar los valores de los cuartiles se utilizan las siguientes fórmulas: Cuartil 1 = Q1 = valor correspondiente a la posición 1/4(n + 1) de las observaciones ordenadas. se toma el valor más próximo a la posición calculada. si ésta se encuentra en el punto medio de dos observaciones. Para conocer el valor del eje medio. Para estimar el valor de las observaciones del 1er y 3er cuartil. En el caso de la muestra “B” el rango medio es igual a (14 + 26)/2 = 20. Q1 = valor correspondiente a la posición 1/4(6 + 1) de las observaciones ordenadas. dado que los valores de la muestra “A” son muy homogéneos y cercanos al valor de la media. igual a 1. Eje medio Una medida de tendencia central que no se ve afectada por los valores extremos es el eje medio. el rango medio de la muestra “A” es igual a (16 + 22)/2 = 19. el valor del rango medio está muy próximo al valor de la media.Rango medio “B” (14 + 26)/2= 20 En el ejercicio anterior. respectivamente. tomando los datos de la muestra “B” tratarán de facilitar el entendimiento del cálculo del valor del eje medio.75. éstos se localizan al término de contar el 25% y el 75% del número de observaciones. primero es necesario localizar las posiciones de los valores del 1er cuartil y 3er cuartil. se toma el valor promedio. El eje medio se obtiene de promediar esos dos valores. 105 .75 es 15. Cuartil 3 = Q2 = valor correspondiente a la posición 3/4(n + 1) de las observaciones ordenadas.

25. el valor más próximo a la posición 5. la desviación estándar y el coeficiente de variación. Los valores de la muestra “A” son mucho menos variables que los de la muestra “B”. los valores extremos (14) y (26) no afectan al cálculo del valor del eje medio.25 es 22. El rango (alcance) El rango es la medida de variación más fácil de calcular de un conjunto de datos ordenados. Otra de las características de la distribución de las observaciones es que tanto se acercan o se alejan del valor de la media. Rango = Xmayor – Xmenor Usando los datos de la muestra “B” 14 15 17 18 22 26 106 . como se observó en los ejemplos de las medidas de posición de las muestras “A” y “B”. 2 17 3 18 4 22 5 . El rango es recorrido que existe entre la observación de mayor valor y la de menor valor.Q3 = valor correspondiente a la posición 3/4(6 + 1) de las observaciones ordenadas. igual a 5.5 Como se puede observar. Existen cinco mediciones de variación: el rango. 26 6 Número de observaciones = 6 Eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18. 4. 14 1 15 . el rango intercuartil. pueden tener la misma tendencia central pero diferir en términos de variación. la varianza.3 Medidas de dispersión: varianza y desviación estándar.

El rango es 26 -14 = 12 mpg El rango mide la variación total de las observaciones. El rango intercuartil El rango intercuartil es una medida de variación entre los valores de las observaciones que se encuentran al final del 25% y 75% del número de las observaciones. el rango no consigue describir realmente el grado de variación entre el valor menor y el mayor. igual a 1. 26 6 107 . igual a 5.25. Aunque es una medición simple y fácil cálculo. no se ve influenciada por los valores extremos. 17 3 18 4 22 5 .75. el valor más próximo a la posición 1. Q3 = valor correspondiente a la posición 3(6 + 1)/4 de las observaciones ordenadas. Siguiendo con la misma muestra de datos “B”. La manera de calcularlo es igual a: Rango intercuartil = Q3-Q1 14 15 1 . 2 Número de observaciones = 6 Q1 = valor correspondiente a la posición (6 + 1)/4 de las observaciones ordenadas.25 es 22. El rango intercuartil es 22-15 = 7 Esta medición considera la dispersión entre los valores extremos que se encuentran en la parte media de la muestra. El rango intercuartil abarca el 50% de las observaciones más cercanas a la media. el valor más próximo a la posición 5. por lo tanto. se sabe que cualquier valor de la muestra tendrá un valor dentro de ese rango. Es decir la diferencia de valor entre el 3er cuartil y el 1er cuartil.75 es 15.

x )2]/n-1 Utilizando la notación matemática de sumatoria de las diferencias de las observaciones con respecto a la media. X1.+ (Xn .…………. 26 6 108 .x )2 + (X3 . La varianza de la muestra o varianza muestral es muy aproximada al promedio de las diferencias de las observaciones con respecto a la media al cuadrado. Para ver la diferencia. puede calcularse como: S2 = [(X1 .La varianza y la desviación estándar Las mediciones de rango y rango intercuartil. nuevamente se tomará el conjunto de datos de la muestra “B” que se ha venido utilizando. X2. la sumatoria de las diferencias lineales se hacen cero o un mínimo. se puede expresar de la siguiente forma: S2 = Donde x = a la media aritmética. X3. la varianza muestral. La varianza y la desviación estándar son medidas que sí consideran al total de los valores de las observaciones. aunque son muy fáciles de calcular y entender su significado no son suficientemente descriptivos ya que no consideran la mayor parte de las observaciones. sólo consideran dos valores en cada caso. 2 17 3 18 4 22 5 .x )2 + (X2 . 14 1 15 . S2. Xn.x )2……. en una distribución de tendencia central. n = el tamaño de la muestra Xi = valores iterativos de la variable X El cálculo de la varianza se hace del promedio de las diferencias al cuadrado ya que. Así. para la muestra que tiene n observaciones. mientras que las diferencias al cuadrado son agregativas.

66 -18.66) 2 + (-0.2 suma de diferencias del valor de las observaciones con respecto a la media.66 -0.66 -18.66) + (15-18.66)2+(22-18.x )2 +(15 .34 ∑ 0 109 (Xi-X)2 21.66) + (22 – 18.Utilizando el cuasi promedio de diferencias lineales de la muestra “B” con una media x = 18.66)2+(18–18.66)2+(26–18.66 mpg [(14 .66 3.66 Otra manera de apreciar la diferencia de cálculo es a través de la siguiente tabla: Tabla 4.x )2]/ n-1 S2=[(14–18.66 -18.66 -3.88 103.40+2.44 11.04/5 = 0.66 -1.16+53.x )2 +(18 .66) 2 + (-3.66 -18.76 0.34 7.66)2+(17–8.64 + 10.68] = 0.66)2]/ 5 S2 = [(-4.66)2+(15-18.16 53.76+0.66) 2 + (-1.x ) + (26 .88]/5 = 103.66) 2 + (3.34) 2 + 7.x )]/ n-1 = [(14–18.x ) 2 +(22 . (simples y elevadas al cuadrado) Xi 14 15 17 18 22 26 X -18.44+11.3/5 = 20.008…casi cero Mientras que utilizando el casi promedio de las diferencias al cuadrado se obtiene: S2 = [(14 .66 (Xi-X) -4.34)2 ]/ 5 = S2 = [21.66)+(26–18.66) + (17– 8.66 -18.x ) + (15 .33 .72 13.40 2.66)]/ 5 = [-10.66) + (18–18.72+13.x )2 +(26 .x ) 2 + (17 .x ) + (22 .x ) + (18 .x ) + (17 .

54 mpg.La desviación estándar de la muestra simplemente se calcula sacando la raíz cuadrada de la varianza. el promedio de los valores menores se sitúa en (18. pesos cuadrados. tiene una raíz cuadrada de 5. Esto nos dice que el valor promedio de las observaciones menores se sitúan a -5.54 mpg del valor de la media. Puesto que los cálculos de la varianza se realizaron elevando al cuadrado las diferencias. S= En la muestra “B”. Si la media tiene un valor de 18. La varianza y la desviación estándar miden la dispersión promedio que existe entre el valor de la media y el valor de las observaciones. cuyo símbolo es s.54) = 24. ésta no podrá ser nunca negativa.66 + 5. pesos. sin embargo. su cálculo da como resultado unidades cuadradas: metros cuadrados.: metros. Mientras que la varianza es casi el promedio de las diferencias cuadradas del valor de las observaciones con respecto a la media. La varianza es útil para ciertos procesamientos de datos. es la medida de dispersión de mayor utilidad. dado que su cálculo arroja unidades lineales.2 mpg. la desviación estándar es casi el promedio de los valores absolutos de las diferencias de las observaciones con respecto a la media. lo que significa que el total de las observaciones distan en promedio ±5.54 unidades. etc. que es igual a la desviación estándar.66 mpg. que son las unidades de medida originales de las observaciones.54) =13. kilos. 110 .66 – 5. La desviación estándar.66 mpg2. kilogramos cuadrados.12 mpg y el valor promedio de los valores mayores en (18.54 unidades del valor de la media y que el valor promedio de los valores mayores se sitúa a +5. unidades poco prácticas en el análisis de datos. con una varianza de 20.

5 4 = . mayor será el valor de las medidas de dispersión. la varianza y la desviación estándar miden el grado de esparcimiento de las observaciones entre ellas y con relación a un valor central. Mientras más homogéneos sean los valores. es decir la desviación estándar entre la media: Coeficiente de variación = CV = S/ x Regresando a los datos de la muestra “B” tenemos que: Coeficiente de variación = CV = 5 .4 Análisis de 5 puntos y gráfica de caja de sesgo Después de conocer las principales propiedades de distribución de un conjunto de datos numéricos: tendencia central.Coeficiente de variación El coeficiente de variación. realizar un resumen de estas características a través de una gráfica que considere a dos medidas de tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango y el rango intercuartil) Xmenor Q1 mediana Q3 Xmayor 111 . Si todos los valores de las observaciones fueran iguales. la media. para darnos una idea rápida de la forma de distribución. todas las medidas de dispersión serían iguales a cero. el rango intercuartil.6 6 ) Lo que significa que los valores mayores o menores de la media se desvían aproximadamente un 30% del valor de la media. a diferencia de las anteriores medidas de dispersión. Interpretación de las medidas de dispersión Las medidas de dispersión: el rango. es posible.2968 ( 1 8 . menor serán estas mediadas. 4. Mientras más propagados o dispersos estén los valores. es una medida relativa y describe la relación del valor del promedio de las desviaciones con respecto a la media. forma y medidas de variación.

Para los datos de la muestra “B” 14 Xmenor 15 = 14. el valor que corresponde a casi 2 es 15. es decir. el valor que le corresponde es 17. es decir el promedio del valor de las observaciones con valor 17 y 18 14 16 18 20 22 24 26 Se puede observar el sesgo hacia la derecha. el valor que Mediana = al valor que se localiza a la mitad de las observaciones = (n+1)/2 = (6+1)/2 = 3. por lo tanto Q3= 22 casi 5. por lo tanto Q1= 15 Q3 = al valor de la posición de 3(n+1)/4= 3(6+1)/4 = 5. 17 Xmayor = 26 18 22 26 Q1 = al valor de la posición de (n+1)/4= (6+1)/2 = 1. lo que significa que el mayor peso de las observaciones se encuentra a la derecha.5. la media es mayor que la mediana. por lo tanto.75 casi 2.5.25 corresponde a casi 5 es 22. Figura 4.4 distribuciones examinadas a través de la gráfica de caja y sesgo Mmediana = media Mmediana Mmedia media Mediana Distribución equilibrada Distribución sesgada a la derecha Distribución sesgada a la izquierda 112 .

constante e igual a la medida de posición en cuestión con un error dado por la correspondiente medida de dispersión. el número y peso de los valores menores y mayores son iguales. lo que significa es que el mayor número de observaciones se encuentran agrupadas en el extremo superior. lo que significa es que el mayor número de observaciones se encuentran agrupadas en el extremo inferior. necesitamos conocer más sobre el comportamiento de la distribución de la misma. En la distribución equilibrada. Cualquier conjunto de datos tienden a distribuirse de una forma simétrica o asimétrica con respecto a la media. el 75% de las observaciones se encuentran entre el inicio de la caja (1er cuartil) y el extremo superior. para lo cual las medidas de posición son nuestro mejor instrumento. 4. como se observa en la figura anterior. En la distribución sesgada a la izquierda. para lo cual hemos estudiado las medidas de posición y dispersión de la distribución de una variable. las longitudes de los sesgos pueden variar significativamente y no es posible que la mediana se localice al centro de la caja. Cuando las observaciones se distribuyen en forma simétrica. el 75% de las observaciones se encuentran entre el extremo menor y el final de la caja (3er cuartil). No podemos basar nuestras conclusiones únicamente en expresiones que vengan dadas en términos de medidas de posición y dispersión. Si bien intentamos generalizar el comportamiento del colectivo que sea objeto de nuestro estudio. significa que el número de observaciones menores es igual al número de 113 . no debemos proceder a una interpretación que implique un comportamiento colectivo uniforme. En la distribución sesgada a la derecha.Cuando los valores de las observaciones están claramente sesgadas a la derecha o a la izquierda.5 Medidas de deformación Una vez iniciado el análisis estadístico de resumen de la información.

(Xi. los datos están generalmente sesgados a la izquierda o sesgo negativo.x ) = 0 Otra característica es que la media y la mediana son iguales. sea a la izquierda o a la derecha. prácticamente se considera una distribución simétrica o normal. sin embargo. sólo basta comparar la media y la mediana. 114 . sin llegar a realizar la misma. Si son iguales. Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o apuntamiento. Para describir la simetría de distribución de los valores de las observaciones. los datos pueden describirse como de sesgo positivo o sesgada a la derecha. cuando la media es excedida por la mediana. las medidas de forma de una distribución se basan en su representación gráfica. La simetría perfecta es una condición teórica difícil de observar en la realidad. Esto es: Media = Mediana: simetría o de sesgo cero Media > mediana: sesgo positivo o derecho Media < mediana: sesgo negativo o izquierdo Figura 4. Lo común es que estas observaciones tiendan a acumularse más a un lado del centro de recorrido.3 Formas de distribución Mmediana = media Mmediana Mmedia Mmedia Mediana La asimetría es más ostensible al analizar la representación gráfica de la distribución. si la media excede a la mediana.observaciones mayores y la suma de las diferencias de los valores con respecto a la media es igual a cero.

obteniéndose así el coeficiente de asimetría de R. Para conseguir un indicador adimensional. Fisher. es decir. de hacer esto. Coeficiente de asimetría de Fisher: ahora se intenta buscar una medida que recoja la simetría o asimetría de una distribución. referiremos los valores de la distribución a este promedio. Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones. por lo que no es invariante ante un cambio de escala. Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el grado de simetría (o asimetría) que presenta una distribución. elevadas a la potencia impar más simple (que es tres).Medidas de asimetría más comunes. tomaríamos como medida de asimetría el momento de orden tres centrado en la media. esta medida vendría expresada en las mismas unidades que las de la variable elevadas al cubo. que pasa por el punto cuya abscisa es la media aritmética. Si una distribución es simétrica. cuya expresión es: 115 .x ) elevadas a una potencia impar para no perder los signos de las desviaciones. Pero. Esta cantidad es el cubo de la desviación estándar. debemos dividir la expresión anterior por una cantidad que venga en sus mismas unidades de medida. siendo la suma de desviaciones positivas igual a la suma de las negativas. sin necesidad de llevar a cabo su representación gráfica. de las desviaciones (X i . y por tanto el mismo número de desviaciones con signo positivo que con signo negativo. el eje de simetría de su representación grafica será una recta paralela al eje de ordenadas. existe el mismo número de valores a la derecha que a la izquierda de la media x . Podemos partir. Si la distribución es simétrica. Por ello. cuando la distribución es asimétrica. A.

unimodales y moderadamente asimétricas el coeficiente definido como Ap = ( x . (Xi. Si g1 >0 la distribución es asimétrica positiva (a derecha).35/82. Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones campaniformes.x )2.3 Momentos m1. 116 .x )3 (Xi. m2 y m3: (Xi. es decir.x )3 Xi ni x Xi- x (Xi.25 = 0.x )2 (Xi. existe mayor número de datos a la izquierda.6851 La distribución es asimétrica a la derecha. donde Mo es la moda. y Si g1 < 0 la distribución es asimétrica negativa (a izquierda).x ).66)/(1/30 * 567.x )3*ni De la fórmula: (1/30 * 1690.x )2*ni (Xi.37)2/3 = 56. Tabla 4.Mo) /σ.Si g1 =0 la distribución es simétrica. (Xi.

Como en una distribución campaniforme simétrica x = Mo = Me, si la distribución es asimétrica positiva o a derechas,

x

se desplaza a la derecha de la moda, y por

tanto, x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa por debajo de Mo, por lo que el valor x - Mo < 0. La desviación estándar que aparece en el denominador no modifica el signo de la diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia. Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica positiva y si Ap < 0 la distribución es asimétrica negativa. Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la mediana, y viene dado por la expresión Ab = (Q3 + Q1 - 2Me)/(Q3 + Q1). Se cumple que si Ab = 0 la distribución es simétrica, si Ab > 0 la distribución es asimétrica positiva y si Ab < 0 la distribución es asimétrica negativa. Q3 y Q1 son los cuartiles tres y uno respetivamente. Coeficiente Curtosis o de apuntamiento El coeficiente curtosis define la distribución de frecuencias en la zona central de la misma. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. Por esta razón a las medidas de curtosis se les llama también de apuntamiento o concentración central. En la distribución normal se verifica que m4 = 3σ4 siendo m el momento de orden 4 respecto a la media y σ la desviación estándar. Si consideramos la expresión g2= (m4/σ4) - 3, su valor será cero para la distribución normal. Por ello, como coeficiente de apuntamiento o curtosis se utiliza la expresión:

117

Del ejemplo anterior: Tabla 4.4 Momentos m1, m2 y m4: (Xi- x ), (Xi- x )2, (Xi- x )4
Xi ni

x

Xi-

x

(Xi- x )2

(Xi- x )4

(Xi- x )2*ni

(Xi- x )4*ni

De la fórmula: [(1/30 * 21,082.58)/ (1/30 * 567.37)2]-3 = -1.03 Tomando la normal como referencia, diremos que una distribución puede ser más apuntada que la normal (es decir, leptocúrtica) o menos apuntada (es decir, platicúrtica). A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica.

118

Una distribución es: mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0, leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0, platicúrtica (apuntamiento menor que el de la normal) si g2 < 0. 4.6 Cálculo de mediciones descriptivas de la población Para explicar el cálculo e interpretación de las medidas descriptivas de posición de tendencia central, forma y dispersión, se han calculado los estadísticos de los datos de una muestra: “A” y “B”. Si se quisiera hacer un estudio descriptivo con mayor exactitud, sería a través del cálculo de los parámetros de la población. La media de la población, con símbolo µ, se calcula con la fórmula:

µ=
Donde N = tamaño de la población Xi = diferentes valores que toma la variable aleatoria de la población. f = frecuencia o repetición de valores de cada Xi. La moda, el rango medio y el eje medio de la población se calculan igual como se explicó en los apartados anteriores. La varianza y la desviación estándar de la población se simboliza con la letra griega σ2 y σ respectivamente. Se calcula mediante la fórmula:

119

σ2 =

∑ (X i- µ ) i= 1 N

n

2

σ =
y

∑ (X i - µ ) i= 1 N

n

2

El coeficiente de variación, señala el grado de dispersión relativa entre la desviación estándar y el valor de la media Cv = (σ/μ) Con los datos de la tabla 3.2, sin agrupar, se obtiene la siguiente tabla de distribución de frecuencias de la población de 30 vehículos más vendidos en 1970: Tabla 4.5 Distribución de frecuencias de los valores de la variable mpg

Aplicando las fórmulas tenemos los siguientes resultados: Media: µ

=

, µ= 553/30 = 18.43 mpg.

Mediana: punto de posición = (N +1)/2 = (30 +1)/2 = 15.5 El valor de la mediana, se toma del valor promedio de las posiciones 15 y 16 de la tabla 4.3, que corresponde a los valores de 17 y 17. El promedio de los dos valores es igual a 17.

120

Moda: el valor que más aparece en las observaciones es el 15 mpg. Rango medio: rango medio = (Xmenor + Xmayor)/2 = (14 + 27)/2 = 20.5 Q1: punto de posición 1/4(N +1) = 1/4(30 +1)/4 = 7.75, es decir, la posición 8, cuyo valor es igual a 15 mpg. Q3: punto de posición 3/4(N +1) = 3/4(30 +1) = 23.25, es decir, la posición 23 cuyo valor es igual a 22 mpg. Eje medio: eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5 Rango (alcance): rango = Xmayor – Xmenor = 27 – 14 = 13 Alcance intercuartil; Q3-Q1 = 22 -15 = 7 Varianza: σ 2 =
∑ (X i - µ ) i= 1 N
n 2

= [(14 – 18.43)2 + (15 – 18.43)2 + (16 – 18.43)2 + ...(27 –
n 2

18.43)2 ]/30 = 19.56

Desviación estándar: σ

=

∑ (X i - µ ) i= 1 N

= 4.42

Coeficiente de variación: σ/µ = 4.42/18.43 = 23.98 Resumen de cinco puntos y caja y sesgo: Xmenor Q1 14 15 mediana 17 Q3 22 Xmayor 27

14

16

18

20

22

24

26 27

Entre los valores de rendimiento mpg de los 30 automóviles más vendidos en el año 1970, dado que la media excede a la mediana, 18.43 vs 17, se puede considerar

121

generalmente no se dispone de datos originales. Se observa que los valores de medición descriptivos de la muestra y de la población son bastante similares aún y cuando la muestra es muy pequeña.66 17. La mayoría de las veces lo que se obtiene de las fuentes secundarias son las características de agrupados o estratificados.5 13 7 19.5 12 7 20.4 Comparación de medidas de la muestra “B” y de la población. es raro realizar estudios con muestras tan pequeñas.54 29. Conclusión similar se obtiene de observar la gráfica de caja y sesgo.56 4.5 no 14 26 20 18. aquí lo que se trató es de hacer un ejercicio que facilitara el entendimiento de la Estadística descriptiva. censos. de variación Forma 18.5 18. Medición muestral (n= 6) población (N= 30) Media Mediana Moda Xmenor Xmayor Rango medio Eje medio Rango (alcance) Rango intercuartil Varianza Desviación estándar Coef. Tabla 4. En esta 122 . En la práctica.43 17 14 y 15 14 27 20.68 sesgo der.como sesgada a la derecha. es decir revistas. periódico o publicaciones especializadas.98 sesgo der.42 23.66 5. 18. Cuando en la realización del estudio estadístico se utiliza fuente secundaria de datos. Cálculo de mediciones descriptivas de datos agrupados.

las medidas descriptivas pueden estimarse de una manera aproximada. donde los datos originales no están disponibles.66% 3. se supone que sólo se cuenta con los datos agrupados de la tabla 3.33% 0 12 14 16 18 20 22 24 26 28 123 .66 25 6.33 29 13.00 76. dado que son aproximaciones.5 Polígono de porcentajes 30 25 20 26.00 14 26. Tabla 4.4.66 46.66 83.00 20.66 23 10.67 30 3.00 66.5 distribución de frecuencia de datos agrupados Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 Frecuencia Porcentaje acumulada porcentaje acumulado 6 20.33% 5 6.00 Figura 4. es más fácil para su estimación utilizar los diagramas de frecuencias relativas y acumuladas para su cálculo.66 20 20.66 20 0.situación. Aunque existen diversas fórmulas para calcular las diferentes medidas de tendencia central y de variación cuando se dispone de datos agrupados.00 66.33 100.66% 20% 20% 15 Porcentaje 10 10% 13.33 96. A manera de ejercicio.

4. De la misma forma se puede aproximar el valor del primer cuartil y del tercer cuartil. Si los datos fueran perfectamente simétricos.66% 66.5 mpg. ésta se localiza aproximadamente trazando una línea horizontal del 50% del eje vertical (porcentaje) hasta que cruce la curva de porcentaje acumulado. al rango medio y al eje medio.5. de ahí se traza una línea vertical hasta el eje horizontal de los valores de la variable “millas por galón”. es decir 13 y 27 mpg. diagrama de porcentaje acumulado. sin embargo en algunas situaciones pueden realizarse aproximaciones útiles.6.66% 90% 80% 70% 60% Porcentaje 50% 40% 30% 20% 46. fácilmente se puede estimar el valor de la mediana.2 y Q3 = 20. la desviación estándar y el coeficiente de variación no pueden calcularse una vez que los datos se han agrupado. El rango se calcula con los valores promedio de la primera clase y de la última.Fig. la media es igual a la mediana.66% 20% 0 12 Q1 14 Xmenor 16 Me 18 20 Q2 22 24 26 Xmayor 28 Millas por galón Utilizando visualmente la figura 4. la mejor aproximación sería un promedio de las tres.67% 83. La desviación estándar podría aproximarse como el promedio entre un sexto del rango y tres cuartos del rango intercuartil. Siguiendo con 124 .6 Polígono de porcentajes acumulado 100% 100% 96. Aproximadamente el valor de la mediana es 15.5 de éstos valores se calcula el rango intercuartil aproximado a 5.33% 76. utilizando la fórmula rango = Xmayor – Xmenor resulta 27 – 13 = 14 Desafortunadamente la media. la varianza. si fueran aproximadamente simétricos. Q1 = 13.

de variación 23.5. y el eje medio es igual a (Q1 + Q3) = (13.5 Eje medio 18. Media 18.42 Coef. Medición datos población datos agrupados 17.79. se tiene que la mediana es igual a 15.5 + 20 + 16.6 presenta una comparación entre el resumen de las medidas descriptivas reales obtenidas de los datos sin procesar.43 Mediana 17 Moda 15 Xmenor 14 Xmayor 27 Rango medio 20.98 Forma sesgo der.6 Comparación de medidas descriptivas de la variable mpg de la población (cálculo exacto) y datos agrupados.36 La tabla 4.45 La desviación estándar aproximada sería de (rango/6 + 3 rango intercuartil/4)/2 = (14/6 + 3*7/4) = 3. 125 . Tabla 4.85.45 15.36 3.85)/3 = 17.5 no 13 27 20 16. varianza (3.2 + 20. el promedio de estas tres medidas centrales es de (15.79)2 = 14. aplicando las fórmulas explicadas en los capítulos 3 y 4 y las medidas aproximadas de los datos agrupados obtenidas a través de distribución de frecuencias y distribución de frecuencias acumulada.79 21.el mismo ejemplo.5)/2 = 16.71 sesgo der.5 Rango (alcance) 13 Rango intercuartil 7 Varianza 19. el rango medio es igual a (Xmenor + Xmayor )/2 = (27 +13)/2 = 20.56 Desviación estándar 4.85 14 7 14.

para datos de cualquier distribución. En forma general. 99.89% de las observaciones están contenidas dentro de una distancia ±3 desviaciones estándar alrededor de la media. mientras que el 95.7 Uso de la desviación estándar. Existen muchas variables asociadas a fenómenos naturales que se distribuyen en forma equilibrada. 126 .0% de las observaciones están contenidas dentro de una distancia ±2 desviaciones estándar alrededor de la media. en teoría de probabilidades.26% de todas las observaciones se encuentran alrededor de ± 1 desviación estándar. • Al menos [1 – (1/22)] *100% = 75. los matemáticos Bienaymé y Chebyshev encontraron.75% de las observaciones están contenidas dentro de una distancia ±4 desviaciones estándar alrededor de la media. se estima que dos de cada tres observaciones se encuentran a una distancia de 1 desviación estándar de la media (es decir el 67% del total de las observaciones y aproximadamente el 95% de las observaciones están contenidas en una distancia de 2 desviaciones estándar alrededor de la media. • Al menos [1 – (1/32)] *100% = 88.1/k2). Aunque el cálculo Bienaymé-Chebyshev se aplica a cualquier tipo de distribución de datos.4. en forma de campana. que si los datos forman la distribución normal. se tiene que.99% estarán en ±2. la probabilidad de que las observaciones estén distanciadas de su media en más de k veces la desviación típica. en forma separada. • Al menos [1 – (1/42)] *100% = 93.44%. más adelante se estudiará. basados en los modelos matemáticos de Gauss y Bienaymé & Chebyshev. o campana de Gauss. con respecto a la media. por lo que. la agrupación alrededor de la media está dado por la ecuación (1 . que sin importar cómo se distribuye una serie de datos de una variable aleatoria. el 68.73% y 99. A mediados del siglo XIX. es menor o igual que 1/k2. ±3 y ±4 desviaciones estándar.

la mediana. con sólo comparar el valor de la media con el de la mediana. eje medio. rango medio. Las medidas de posición. 4. Medidas de dispersión: rango. se calcula tres tipos de medidas estadísticas: de posición. de forma y de dispersión. 127 . las medidas estadísticas resumen los valores significativos del conjunto de datos. Escala de puntos. sesgo a la derecha. moda. muestran el grado en que las observaciones tienden a acumularse por arriba o por debajo de los valores centrales y tienen por objeto determinar el grado de asimetría de una distribución de frecuencias. indican el nivel general del fenómeno. la moda.Mientras que en el cálculo de Bienaymé-Chebyshev nos indica. nos dice exactamente qué tan probable es que cualquier observación esté lejos o cerca de la media.8 Resumen El cálculo de las medidas estadísticas sintetiza la información sobre los datos que se han recopilado. el rango medio y el eje medio. o sea el punto de escala numérica alrededor del cual se agrupa la mayoría de las observaciones obtenidas al captar el fenómeno que interesa. para distribuciones normales. como la media. 4. para cualquier tipo de distribución. la desviación estándar y el coeficiente de variación indican el mayor o menor grado en que las observaciones se alejan del valor central dado por las medidas de posición. sesgo a la izquierda. al menos qué tan posible es que una observación se encuentre alrededor de la media. como el rango.9 Términos clave Análisis de datos Medidas de posición: media. las medidas de forma. desviación estándar. En conjunto. mediana. el rango intercuartil. coeficiente de variación. En lugar de trabajar con toda la tabla de frecuencias. la varianza. varianza. facilitando su manejo e interpretación. rango intercuartil. y las medidas de dispersión. la aplicación del modelo de Gauss. Medidas de forma: equilibrada.

elabore el diagrama de Pareto.4 140 138.7 134.4. rango intercuartil.10 Problemas de repaso del capítulo 1. elabore el análisis de 5 puntos y la caja de sesgo.1 144.. eje medio. mediana.. relativas y acumuladas. 128 . b) Calcule la media. rango.6 136. 11. desviación estándar y coeficiente de variación.8 139. elabore las tablas y diagramas de frecuencias absolutas. Precio de camisetas al menudeo 137. el rango medio y el rango intercuartil b) Calcule la varianza y la desviación estándar c) Describa la forma de esta serie de datos d) Describa la cantidad ofrecida por los ex-alumnos e) Escriba un reporte donde estime la cantidad en recaudar si el fonotón dura 30 días 2.Un grupo de estudiantes de la Universidad han decidido llevar a cabo un fonotón para recabar fondos para la construcción de un Centro de Artes. 18.3 133. 10. 17.2 141.7 136.8 137.Los siguientes datos representan el precio al menudeo de camisetas de una muestra de 20 tiendas más frecuentadas de la ciudad.6 138 140. 16 a) Calcule la media. Los datos siguientes representan las cantidades prometidas (en miles de pesos) por todos los ex alumnos que fueron llamados durante los primeros nueve días: 16. mediana.5 138.3 135.1 139.7 136. 22.1 a) Forme el diagrama de tallo y hojas. 13.2 141.9 140.4 139.

9 6.4 2.1 Cabello fino 6.9 5. elabore las tablas y diagramas de frecuencias absolutas.2 4.5 Para cada conjunto de datos (cabello normal y cabello fino) calcule a) Forme el diagrama de tallo y hojas.9 4. rango.2 1. 129 .4 8.0 0.0 1.8 3.3.0 6.5 1.7 2.3 1.9 2.9 6.0 2. relativas y acumuladas.6 2. elabore el análisis de 5 puntos y la caja de sesgo..8 3.8 2.7 5.0 8. rango intercuartil. b) Calcule la media.9 0. mediana.1 0.5 2.2 1.8 9.8 1. elabore el diagrama de Pareto.0 1.5 8. eje medio.4 8.3 1.1 3.6 2.5 1.8 7.9 2.2 3. Cabello normal 7.8 0.9 8.3 4.7 6.7 2.3 3.3 5.0 0.8 5.3 1.4 6.3 2.4 9.1 1.9 4. desviación estándar y coeficiente de variación.7 5.3 1.7 1.2 1.5 4.Los siguientes datos corresponden al costo por onza en pesos de muestras aleatorias de 31 champuses etiquetados para cabello normal y 29 para cabello delgado.

11 Mapa conceptual de distribución de datos numéricos.4. Medidas de posición Medidas de dispersión Medidas de deformación Medidas de asimetría • Coeficiente Fisher • Coeficiente Pearson • Coeficiente Bowley Media El rango El rango intercuartil Varianza Mediana Moda Rango medio Eje medio Medida Curtosis • Coeficiente Curtosis Desviación estándar 130 .

Capítulo 5 Uso de paquetes Estadísticos ********************* Objetivo del Capítulo Mostrar cómo el uso de la computadora ayuda al análisis estadístico. evitando así los laboriosos cálculos matemáticos y dedicar más atención a la interpretación para la toma de decisiones. 131 .

132 .

mediante su aplicación. Al término del capítulo. como materia prima del estudio. el alumno deberá ser capaz de: 1. Obtener los diagramas apropiados para el análisis gráfico de la distribución de datos. El programa SPSS (Statistical Package for Social Sciences) permite. realizar un análisis descripti- 133 . Obtener las medidas resumen de una muestra a través del uso del paquete estadístico SPSS. Al analista sólo le resta saber interpretar los resultados. Afortunadamente. 2. existen paquetes estadísticos que realizan todo este pesado trabajo.5. Si el conjunto de registros. el trabajo de ordenar y agrupar y calcular las medidas resumen de los datos se complica. Lo que si es cierto. denominado “la base de datos” está bien computado. el paquete estadístico se encarga de realizar todos los cálculos estadísticos. se pueden realizar manualmente. como se ha dicho desde el inicio. pero cuando la muestra rebasa las 100 observaciones.1 Introducción Hasta ahora lo que se ha tratado de explicar es la técnica del manejo de datos para facilitar su análisis e interpretación. Cuando son cantidades pequeñas de datos. es que en la mayoría de los estudios estadísticos es inevitable la digitalización manual de datos.

para capturar los datos es necesario definir las características de cada variable. donde irán apareciendo los resultados de los análisis realizados. contrastes de hipótesis. El editor de datos: de aspecto y funcionalidad semejantes a las de cualquier hoja de cálculo 2. El visor de resultados. utilizando gráficos que expliquen su distribución o calculando sus medidas características. En la parte inferior de la página principal hay una pestaña “vista de variables” que hay que abrir: Figura 5. Al ejecutar el programa estadístico SPSS. análisis de regresión o análisis multivariantes. también figuran el cálculo de intervalos de confianza.1 Página principal del paquete SPSS 134 . Entre sus muchas prestaciones.vo de una o varias variables. 5.2 Edición de datos Una vez que se ha accedido al programa (haciendo clic el icono correspondiente) la interfaz con el usuario se compone de dos ventanas principales: 1. Desde ambas ventanas se puede acceder a la barra de menús (desde donde se selecciona el análisis que se quiere realizar) y a la barra de botones rápidos (desde la que se puede acceder a las opciones de menú más comúnmente solicitadas).

categoría de empleo. Por ejemplo: 1 = femenino y 2 = masculino 5. etc. si representa dinero y el número de decimales que se requiere. Antes de definir las características de las variables. ordinal o cardinal (escalar) A manera de ejemplo. si la separación de miles se hace coma. también se puede definir si es de fecha. fecha de nacimiento. 2. 3. en orden que facilite la captura. 6. 1.2 Página principal de Resultados de SPSS. Se requiere establecer un código de equivalencias para los diferentes valores de las variables. si requiere punto. nivel de educación. Definir el nombre con el que se identifica la variable. es necesario considerar las siguientes indicaciones. utilizando la misma estructura de datos del estudio estadístico de automóviles que se ha venido utilizando en los ejercicios de los apartados 135 . 4. Defina si es numérica o categórica. Se requiere señalar el significado literal de la variable: género. Se requiere establecer la escala de medición: nominal. Enlistar todas las variables que se van a analizar.Figura 5.

3 Características de las variables de estudio 5. listo para utilizarse por el paquete estadístico SPSS.3 Captura de datos. por lo que se utiliza los paquetes estadísticos SPSS. se procede a su captura. En la figura 5. se genera una base de datos de 406 registros. La magnitud de lo datos dificulta el cálculo manual de las mediciones descriptivas. 136 . En la siguiente figura se puede observar la forma en que se definen las características de las variables en el paquete estadístico SPSS.sav.anteriores. Los datos están listos para su análisis estadístico. Una vez que se ha diseñado la edición de la presentación de los datos recabados. La tabla de datos puede salvarse como archivo de datos con extensión .4 se puede observar el resultado de estas actividades. Figura 5.

4 Obtención de resultados Habiendo capturado todos los datos de la muestra o de la población.4 Presentación de datos digitados en SPSS 5.4 Análisis de datos 137 . según sea el caso. Figura 5.Figura 5. a través del comando analizar/estadísticas descriptivas. se obtendrá un menú de análisis.

5 Definición de variable de análisis Al escoger el sub-menú aparece un recuadro de definición de variables a analizar y de estadísticos a visualizar.6 Definición de características de los estadísticos 138 .5. en el caso del ejemplo se escogerá la variable Miles per Galon (mpg): Figura 5.5 Definición de variable a analizar Figura 5.

8 Estadísticos obtenidos 139 .Figura 5.7 Definición de características de los gráficos Figura 5.

140 . Si desea conocer la tabla de frecuencias.6 Tabla de frecuencias. se obtendría lo siguiente: Figura 5.9 Gráficos obtenidos: Tallo y hojas y caja y sesgo 5. en el sub-menú de estadísticas descriptivas.10 Frecuencias.Figura 5.

7 100.0 6.0 6.7 6.7 6.0 20.7 3.0 Porcentaje ac umulado 20.3 76.7 83.7 3.7 6.0 20.7 53.12 Histograma y distribución de frecuencias 141 .0 Porcentaje válido 20.0 46.0 V álidos 14 15 16 17 18 21 22 24 25 26 27 Total Figuera 5.7 3.3 6.7 13.7 6.3 6.11 Tabla de frecuencias no agrupada obtenida Miles pe r Gallon Frecuenc ia 6 6 2 2 4 2 1 2 2 2 1 30 Porcentaje 20.3 66.3 100.7 13.3 100.7 6.7 73.3 6.3 6.Figuera 5.0 40.3 90.0 96.7 3.7 6.

250 31.750 32.750 40.300 135.350 36.250 29.200 28.375 29.000 60.250 56.050 31.750 24.000 55.500 68.950 92.300 38.050 27.750 22.200 30.150 40.200 19.400 28.200 82.900 26.000 53.000 46.000 26.050 25.000 45.850 36.550 45.150 29.5.350 21.100 21.900 20.000 42.550 35.000 36.550 31.150 73.625 21.750 16.750 110.250 30.000 57.900 103.750 34.100 16.500 30.600 22.000 25.750 25.950 31.900 35.600 28.125 21.000 27.300 24.150 81. obtenga las medidas de posición.000 21. 24.900 24.800 60.350 27.000 22.750 22.100 23.250 142 .850 33.400 33.000 24.100 40.7 Problemas de repaso del capítulo 1.000 30.800 51.050 30.950 34.250 32.950 25.125 46.650 24.500 54.550 41.250 27.950 24.900 42.900 78.100 23. Utilizando el paquete SPSS.100 24.000 45.800 31.050 78. que son los sueldos de una muestra aleatoria de 100 empleados con licenciatura en Negocios Internacionales egresados entre el año 2000 y 2005.000 30.300 21.350 30. dispersión y distorsión y los diagramas de distribución de frecuencias y de Pareto de los datos de la siguiente tabla.500 48.000 26.450 27.000 22.200 35.150 72.000 26.

********************* Objetivo del Capítulo Mostrar cómo organizar y presentar en tablas y diagramas los datos categóricos 143 .Capítulo 6 Presentación de datos categóricos en tablas y diagramas.

144 .

Si el interés de análisis es una variable.6. estos se pueden presentar. Al terminar el capítulo. se realizará una tabla de resultados cruzados. 6. como el diagrama de pastel. en forma de tablas y diagramas. se realizarán tablas resumen y diversos diagramas. Utilizar los paquetes estadísticos para presentar resúmenes de datos categóricos. europeo o japonés. de barras y de puntos. el alumno podrá: 1. 3. Para saberlo. 2. con el fin de facilitar el análisis y la toma de decisiones. se quiere saber el porcentaje del origen: americano. 145 . se tendrá que construir una tabla resumen que agrupe los autos por origen. Construir tablas y diagramas que representen un resumen de datos categóricos. Si el propósito es relacionar dos o más variables categóricas.1 Introducción Este capítulo trata sobre la presentación de datos categóricos.2 Tabulación de datos categóricos Siguiendo con la misma base de datos de los autos más vendidos en el año 1970. Realizar tablas cruzadas o matriciales que relacionen a dos o más variables categóricas.

7 100.Tabla 6.0% 73.0 A meric ano Europeo Japonés Total Figura 6.1 Diagrama de barras en porciento.3 20.1 Resumen de frecuencias y porcentajes por origen 1970 Frecuenc ia 22 6 2 30 Porciento 73.7 100.0% 20.3% Americano 146 .0 Porciento ac umulado 73.0 Porciento validado 73.3 93. Japonés Europeo 6. Japonés País de origen Europeo Americano 0 20 40 60 80 Porcentaje Figura 6.0 6.3 100.3 20.2 Diagrama de pastel en porciento.0 6.

Sin muchas explicaciones. otros prefieren utilizar la sobriedad gráfica en razón de destacar el contenido de las gráficas. Algunas personas confunden el propósito de uso de gráficas.3 Diagrama Pareto en cantidades y en porcentaje 40 Porcentaje 30 100 20 22 50 10 Cantidad 6 0 Americano Europeo 2 Japonés 0 País de origen Figura 6. objetivamente se pueden interpretar el significado de los datos.3 Elección de la gráfica apropiada La representación gráfica de datos es una técnica muy útil para la presentación de informes ejecutivos. Es importante señalar que.4 Gráfica de puntos de cantidades Americano Europeo País de origen Japonés 0 10 20 30 Cantidad 6.Figura 6. según ciertas investigaciones sobre la percep- 147 . muchos creen que los adornos y colores será la manera de ser efectivos.

Existen diversos paquetes de análisis de datos. Tabla 6. De ser así. podemos utilizar la computadora para realizar esta ardua tarea.5 Uso de paquetes estadísticos en la presentación de datos categóricos Al igual que la tabulación. 6. el origen de fabricación y el número de cilindros. La elección del tipo de gráfica para la presentación de datos categóricos sigue siendo altamente subjetiva y a menudo depende de las preferencias del analista o del receptor. Aunque. Siguiendo con el estudio de las características de los autos más vendidos en el año 1970.ción humana. la tabla de datos cruzados o de contingencias es una manera de presentar esta situación. la gráfica de puntos de cantidades o porcentaje sería más fácil de interpretar que la gráfica de pastel o de barras.2 Datos cruzados: país de origen/número de cilindros 3 Cilindros Recuento País de origen Americano Europeo Japonés 0 0 0 Numero de cilindros 4 Cilindros 5 Cilindros Recuento Recuento 0 0 6 0 2 0 6 Cilindros Recuento 3 0 0 8 Cilindros Recuento 19 0 0 6. es necesario mostrar la relación que existe entre dos o más variables de estudio. en los estudios estadísticos. por ejemplo.4 Tabla de contingencia o tabla de datos cruzados Muchas de las veces. incluso la hoja de cálculo de Excel. se puede relacionar dos variables categóricas. diagramación y tratamiento de datos numéricos. hay que destacar que la gráfica de pastel es estéticamente agradable y muestra la proporción y suma total de las categorías. 148 . las escalas de longitud son más fácil de interpretar que las de área. cuando el número de observaciones es grande.

5 Menú generador de gráficos Un gráfico de barras presenta estadísticos de resumen de una o más variables. La longitud de las barras representa habitualmente la frecuencia de casos de cada categoría. La función se puede cambiar en la parte inferior del cuadro de diálogo.En el caso del paquete estadístico SPSS. para el diseño de gráficas existe un comando que se llama Gráficos y se opera de la siguiente manera: se escoge el tipo de gráfico que se desea. Figura 6. Figura 6. en este caso. el valor medio para cada categoría). el de barras.6 Menú para definición de variable 149 . un porcentaje del número total de casos o una función de otra variable (por ejemplo. la mayor parte de las veces respecto a los grupos definidos por una o dos variables categóricas. También se puede mostrar una clave para identificar la función.

se agrupan por categorías definidas y barra estratificada. las categorías de la variable de la leyenda se apilan unas sobre otras.7 Gráfica de barras de presentación de datos categóricos: simple. por tanto. En ese caso. La parte superior de un segmento conforma la base del siguiente. se ilustrará con un ejemplo de cada una de ellas. Figura 6. los segmentos representarán el porcentaje con el que cada categoría contribuye al total. barra conglomerada. sólo se deberán seleccionar funciones adecuadas para la apilación en las barras que representan. En las barras apiladas. Si se asigna una variable categórica a Color o Estilo. Para que sea más objetivo el resultado. las barras de las categorías se podrán agrupar unas junto a otras o apilarse. Si se ha seleccionado una leyenda de apilado de color o de estilo.Barras agrupadas y apiladas. al interior de cada barra se puede estratificar por categorías existentes. aglomerada y estratificada País de origen Cantidad 150 . donde sólo se grafica la escala de valores de cada categoría. existe tres opciones: barra simple. podrá cambiar el eje dependiente para que represente el 100%. En otras palabras. Este tipo de gráficos destaca la suma de las categorías.

Datos con un número limitado de valores o categorías distintas (por ejemplo. También se hace referencia a estos datos como datos cualitativos. Las variables categóricas pueden ser variables de cadena (alfanuméricas) o variables numéricas que utilizan códigos numéricos para representar a categorías (por ejemplo. Por ejemplo. Las variables categóricas pueden ser nominales u ordinales: nominal.6. Una variable puede ser tratada como nominal cuando sus valores representan categorías que no obedecen a una ordenación intrínseca. una tabla por defecto de la variable categórica sexo sólo mostrará el número de hombres y el número de mujeres. sexo o religión). Tablas personalizadas distingue entre dos niveles de medida diferentes para las variables y trata de manera distinta las variables en función de su nivel de medida: Categóricas. el código postal o la confesión religiosa. Por ejemplo los niveles de satisfacción con un servicio. 0 = hombre y 1 = mujer). 151 . Son ejemplos de variables nominales: la región. ordinal. columnas y capas) en la tabla y el estadístico de resumen por defecto es el recuento (número de casos en cada categoría). Lista de variables. En el panel superior izquierdo de la ventana se muestran las variables del archivo de datos.6 Generación de tablas En la pestaña “Tabla” del generador de tablas. se seleccionan las variables y las medidas de resumen que aparecerán en la tabla. Las variables categóricas definen categorías (filas. Por ejemplo. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna ordenación intrínseca. que vayan desde muy insatisfecho hasta muy satisfecho. el departamento de la compañía en el que trabaja un empleado.

Las variables de escala se resumen normalmente dentro de las categorías de las variables categóricas y el estadístico de resumen por defecto es la media. Esto resulta especialmente útil para apilar resúmenes de varias variables de escala. se escogió para las filas la variable “origen” y para las columnas la variable “número de cilindros”. una tabla por defecto de los ingresos dentro de las categorías de sexo mostrará los ingresos medios de los hombres y los ingresos medios de las mujeres. 152 . Por ejemplo. También puede resumir las variables de escala por sí mismas. Figura 6. sin utilizar una variable categórica para definir grupos.8 Menú para definir las variables Aparece en pantalla un área de trabajo para definir las variables que se desea colocar en las filas o en las columnas.7 Menú generador de tablas En la página principal de SPSS se escoge el comando Tablas/Tablas personalizadas Figura 6. En el ejemplo.

Figura 6. Tabla 6.8 Proyecto de presentación Aparece en pantalla el proyecto de presentación. Al darle click al botón de aceptar. e inmediatamente aparece la tabla de datos cruzados.3 Datos cruzados de las variables “País de origen” y “número de cilindros” 3 Cylinders Recuento Country of Origin American European Japanese Total 0 0 0 0 Number of Cylinders 4 Cylinders 5 Cylinders Recuento Recuento 0 0 6 0 2 0 8 0 6 Cylinders Recuento 3 0 0 3 8 Cylinders Recuento 19 0 0 19 153 .

154 .

Capítulo 7 Probabilidad básica ********************* Objetivo del Capítulo Comprender los conceptos básicos de probabilidad como base necesaria para el estudio de distribución de probabilidad e inferencia estadística 155 .

156 .

7. siendo suficiente para manejarlo en la vida cotidiana. distribución y consumo de bienes y servicios. lo que determina la probabilidad de ocurrencia de cada caso en particular. Al terminar el capítulo el alumno debe de ser capaz de: 1. Cuando un suceso aleatorio se repite un gran número de veces. como los sistemas de producción. Utilizar el criterio de probabilidad 2. Una definición rápida del término probabilidad sería “la posibilidad de que suceda un evento en particular”. Utilizar una tabla de contingencia o un diagrama de Venn para determinar las probabilidades de eventos conjuntos. lo cual indica que la frecuencia de aparición de cada resultado tiende a estabilizarse.1 Introducción El concepto o idea que generalmente se tiene del término probabilidad es adquirido de forma intuitiva. La teoría de la probabilidad se usa extensamente en la ciencia y la filosofía para sacar conclusiones sobre la ocurrencia de sucesos potenciales y la mecánica subyacente de sistemas complejos. 157 . los posibles resultados tienden a presentarse un número muy parecido de veces.

esta posibilidad de ocurrencia puede definirse como: p(A) = X/T. 7. Utilizar las diversas reglas de contar el número total de eventos. La probabilidad subjetiva de un evento es la que se realiza en base al conocimiento tácito de una persona. Cuando la probabilidad objetiva se basa en el conocimiento anticipado del proceso. aceptada con validez científica. y no en resultados matemáticos o estadísticos. cuando cada resultado es igualmente posible. La probabilidad objetiva. donde X es igual al número de resultados en los que ocurre el evento y T es igual al número de resultados posibles. probabilidad a priori. 6. aunque en la vida diaria es de las que más se utilizan al no apoyarse más que en el sentido común y los conocimientos previos de la persona. 158 . y aplicar la regla de adición. Para determinar la posibilidad de ocurrencia de un evento existen dos criterios de apreciación: la probabilidad subjetiva y la probabilidad objetiva. ¿Cuál es la probabilidad de que llueva? ¿Cuál es la probabilidad de que tenga éxito un producto nuevo? La asignación de probabilidad subjetiva se base en una combinación de experiencia del individuo. Utilizar el Teorema de Bayes para calcular probabilidades a la luz de nueva información. estado de ánimo y el análisis de condiciones particulares. es la que se obtiene por el conocimiento previo de un proceso o por la observación de resultados. conjuntas y condicionadas de un conjunto de posibles eventos. En el caso más simple.3. Comprender las reglas para encontrar las probabilidades simples.2 Criterios de probabilidad: subjetivo y objetivo. Precisamente por su carácter de subjetividad no se considera con validez científica. 4. Distinguir entre eventos mutuamente excluyentes y colectivamente exhaustivos e independientes. 5.

pero podemos afirmar que a largo plazo.3 Espacio muestral y tipos de eventos Cuando se realiza un experimento.2. el espacio muestral (EM) es EM={1.6}. Inmediatamente no se puede asegurar que salga o no una carta negra. Si se vuelve a incorporar cada carta que se extrae.3125 7. puesto que hay 26 cartas negras de un total de 52. se van a obtener un conjunto de valores.5. sigue siendo la misma. el espacio muestral consiste en las 52 cartas. una carta negra. A este conjunto de valores que puede tomar una variable se le denomina espacio muestral. no del conocimiento anterior a un proceso. Si los eventos se clasifican por 159 . que es cualquier proceso que produce un resultado o una observación. dependiendo de la clasificación.50 Existe otro enfoque de probabilidad objetiva. Por ejemplo: Si se tiene un dado cualquiera. la probabilidad de que compren artículos de recuerdo se puede encontrarse seleccionando una muestra aleatoria de la población. de 400 entrevistados 125 aceptaron haber comprado un recuerdo. En el caso de la baraja.Un ejemplo clásico es el mazo de barajas o el juego de dados. y se saca nuevamente al azar. compre un recuerdo es 125/400 = . completado por varios eventos.4. seleccionado aleatoriamente.50 ó el 50%. Por consiguiente. De total de visitantes de domingo a un museo. la proporción de cartas negras extraídas será muy cercana a . la probabilidad de éxito o de fracaso.3. se mezcla. sin comodín. se conoce como probabilidad empírica o a posteriori. si se repite continuamente este proceso. aunque se sigue definiendo como la proporción entre el número de resultados favorables y el número total de resultados. estos resultados se basan en datos observados. la respuesta correcta sería 26/52 ó ½ ó . Si se quiere encontrar la probabilidad de sacar del mazo de barajas. la probabilidad de que un visitante de domingo.

evento complemento y evento conjunto. Al evento se le denomina evento A. tréboles y diamantes. Reyna……. corazones. 160 . ocurren. el espacio muestral está formado por las combinaciones de valores de cada una de las variables. Existen eventos que siempre. son todas las cartas rojas. el evento nulo. y si éste consta de un solo elemento entonces es un evento simple.2. el evento complemento de carta negra. tiene una probabilidad de cero. Si existen más de una variable en el suceso. no importa el número de experimentos o su situación. si la clasificación es por valor de la carta. hay cuatro eventos: picas. Como el de extraer un As del mazo de la baraja. Los eventos que no forman parte de A se les denomina evento complemento y está representado por A’. El evento complemento As son todas las cartas que no sean As. y en cambio existen otros que nunca ocurren. el evento cierto. o una carta de color negro. o una espada. Tomando esto en cuenta se pueden distinguir tres tipos de evento: evento simple. es decir. La manera en que se subdivide el espacio muestral será el tipo de probabilidad que se estime. Cuando se tiene toda la certeza de que el evento ocurrirá. Rey.palo. existen trece eventos: As. Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se denomina un evento. tiene una probabilidad de uno. entonces es un evento conjunto. cuando un evento no tiene posibilidad de ocurrir.

7. lo más usados son la tabla de datos cruzados y el diagrama de Venn. se construyen las siguientes tablas de datos cruzados. Siguiendo con los ejemplos de las barajas y de los visitantes al museo. también se les preguntó si quedaron satisfechos con el material histórico exhibido. lo que significa que de los 315 que contestaron estar satisfechos 90 también compraron un recuerdo. consiste en construir una matriz de relación de las variables de interés.1 Espacio muestral de un mazo de cartas Posibles eventos en el espacio muestral del mazo de cartas: Evento simple: As Evento simple: Roja Evento complemento: No As = As’ Evento complemento: No roja = Roja’ Evento conjunto: As roja Evento conjunto: No As roja = As roja’ En el ejemplo de la muestra de 400 visitantes del domingo al museo. 315 visitantes contestaron que si estaban satisfecho pero 225 de ellos no habían comprado recuerdos.Figura 7.4 Formas de examinar el espacio muestral Existen varias formas de examinar el espacio muestral específico. La tabla de datos cruzados o de contingencia. 161 .

162 . no Ases roja y no Ases negra.2 La tabla de datos cruzados o de contingencia. Tomando los datos de la tabla 2.Tabla 7. como el SPSS.2 Datos cruzados para analizar compra y satisfacción Compraron si no Totales Satisfechos si No Totales 90 35 125 225 50 275 315 85 400 Otra forma de presentar el espacio muestral es utilizando el diagrama de Venn. En el espacio muestral AB. se puede construir con ayuda de un paquete estadístico.2 representa un diagrama de Venn típico para una situación de dos variables. cuando el espacio muestral es grande. La tabla de contingencia para los 400 visitantes del domingo al museo se representa en la tabla 7. pueden suceder uniones como AUB.1 de datos cruzados se obtuvo de distribuir el mazo de 52 cartas en cuatro subconjuntos Ases roja y Ases negra.1 Datos cruzados para analizar el evento As roja Roja As No As Totales 2 24 26 Negra Totales 2 4 24 48 26 52 El valor de las celdas de la tabla 7. A’ y B. A’UB’. A B’ y A’ B. B’. Este diagrama muestra gráficamente los diversos eventos como uniones o intersecciones de círculos. Tabla 7. AUB’ y A’UB. intersecciones como A B. se construye el siguiente diagrama de Venn. en donde cada variable sólo presenta dos eventos: A. A’ B’. La figura 7. A = 4 y B = 26.

2 Diagrama de Venn para los eventos A y B A’ B’ A’ B’ = 24 AUB A B AUB= 28 2 2 24 A B Espacio muestral de 52 cartas A = Ases = 4 B = cartas negras = 26 A B = Ases negros = 2 A B = Ases o cartas negras = 28 A’ B’ = Ases y no cartas negras = 24 A B= 2 Figura 7.2(a) Diagrama de Venn para los eventos A y B A’ B’ A’ B’= 50 AUB A B AUB= 350 35 90 225 A B A B = 90 163 U U U U U U U U .Figura 7.

Espacio muestral de 400 visitantes

A = Compraron = 125 B = satisfechos = 315 A B = Compraron-satisfechos = 90 A Compraron o satisfechos = 350 A’ ’ No compraron- no satisfechos =50 7.5 Probabilidad simple y probabilidad conjunta. Hasta aquí se ha tratado de explicar el concepto de probabilidad, el espacio muestral y los tipos de eventos. Ahora se verá la forma en que se calculan las probabilidades, de acuerdo al tipo de evento que se presente. Lo que debe quedar claro y se considera como la regla más evidente de la teoría de probabilidad es que en todos los casos la probabilidad siempre tiene una proporción cuyo valor varía entre 0 a 1. Un evento imposible de ocurrir, evento nulo, tiene la probabilidad de cero, y un evento cierto, tiene la probabilidad de 1. Probabilidad simple La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento simple, P(A), como: La probabilidad de sacar un As de un mazo de barajas La probabilidad de sacar una carta negra La probabilidad de compra de los visitantes del domingo al museo La probabilidad de satisfacción de los visitantes del domingo al museo Utilizando la fórmula para encontrar la probabilidad de ocurrencia = X/T, se tiene que:

164

La probabilidad de sacar un As de un mazo de barajas = 4/52 La probabilidad de sacar una carta negra = 26/52 La probabilidad de compra de los visitantes del domingo al museo = 125/400 La probabilidad de satisfacción de los visitantes del domingo al museo =315/400 Los datos anteriores, para el cálculo de probabilidad se pueden extraer de la tabla de datos cruzados o del diagrama de Venn elaborados en el apartado anterior. Aquí se puede apreciar que la probabilidad simple de un evento se puede calcular a través de la suma de las probabilidades relativas del espacio muestral: P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn) En la tabla 7.1 se puede observar que la probabilidad de A es igual a: P(A) = P(As negro) + P(As rojo) = 2/52 + 2/52 = 4/52 Probabilidad conjunta Cuando se habla de varios eventos dentro del mismo experimento, probabilidad conjunta, se pueden dar varios casos, como la carta As roja o Rey negro de un mazo de barajas, o que un visitante del domingo al museo que haya comprado un recuerdo y esté satisfecho con el material histórico exhibido. Para que se dé una probabilidad conjunta significa que ambos eventos A y B deben ocurrir simultáneamente. Observando las tablas de datos cruzados de la tabla 7.1, las cartas que son As y negras son las que se encuentran en la celda de la fila As y de la columna Negra, que son 2, por lo que la probabilidad de escoger un As negro es igual a:

165

P(As negro) = Número de Ases negros/total de cartas = 2/52 Este resultado también puede observarse en el diagrama de Venn de la figura 7.2, el evento conjunto A y B (As negro) y corresponde a la intersección A B. La probabilidad de escoger aleatoriamente un visitante del domingo al museo y que haya comprado y esté satisfecho con el material histórico exhibido, se obtendrá de la tabla 7.2 y de la figura 7.2 de la manera siguiente P(comprar y satisfecho) = 90/400 Ahora que se ha analizado la noción de probabilidad conjunta, debe de recordarse que la probabilidad simple es igual a la suma de las probabilidades relativas o de conjunto de un espacio muestral, es decir: P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn), donde cada evento conjunto no pueden ocurrir simultáneamente, por lo que se les denomina, eventos mutuamente excluyentes, pero tienen que ocurrir, es decir son colectivamente exhaustivos si uno de los eventos debe ocurrir. Los eventos B1, B2, B3……. Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colectivamente exhaustivos. Nadie es ambos (mutuamente excluyente) y todos son uno u otro (colectivamente exhaustivos). Regresando al ejemplo de la baraja, la probabilidad de sacar un As se puede expresar de dos maneras: P(As) = 4/52 ó P(A) = P(As rojo) + P(As negro) = (2/52) + (2/52) = 4/52 = 1/13 = .0769

166

Por otro lado, en ocasiones un evento o más eventos dependen de otro evento previo, es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo de relación entre eventos se dice que son eventos dependientes o condicionados (el evento A depende del evento B, o el resultado del evento A está condicionado al resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice que son eventos independientes. Los criterios de dependencia o de independencia se definirán más adelante, en términos de probabilidad condicional. De lo anterior se puede afirmar que las probabilidades de los eventos de un espacio muestral tienen las siguientes propiedades: Las probabilidades relativas son mayores o iguales que cero. La probabilidad relativa del espacio muestral es igual a la unidad. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultáneamente, entonces la probabilidad relativa de su unión es la suma de las probabilidades relativas de cada uno. Cálculo de probabilidad conjunta Cuando se tienen eventos simples no existe mucho problema en el sentido del cálculo de las probabilidades, pues basta con una relación o el uso directo del cálculo combinatorio. Pero en el caso de eventos conjuntos, que son los compuestos por más de un evento simple, el proceder de manera análoga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de cálculo existente. Sin embargo, utilizando las propiedades de la probabilidad, y las siguientes reglas, se podrán expresar las probabilidades de estos eventos en términos de los eventos simples que lo componen, siempre y cuando se conozcan las probabilidades de éstos. La probabilidad de una unión de eventos, se puede calcular de la siguiente manera:

167

Regla 1. (Regla de la adición general). Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultáneamente. Es decir, P(A ) = P(A) + P(B) - P(A B)

La probabilidad de la adición (unión) considera la ocurrencia del evento A o del evento B o la de ambos A y B. La regla de la adición consiste en tomar la probabilidad de A y sumarla a la probabilidad B; La intersección A y B se resta del total porque ya ha sido incluida en las probabilidades relativas de A y B. Para los ejemplos que se han venido presentando, de las tablas 7.1 y 7.2, los cálculos de la adición A y B son los siguientes: De la tabla 7.1, la probabilidad de que sea un As o una carta roja es igual a (4/52 + 26/52) – 2/52 = 28/52 De la tabla 7.2, la probabilidad de que compren un recuerdo o estén satisfechos es igual a (125/400 + 315/400) – 90/400 = 350/400 Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene: Regla 2. (Regla de exclusión). Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B dado que la intersección A B (A y B) no existe y tiene un valor igual a cero. Es decir P(A ) = P(A) + P(B)

En los ejemplos anteriores, los eventos no son excluyentes porque existe la intersección A y B, pero, por ejemplo, si se desea saber la probabilidad de escoger una carta de picas o una carta de corazones si se escogiera sólo una carta del mazo de 52. Utilizando la regla de adición se obtendría:

168

y P(B) es la probabilidad relativa de B.P(picas o corazón) = P(espada) + P(corazón) – P(corazón y espada) 13/52 +13/52 -0/52 = 26/52 Para los eventos colectivamente exhaustivos también se aplica la ecuación anterior. la probabilidad se calcula de la siguiente manera: P(roja o negra) = P(roja) + P(negra) 26/52 + 26/52 = 52/52 = 1 Retomando los conceptos de eventos dependientes o condicionales. la probabilidad de escoger una carta roja o una carta negra. La probabilidad de que ocurra un evento A dado que ocurrió el evento B (el evento A depende del evento B). ¿Cuál es la probabilidad de que los que hayan comprado estén satisfechos?: 169 . se va a definir la probabilidad condicional como sigue: Regla 3. como son eventos mutuamente excluyentes. dado que las cartas son negras?: P(As|negro) = P(As y negro)/P(negro) = (2/52)/(26/52) = 2/26 De la tabla 7. Regresando a los ejemplos de la tabla 7.2. y se denota P(A|B).2. es: = P(A y B) Donde P(A y B) es igual a la probabilidad conjunta de A y B. (Regla condicional).1. De la tabla 7.1 y 7. ¿cuál es la probabilidad de sacar un as negro. la probabilidad de que ocurra A dado que ocurrió B. pero alguno tiene que suceder. por ejemplo.

P(A|B) = P(A y B)/P(B) Despejando la probabilidad conjunta de P(A y B). Lo mismo sucede con la segunda igualdad. El “color de la carta” y “ser un As” son eventos estadísticamente independientes. P(A y B) = P(A|B) P(B) 170 . tenemos la regla general de la multiplicación: P(A y B) = P(A|B) P(B) Para mostrar el uso de la regla de la multiplicación. Por lo que se cumple la regla. Dos eventos A y B son independientes si y sólo si P(A|B) = P(A) y P(B|A) = P(B) En la primera igualdad se observa que la probabilidad de elegir una carta que sea As. dado que se sabe que es negra es 2/26. Regla 5. Ahora recordemos que la probabilidad de sacar un As es 4/52. lo que se reduce a 2/4. por lo que no hay que confundir P(A|B) y P(B|A). considerando el mazo de 52 cartas. Regla 4 (Regla de independencia). (Regla de multiplicación). ¿cuál es la probabilidad de que dos cartas consecutivas sean rojas. situación que sí ocurre con la probabilidad de unión o la intersección de eventos.P(compra satisfechos) = P(compra y satisfechos)/P(satisfechos) = (90/400)/(315/400) = 90/315 Hay que notar que esta propiedad no es conmutativa. lo que se reduce a 2/26. la probabilidad de que sea una carta negra dado que es un As es igual a 2/4 y la probabilidad de que sea una carta negra es 26/52.

es decir: P(A y B) = (26/52) (26/52) = 676/2705 = 0. La probabilidad de que la segunda carta sea también roja depende de la primera selección. la probabilidad de que la segunda también sea roja es 25/51.2499 El ejemplo de muestreo con reemplazo muestra que la segunda selección es independiente de la primera. puesto que no tuvo ninguna influencia en su acontecer. Si la primera carta no se regresa al mazo (muestreo sin reemplazo). la regla de multiplicación para eventos independientes se expresa de la siguiente manera: P(A y B) = P(A) P(B) Si esta condición se cumple para dos eventos. tenemos lo siguiente: P(A y B) = (26/52) (25/51) = 650/2652 = 0.La probabilidad de que la primera carta sea roja es 26/52. Si la primera carta fue roja. Por lo que: 1. Los eventos A y B son estadísticamente independientes si sólo si P(A y B) = P(A) P(B). A y B. al utilizar la ecuación de probabilidad condicional. Así pues. entonces el número de cartas será 51. Los eventos A y B son estadísticamente independientes si sólo si P(A|B) = P(A) 2. 171 . puesto que 25 cartas rojas siguen en el mazo de 51. por lo tanto.2450 Qué sucede si la primera carta extraída se regresa al mazo (muestreo con reemplazo). puesto que 26 de las 52 cartas son rojas. entonces la probabilidad de elegir una segunda carta roja es igual a la probabilidad de la primera. entonces estadísticamente son independientes.

B3……. B2.P(E) 7. enunciado por Thomas Bayes.1. de la siguiente manera: P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn) Y utilizando la regla de multiplicación. Para ilustrar esa fórmula. retomando la ecuación para calcular la probabilidad simple de A. la probabilidad de escoger un As se aplica de la siguiente manera: P(A) = P(A|B1) P(B1) + P(A|B2)P(B2) P(As) = (2/26)(26/52) + (2/26) + (26/52) 2/52 + 2/52 = 4/52 Otra propiedad que se deriva de todas las anteriores es cuando se busca la probabilidad del complemento de un evento E. utilizando los datos de la tabla 7. Este concepto puede ampliarse para revisar probabilidades basadas en nueva información y 172 . otra manera de expresar esta regla es P(~E) = 1 .6 Teorema de Bayes.Conociendo la regla de multiplicación. Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. (Regla de complemento) Si E es un evento y ~E su complemento. es el resultado que da la distribución de probabilidad condicional de una variable aleatoria A dada B en términos de la distribución de probabilidad condicional de la variable B dada A y la distribución de probabilidad marginal de sólo A. El teorema de Bayes. se obtiene: P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn) Donde B1. en la teoría de la probabilidad. entonces: P(E) + P(~E) = 1. que denotaremos como ~E: Regla 6.

se obtiene: P(B|A) = P(A|B) P(B) P(A) Pero como P(A) es igual a P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn). se aplica en el siguiente ejemplo: En una etapa de la producción de un artículo se aplica soldadura y para eso se usan tres diferentes robots.así determinar la probabilidad de un efecto particular se deba a una causa específica. de acuerdo a la siguiente tabla. La probabilidad de que la soldadura sea defectuosa varía para cada uno de los tres. El teorema de Bayes se desarrolla a partir de las definiciones de la probabilidad condicional y probabilidad simple. Para comprender mejor la aplicación del teorema de Bayes. desde B1 hasta Bn. así como la proporción de artículos que cada uno procesa. entonces. P(B i|A)= P(A|B P(A|B i)P(B i) 1 ) P(B 1) + P(A|B 2)P(B 2)……+ P(A|B n) P(B n) donde Bi es cualquier valor que puede tomar. 173 . queda: P(B|A) P(A) = P(A|B) P(B) Dividiendo entre P(A). de la siguiente manera: P(A y B) = P(A|B) P(B) P(A y B) = P(B|A) P(A) Si se sustituye la igualdad.

001 o 0. cuál es la probabilidad de que haya sido soldado por el robot C.5%. Primero es necesario conocer la proporción global de defectos de los tres robots.Tabla 7. La idea es empezar por descomponer el evento “defectuoso”en “viene del robot A y es defectuoso'” o “viene del robot B y es defectuoso” o “viene del robot C y es defectuoso”. De modo que en nuestra respuesta debemos tener en cuenta las diferentes proporciones de lo maquinado en cada robot.001 Porcentaje de Producción 18% 42% 40% Ahora surgen un par de preguntas: •Cuál es la proporción global de defectos producida por las tres máquinas. En símbolos tendremos: P(d) = P(A y d) + P(B y d) + P(C y d) ó P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C) 174 .3 Producción y defectos por robot empleado Robot A B C Defectuosos 0. serían 0. tendríamos cinco veces más: 0. si todas las pone el B. En cambio. habría pocos defectos. a) La primera pregunta conduce a lo que se conoce con el nombre de fórmula de la probabilidad total.005 o 0.1%.002 0. •Si se toma un artículo al azar y resulta con defectos en la soldadura. ¡sería un desastre!. Después de reflexionar un momento se ve que si todas las soldaduras las pusiera el robot C.005 0.

La probabilidad que se busca es un condicional pero al revés de las que se tienen. conduce a la aplicación de lo que se conoce con el nombre de teorema de Bayes.005) + (0. a la vez más simple y más complicada. se conoce las probabilidades condicionales de otro evento dado cada uno de ellos.00286. Se puede ver que el resultado se encuentra entre todas ellas y se encuentra relativamente cerca de los porcentajes de los robots más utilizados (el B y el C).002) + (0. para calcularla se utiliza la definición de probabilidad condicional: P(C | d) = [P(C y d)] / [P( d )] El numerador (lo de arriba) se calcula con P(C y d) = P(C) P(d|C) y el denominador se calcula con la fórmula de probabilidad total P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C) 175 . Hay tres eventos A. Se conoce las probabilidades de cada uno de ellos. B y C que son ajenos y cubren todo el espacio muestral.40)(0. Además. casi 3 piezas por cada mil.42)(0.18)(0. b) La segunda pregunta es. La fórmula de arriba se llama fórmula de la probabilidad total.Antes de ponerle números y resolver nuestro problema fijémonos en la fórmula obtenida. Se busca P(C|d). Es bueno comparar este resultado con los porcentajes de soldaduras defectuosas de cada robot por separado. Esto es muy razonable. Sustituyendo con los números. se tiene que P(d) = (0.001) = 0.

4007 Lo anterior se obtiene del siguiente procedimiento: Como la probabilidad de defectuosos P(|d) = . 176 .40)(0. por lo tanto. su probabilidad complemento o P(|no d) = . la probabilidad de que haya sido soldada por el robot C es alta. Utilizando de nuevo la fórmula de Bayes las probabilidades de los robots A y B. la probabilidad de que sea no defectuoso es igual a la probabilidad complemento de la probabilidad de defectuosos.7343 y P(A|d) = 0. 40%.4191 y P(C|no d) = 0.001)] o sea: P(C|d) = [0. como ese robot produce sólo 1 de cada mil soldaduras defectuosas.00286] = 0. Si. se tendría: P(B|d) = 0. P(B|no d) = 0.18)(0. por el contrario la pieza no hubiese tenido defectos de soldadura.1399. Esto quiere decir que.42)(0. Pero. casi 14%.002) + (0.00286.juntando las dos se tiene la fórmula de Bayes: P( C|d) = [P(C) P(d|C)] / [P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)] Aplicándola al ejemplo se tiene: P(C|d) = [(0.40)(0.001)]/[(0.1259 Comparadas con las probabilidades de cada máquina sin saber que la pieza es defectuosa se observa un gran incremento en la probabilidad de B. O sea que si se toma una pieza al azar. el mismo teorema de Bayes daría: P(A|no d) = 0. al saber que la pieza seleccionada es defectuosa.005) + (0. la probabilidad de que provenga del robot C disminuye a solamente 14%.1802. lo mismo para cada robot. nos provee con una gran cantidad de información. en este caso el saber que la soldadura es defectuosa.99714.0004]/[0.

99714 = 0.4007 1.18 0.999 Porcentaje de Producción 18% 42% 40% P(A|No d) = P(A y No d)/P (No d)= (.4007 Las probabilidades no son idénticas a las probabilidades no condicionales.1399 1.4191 P(C|no d) = P(C y No d)/P (No d) = (.1802 P(B|no d) = P(B y No d)/P (No d) = (.7343 0. prácticamente no altera las probabilidades de producción en uno u otro.Tabla 7.00 P( |d) 0.99714 = 0.998 0. Tabla 7. Se ponen en una sola tabla las probabilidades iniciales y las condicionales obtenidas bajo el conocimiento de la soldadura de la pieza.18)(.42 0.00 Es tan grande el éxito de los tres robots en el soldado correcto que el saber que la pieza no tiene defectos. comparado con el B que.00 P( |no d) 0.4 Producción y defectos por robot empleado Robot A B C No Defectuosos 0.1259 0. Para apreciar mejor el cambio.40 1.42)(0.99714 = 0.5 Producción y probabilidad condicional de defectos y no defectos Robot A B C Total P( ) 0. Por el contrario. las probabilidades cambian dramáticamente. pero la diferencia es muy pequeña. 177 .4191 0. el robot C es tan bueno.42)(0.995)/.998)/ . al saber que la pieza es defectuosa.1802 0.995)/.995 0.

90. P(E) = . dada la información. la probabilidad de que dé positivo si la enfermedad no está presente es de .90 Probabilidad de No enfermedad. La fórmula de Bayes sirvió para pasar de las probabilidades no condicionales a las condicionales.03 Probabilidad prueba positivo dada la enfermedad. ¿Cuál es la probabilidad de que la enfermedad no esté presente? Probabilidad de enfermedad. Si la prueba de diagnóstico médico ha dado resultado positivo. ¿Qué proporción de todas las pruebas de diagnóstico médico indican resultados positivos c. la probabilidad de que la prueba dé positivo si la enfermedad está presente es del . P(P|E) = . Si se considera que la probabilidad que una persona tenga cierta enfermedad es del .03. Otra aplicación interesante del Teorema de Bayes se relaciona con el área de diagnóstico médico. se desea saber: a. ¿Cuál es la probabilidad que la enfermedad esté presente? b.02. Se dispone de pruebas de diagnóstico para comprobar si la persona realmente tiene la enfermedad. P(P|E’) = .97 Probabilidad prueba positivo dada la No enfermedad.En este ejemplo el cálculo de probabilidades condicionales nos cuantifica algo que el sentido común nos dice de otra forma. Si la prueba de diagnóstico médico ha dado resultado negativo. P(E’) = .02 178 .

90 0.0030 P(E’ y P)=P(P IE’)P(E’) =(.0464 = .418 0.03 0.3 Árbol de decisión para la aplicación del teorema de Bayes P(E y P)=P(P IE)P(E) =(.6 Probabilidad de enfermedad y prob.582 Respuesta a la segunda pregunta. condicionada.02)(.03)= .03 * .03) + (.97 0.9506 Tabla 7.0194/.0000 Evento Ei E = tienen una enfermedad E' = No tienen enfermedad Respuesta a la primera pregunta.03)= .Figura 7. ¿Cuál es la probabilidad que la enfermedad esté presente?: P(E|P) = [P(P|E) P(E)]/P(P|E)P(E) + P(P|E’)P(E’) = [.97)]= .0194 P(E’)=.90) (.98)(.0270/. Probabilidad de Probabilidad Probabilidad Probabilidad enfermedad condicional conjunta revisada P(Ei) P(P|Ei) P(P|Ei)P(Ei) P(Ei|P) 0. Si la prueba de diagnóstico médico ha dado resultado positivo.0464 1.0194 .0464 = .02 0.03 =(.90)(.10)(.90]/ [(.02 ) (. ¿Qué proporción de todas las pruebas de diagnóstico médico indican resultados positivos? 179 .97)= .582 0.97 P(E’ y P’)=P(P’ IE’)P(E’) =(.97)= .0464 = .0270/.0270 .0270 P(E y P’)=P(P’ IE)P(E) P(E)=.

98 * .Se refiere a la probabilidad simple del evento P.03) + (.90 = .97]/ [(.10 P(P’|E’) = 1 – P(P|E’) = 1 .02 = .9536 = .97)]= .. es decir al numerador de la operación anterior: P(P|E)P(E) + P(P|E’)P(E’).10) (. para ello se utiliza el principio fundamental de conteo. Si la prueba de diagnóstico médico ha dado resultado negativo. habría que contar el número de veces que pueden ocurrir todos los sucesos que se desean observar.024. o cálculo combinatorio. Principio 1: Si cualquiera de k eventos mutuamente excluyentes y colectivamente exhaustivos puede ocurrir en cada uno de n intentos. 180 . Respuesta a la tercera pregunta. ¿Cuál es la probabilidad de que la enfermedad no esté presente? P(P’|E) = 1 – P(P|E) = 1 . el número de resultados posibles es 62 = 36. el número de resultados posible es igual a kn Si una moneda se arroja 10 veces.. el número de resultados posibles es 210 = 1.98 ) (. El análisis combinatorio. En el caso de que exista más de un suceso a observar.7 Principios fundamentales para enumerar En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situación dada se convierte en algo difícil de lograr o simplemente tedioso. Si un dado se lanza dos veces.9506/.997 7. o sea . permite enumerar tales casos o sucesos y así obtener la probabilidad de eventos más complejos.98 Utilizando la ecuación del teorema de Bayes se tiene: P(E’|P’) = [P(P’|E’) P(E’)]/P(P’|E)P(E) + P(P’|E’)P(E’) = [.0464. aquí se señalan cinco diferentes principios para enumerar.

El número de formas en que siete libros pueden ordenarse es igual a 7! ) 7*6*5*4*3*2*1= 5040. sino. La probabilidad involucrada es una porción o fracción cuyo valor varía entre cero y uno exclusivamente. pero sólo hay espacio para acomodar 4. conocido en forma abreviada cono n!. 0! = 1. sólo en el número de formas en que X objetos pueden seleccionarse de n objetos. Principio 3: El número de formas en que n objetos pueden ordenarse es igual a n(n-1)(n-2)…(1). k2 eventos del segundo intento y kn eventos del enésimo intento.Principio 2: Si hay k1 eventos del primer intento. la manera de calcular es n!/X!(n-X)!. 7. a esta manera de ordenar los X objetos se le denomina permutaciones. cuantas maneras diferentes se pueden acomodar los 4 libros: 6!/(6-4)! = 6!/2! = 360 Principio 5: Muchas de las veces no interesa el orden de los resultados. el número total de placas posible sería (27) (27) (27) (10) (10) (10) = 19.8 Resumen () La probabilidad es la posibilidad u oportunidad de que suceda un evento particular. entonces el número de resultados posible es: (k1)(k2)…. a este cálculo se le denomina combinaciones y n su expresión matemática es Cxn ó X . Observamos un evento que no tiene posibilidad de ocurrir (es 181 . o n factorial. 683. Si se tienen 6 libros.(kn) Si el código de una placa de automóvil consistiera en tres letras seguidas de tres dígitos. Principio 4: El número de formas de ordenar X objetos seleccionados de n objetos es = n!/(n-X)!. 000.

El primero a menudo se denomina como el planteamiento de la probabilidad clásica a priori. Aquí la probabilidad de éxito se basa en el conocimiento anterior del proceso involucrado. Se han definido tres planteamientos de probabilidad. resulta de interés definir tanto el complemento de un evento como un evento conjunto y su condición de exclusión y ocurrencia. estos resultados se basan en datos observados. Definiendo la diversidad de los eventos posibles en un espacio muestral. La compilación de todos los eventos posibles se llama el espacio muestral. no en el conocimiento anterior a un proceso. probabilidad conjunta. aunque la probabilidad se sigue definiendo como la proporción entre el número de resultados favorables y el número total de resultados. tiene una probabilidad de cero. Cada tipo posible de ocurrencia se denomina un evento. se puede determinar la probabilidad simple. cuando cada resultado es igualmente posible. En el caso más simple. Los elementos básicos de la teoría de probabilidades son los resultados del proceso o fenómeno bajo estudio.decir. mientras que un evento que seguramente ocurrirá (es decir. el evento nulo). tiene una probabilidad de uno. Un evento simple puede describirse mediante una característica sencilla. el evento cierto). 182 . Tomando esto en cuenta. En el segundo ejemplo. El tercer planteamiento de probabilidad se denomina el enfoque de probabilidad subjetiva. La manera en que se subdivide el espacio muestral depende de los tipos de probabilidades que se han de determinar. llamado probabilidad clásica empírica. probabilidad condicionada y probabilidad independiente.

7. empírica o a posteriori y subjetiva Probabilidad a priori Probabilidad conjunta Probabilidad empírica o a posteriori Probabilidad objetiva Probabilidad simple Probabilidad subjetiva Regla condicional Regla de adición Regla de complemento Regla de exclusión Regla de independencia Regla de multiplicación Tabla de datos cruzados Teorema de Bayes 183 . Dé tres ejemplos de cada uno de los tipos de probabilidad: a priori. empírica o subjetiva: a) Que al siguiente lanzamiento de una moneda caiga en águila o en figura b) Que el equipo del Guadalajara le gane al equipo del América c) Que el último número de la Lotería Nacional sea un 9 d) Que la suma de dos dados lanzados sea 7 e) Que en el siguiente lote de producción existan 3 piezas defectuosas 2. indique si el tipo de probabilidad es a priori.9 Términos clave: Criterio de probabilidad Diagrama de Venn Espacio muestral Evento cierto Evento conjunto Evento nulo Eventos colectivamente exhaustivos Eventos complemento Eventos dependientes o condicionados Eventos independientes Eventos mutuamente excluyentes Eventos simples Principios para enumerar. Para cada uno de los siguientes eventos.7.10 Problemas de repaso 1.

sea un hombre o no disfrute comprar ropa j. ¿Cuál es entonces la probabilidad que sea un hombre? 184 . De las 520 mujeres 488 respondieron que sí. disfrute comprar ropa c. de 480 hombres 272 respondieron que sí. sea una mujer o disfrute comprar ropa i. Suponga que el encuestado elegido disfruta de comprar ropa. En una gran área metropolitana se seleccionó una muestra de 1000 encuestados para determinar información diversa respecto al comportamiento de los consumidores.3. ¿Cuál es entonces la probabilidad que no disfrute comprar ropa? g. Suponga que el encuestado es mujer. sea hombre b. a) Construya una tabla de 2x2 y el diagrama de Venn b) Dé un ejemplo de un evento simple c) Dé un ejemplo de evento conjunto d) ¿Cuál es el complemento de “disfruta de comprar ropa”? e) ¿Cuál es la probabilidad de que el encuestado sea a. sea un hombre y disfrute comprar ropa h. sea mujer y disfrute de comprar ropa f. sea un hombre o una mujer f. sea mujer d. Entre las preguntas estaba ¿Disfruta comprar ropa?. sea hombre y no disfrute comprar ropa g. no disfrute comprar ropa e.

h. a) ¿Cuántas combinaciones de discos diferentes existen para la cerradura? b) Cuál es la probabilidad de que si se eligió aleatoriamente una combinación (una posición de cada disco). Sin embargo sólo 4 libros caben en el portafolios. Sin importar el arreglo ¿Cuántas formas hay de colocar 4 libros en un portafolios? 185 . Para que la bóveda se abra. cada uno con 30 posiciones. 4. ¿Disfruta de comprar ropa y el género de los encuestados son estadísticamente independientes? Explique. cada uno de los tres discos deberá estar en la posición correcta. La cerradura de la bóveda de un banco consiste en tres discos. sea capaz de abrir la bóveda del banco? c) Explique por qué las combinaciones de discos no son combinaciones matemáticas expresadas por la ecuación n!/X!(n-X)! 5. Un estudiante tiene 9 libros que desearía acomodar en un portafolios.

7.11 Mapa conceptual de probabilidad Probabilidad Tipos de probabilidad Objetiva Subjetiva Simple Conjunta Condicional Apriori Empirica Regla de adición Regla de multiplicación Representación Independencia estadística Tabla de contingencia Diagrama de Venn Árbol de decisión Teorema de Bayes 186 .

Capítulo 8 Modelos de distribución de probabilidad para variables aleatorias discretas ********************* Objetivo del Capítulo Propiciar la compresión del concepto de esperanza matemática y su aplicación en la toma de decisiones. así como los diferentes modelos de distribución de probabilidad de variables discretas 187 .

188 .

en este capítulo se estudiará el concepto de esperanza matemática y los modelos de distribución de probabilidad que representen eventos discretos. la teoría de la probabilidad y los métodos de conteo. Saber cuándo y cómo se puede utilizar la distribución de Poisson para aproximar la distribución de binomial.8. Comprender la aplicación de los modelos de probabilidad binomial y de Poisson 3.1 Introducción Utilizando el conocimiento sobre las medidas estadísticas. el alumno debe ser capaz de: 1. 189 . σ2. Encontrar cualquier probabilidad binomial o de Poisson 4. Calcular el valor esperado y la varianza de una distribución de probabilidad discreta. Al terminar el capítulo. Después se explicará dos modelos importantes de distribución de probabilidad discreta: la distribución binomial y la distribución de Poisson. 2. Se iniciará definiendo la distribución de probabilidad y se define las dos características básicas de cualquier distribución de probabilidad: su media o valor esperado E(X) y su varianza.

tal que una probabilidad de ocurrencia está asociada con cada resultado.8. La tabla sirve para calcular diferentes posibilidades de ocurrencia. La distribución de probabilidad para los resultados de una sola vuelta de rodar un dado se describe en la tabla 8.0 La probabilidad de que sea cualquier número.2 Concepto de distribución de probabilidad discreta Para definir el concepto de distribución de probabilidad discreta. 5 ó 6) = 1/6: P(4) = 1/6 190 . La tabla incluye todos los resultados posibles y como son eventos colectivamente exhaustivos. 2. La variable aleatoria puede ser discreta (conteo) o continua (medición).1 Distribución de probabilidades teóricas de los resultados de arrojar un dado Resultado Probabilidad Resultado 1/6 1/6 1/6 1/6 1/6 1/6 1. la que se define como: un listado mutuamente excluyente de todos los resultados posibles para una variable aleatoria.1. 4. En este capítulo se tratará ciertos modelos de distribución discreta. pero sólo uno de ellos (1. es necesario recordar que una variable aleatoria es cierto fenómeno de interés cuyo resultado puede expresarse numéricamente. Tabla 8. la suma de probabilidades debe de ser igual a 1. 3.

la interpretación que debe darse es de que a la larga.5. el cual se expresa matemáticamente de la siguiente manera: µx = E(X) = ∑ n X i P ( X i) i= 1 Para la distribución teórica de los resultados de arrojar un dado. y el valor promedio es 3. La probabilidad de que sea igual o menor de 2: P(≤2) = P(1) + P(2) = 1/6 + 1/6 = 2/6 = 1/3 8. es decir el 50% de probabilidad de que sea un par. El E(X) se obtiene de la suma de los productos de cada resultado posible Xi por la probabilidad de ocurrencia P(Xi). doses…. después de muchos tiros.3 Valor esperado de una variable discreta El valor esperado E(X) de una serie de eventos aleatorios mutuamente excluyentes y colectivamente exhaustivos es la media (µ).seises. se habrá obtenido el mismo número de unos. la probabilidad de que sea un par (2. La ponderación es la probabilidad asociada a cada uno de los resultados.5. el valor esperado es igual a: µx = E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3. 191 . El valor esperado de una variable aleatoria discreta es la suma de todos los resultados ponderados posibles. 4 o 6) es igual a: P(par) = P(2) + P(4) + P(6) = 1/6 +1/6 +1/6 =3/6 = ½.5 Debe considerarse que al arrojar un dado.Utilizando la regla de adición para eventos mutuamente excluyentes. nunca se podrá obtener una cara con valor de 3.

(σ2). a la larga el jugador obtendría un promedio de 3.Suponiendo que un casino le paga a un jugador en pesos el número que saque por cada que arroje un dado y le cobra cuatro pesos por cada vez que lo arroja.5)2 (1/6) + (6-3.5)2 (1/6) + (2-3. Si se considera el valor de cada elemento de la distribución de probabilidad en pesos.µ x ) 2 P (X i ) i= 1 n Para la distribución de probabilidad teórica de los resultados de arrojar un dado.5 pesos por jugada. el cual se expresa matemáticamente de la siguiente manera: ∑ (X .5)2 (1/6) + (4-3. la desviación estándar es igual a la raíz cuadrada de la varianza. La varianza de una variable aleatoria discreta es la suma de las diferencias entre cada resultado posible y su media al cuadrado ponderadas. lo que le haría perder 50 centavos por jugada. 8.4 Varianza y desviación estándar de una variable discreta La varianza de una serie de eventos aleatorios mutuamente excluyentes y colectivamente exhaustivos es el promedio pesado de las diferencias cuadradas entre cada resultado posible y su media. 192 .µx )2 por la probabilidad correspondiente P(Xi). siendo los pesos las probabilidades de cada uno de los resultados respectivos.5)2 (1/6) + (3-3.µ x ) P (X i ) σ = i= 1 i 2 n 2 Además. como ya se ha visto anteriormente. Esta medición puede obtenerse a través de la suma de los productos de las diferencias entre los resultados posibles y la media al cuadrado (X i . es decir: σ = ∑ (X i. la pregunta es. a la larga quién sale ganando. La ponderación es la probabilidad asociada a cada uno de los resultados.5)2 (1/6) = 2. la varianza y la desviación estándar se calculan de la siguiente manera: σ2= (1-3.9166.5)2 (1/6) + (5-3.

05 0.50 a) Calcule las medias para cada distribución b) Calcule la desviación estándar para cada distribución c) Señale la diferencia de cada distribución La media para la distribución A es igual a 1. En el juego de dados.50 0.10 0.Por lo que la desviación estándar es igual a la raíz cuadrada de 2. Dadas las siguientes distribuciones de probabilidad Distribucción A X 0 1 2 3 4 Distribución B X 0 1 2 3 4 P(X) 0.15 0. la variable aleatoria de interés (X) toma los valores del total de los dos números.5 Ejemplos: 1. para la B es 3 La desviación estándar es igual para ambas distribuciones La distribución A está sesgada a la derecha.71 8.20 0. la B a la izquierda 2. La distribución de probabilidad está dada por la siguiente tabla: 193 .10 0.9166 = 1.20 0.05 P(X) 0.15 0.

c) Forme la función de distribución de probabilidades que represente los diferentes resultados en la apuesta d) Determine la media de esta distribución. 10 u 11.7 u 8. 9. puede ganar un $1.00 si la suma de los números de los dados es 5. ¿Cuál es la ganancia o pérdida del jugador y de la casa? 194 .00 si la suma es 2 o 12. e) A la larga.Número posible 2 3 4 5 6 7 8 9 10 11 12 No de veces que puede salir 1 2 3 4 5 6 5 4 3 2 1 36 Probabilidad de cada evento 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 36/36 a) Determine la media o valor esperado al arrojar un par de dados b) Calcule la varianza y la desviación estándar Una manera de apostar es que el jugador que apuesta un $1.6.00 si la suma es 3. o puede ganar $2. 4.00 puede perder un $1.

41 La función de distribución de probabilidad con apuesta está dado por la columna V*P La suma para esa función de distribución de probabilidad es igual a -.055 A la larga.83 La desviación estándar es 2.6 centavos por peso apostado 8.Tabla 8. el jugador pierde 5.6 Funciones de distribución de probabilidad discreta La distribución de probabilidad de una variable discreta puede especificarse a través de: 195 . la casa gana 5.2 Distribución de probabilidad de valor de arrojar dos dados La media de la distribución de arrojar dos dados es igual a 7 La varianza es igual a 5.6 centavos por cada peso apostado A la larga.

Se han desarrollado diferentes modelos matemáticos para representar la distribución de probabilidad de diversos fenómenos discretos que ocurren en las ciencias sociales y naturales. 8. p) = (número de posibles secuencias) x (probabilidad de una secuencia en particular): x!(n-x)! p (1-p) n! x n-x Al utilizar este modelo matemático. Un listado empírico de resultados y sus frecuencias relativas observadas 3. los cálculos pueden ser bastante laboriosos.7 Distribución Binomial. que satisfacen la condición de normalización (p) + (1. sin embargo las probabilidades se consiguen directamen- 196 . Si en cambio no nos interesa el orden. incluso para los negocios.1. a esta expresión matemática se le conoce como función de distribución de probabilidad. Un listado teórico de resultados y probabilidades consecuencia de la aplicación de un modelo matemático representativo. la probabilidad de tener cualquier combinación está dada por la llamada distribución binomial: P(X = x|n. la correspondiente probabilidad será (p)x (1. Si estamos interesados en tener experimentos con el primer resultado en un orden determinado. han sido la distribución binomial y la distribución de Poisson. 2. Las más útiles. tendremos respectivamente (x) y (n-x). Un listado subjetivo de resultados asociados con sus probabilidades subjetivas que representan el grado de convicción del modelador.p) = 1. Frecuentemente nos enfrentamos con el caso de muchos experimentos que pueden dar como resultado sólo dos valores posibles éxito o fracaso. especialmente al crecer n.p)n-x. Denotamos entonces p y 1 –p como las probabilidades para cada resultado. Al cabo de un número n de experimentos.

es decir el éxito o el fracaso. La probabilidad de que una observación se clasifique como éxito. es constante para todas las observaciones. ¿Cuál es la probabilidad de que el rojo salga 15 o más veces en 19 intentos? 197 . evitando complicaciones de cálculo. Cada observación puede clasificarse en una de dos categorías mutuamente excluyentes y colectivamente exhaustivas. la probabilidad de que una observación se clasifique como fracaso. es constante de observación a observación. es independiente del resultado de cualquier observación. En juegos de azar: en la ruleta americana. Por tanto. p. Aplicaciones de la distribución binomial.te de tablas previamente elaboradas. 1 – p. p = 1/6) = 2!(3-2)!(1/6) (1-1/6) 2 3-2 3! 1/36 (5/6)= 3(5)/216 = 15/216 2!1! La distribución binomial posee cuatro propiedades esenciales: Las observaciones posibles pueden obtenerse mediante dos métodos de muestreo distintos. de un software estadístico o de la hoja de cálculo de Excel. usualmente denominadas éxito y fracaso. Un ejemplo sencillo de la aplicación del modelo matemático o función de la distribución de probabilidad binomial es el siguiente: ¿Qué probabilidad existe de que sean dos cincos en tres tiros de un dado? 3! P( X = 2|n = 3. Cada observación puede considerarse como seleccionada de una población infinita sin reemplazo o de una población finita con reemplazo. El resultado de cualquier observación.

En cada uno de los ejemplos anteriores se cumplen las cuatro propiedades de la distribución de probabilidad binomial. cada vez que se gire. Figura 8.0041) 198 .En producción: ¿Cuál es la probabilidad de que en una muestra de 20 piezas ninguna salga defectuosa si el 8% de tales piezas son defectuosas? En educación: ¿Cuál es la probabilidad de que un estudiante apruebe un examen de 10 preguntas de respuesta múltiple (cuatro opciones) si escoge aleatoriamente las respuestas? Aprobar es contestar correctamente 6 o más preguntas. En el juego de azar. Como la ruleta no tiene memoria.8*10 29) =(0. la probabilidad de que salga rojo (éxito) es igual a 18/38 y la probabilidad de que sea negro o verde (fracaso) es igual a 20/38.1*1027 /9. el resultado es independiente de los resultados anteriores o posteriores.7*10 /4.9*10 )(1.024 4! (6.6*10 /2*10 ) 18 23 5 6 (4.1 juego de ruleta americana Aplicando el modelo matemático 19-15 n! px(1-p)n-x = 19! (18/38)15 (1-18/38) x!(n-x)! 15!(19-15)! 93.

Según las tablas actuales. Hállese la probabilidad de que. Las cinco personas. transcurridos 30 años.Un agente de seguros vende pólizas a cinco personas de la misma edad y que disfrutan de buena salud. la probabilidad de que una persona en estas condiciones viva 30 años o más es 2/3. 3. se consulta directamente la hoja de cálculo de Excel.BINOM Figura 8. Exactamente dos personas. 2. Si en lugar de utilizar el modelo matemático.2 menú de consulta de distribución binomial en Excel 199 . vivan: 1. utilizando el comando F(x)/Estadísticas/DISTR. Al menos tres personas.

Se abre el programa con un variable disponible y se le da un valor cualquiera.FALSO). la probabilidad de fracaso. la probabilidad de éxito es .3 Figura 8. como se observa en la figura 8.En producción. En educación.3 menú Transformar en SPSS Al teclear Transformar/calcular variable.08. la probabilidad de que salgan defectuosos es .188. Se teclea el comando Transformar/calcular variable. es decir que no salga ningún defectuoso.20.08.FALSO). por ejemplo 1 2. utilizando la hoja de cálculo de Excel: =DISTR. la probabilidad de pasar con 6 el examen es de . se deberá seguir el siguiente procedimiento. 1. la probabilidad es igual a 0.BINOM(6.0.BINOM (0.25.40. utilizando la hoja de cálculo de Excel: DISTR.05 Si quiere utilizar el programa estadístico SPSS. aparece la siguiente pantalla: 200 .25.0.

que corresponden a la probabilidad de que 15 veces aparezca el rojo en 19 intentos con una probabilidad binomial de 18/38. Para que aparezca el comando aceptar.Figura 8. 19 y 18/38. se hace doble click y automáticamente aparece la leyenda explicativa y. aparecen los espacios para colocar los valores de cálculo. 2. se deberá de definir la variable destino. que corresponde a la función de distribución de probabilidad binomial.4 menú calcular variables en SPSS En esta pantalla se tiene que realizar el siguiente procedimiento: 1.Binom. en la parte superior. 3. se teclearía 15. Posteriormente se escoge el menú inferior Pdf. éste corresponde a la función de distribución de probabilidad no acumulada.5 201 . esto es poner el nombre de la variable en la que va aparecer el valor calculado. como se aprecia en la figura 8. En el grupo de funciones (menú superior del lado derecho) se escoge el comando FDP y FDP centrada. En el caso del ejemplo.

cuál es la probabilidad de que en el juego de la ruleta americana en 19 lanzamientos caiga entre cero y 15 veces. pero en lugar de escoger el comando FDP y FDP centrada. Figura 8. como se puede observar en la figura 8.7 202 .5 resultados del cálculo de variable en SPSS Cuando se trata de calcular la probabilidad acumulada.Figura 8. Siguiendo con el mismo ejemplo.6 cálculo de probabilidad acumulada en SPSS El resultado que se obtiene es de 0.99904. se escoge FDA y FDA centrada. se sigue el mismo procedimiento. que corresponde a función de distribución de probabilidad acumulada.

sin importar el tamaño de n.5. ¿Cuál es el valor esperado del valor de X?.7 resultados de cálculo de probabilidad binomial acumulada en SPSS 8.Figura 8. es simétrica. es sesgada cuando p es ≠ 0. a la larga.5 y mayor sea el número de observaciones. teóricamente se espera: E(X) = 19 (18/38) = 9 Se espera 9 ocurrencias en 19 giros. cuando p = 0. La desviación estándar de la distribución binomial se calcula utilizando la ecuación: σ = n p (1 -p) 203 . µx = E(X) = n* p Por ejemplo. La media de la distribución binomial puede obtenerse fácilmente con la multiplicación de los valores de n y de p. dicho de otra manera. menos sesgada será la observación. ¿Con qué frecuencia se espera que salga el color rojo? En promedio. si se gira 19 veces la ruleta americana.8 Características de la distribución binomial La distribución de probabilidad binomial puede ser simétrica o sesgada.5 Mientras más cercano sea el valor de p a 0.

2.18 204 . no sólo representa numerosos fenómenos discretos. área. Algunos ejemplos de aplicación de la distribución de Poisson: Número de llamadas por hora que se reciben en una estación de bomberos Número de automóviles que cruzan un puente internacional al día Número de manchas en un metro cuadrado de tela = 2. longitud.9 Distribución de Poisson La distribución de Poisson es otra función de distribución que se utiliza mucho. La distribución de Poisson se aplica en eventos discretos que ocurren en un área de oportunidad de intervalo continuo: tiempo. sino que también se usa para proporcionar aproximaciones a la distribución binomial. entonces se aplica el modelo de distribución de Poisson.En el ejemplo de la ruleta: σ = 1 9 ( 1 8 /3 8 ) ( 2 0 /3 8 ) 8. La probabilidad de observar exactamente más de un éxito en el intervalo es cero. La distribución de Poisson parte de la distribución binomial: cuando en una distribución binomial se realiza el experimento un número "n" muy elevado de veces y la probabilidad de éxito "p" en cada ensayo es reducida. 3. de tal manera que: 1. La ocurrencia de un éxito en cualquier intervalo es estadísticamente independiente de otra ocurrencia en cualquier otro intervalo. La probabilidad de observar exactamente un éxito en el intervalo es invariable.

X = número de éxitos por unidad. Cualquier llegada de cliente es un evento discreto sobre un punto en particular sobre el intervalo continuo de una hora.718283. se ajustan a la aplicación de la función de distribución de Poisson.Número de chispas de chocolate por galleta Número de defectos por lote en un proceso de producción En cada uno de los ejemplos anteriores. el promedio de llegadas por minuto es de 180/60 = 3 P(X = x|λ) = PX = 2| λ= 3) = e-3.m y 1:00 p. se analiza el número de clientes que llegan a un banco entre las 12:00 a.0(3. ¿Cuál es la probabilidad que en un minuto lleguen dos clientes? Primero habrá que hacer la conversión de clientes/hora a clientes/minuto. Si en lugar de utilizar el modelo matemático y se dispone del uso de la hoja de cálculo de Excel. número de “éxitos” por unidad.71828 λ = número esperado de éxitos E(X) = µx. e = constante matemática aproximada a 2.0)2/2! = 9/2. Para comprender mejor la función de distribución de Poisson.m. se utiliza el comando F(x)/Estadísticas/POISSON para obtener la probabilidad de éxito. dado que se esperan λ éxitos es: -λ x P(X = x|λ) = e λ x! P(X = x|λ) = la probabilidad de que X = x dado que se conoce λ. la variable aleatoria discreta. El modelo matemático de la distribución de Poisson para obtener X éxitos. 205 . Si durante ese intervalo llegaron en promedio 180 clientes.0*2 = .2240 El cálculo del modelo matemático de la función de distribución de Poisson es bastante tedioso.

VERDADERO) = 0.1606 Cuando se dice 5 o más quiere decir 1-P(0. 3. 2.Figura 8. ¿cuál es la probabilidad de que cualquier galleta inspeccionada a) se encuentren menos de 5 chispas b) se encuentre exactamente 5 chispas c) se encuentre 5 o más chispas d) se encuentre 4 ó 5 chispas Utilizando la hoja de cálculo de Excel se calcula de la siguiente manera: Cuando se dice “menos de 5 chispas”.2851 Exactamente 5 chispas: POISSON(5. 1. utilizando la tabla de distribución de Poisson. quiere decir 0.8 menú de consulta de distribución Poisson en Excel Otra aplicación El gerente de control de calidad de Galleta María está inspeccionando un lote de galletas de chispas de chocolate que se acaban de hornear. por lo que se considera una probabilidad acumulada: POISSON(4. 2. 1. Si el proceso de producción está bajo control. 3 y 4) = 0.6.7149 206 .6. ó 4. chispas. el número promedio de chispas por galleta es 6.FALSO) = 0.

aparece la siguiente pantalla: Figura 8. por ejemplo 1 4. como se observa en la figura 8.10 menú calcular variables en SPSS 207 .2945 Si quiere utilizar el programa estadístico SPSS. se deberá seguir el siguiente procedimiento.Cuando se dice entre 4 ó 5 se refiere a P(4)+P(5)= 0.9 Figura 8. Se teclea el comando Transformar/calcular variable.9 menú Transformar en SPSS Al teclear Transformar/calcular variable. 3. Se abre el programa con un variable disponible y se le da un valor cualquiera.

que corresponde a función de distribución de probabilidad acumulada. éste corresponde a la función de distribución de probabilidad no acumulada. en la parte superior. Posteriormente se escoge el menú inferior Pdf.En esta pantalla se tiene que realizar el siguiente procedimiento: 4. En el grupo de funciones (menú superior del lado derecho) se escoge el comando FDP y FDP centrada. se sigue el mismo procedimiento.Poisson. aparecen los espacios para colocar los valores de cálculo.11 resultados del cálculo de variable en SPSS Cuando se trata de calcular la probabilidad acumulada. cuál es la probabilidad de que al menos dos clientes lleguen en un minuto. En el caso del ejemplo. se hace doble click y automáticamente aparece la leyenda explicativa y. esto es poner el nombre de la variable en la que va aparecer el valor calculado. como se aprecia en la figura 8. 208 . se escoge FDA y FDA centrada. Siguiendo con el mismo ejemplo. Cuando se considera al menos dos se refiere a la probabilidad acumulada de que lleguen 2 y 3. 5. se teclearía 2 y 3 que corresponden a la probabilidad de que 2 aparezcan en un minuto dado que λ = 3. se deberá de definir la variable destino. que corresponde a la función de distribución de probabilidad de Poisson.11 Figura 8. Para que aparezca el comando aceptar. 6. pero en lugar de escoger el comando FDP y FDP centrada.

99904.12 cálculo de probabilidad acumulada en SPSS El resultado que se obtiene es de 0.Figura 8.13 Figura 8. 209 .10 Características de la función de la distribución de probabilidades de Poisson. Forma. y se aproximará a la simetría al crecer. puede generarse una distribución de probabilidad de Poisson específica. Cada vez que se especifica el parámetro λ. Una distribución de Poisson estará sesgada a la derecha cuando λ es pequeña. como se puede observar en la figura 8.13 resultados de cálculo de probabilidad binomial acumulada en SPSS 8.

por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ) Para aquellas situaciones en las que n es grande (mayor o igual a 20) y p es muy pequeña (menor a 0. es decir en la obtención de un listado teórico obtenido de un modelo matemático que represente algunos fenómenos de interés. Como una introducción al conocimiento de la distribución de probabilidad se puso como ejemplo la distribución de probabilidad uniforme. donde Xi toma los valores de 1 hasta n: µx = E(X) = . por lo que la desviación estándar 210 . La ponderación es la probabilidad asociada a i= 1 ∑ X i P ( X i) n cada uno de los resultados: σ = simplemente es su raíz cuadrada. cuando se usa como una aproximación a la distribución binomial. 2 ∑ (X i. la distribución de Poisson puede usarse para aproximar la distribución binomial.05). un listado empírico y un listado subjetivo.µ x ) P (X i ) 2 n i= 1 .Una propiedad de esta distribución es que la media y la varianza son iguales al parámetro λ. Sin embargo. el número de éxitos de n observaciones.11 Resumen Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de X finito o numerable. El desarrollo del contenido del capítulo se basó en los de primer tipo. 8. Existen tres formas de definir una distribución de probabilidad discreta: un listado teórico. la media o valor esperado es igual a la suma de los productos de Xi por la probabilidad de Xi. la suma de las probabilidades es igual a 1. como es la de lanzar un dado de 6 caras. la varianza de una variable aleatoria discreta es la suma de las diferencias entre cada resultado posible y su media al cuadrado ponderadas. claramente no puede exceder el tamaño de la muestra n. La variable aleatoria de la función de distribución de Poisson puede variar teóricamente de 0 a ∞. donde la distribución de probabilidad es de 1/6 para cada cara. la variable aleatoria de Poisson.

de un paquete estadístico. Cada observación puede tomar una de dos categorías: éxito o fracaso y el resultado de cualquier observación es independiente del resto de las observaciones anteriores o posteriores.12 Términos clave Distribución de probabilidad para una variable aleatoria discreta Esperanza matemática o valor esperado Varianza y Desviación estándar de una variable aleatoria discreta Valor monetario esperado Función de distribución de probabilidad discreta Distribución binomial Distribución de Poisson 211 . el cálculo de la probabilidad de ocurrencia se puede obtener de tablas previamente elaboradas. Los estadísticos de la distribución binomial se calculan como la media o E(X) = np. La distribución binomial se utiliza para analizar una población infinita sin reemplazo o una población finita con reemplazo.Dos modelos matemáticos o función de distribución de variable aleatoria discreta se estudiaron. la desviación estándar es igual a la raíz cuadrada de np (1-p). En ambas distribuciones de probabilidad: binomial y Poisson. o de la hoja de cálculo de Excel. la distribución binomial y la distribución de Poisson. longitud o área. El área de oportunidad debe reducirse de tal forma que la probabilidad de observar exactamente un éxito es estable. un intervalo continuo de tiempo. Una propiedad interesante de la distribución de Poisson es que la media y la varianza son iguales al parámetro λ. 8. la probabilidad de observar exactamente más de un éxito en el intervalo es cero y. la ocurrencia de un éxito en cualquier intervalo es estadísticamente independiente de que ocurra en cualquier otro intervalo. La probabilidad de Poisson se aplica en eventos discretos que ocurren en un área de oportunidad.

La probabilidad de éxito de una determinada vacuna es 0. Un tercer método de juego es apostar $1.. 3. En el juego de dados de sietes. el jugador puede apostar $1. Para esta apuesta. 2.Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas defectuosas. Aquí el jugador pierde un $1. 3 ó 2. el jugador perderá $1.00 sobre el resultado de 7.00 si el resultado es 7 y perderá $1. es decir 7. 11 y 12. De manera similar. b) Pruebe que la ganancia o pérdida esperada a la larga para el jugador es igual.00 si el resultado es igual o mayor que siete. Hallar la probabilidad de que al examinar 50 piezas sólo haya: a) una defectuosa b) cinco defectuosa 3.00 si no lo es.72. Calcula la probabilidad de a que una vez administrada a 15 pacientes: 212 . es decir 2.00 a que la suma es mayor que 7. 10.13 Problemas de repaso del capítulo 1. es decir. 9. 8. Para esta apuesta el jugador ganará $4. 11 y 12. 4 . el jugador puede apostar $1. 6.8. 9. 8.00 a que la suma es menor.. 5. se arroja una vez un par de dados y la suma resultante determina si el jugador gana o pierde su apuesta. 4.00 si el resultado es igual a 7 o menor. a) Forme la función de distribución de probabilidad que represente los diferentes resultados que son posibles para cada una de las modalidades señaladas en el párrafo anterior. Por ejemplo. sin importar el método que se utilice. 10. es decir 7.5 o 6.

. c) cuando más una imperfección en 15 minuto. b) 10 cheques sin fondos en cualquiera de dos días consecutivos. sólo comuniquen dos? 5.2. b) al menos dos imperfecciones en 5 minutos. la varianza y la desviación típica. Se envió un cargamento de 10. ¿cuál es la probabilidad de que.1. Los archivos del departamento de tránsito indican una media de cinco accidentes por mes en él. El número de accidentes está distribuido conforme a la distribución de Poisson.. ¿Cuáles son las probabilidades de que reciba..Si un banco recibe en promedio 6 cheques sin fondo por día. cuando se marquen 10 números de teléfono elegidos al azar.2 imperfecciones en promedio por minuto.002. 213 .Supóngase que estamos investigando la seguridad de un crucero muy peligroso.000 artículos a unos almacenes. el nuevo jefe del departamento quiere calcular la probabilidad de exactamente 0.Si se admite que un número de teléfono de cada cinco está comunicando.3 y 4 accidentes en un mes determinado..a) Ninguno sufra la enfermedad b) Todos sufran la enfermedad c) Dos de ellos contraigan la enfermedad 4.La probabilidad de que un artículo producido por una fábrica sea defectuoso es p 0.En la inspección de hojalata producida por un proceso electrolítico continuo se identifican 0. Determine las probabilidades de identificar a) una imperfección en 3 minutos. 6.. 8. 7. a) cuatro cheques sin fondo en un día dado. Hallar el número esperado de artículos defectuosos.

Distribuciones de probabilidad discreta Definiciones y propiedades Valor esperado E(X) Varianza σ2 Distribución Binomial Aproximación de Poisson a Binomial N≥ 20 P≤ .8.14 Mapa conceptual de modelos de distribución de probabilidad para variables aleatorias discretas.05 Distribución de Poisson 214 .

215 .Capítulo 9 La distribución normal ********************* Objetivo del Capítulo Propiciar la compresión del uso de la función de distribución de probabilidad normal de una variable continua y el uso aproximado para variables discretas.

216 .

el alumno será capaz de: 1. Al concluir el capítulo. Es.1 Introducción En este capítulo se estudiará la distribución de probabilidades más importante en Estadística. Esto se debe a dos razones fundamentalmente: Su función de densidad es simétrica y con forma de campana.9. la distribución normal. La distribución normal. es la distribución de probabilidad que con más frecuencia aparece en estadística y teoría de probabilidades. también llamada distribución de Gauss o distribución gaussiana. límite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas. lo que favorece su aplicación como modelo a gran número de variables estadísticas. además. Se hará énfasis en sus características y sus diversas aplicaciones. Comprender las propiedades de la distribución normal 2. Encontrar el valor porcentual que corresponde a cualquier punto debajo de la curva 217 .

2 La función de densidad de probabilidad de una variable aleatoria continua Las funciones de densidad de probabilidades continuas surgen de la medición de diversos fenómenos de interés como la estatura. La distribución de los eventos gráficamente se asemeja a una campana simétrica. No obstante.4 Propiedades de la distribución normal La distribución normal tiene varias propiedades teóricas importantes. La obtención de probabilidades para fenómenos continuos requiere del conocimiento matemático de cálculo integral.3. fuera del alcance de este curso. Saber cuándo y cómo utilizar una distribución normal como aproximación a las distribuciones de variable aleatoria discreta como la binomial y la de Poisson.33 desviaciones estándar. Las mediciones de tendencia central (media.3 La distribución normal La distribución normal se caracteriza porque los valores se distribuyen en forma de campana. alcance medio y eje medio) son idénticas. 9. se han construido tablas de probabilidad especial y se han creado programas de cómputo con el fin de eliminar los laboriosos cálculos matemáticos. 2. La dispersión media es igual a 1. dada la importancia de aplicación. moda. 9. 9. en torno a un valor central que coincide con el valor medio de la distribución: un 50% de los valores están a la derecha de este valor central y otro 50% a la izquierda. entre las que se encuentran las siguientes: 1. mediana. 218 . el peso. 3. el tiempo. La función de densidad de probabilidad de una variable continua más utilizado se le conoce como distribución normal o gaussiana.

cada que se modifique la media de la población µ o la desviación estándar σ se generará una distribución de probabilidad diferente. Para estandarizar el modelo matemático (reducir el modelo) se consideran 3 condiciones: 1. lo que propicia que exista un número infinito de combinaciones y se requerirá. 5. aunque en la práctica caerá entre los valores de ± 3 desviaciones estándar. un número infinito de tablas. Para hacer práctico el uso del modelo matemático se requiere estandarizar los datos originales. Una desviación estándar σz = 1. para el cálculo de probabilidades. La distribución normal estandarizada siempre tiene una µz = 0 y 3.4.5 El modelo matemático El modelo matemático que representa la función de densidad de probabilidad se denota mediante f (X)= 1 e-(½)[(x-µx )/σx ] 2π σx 2 Dado que e y π son números constantes. La variable aleatoria tiene un alcance teórico de ± ∞. 219 . transformar los valores de cualquier variable aleatoria de X a una variable aleatoria normal estandarizada mediante la fórmula: X-µ Z = σx x 2. La probabilidad de ocurrencia de un evento es igual a la frecuencia relativa 9. Bajo estas condiciones siempre se puede convertir cualquier conjunto de datos normalmente distribuidos a su forma estandarizada y determinar cualquier probabilidad deseada a partir de la distribución normal estandarizada.

es decir entre los siguientes: 114. Considerando. después de un entrenamiento. (150+1σ). que para efectos prácticos el total de las observaciones se distribuyen en ± 3 σ (desviaciones estándar) los valores posibles en segundos que los trabajadores tardarían en realizarlo serían: (150-3σ).1. 138. el analista estandarizó los datos normales –convirtió los valores reales a valores Z-. (150-2σ). 150. (150+2σ) y (150+3σ). un obrero tarda 150 segundos en realizarlo. (150-1σ). un analista de tiempos y movimientos de producción determinó que el tiempo promedio.1 220 .6 Ejemplo: En el montado de una pieza de un proceso de producción. 174 y 186. 126. como se puede observar en la tabla 9. Con el propósito de realizar un análisis de probabilidades.1 Estandarización de una variable aleatoria X La interpretación gráfica de la distribución normal estandarizada se puede apreciar en la figura 9. (150-0σ).9. 162. con una desviación estándar de 12 segundos. Tabla 9.

1 ilustra el polígono de frecuencias relativas para la distribución normal que representa el tiempo (en segundos) de montaje de todos los obreros. El diagrama en forma de campana de la figura 9.2 representa las probabilidades. La interpretación se ilustra en la figura 9.0. las probabilidades o proporciones totales bajo el área de la curva es igual a 1.13% del área total debajo de la curva. Por lo tanto. la pregunta sería ¿Cuál es la probabilidad de que el tiempo del obrero esté entre la media y una desviación estándar? La tabla 9. El valor de Z = 1 se localiza en la intersección de la fila con valor de 1. para los valores de Z. el analista desea determinar la probabilidad de que un obrero seleccionado aleatoriamente requiera entre 150 y 162 segundos para montar la pieza. la cual indica . Al usar la tabla se puede observar que todos los valores de Z deben de registrarse hasta con dos decimales. Los datos representan la población entera de la plana y por lo tanto.13% de probabilidad de que el obrero escogido aleato- 221 .Figura 9.00.0 y la columna con valor de .2 y representa el 34. Siguiendo con el ejemplo. equivalente al 34. Utilizando los datos estandarizados.1 Transformación de escalas de normal a normal estandarizada 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Uso de las tablas de probabilidad normal. el valor de interés del ejemplo será Z = 1.3413. es decir. para los valores de X estandarizados.

3 Comando de cálculo del valor Z en la hoja de cálculo Excel 222 .50 que corresponde a la primera mitad de la curva.2 Distribución normal estandarizada. Figura 9.50. se utiliza el comando F(x)/Estadísticas /DISTR.NORM.3413. Cada valor representa el área bajo la curva desde la media o Z= 0 hasta +3Z. Figura 9.riamente caiga en ese rango. área de interés: P (150 ≤X≤162 Área = . por lo que es necesario restarle el .3413 X-µ Z = σx x 12 =1 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Utilizando la hoja de cálculo de Excel. A . se obtiene el área de .ESTAND(1).8413 se le resta . que corresponde al área entre 0 y 1Z. se introduce el valor de Z y se obtiene el valor de la probabilidad acumulada.

3599 0.4573 0.4956 0.3849 0.4992 0.012 0.4929 0.4834 0.499 0.2 3.4162 0.0871 0.09 0 0.4977 0.4977 0.4948 0.4591 0.291 0.3438 0.497 0.4452 0.4949 0.485 0.2054 0.4997 0.3051 0.4719 0.4756 0.4953 0.4988 0.4292 0.2224 0.4997 0.1736 0.4177 0.4992 0.2881 0.4279 0.3315 0.4995 0.4798 0.379 0.3413 0.2794 0.4936 0.2823 0.2673 0.2257 0.4495 0.4821 0.4896 0.06 0.383 0.016 0.1179 0.08 0.499 0.4966 0.4991 0.4951 0.2 Distribución normal estandarizada: valores de área desde la media hasta Z Z/ 0 0.8 1.4525 0.3 1.6 1.475 0.3621 0.4971 0.3365 0.2642 0.2324 0.7 1.5 2.492 0.03 0.091 0.004 0.0517 0.3925 0.2291 0.4938 0.4515 0.3907 0.334 0.4633 0.01 0.4871 0.4115 0.1844 0.4984 0.4978 0.0832 0.4817 0.4911 0.4441 0.4744 0.3078 0.2019 0.4032 0.0438 0.4986 0.1 0.437 0.2995 0.4901 0.4332 0.4236 0.4726 0.4049 0.4803 0.4772 0.4656 0.4997 0.489 0.4995 0.4982 0.1331 0.4931 0.4554 0.4992 0.4838 0.4985 0.4793 0.1554 0.3186 0.4997 0.3749 0.4535 0.4545 0.3577 0.494 0.4996 0.1985 0.4738 0.4564 0.4996 0.499 0.1 3.4997 0.3389 0.Tabla 9.4922 0.2611 0.4994 0.4066 0.0948 0.4997 0.4972 0.4994 0.4484 0.4861 0.195 0.1217 0.4991 0.3665 0.3708 0.4887 0.17 0.4319 0.4986 0.3159 0.3485 0.4993 0.4706 0.4997 0.4916 0.4854 0.4306 0.2088 0.8 2.4996 0.4989 0.4713 0.0636 0.02 0.4857 0.4969 0.4868 0.1 1.2852 0.4693 0.4641 0.4732 0.258 0.4898 0.3 0.4649 0.4957 0.0279 0.7 2.4131 0.0319 0.4 1.1879 0.4959 0.4987 0.4967 0.3554 0.9 1 1.4955 0.3023 0.4981 0.4625 0.4265 0.1 2.3 2.4963 0.2357 0.4994 0.4996 0.4808 0.4406 0.2157 0.4474 0.1255 0.398 0.4982 0.3 3.1141 0.4995 0.4975 0.2939 0.4671 0.4962 0.3729 0.3962 0.4973 0.4686 0.04 0.4995 0.4997 0.4884 0.4988 0.4996 0.3944 0.4961 0.1808 0.4989 0.4927 0.5 1.4616 0.483 0.4964 0.1517 0.4995 0.2764 0.4875 0.4 2.4099 0.3643 0.3461 0.0122 0.0753 0.2123 0.498 0.4 0.4881 0.4945 0.1772 0.4994 0.3212 0.2734 0.4983 0.4979 0.3531 0.4 0 0.0199 0.4993 0.2422 0.0596 0.2517 0.4842 -0.0675 0.3686 0.4974 0.3264 0.1293 0.4994 0.3997 0.2 0.4778 0.2549 0.4429 0.4463 0.1591 0.4864 0.219 0.496 0.4664 0.1915 0.8 0.2 1.4788 0.05 0.3888 0.4943 0.4989 0.4251 0.4582 0.2454 0.4997 0.0557 0.4987 0.0239 0.4699 0.4147 0.4678 0.4932 0.4904 0.4991 0.1103 0.4906 0.0793 0.4608 0.4599 0.4783 0.07 0.4952 0.4382 0.3508 0.4984 0.1443 0.0478 0.3869 0.4893 0.4418 0.6 2.2389 0.1628 0.7 0.0359 0.4981 0.4812 0.3238 0.4993 0.377 0.5 0.4925 0.4941 0.2967 0.0987 0.1026 0.4976 0.4998 223 .4987 0.4015 0.4996 0.4968 0.4992 0.4946 0.3106 0.008 0.381 0.4965 0.4985 0.4192 0.3133 0.2486 0.1368 0.148 0.9 3 3.4918 0.4345 0.4995 0.4222 0.6 0.4505 0.4767 0.0398 0.4934 0.4826 0.1064 0.4913 0.4394 0.3289 0.2 2.4979 0.4909 0.1406 0.4357 0.4207 0.4997 0.0714 0.9 2 2.4846 0.2704 0.4974 0.4761 0.4082 0.1664 0.4993 0.

20327 0.00494 0.12714 0.0116 0.26434 0.00889 0.14686 0.10935 0.47209 0.48404 0.00008 0.00005 0.00004 0.00015 0.00035 0.02275 0.00453 0.00043 0.8 -1.00031 0.01017 0.02938 0.43644 0.00103 0.00007 0.00006 0.02442 0.00695 0.00289 0.00074 0.00003 0.37448 0.10383 0.00657 0.0548 0.00676 0.17361 0.00004 0.00004 0.01255 0.00066 0.04363 0.1335 0.00336 0.00022 0.00007 0.35197 0.02018 0.03288 0.03005 0.44828 0.4325 0.38209 0.0197 0.40516 0.02222 0.00016 0.01743 0.0024 0.0392 0.00011 0.9 -1.00006 0.00056 0.33359 0.15625 0.5 -1.00714 0.16354 0.00298 0.01578 0.5 -3.47607 0.00045 0.05821 0.39358 0.3707 0.04947 0.02743 0.00005 0.04551 0.00019 0.36317 0.015 0.06944 0.00036 0.00017 0.12924 0.00004 0.42074 0.00003 0.00126 0.00011 0.9 -2.4 -0.8 -0.00064 0.35569 0.0009 0.00005 0.0968 0.04272 0.01101 0.00003 0.00326 0.6 -1.32276 0.017 0.7 -1.00639 0.01659 0.00604 0.1 -2 -1.07353 0.0001 0.25462 0.02118 0.03362 0.00004 0.00154 0.00071 0.07 0.11314 0.14917 0.05938 0.07078 0.45224 0.00029 0.22965 0.02807 0.28774 0.00005 0.03216 0.36692 0.Tabla 9.07493 0.1 0 0.00248 0.30502 0.00866 0.08076 0.34826 0.28434 0.06057 0.23269 0.48006 0.3859 0.5 0.0778 0.00368 0.02872 0.00181 0.08379 0.00122 0.09 0.00002 0.00415 0.24509 0.01287 0.00111 0.0003 0.00009 0.11123 0.49601 0.06 0.00118 0.38974 0.24825 0.00084 0.10027 0.18406 0.00264 0.0002 0.00003 0.05 0.09176 0.22663 0.00256 0.2 -1.00734 0.00233 0.14231 0.08534 0.07214 0.0028 0.00014 0.00193 0.00466 0.13786 0.30153 0.0099 0.26108 0.00087 0.0505 0.00187 0.00047 0.17878 0.00002 0.02559 0.00006 0.35942 0.15386 0.26763 0.00022 0.00076 0.00272 0.0005 0.00032 0.08 0.8 -3.00082 0.40904 0.03593 0.00026 0.11507 0.20611 0.32635 0.18141 0.03 0.19215 0.06811 0.41683 0.1515 0.01191 0.4 -3.05262 0.01355 0.24196 0.00079 0.41293 0.06552 0.06681 0.03438 0.00009 0.00042 0.33724 0.00205 0.0048 0.00164 0.04456 0.03144 0.00003 0.001 0.00002 0.48803 0.00048 0.00021 0.30853 0.00842 0.7 -3.40129 0.01072 0.00003 0.00357 0.12302 0.00008 0.00175 0.01831 0.20045 0.46811 0.04181 0.4 -1.04648 0.04 0.22363 0.00317 0.00008 0.05705 0.0001 0.01 0.08226 0.8 -2.00007 0.00379 0.00939 0.00054 0.29116 0.11702 0.10204 0.27093 0.9 -3.31917 0.0044 0.0268 0.12507 0.31561 0.6 -3.32997 0.1 -3 -2.00391 0.06178 0.00621 0.0004 0.44038 0.9 -0.03673 0.16109 0.07927 0.16602 0.22065 0.00159 0.27759 0.09852 0.2 -2.00013 0.00013 0.2946 0.07636 0.42465 0.05592 0.0113 0.02169 0.04006 0.46017 0.02067 0.0233 0.37828 0.21769 0.00023 0.00307 0.04846 0.00107 0.00039 0.06301 0.02619 0.00554 0.00058 0.20897 0.08851 0.00017 0.00097 0.49202 0.00005 0.00135 0.7 -0.00964 0.3 -3.21185 0.00034 0.00024 0.00003 0.3 -1.04746 0.09012 0.01876 0.00427 0.25784 0.00006 0.00402 0.5 -2.27425 0.3 -0.28095 0.00169 0.21476 0.00226 0.00004 0.25143 0.13136 0.6 -2.15865 0.00003 0.17105 0.0139 0.46414 224 .14007 0.23885 0.09342 0.00008 0.29805 0.14457 0.34457 0.1 -1 -0.06425 0.0057 0.00014 0.39743 0.0082 0.00002 0.10565 0.0001 0.00012 0.31206 0.00139 0.00219 0.00755 0.2 -0.01923 0.03836 0.08691 0.01044 0.00114 0.00025 0.17618 0.119 0.00038 0.00018 0.00347 0.3409 0.2 -3.00212 0.00012 0.01426 0.0951 0.10749 0.121 0.01539 0.00062 0.00069 0.3 Distribución normal estandarizada: valores de área desde la media hasta –Z 0 -4 -3.03515 0.00523 0.3 -2.00508 0.01222 0.01786 0.0537 0.4562 0.00776 0.00052 0.19766 0.44433 0.03074 0.00914 0.05155 0.03754 0.04093 0.00015 0.00144 0.00131 0.18943 0.02385 0.42857 0.00094 0.23576 0.025 0.00199 0.6 -0.01321 0.00149 0.0006 0.18673 0.13566 0.01618 0.16853 0.00587 0.01463 0.00027 0.7 -2.00028 0.00019 0.02 0.00539 0.5 -0.19489 0.00798 0.4 -2.

por lo que el área de más de 162 segunda es igual a 225 . es decir 1-. La regla de complemento se aplica como 1(la probabilidad de que ocurra entre 150 y 162 segundos). tales como: 1.6587.9. ¿Cuál es la probabilidad de que lo haga entre 136 y 162 segundos? 3. ¿Cuál es el alcance intercuartil (rango en segundos) esperado para que los obreros monten la pieza? Respuestas a las preguntas Pregunta 1: Encontrar la P(X<150 o X>162).7 Aplicaciones Una vez conociendo el procedimiento y uso de la estandarización de una densidad de distribución normal se pueden resolver distintos cuestionamientos de probabilidad referentes a la distribución normal. Usando la tabla 9.3413 = .3. resulta ser el área total del lado izquierdo. ¿Cuántos segundos deben de transcurrir antes de que el 50% de los obreros monten la pieza? 6. que corresponde a . habrá que restarle el área que abarca los valores de 0 a 1Z. Para determinar la respuesta hay dos maneras de calcularla. ¿Cuál es la probabilidad de que lo haga en menos de 124 segundos? 4. ¿Cuántos segundos deben de transcurrir antes de que el 10% de los obreros monten la pieza? 7. se observa que el área bajo la curva normal de -4Z hasta Z = 0 es igual a .50. utilizando la regla de complemento o la regla de adición para eventos mutuamente excluyentes.50.3413. Ahora. ¿Cuál es la probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 150 segundos o en más de 162? 2. ¿Cuál es la probabilidad de que lo haga entre 114 y 138 segundos? 5. si el área total del lado derecho es igual a .

50 X-µ Z = σx x 12 =1 Área = .50 ..3413 = .1587. Esto es P(X<150 o X>162) = . c) Sumar la probabilidad de ambas. se obtiene la probabilidad de que se realice en menos de 150 segundos y se le suma a la probabilidad de que sea en más de 162.50. el área de interés podrá obtenerse en tres pasos: a) Determinar la probabilidad de la media a 162 segundos.6826. Como la tabla de cálculo o el uso de software sólo permite calcular la probabilidad de la media hasta un valor positivo o negativo de Z.3413.1587 = 6587.4 Figura 9.. Área = . el valor de la probabilidad de -1Z.5 que el área se encuentra entre los valores de Z igual -1 y Z igual a 1.50) –(.1587) = .50 + .3413.3413 Área = . El resultado se ilustra en la figura 9. Utilizando las tablas. es decir (. La suma de ambas áreas es de . el cálculo de la probabilidad de 138 segundos se obtiene de restarle a . 226 . Aplicando la regla de adición. Encontrar la P(138 ≤X≥ 162) Para encontrar el área de probabilidad que se encuentra entre los valores de 138 y 162. el primer paso ya se ha determinado anteriormente y tiene un valor de . b) Determinar la probabilidad de la media a 138 segundos. el segundo paso.1587 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Pregunta 2.4 Área de P(X<150 o X>162). se observa en la figura 9.

3413 X-µ Z = σx x 12 = -1 162-150 X-µ =1 Z = σx x = 12 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Pregunta 3.Otra manera de calcularlo es.17 Área = .6826.3415) = . se deduce que el área de 1Z es igual a el área de -1Z.3415) + (. Encontrar la P (X < 124) Para encontrar el área de probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 124 segundos.3 de los valores negativos de Z o directamente el la hoja de cálculo de Excel. primero tendrá que calcularse el valor de Z. El área puede observarse en la figura 9.6 Figura 9. podrá consultarse directamente en la tabla 9. entonces el área total será de (. sabiendo de la simetría de la curva de distribución normal. Figura 9.5 Área de P(138 ≤X≥ 162) Área = .3413 Área = .6 Área de P(X< 124) X-µ Z = σx x 12 = -2.0150 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala 227 .

Pregunta 4. Encontrar la P(124 ≤X ≤138). Para encontrar el área de probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza entre 124 y 138 segundos. Puesto que la tabla o la hoja de cálculo de Excel sólo permiten calcular el área desde la media hasta cierto valor de Z, la probabilidad de interés se podrá obtener en tres pasos. a) Determinar la probabilidad o área bajo la curva de la media hasta 124 segundos. b) Determinar la probabilidad o área bajo la curva de la media hasta 138 segundos c) Restar el área menor a la mayor para evitar doble conteo El área hasta 124 segundos corresponde al área entre la media y -2.17 Z, esto es .0150 El área hasta 138 segundos corresponde al área entre la media y -1Z, esto es .1587 La resta de áreas es igual a .1587 -.0150 = .1437, este resultado se puede observar en la figura 9.7 Figura 9.7 Área de P(124 ≤X ≤ 138)
Área = .1587- .0150=.1437

X-µ 124-150 Z = σx x = 12 = -2.17 X-µ 138-150 Z = σx x = 12 = -1 Área para -1Z = .1587

Área = .0150 puesto que Z = -2.17

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

228

Pregunta 5. Para determinar cuántos segundos transcurren antes de que el 50% de los obreros monten la pieza, debe considerarse la simetría de la curva de distribución normal, si la media es igual a 150 segundos y ésta se encuentra exactamente en la mitad de la curva, significa que el 50% de los obreros tardan hasta 150 segundos en montar la pieza. Pregunta 6. Para determinar cuanto tiempo transcurre antes de que el 10% de los obreros terminen de montar la pieza, se busca en la tabla 9.3 de valores negativos de Z, se busca en el interior de la tabla el valor que más se aproxime al .10 y se encuentra que es el valor de Z = -1.28, que es el valor estandarizado de X. Pero como lo que es de interés es el valor de X, ahora se utiliza la ecuación de estandarización en forma inversa, es decir, conociendo Z, ahora se estima el valor de X.

X-µ Z = σx x ;
150 + (-1.28)(12) = 134.64

µx+Z( σx) = X

Pregunta 7. Para obtener el rango intercuartil lo primero que se tiene que realizar es el cálculo de Q1 y Q3. Como el área debajo de la curva es simétrica y la densidad de la curva es igual a 1, entonces el primer cuartil se localiza desde la media hasta .2500 del área izquierda y el tercer cuartil de la media hasta el .2500 del área derecha, se localizan los valores más próximos a ella en las tablas 9.3 y 9.2. Se observa que los valores de Z son -.67 y +.67 respectivamente. Utilizando la ecuación anterior, se tiene que: Q1 = X = µx+Z(σx) = 150 + (-.67)(12) = 141.96 segundos Q2 = X = µx+Z(σx) = 150 + (67)(12) = 158.04 segundos El rango intercuartil es igual a Q3 – Q1 = 158.04 – 141.96 = 16.08 segundos.

229

9.8 Uso de distribución normal como una aproximación a la distribución binomial o a la distribución de Poisson Se ha dicho que la distribución binomial es simétrica, como la distribución normal, siempre que p = .5, mientras más grande sea el número de observaciones de la muestra n, y mientras más cerca se p de .5, más simétricamente será la distribución. Como regla general, cuando np y n(1-np) tengan un valor de al menos 5, se puede utilizar la distribución normal. Por lo tanto, para encontrar probabilidades aproximadas correspondientes a los valores de la variable aleatoria discreta X se utiliza la siguiente aproximación:

X-µ Z = σx x
Donde np = a la media de la distribución binomial

Z

Xa -np np(1-p)

np(1-p) es igual a la desviación estándar de la distribución binomial
Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa = ± .5 según sea el caso. Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una aproximación a la distribución binomial, de una muestra n = 1600 llantas, se obtienen aleatoriamente de un proceso continuo en el que la experiencia dice que hay 8% se producen con defecto. ¿Cuál es la probabilidad de que en esta muestra no más de 150 llantas sean defectuosas. Puesto de np = 1600 (.08)= 128 y n(1-p) es igual a 1600(.92) = 1,472 exceden de 5, entonces se puede utilizar la aproximación de la distribución normal.

Z

X a-np 1/2 np(1-p) = 150.5 – 128 /[(1600)(.08)(.92)] = 22.5/10.85 = 2.07

230

Usando la tabla 9.2 se observa que el área bajo la curva es de .4808, de tal forma que la probabilidad está dado por .5000 + .4808 = .9808. Por otro lado, la distribución normal también puede utilizarse como una aproximación al modelo de Poisson, siempre que el parámetro λ (número esperado de éxitos) sea igual o mayor que 5. Puesto que la media y la varianza de una distribución de Poisson son iguales a λ, se recuerda que: Una propiedad de esta distribución es que la media y la varianza son iguales al parámetro λ, por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ), por lo que

X-µ Z = σx x
Donde

Z

Xa -λ

λ

λ= a la media de la distribución Poisson

λ es igual a la desviación estándar de la distribución se Poisson
Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa = ± .5 según sea el caso. Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una aproximación a la distribución de Poisson, se considera que en una planta de producción el número de interrupciones de trabajo al día por problemas con el equipo es de 12. ¿cuál es la probabilidad aproximada de tener 15 interrupciones:

Z

Xa -λ

λ

15.5 -12.0/(12)1/2 = 1.01

El número ajustado de éxitos, es de 15.5, se observa que el valor del área debajo de la curva par Z = 1.01 es de .3438, si se le agrega el área del lado izquierdo de la curva que es igual a .50, se tiene que la probabilidad aproximada de tener 15 o

231

menos interrupciones en la planta por problemas del equipo, es de .8438, esta aproximación se acerca bastante a la probabilidad de Poisson exacta, que calculada tiene un valor de .8445. 9.9 Resumen La mayoría de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas, son continuas y se distribuyen según una función de densidad. La función de densidad más utilizada se conoce como distribución normal o distribución gaussiana. La característica principal de esta distribución es que su representación gráfica tiene forma de campana simétrica que ilustra la igualdad de los valores mayores y menores ponderados con respecto a la media. La ponderación de los valores está dada por la frecuencia relativa de las observaciones y es igual a la probabilidad de ocurrencia. Dado que la función de densidad de la distribución normal está dado por un modelo matemático que relaciona los valores de la media y la desviación estándar, existe un gran número de valores que representan la densidad de distribución de probabilidades como poblaciones existan con diferente media o desviación estándar:

f (X)=

1 e-(½)[(x-µx )/σx ] 2π σx

2

Para hacer práctica la aplicación de la función de densidad de la distribución normal, se requiere estandarizar los valores de Xi a valores Z, considerando a la media con un valor igual a cero y la desviación estándar igual a 1, el cálculo de los valores de Z se realizan mediante la fórmula:

X-µ Z = σx x
Una vez estandarizados los valores de Xi, los valores de Z, con valores prácticos de ±3, se define el área que corresponde a los valores de Z, ya sea utilizando la tabla de distribución normal o un paquete estadístico o la hoja de cálculo de Excel.

232

¿Cuál es la probabilidad de que un cojinete muestreado aleatoriamente esté? a) Entre la media solicitada y la media real.10 Términos clave Función de densidad de probabilidad Distribución normal o campana de Gauss Estandarización Valores Z 9. la función de densidad de la distribución normal.010 cm.912 cm. Por experiencia.Los valores de ±3Z. el . cubren un área de .9772 y ±1 desviación estándar. utilizadas para calcular la distribución de probabilidad de variables aleatorias discretas. c) Por arriba del límite superior aceptado. cubren el . ±2Z. Aproximaciones a la distribución binomial Aproximación a la distribución de Poisson 233 .Una pequeña empresa de diseño y fabricación de piezas mecánicas ha recibido un pedido de cojinetes de diámetro de 1.9 cm.025 cm.9974 del total de la densidad de la curva. Los límites de aceptación son ±. e) Por arriba de que valor de diámetro estará el 93% de los cojinetes. d) Por debajo del límite superior aceptado. es decir. b) Entre el límite inferior y el diámetro solicitado. es decir. el gerente de la empresa sabe que el valor esperado es 1. se puede aplicar como una aproximación de las distribuciones binomial y de Poisson. cuatro desviaciones estándar. 6 desviaciones estándar. y una desviación estándar de . 9. Bajo ciertas condiciones.6826..11 Problemas de repaso del capítulo 1.

43 kg.5 kg. semestre mide 1.02 litros. 5. 4. Con una desviación estándar de .90 y 2.05 litros. Menos de 1.0 litros.Se sabe que una de cada tres personas que entran a una tienda departamental hace al menos una compra.25 kg.. Entre 1. 6.Una alumna del 5º.10 litros.10 litros. Entre 2. 234 .. b y c? 3.06 m.0 litros. sabe que si los refrescos que distribuye no satisfacen el 95% del contenido neto. podrían ser multados por la PROFECO.90 litros o más de 2. Determine si la medida más inusual de la alumna es la estatura o el peso. a) ¿Qué proporción de las botellas contendrá? 1.70 metros y pesa 61. 2. b) Se espera que al menos el 90% de las botellas tuviera al menos cuánto refresco? c) Se espera que al menos el 90% de las botellas contuvieran simétricamente entre qué y qué cantidad? d) Suponga que en un esfuerzo de reducir el número de botellas que contienen menos de 1. 3. y una media de peso de 56.10 litros..Una empresa que distribuye refrescos embotellados de 2 litros con una desviación estándar de .90 y 2. Bajo esa circunstancia ¿Cuáles serían las respuestas para los incisos a.10 litros puede ocasionar derrames del líquido.05 y 2.65 metro con una desviación estándar de . 4.90 litros. Menos de 1. el embotellador calibra la máquina de tal forma que la media es ahora de 2. Entre 1.90 litros. Más de 2. también sabe que si el contenido es de 2.2. Si la media de estatura del grupo es de 1.

2. A lo más cuatro hagan al menos una compra. A lo más 40 hagan al menos una compra 5.a) Si se selecciona una muestra de n = 5 personas ¿cuál es la probabilidad de que? 1. Dos o más hagan al menos una compra. 30 o más hagan al menos una compra 2..¿Cuál es la probabilidad aproximada de que un estudiante apruebe un examen de 100 de cierto y falso si tuviera que adivinar cada respuesta? ¿Cuál es la probabilidad aproximada de que un estudiante obtenga exactamente 60 respuestas correctas en un examen de 100 preguntas de cierto y falso si tuviera que adivinar cada respuesta? 235 . ¿Cuál es la probabilidad aproximada de que? 1. b) Si se selecciona una muestra aleatoria de n = 81 personas.

9.12 Mapa conceptual de la distribución normal Distribución normal Propiedades Aproximación a distribuciones discretas Evaluación de supuestos Campana de Gauss Para binomial cuando np y n(1-p)≥ 5 Para la de Poisson cuando λ ≥ 5 236 .

Capítulo 10 Análisis de series ********************* Objetivo del Capítulo Mostrar como se puede estudiar la tendencia de crecimiento de un fenómeno. la producción. como los precios. etc. la población. 237 .

238 .

Una de los instrumentos que más se utilizan en el área de negocios es el análisis de series de tiempo o análisis de series históricas. la producción. así como para determinar su tendencia de crecimiento y realizar comparaciones con otros factores que estén relacionados. sino que algunos de ellos adquieren mayor mérito cuando se utilizan para comparar entre variables con diferente dimensión. Para facilitar tal tipo de análisis estadístico se han creado distintos instrumentos.10. todos los factores que tienen un crecimiento y desarrollo. la demanda. El análisis de series de tiempo abarca dos tipos: la construcción de números índice y análisis de patrones básicos. una de las principales preocupaciones de la Estadística es el análisis de cambio de las variables. El análisis de series históricas sirve para estudiar la tendencia de crecimiento de la población. tanto consideradas individualmente como en conjunto. las exportaciones y en general. no solo el para análisis individual de cada variable. 239 .1 Introducción Como ya se ha visto. Su propósito es el de determinar las tasas de crecimiento (negativo o positivo) de un factor en un momento dado con respecto a otro. las importaciones. el ingreso.

Existen muchos números índices que se pueden construir. como se verá más adelante. En general un número índice es aquella medida estadística que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de más de una en relación al tiempo o al espacio.66%. Los índices más habituales son los que realizan las comparaciones en el tiempo. los números índices son en realidad series temporales.500.500.00 = 1. el índice nos indica cuanto bajó la producción: 1250 piezas/ 1500 piezas = . el análisis sería: 240 .10.000. Los índices bien utilizados ayudan a corregir los objetivos y metas de la empresa. etc.000. por ejemplo los índices de producción.33% con respecto al mes pasado.500. es decir las ventas aumentaron en un 39% El mes pasado la sucursal “A” de la empresa vendió $12. los índices de clientes. por lo que. Un número índice es un número relativo con una base igual al 100% y se utiliza como un indicador de comparación de la variación de un número de un factor (factores) y otro número que representa ese mismo factor (factores) en otro lugar o en otro tiempo. Ejemplo.00/16.2 Construcción de números índice El problema de la comparación estadística se resuelve en buena manera mediante el uso de números índices. El mes pasado se produjeron 1500 piezas y este mes se produjeron 1250. los índices de ventas. Si este mes se vendió $23.8333 * 100% = 83. que es lo mismo que la producción se redujo en un 16.00 y la sucursal “B” $32.39 * 100 = 139%.00 entonces las ventas se comportaron de la siguiente manera: $23.00 y el mes pasado se vendió $16.000.

que refleja el poder adquisitivo de los valores nominales expresados en unidades monetarias.06% La elaboración de índices no solo determinar cual ha sido el ritmo de variación de esta magnitud en cada una de las dos áreas. lo que significa que la sucursal “B” vendió el 6.000.500.25 * 100%.00.00/32. Cuando 241 . Para este caso los números índice son de gran ayuda.000. sino que además posibilitan que se pueda realizar comparaciones entre ambas.39 * 100%. cantidades y valores Para fines de un estudio de mercado los índices más utilizados son los índices de precios.000. Del ejemplo anterior. pese a que ambas están expresadas en las mismas unidades de medida. la sucursal “A” apenas vendió el 39% de lo que vendió la sucursal “B” Cabe señalar que más de las veces la comparación en valores absolutos o reales en dos áreas geográficas diferentes no son válidos.500.00/$30.000. etc.00 = 1. Éstos son utilizados para deflactar (quitar la inflación) a los precios y a los ingresos.00/$10. Índices de precios. entonces. pues si se hubiera trabajado en términos absolutos.00 = 1. los gustos. entonces. los índices de cantidades y los índices de valores.000. ya que elimina la dimensión.00 = . lo significa que la sucursal “A” vendió 25% más.00 y la sucursal “B” $30. el ingreso. no sería posible comparar las dos variables. las preferencias. dado que cada área geográfica tiene diferentes características como la población. Sucursal “B”: $32.$12. pues las mismas hacen referencia a áreas geográficas muy diferentes. si la sucursal “A” vendió el mes anterior al próximo pasado la cantidad de $10.000. el análisis más apropiado es: Sucursal “A”: $12.066 * 100%.

8 22 . también se pueden construir de base fija.2 50 2. La construcción de los índices pueden ser simples.40 1.6 índice año anterior 1. se les denomina a preciso constantes del año base.66 .. 2002/2001.1 1.los precios no son deflactados.0 20 .0 30 1. se desarrollará los siguientes ejemplos: Ejemplo. leche y carne que se con- 242 . se les denomina a precios corrientes. cuando influyen varios factores. en eslabón.2006/2001 Índice en eslabón o año anterior: 2002/2001. Supóngase que los precios del café por kilogramo del país durante los últimos 6 años fue el siguiente: Tabla 10. compuestos.1 Precios e índices de precios del café veracruzano índice/año Precio base 25 1.2 1. Supongamos que se quiere construir los números índices simples y compuestos de precios. 2003/2002. 2003/2001. como el índice de precios al consumidor (varios artículos y varios precios).88 40 1.2006/2005 Ejemplo. cuando se les aplica el índice de deflactación con respecto a un año. 2004/2003. Éstos. ………. …………. cantidades y valores de los huevos. Para entender rápidamente su construcción. cuando sólo consideran un factor.81 Año 2001 2002 2003 2004 2005 2006 Para su cálculo se realizaron las siguientes operaciones: Índices de base fija: 2001/2001.

00 42.00 12.00 7.5 índice valor (1080/1000) 1.00 1950.2 (7/5 ) 1. colonia. transporte.3 Índices simples. Para un análisis más preciso del cambio del costo de la vida se debe considerar el costo de alimentación.00 600. cantidades y valor 2005.00 100 120 10 1000.sumió en un área geográfica (ciudad.8 Pero si se desea conocer el cambio relativo del costo de la vida.00 2690.08 (980/600) 1. En este caso y a manera de ejemplo sólo se considera la leche.2 Precios.63 (630/350) 1. Debe incluirse los precios de los artículos más representativos del gasto de la familia.00 5.16 (15/10) 1. entre otros. en los años 2005 y 2006. país). 2006/2005 Artículo Huevo Leche Carne índice precio (12/10) 1. 243 . incluso lo que oficialmente se llama “canasta básica”. vivienda. no debe de analizarse el cambio de un solo artículo. Tabla 10.00 350.00 Si se desea construir el índice de cambio de un solo factor.4 (42/35) 1. de acuerdo a los datos siguientes: Tabla 10.00 35.00 980. la carne y los huevos.2006 Año Artículo Huevo (docena) Leche (litro) Carne (kilo) 2005 Precio Cantidad Valor de Precio unitario vendida ventas unitario 10.2 índice cantidades (90/100) .00 630.00 2006 Cantidad Valor de vendida ventas 90 140 15 1080. estado. se puede realizar sólo dividiendo la cantidad del año analizado por la cantidad del año base.9 (140/120) 1.

08 Para calcular el índice de valor se utiliza la fórmula de Passche I valor 2006 = (ΣPn x Qn)/ΣPo x Qo = [ (12 x 90) + (7 x 140) + (42 x 15) ]/1950 = 1. 244 . fuente de preocupación para todos los agentes que intervienen en la economía.nivel de precios (año n-1) nivel de precios (año n-1) x 100 Lo sustantivo de esta definición es que el fenómeno en cuestión consiste en un aumento general y sostenido de los precios de todos los bienes y servicios tanto producidos como consumidos. y sigue siendo. La tasa de inflación es la tasa de variación del nivel general de precios y se expresa de la forma siguiente: Tasa de inflación año n = nivel de precios (año n) . quitando el peso específico de cada artículo por la unidad de medida o por la cantidad.26 IQL 2006 = (ΣQn x Po)/ΣPo x Qo = [ (90 x 10) + (140 x 5) + (15 x 35) ]/1950 = 1. Samuelson y Nordhaus (1999) la relacionan muy bien con el índice de precios cuando señala que un índice de precios es un indicador del nivel medio de precios. La inflación indica la subida del nivel general de precios.Para construir los índices de precios y de cantidades. tanto los privados como los públicos. Pero más que hablar de los efectos de la inflación lo más conveniente será definirla cuidadosamente.37 Índices de inflación y poder adquisitivo La inflación es un fenómeno económico de naturaleza monetaria que por sus consecuencias ha sido. se requiere utilizar la fórmula de los índices de Laspeyres: IPL 2006 = (ΣPn x Qo)/ΣPo x Qo = [ (12 x 100) + (7 x 120) + (42 x 10) ]/1950 = 1.

50) y sal (ponderación 0. Así pues. debido a que tiene mayor incidencia en el presupuesto familiar (mayor ponderación) que la sal. el primero afectará más el comportamiento del INPC. el índice que suele utilizarse de forma casi universal es el índice de precios al consumidor (IPC). se trata de buscar un índice de precios que recoja de forma adecuada el fenómeno de la inflación. la inflación reduce la capacidad de compra del dinero o poder adquisitivo del mismo. En México el Índice Nacional de Precios al consumidor INPC se elabora ponderando cada precio según la importancia económica del bien o servicio considerado para su cálculo. solo que agravada. la situación sería similar. euro.05). dólar. A tal efecto. La canasta básica del Banco de México está compuesta por 80 bienes y servicios 245 . Pero si en lugar de tratarse de un solo bien. Es decir.Ese incremento generalizado de precios tiene como consecuencia inmediata que la capacidad de compra del dinero se reduce de forma continuada. Por ejemplo. la cantidad de un bien que puede adquirirse con una unidad monetaria dada (peso.) es cada vez menor como resultado del incremento del precio de ese bien. Dicha encuesta proporciona los gastos asociados de los hogares en 580 bienes y servicios. Es decir. aunque el mismo tiene algunas limitaciones que no son del alcance de este libro. libra. si tomamos dos productos incluidos en la canasta básica del Banco de México: jitomate (ponderación 0. La canasta se obtiene a partir de la Encuesta de Ingreso-Gasto de los Hogares (ENIGH) emitida por el INEGI. la subida de precios afecta a todos los bienes de una economía. Con esta base el Banco de México selecciona algunos productos y servicios y los integra en una canasta básica y calcula el peso de cada uno en la construcción del INPC. a esto se le conoce como ponderación. La siguiente cuestión sería definir un instrumento estadístico que permita cuantificar esa subida generalizada de precios. etc.

agrupados en las siguientes categorías: alimentos. transporte. 246 . así como otros servicios. Según el contenido de esta tabla. con 100 pesos del año 2008 solo se podría comprar lo que en 2002 con 74. o lo que es igual. aparatos y accesorios domésticos. vivienda. el precio de ese mismo bien en el año 2008 era 134 pesos. educación y esparcimiento. Esto. Precios. Si el gasto total aumenta de un año a otro. dicho en otros términos.34 veces. el nivel medio de los precios en ese periodo de tres años creció por encima de . calzado y accesorios. INEGI En la Tabla10. ropa. salud y cuidado personal. Tabla 10.4 se recogen los valores medios anuales del IPC para México en el periodo 2006-2008 con base 2002. equivale a que si en 2002 un bien costaba 100 pesos.4 Índice de Precios nacionales y valor del peso Añ o b a s e 2 0 0 2 = 1 0 0 % Fuente: elaboración propia en base a Cuaderno de Información Oportuna. bebidas y tabaco. debe a dos fenómenos económicos: (1) la economía esta produciendo mas bienes y servicios o (2) los bienes y servicios están otorgándose a precios más altos. Estas cifras dan una idea bastante clara de cual ha sido la pérdida de la capacidad de compra del peso en México en tan sólo tres años. El PIB nominal y PIB real El Producto Interno Bruto (PIB) mide el gasto total en los bienes y servicios en todos los mercados de la economía de un país. muebles.

5 Tabla 10.246.198..672. INEGI 2008 Para realizar la comparación hay que seguir los siguientes pasos: 1.248.1672 Fuente: elaboración propia con datos del Banco de información sectorial.3477 0.5 PIB Nacional 1990 -1999 Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 PIB (Corrientes) 2.Cuando se quiere estudiar la evolución de la economía.927 16. El PIB real da respuesta a una pregunta hipotética: ¿Cuál será el crecimiento real del PIB? Para poder realizar un análisis del PIB real.282.677.Establecer el número índice base = 1 3.530 14.388.697. En concreto se requiere un indicador de la cantidad total de los bienes y servicios que están produciendo la economía que no se vea afectado por las variaciones de los precios de dichos bienes y servicios.694.2654 0.510.294.611.. en la serie de datos del PIB e inflación 1990-1999 obtenida del INEGI a precios corrientes se observa que el año 1994 es el que tiene menor inflación.701 5..2082 0.991 9.1590 0.586. se requiere escoger un año base de análisis.697.2284 0.Calcular los números índices en base a la inflación (variable conocida) a través 247 . utilizan un indicador llamado PIB real o PIB a precios constantes.699 Inflación 0. Por ejemplo.092.852 6.1558 0. Usualmente se escoge como año base el más estable de la serie. Para ello.801.0697 0.0978 0. se requiere considerar estos dos efectos.340 4.603 12.645.654.3526 0.750.709 4.560.Seleccionar el año base 2.027 3. por lo tanto puede seleccionarse como año base tabla 10.

de la fórmula: Inflación es = IPC(este año) menos IPC (del año pasado) entre IPC (año pasado).847 .IP1991)/ IP1991 Despejando: IP1991 = .0697 = (1 .1558 = (0.1558) = 0.IP1990)/ IP1990 Despejando: IP1991 = .2284) = 0.3526+1) = 1.7328 Para el cálculo del IP1990: Inflación 1991 = (IP1991 – IP1990)/ IP1990 = 0.93 .5965 Para el cálculo del IP1995: Inflación 1995 = (IP1995 – IP1994)/ IP1994 = 0. Para el cálculo del IP1993: Inflación 1994 = (IP1994 – IP1993)/ IP1993 = 0.3477+1) = 1.3477)/ 1.1.7328/(1.3477 Para el cálculo del IP1996: Inflación 1996 = (IP1996 – IP1995)/ IP1995 = 0.93 Para el cálculo del IP1992: Inflación 1993 = (IP1993 – IP1992)/ IP1992 = 0.IP1993)/ IP1993 Despejando: IP1993 = 1/(1.93/(1.847 Para el cálculo del IP1991: Inflación 1991 = (IP1992 – IP1991)/ IP1991 = 0.7328 .847/(1.0978 = (0.3477 Despejando: IP1995 = 1.2284 = (0. Dado que se conoce la inflación y el índice del año base se procede a calcular los índices de los años anteriores y posteriores del año base.3477 = (IP1995.3526 = (IP1996.IP1992)/ IP1992 Despejando: IP1992 = .1)/ 1 Despejando: IP1995 = 1*(.0697) = 0.8229 Para el cálculo del IP1997: 248 .3477*(.0978) = 0.

5525 Para el cálculo del IP1999: Inflación 1999 = (IP1999 – IP1998)/ IP1998 = 0.2024 Para el cálculo del IP1998: Inflación 1998 = (IP1998 – IP1997)/ IP1997 = 0.2024)/ 2.9792 • PIB nominal producción de bienes y servicios valorada a precios corrientes • PIB real producción de bienes y servicios valorada a precios constantes.5525*(.1590+1) = 2.1672+1) = 2.5525)/ 2. INEGI 2008 249 .2.2024 Despejando: IP1995 = 2.5525 Despejando: IP1995 = 2.Inflación 1997 = (IP1997 – IP1996)/ IP1996 = 0.2.8229)/ 1.8229*(.2024*(.8229 Despejando: IP1995 = 1.6 PIB Nacional 1990 -1999 ( mi l e s d e p e s o s a p r e c i o s d e 1 9 9 4 ) Fuente: elaboración propia con datos del Banco de información sectorial.1672 = (IP1999.1. Tabla 10.1590 = (IP1998.2082 = (IP1997.2082+1) = 2.

En México el indicador del desarrollo del mercado accionario es el índice de Precios y Cotizaciones (IPC). es decir. derivados) se pueden calcular diferentes tipos de índices. La finalidad de los índices bursátiles es reflejar la evolución en el tiempo de los precios de los títulos admitidos a cotización en Bolsa. Los índices pueden suponer agrupaciones parciales de valores (sectoriales) o globales (generales). calculado en función a las variaciones de precios de una selección de acciones balanceada. tendríamos que a precios corrientes el crecimiento fue de 16 282 611 699/ 5 248 801 852 = 3. Índices bursátiles Los índices bursátiles son números índices que reflejan la evolución en el tiempo de los precios de los títulos cotizados en un mercado. creció 210% más que 1994. La muestra de activos que componen el índice obedece a ciertos criterios de elección que en general tienen que ver con el volumen negociado y la capitalización bursátil.10 veces.04. En resumen tratan de reflejar el comportamiento de todos los valores que cotizan en la bolsa tomados en conjunto como si fuera una sola unidad. es decir apenas el 4% de crecimiento. ponderada y representativa del conjunto de acciones cotizadas en la Bolsa Mexicana de Valores. Dado que existen distintos tipos de títulos cotizados (acciones. 250 . Por ejemplo.La diferencia sustantiva entre el análisis del PIB a precios corrientes y del PIB a precios constantes radica en que a este último se le descuenta el efecto de la inflación. Sin embargo a precios constantes el crecimiento real fue apenas de 5 465 195 514/5 248 801 852 = 1. si quisiéramos analizar el crecimiento del PIB entre los años 1994 y 1999. aunque los más conocidos son los que se refieren a las acciones. Técnicamente son números índices temporales complejos y en la mayoría de los casos ponderados.

El peso relativo de cada acción se explica por su valor de mercado. es el resultado de la interacción de diversos factores dinámicos que pueden ser de tipo económico. En materia de análisis de los cambios de series de tiempo es importante. La fecha base es el 30 de octubre de 1978 = 100.7 Índice de precios y cotizaciones de la bolsa mexicana 10.La muestra empleada para su cálculo se integra por emisoras de distintos sectores de la economía y se revisa semestralmente.3 Análisis de patrones básicos Los cambios en los fenómenos sociales y económicos en el pasado pueden ser analizados en base a los cambios de sus patrones básicos a través del tiempo. político o de influencia social. Es decir. las más negociadas del mercado tanto por volumen como por importe. Los factores de cambio son los que se investigan y 251 . porque el conocimiento del pasado permite predecir con mayor exactitud el comportamiento futuro. Una serie de tiempo que representa una actividad particular. Tabla 10. se trata de un índice ponderado por valor de capitalización. Se consideran en él 35 series accionarias clasificadas como de alta y media bursatilidad. es decir.

Representan todo tipo de movimientos de una serie de tiempo que no presenten característica en forma de tendencia. estacional o cíclica. consumo.. estacional.. Variación estacional.4 Métodos de estimación de las tendencias Para el análisis de las series de tiempo se puede elaborar un manejo de datos al interior de cada período para determinar una cantidad que lo represente en forma de tendencia. los hábitos.Los fenómenos de variación estacional son movimientos periódicos que están influidos por las condiciones del tiempo. 10. se tendrá que realizar un análisis cualitativo que explique el comportamiento real: estacional. cíclica o irregular. entre otras. Las fuerzas que los motivan son principalmente factores económicos: niveles de inversión. 252 .. Estas son de difícil estudio. cíclico o irregular. entre otros. Adicionalmente. Éstos se presentan en forma de tendencia. Tendencia..Indican expansiones o contracciones de los movimientos alrededor de una cantidad normal. Movimientos irregulares. El movimiento puede ser de forma ascendente o descendente. las tradiciones. normalmente se hace a través de una línea recta o una curva. Cuando se muestra gráficamente.Los fenómenos de tendencia señalan la dirección del movimiento de una serie de tiempo sobre un largo período.estudian para la toma de decisiones. Fluctuaciones cíclicas. Tendencia lineal La estimación de una serie de tiempos se puede efectuar a través del método gráfico y el de los mínimos cuadrados. producción. gasto.

los valores que le corresponden a cada variable. con una escala apropiada en cada uno de los ejes. El análisis de regresión trata de la dependencia de las variables explicativas.1 Método gráf ico Método Gráfico 24 22 20 18 Y 16 14 12 10 -5 -3 -1 X 1 3 5 Regression 95% confid. Posteriormente se traza una curva que trata de pasar lo más cerca de cada uno de los puntos graficados. se grafica. con el 253 . en forma individual. estos explican la dependencia de una variable "Y" respecto de una o varias variables cuantitativas "X": En el Método de Mínimos Cuadrados Ordinarios se estudia una única ecuación con solo dos variables y con una regresión lineal.Método gráfico En un sistema de coordenadas X y Y. El método gráfico es un método rudimentario y debe ser considerado apenas como una aproximación. Figura 10. Métodos de mínimos cuadrados El Método de Mínimos Cuadrados Ordinarios es un modelo estadístico que hace parte de un grupo denominado Modelos de Regresión.

Recordemos que la fórmula general de una línea es Y = a + bX. Σ (YYm)2 es un mínimo. el método de los mínimos cuadrados ordinarios consiste en hacer mínima la suma de los cuadrados residuales.. desde el origen al punto de intersección de la línea recta con el eje de la Y) b = pendiente de la línea recta Para poder considerar el método de los mínimos cuadrados. variable dependiente. en donde: Y = valor de la ordenada de un punto sobre la recta. los que hacen posible que los estimadores poblacionales que se obtienen a partir de una muestra. a = intersección de la recta en el eje de las Y (altura de la ordenada. Este método de estimación se fundamenta en una serie de supuestos.La suma de las desviaciones de los valores individuales con respecto a la media es igual a cero Σ (Y-Ym) = 0.La suma de los cuadrados de estas desviaciones es un mínimo. es decir lo que tenemos que hacer es hallar los estimadores que hagan que esta suma sea lo más pequeña posible.Yi).. Pues bien. variable independiente. es decir tiende a cero. se tiene que recurrir a las 2 propiedades matemáticas de un grupo de valores de tendencia central.objeto de estimar y/o predecir la media o valor promedio poblacional de la variable dependiente en términos de los valores conocidos o fijos de las variables explicativas. que son: 1. Se trata de encontrar una recta que se ajuste de una manera adecuada a la nube de puntos definida por todos los pares de valores muestrales (Xi. 2. adquieran propiedades que permitan señalar que los estimadores obtenidos sean los mejores. Las de tendencia lineal son aquellos puntos que más se acercan a una línea recta. 254 . X = valor de la abscisa de un punto sobre la recta.

a . de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b Derivamos parcialmente la ecuación respecto de a: dG/da = 2∑ (Y. las constantes a y b en la ecuación general Y = a + bX.a .bX) (-X) = 0 -2 ∑ (Y – a – bX ) (X) = 0 ∑XY -a∑X – b∑X2 = 0 255 . mediante el método de mínimos cuadrados se requiere tener dos ecuaciones obtenidas de la primera derivada de a y de b: El procedimiento consiste entonces en minimizar los residuos al cuadrado Di² ∑Di = ∑(Yi-Ym)2 …reemplazando Ym por (a +bX) ∑ Di = ∑ [Yi-(a +bX) ]2 La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar: G= ∑ [Y-a -bX) ]2 Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero.bX) (-1) = 0 ∑Y – na -b∑X ) = 0 Y = na + b ∑X Primera ecuación normal 2 2 Derivamos parcialmente la ecuación respecto de b dG/db = 2∑ (Y.Para obtener la solución de las dos incógnitas.

2 Gráfico de dispersión 256 . se considera a ΣX = 0.. Supóngase una serie de datos de exportación de un bien a lo largo de 7 años.∑XY = a∑X + b∑X2 a = (ΣY)/n b = Σ (XY)/ ΣX2 Ejemplo. lo que significa que: I.8 Exportaciones de café mexicano (en miles de toneladas) Año 1994 1995 1996 1997 1998 1999 2000 Exportaciones 165 180 259 274 247 225 250 Figura 10.∑Y= na + b∑X II. Tabla 10..∑XY = a∑X + b∑X2 Segunda ecuación normal Con el propósito de simplificar la fórmula.

67 -23.78 263.78 -11.22 216.11 228 239. Y = 228+11.57 b = ∑XY/ ∑X 2 = 333/28 = 11.89 251.89 X -35.56 59.78 35.89 23.56 287.67 275.9 Cálculo de los parámetros a y b X -3 -2 -1 0 1 2 3 0 Y 165 180 259 274 247 225 250 1600 X2 9 4 1 0 1 4 9 28 XY -495 -360 -259 0 247 450 750 333 ∑X= 0 ∑Y= 1600 ∑X 2 = 28 ∑ XY= 333 a = ∑Y/n = 1600/5= 228.67 47.33 204.89 La ecuación de la rect a es de.45 Y 192.89X Los nuevos valores cal culados de Y se observan en la tabla 10.45 Figura 10.5 Tabla 10.Tabla 10.10 Nuevos valores de Y X -3 -2 -1 0 1 2 3 4 5 a 228 228 228 228 228 228 228 228 228 11.3 Línea de regresión 257 .89 0 11.

Figura 10. con los comandos Analizar /Regresión/mínimos cuadrado en dos fases.Utilizando el paquete estadístico SPSS.4 Menú de cálculo regresión lineal en SPSS 258 . se obtienen los valores de las constantes a y b al tiempo que calcula los nuevos valores para la ecuación de regresión. También calcula la proyección para los años siguientes dando un click en guardar.

Figura 10.6 Resultados de cálculo de los parámetros a y b a b 259 .5 Menú de selección de variable dependiente e independiente Figura 10.

Figura 10. que expresada en logaritmos queda Ln Y = nc + Xb Aplicando el método de mínimos cuadrados.7 Nuevos valores de la línea de regresión Nuevos datos calculados Tendencia exponencial En el caso de la tendencia exponencial la ecuación general es Y = ae bx . la población total del municipio de Victoria para el año 2010 y 2020 suponiendo que las condiciones que influyen en el crecimiento siguen igual. Los datos que se tienen son: 260 . de acuerdo a los datos estadísticos de INEGI. los dos parámetros desconocidos a y b pueden calcularse con las siguientes fórmulas básicas: ∑LnY= nc + ∑Xb ∑LnY * X = ∑Xc + ∑X2b a = ec Ejemplo: Se requiere estimar.

∑X. Victoria El primer paso es obtener los factores que integran las fórmulas básicas de cálculo.11 Datos históricos de población de Cd. para ello se tiene que generar la siguiente tabla: Tabla 10. como son: n.12 Cálculo de factores de ecuaciones básicas Ecuaciones básicas: ∑LnY= nc + ∑Xb ∑LnY * X = ∑Xc + ∑X2b 261 .Tabla 10. ∑LnY y ∑X2.

978 (e(.a = ec Sustitución de factores: 90. a través del modelo de regresión no lineal.978) (35. b = .35 = 36c + 204b Ahora se tiene dos ecuaciones con dos incógnitas que se pueden resolver en forma simultánea multiplicando la primera ecuación por -4. sería la población estimada para el 2010. para el 2020. sería: Y = aebx = 15. obteniendo: 421. 053.47. tal como se muestra enseguida.5) = 567.978 Sustituyendo los valores de a y de b en la ecuación general se tiene: Y = aebx = 15.7189. se puede obtener sólo con capturar los datos fuente y hacer click en el paquete estadístico SPSS. 8c = 77.35 = 36c + 204b -406.357)(9)) = (15.357)(10)) = (15.30 = 8c + 36b 421.357. 262 .978 (e(. se tiene que: 90.68 = 15. para el 2020.85) = 397. c= 9.274.35=-36c -162b.30 = 8 c + 36 (. si se suma a la segunda ecuación nos queda: 15 = 42b. La estimación exponencial. sustituyendo el valor de b en la primera ecuación.68 Por lo tanto a = ec = 2.357).978)(24.5.

8 Datos originales y menú de regresión no lineal.9 Selección de variables dependiente e independiente 263 .Figura 10. Figura 10.

Figura 10.11 Valores de la curva de regresión (calculados) nuevos valores de la variable La estimación a través del método de tendencia exponencial para períodos largos es algo inexacto debido a que considera la evolución total del fenómeno. que en la última fase puede cambiar sustancialmente.10 Hoja de resultados: valores de a y de b y gráfica de la tendencia curvilínea a b Figura 10. 264 .

más que realizar los cálculos matemáticos. años. El investigador deberá escoger el que más se acerque a sus pretensiones. Yo es la cantidad del período base. Existen métodos de ajuste para estimaciones más exactas. Para el caso de la población del municipio de Victoria. se utiliza la fórmula de interés compuesto: Yn = Yo (1 + t)n. pero están fuera de los propósitos de este libro.0238)20 = 421. Se puede aplica la fórmula Yn = Yo (1 + t)n. etc.0238 Para estimar la población para el año 2010 y 2020. sea éstos.063 (1 + 0. la tasa de crecimiento del último período se obtiene sustituyendo los valores de las poblaciones de 1990 y 2000.923 (1 +t)10. t = raíz décima de (263.Tasa anual de crecimiento Existe otra manera de realizar la estimación exponencial que considera la tasa anual de crecimiento entre un período dado.077 Si comparamos los valores calculados manualmente con los obtenidos con el paquete SPSS. sustituyendo los valores en la ecuación tenemos: 263. n se refiere a los 10 años del período. días. lo único que falta conocer es la t = tasa anual de crecimiento. 265 .0238 – 1 = 0. aquí sólo se trata de dar una idea general de los más usados y que pueden calcularse con el apoyo de programas de cómputo. donde Yn es la cantidad a calcular. t es la tasa de crecimiento del período y n es el número de períodos.821 Yn = Yo (1 + t)n.063/207. meses.063 (1 + 0. 263.0238)10 = 332. 263.923) – 1= 1. pero si existe diferencia entre el método exponencial y el de interés compuesto.063 = 207. se observará que no existe mucha diferencia.

266 . +1]: Si r = 0.5 Correlación. 13 Comparación de valores estimados obtenidos manualmente.077 10.Tabla 10. la correlación de Pearson es independiente de la escala de medida de las variables.Y) σX y σY las desviaciones estándar de las distribuciones marginales. A diferencia de la covarianza. El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables: Siendo: σXY la covarianza de (X.053 397. Estas pueden calcularse con la razón de correlación. El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. no existe relación lineal.622 421.821 2020 567. Pero esto no necesariamente implica una independencia total entre las dos variables. que la variación de una de ellas puede influir en el valor que pueda tomar la otra. por SPSS y de interés compuesto Valores Valores Valores obtenidos obtenidos en interés manualmente SPSS compuesto 2010 397. Pudiendo haber relaciones no lineales entre las dos variables.931 332.274 568. es decir. El valor del índice de correlación varía en el intervalo [-1.

existe una correlación positiva perfecta. Siguiendo con el mismo ejemplo de exportaciones de café mexicano. Si r = -1. como se puede observar en los siguientes cálculos utilizando el paquete estadístico SPSS.5. lo que significa se puede aceptar como válido el cálculo. existe una correlación positiva.Si r = 1. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta. Si 0 < r < 1. la otra también lo hace en idéntica proporción. Figura 10. existe una correlación negativa.12 Cálculo de índice de correlación con SPSS 267 . existe una correlación negativa perfecta. para aceptar como válida la línea de regresión calculada. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta. se requiere que el índice de correlación sea superior a 0. Si -1 < r < 0. la otra disminuye en idéntica proporción. El valor del índice de correlación de Pearson para este ejemplo es de .623.

38 Y X -r = -1.00 -r = 0.82 -r = 0. 10. el ingreso.57 Y X -r = 0. la producción. la demanda. . El análisis de series de tiempo abarca dos tipos: la construc- 268 .14.0 Y X -r = -0.Diagramas de correlación -r = 1.6 Resumen Y X Y X El análisis de series históricas sirve para estudiar la tendencia de crecimiento de las variables. las exportaciones y en general.00 Y X 10. las importaciones.13 Resultados del cálculo de índice de correlación Figura. todos los factores que tienen un crecimiento y desarrollo.Figura 10. tales como la población.

ción de números índice y análisis de patrones básicos. Afortunadamente con los paquetes de software estadístico como el SPSS se facilita su cálculo y estimación. Para el análisis de las series de tiempo se puede elaborar un manejo de datos al interior de cada período para determinar una cantidad que lo represente en forma de tendencia. Un instrumento estadístico que sirve de manera auxiliar para aceptar la relación de una variable dependiente con una independientes es el índice de correlación de Pearson. 269 . Los números índice se construyen para analizar el cambio de precios. Los número índice son números relativos que multiplicados por 100 representan el porcentaje comparado con una cifra original base. que es el cociente de la división de la covarianza de las variables en relación entre el producto de las desviaciones estándar de las mismas. sea para una tendencia lineal o curvilínea. Los hay simples y compuestos. El cálculo matemático para definir la línea o curva de regresión es más que complicado tedioso. En general un número índice es aquella medida estadística que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de más de una en relación al tiempo o al espacio. Adicionalmente. Para el análisis de la tendencia del comportamiento de una variable dentro de un período dado se puede realizar en forma gráfica y a través del método de mínimos cuadrados. cíclico o irregular. incluso la gráfica dela tendencia. se tendrá que realizar un análisis cualitativo que explique el comportamiento real: estacional. cantidades y valores. Alguno índices como los de INPC y el IPC de casa bolsa su elaboración es compleja.

10. una estimación del Producto Percápita de sus habitantes para los años 2005 y 2006. El gerente tiene los siguientes registros: 2.El gerente de una tienda de abarrotes desea saber en forma individual y de conjunto. Para su estimación cuenta con los siguientes datos: 270 . cantidades y valores de sus ventas del mes de octubre con respecto a las ventas del mes de octubre del año pasado... la variación en precios.7 Términos clave Índice de correlación Índice de Precios y Cotizaciones IPC Índice Nacional de precios al consumidor INPC Índices compuestos Índices simples Inflación Método de mínimos cuadrados Método gráfico Números índice Tasa anual de crecimiento Tendencia curvilínea Tendencia lineal Variable dependiente Variable independiente 10.8 Problemas de repaso del capítulo 1.La Secretaría de Desarrollo Económico y del Empleo del Gobierno del Estado desea realizar. con el método gráfico y el de mínimos cuadrados.

De manera general una cadena de tiendas comerciales quiere estimar la población de México para el año 2020.Se quiere ajustar una recta que exprese las ventas de una empresa en función de los gastos en publicidad que hace a lo largo de 6 años (millones de pesos): a) Elabore la línea de regresión que represente la tendencia de estas dos variables b) Verifique con el índice de correlación su validez c) La empresa quiere obtener 35 millones de ventas.3. Para hacerlo cuenta con los siguientes datos... ¿cuánto debería gastar en publicidad? 4. en 271 .

si en el año 2000. Población de México en millones de personas 5.millones de personas. de acuerdo a los datos del XII Censo General de Población y Vivienda había 2 753 222 habitantes y en el año 2005.. 272 . de acuerdo al Conteo de Población y Vivienda eran 3 024 238. Utilizando la tendencia exponencial y la de interés compuesto.Estime la población del estado de Tamaulipas para el año 2010. realice una estimación.

9 Mapa conceptual de análisis de series Análisis de series Números índice Métodos de estimación Índices de correlación Simples Compuestos Grafico Mínimos cuadrados Tasa de interés compuesto Tendencia lineal Tendencia Exponencial 273 .10.

274 .

Training Resources and Data Exchange (TRADE). Estadística Básica en Administración. conceptos y aplicaciones. Mark & Levine M.pdf 275 . México D. (1999) Economía.W y Hatt.terra. (1995). Manual de Estadística. (2003).net/cursecon/libreria/drm/drm-estad. Tomás. y Nordhaus.uba.cl/web/estadistica/index.S. Madrid. Goode. Disponible en: http://www. Disponible en: http://home. Consultas en Internet: Arsham. William D.htm. Editado por eumed·net.ucv. Disponible en: http://www. (1975). Editorial Trillas. Department of Energy. F. México D. Haber. Estadística aplicada. Disponible en: http://www.A. introducción a la estadística descriptiva. Safety and Health U.Bibliografía Berenson L. Hossein.eumed. ESTADÍSTICA: Prácticas de ordenador con SPSS para Windows.) Razonamiento Estadístico para Decisiones Gerenciales.S. How to Measure Performance: A Handbook of Techniques and Tools. Addison-Wesley Publishing Company.ubalt. ISBN: 84-688-6153-7.telefonica. and Runyon R. David.pdf Recursos educativos para profesores.htm Ruíz Muñoz David (2004). Disponible en: http://personal.pdf Jara. General Statistics. (1996). P.A. U.es/web/medellinbadajoz/sociologia/El_Cuestiona rio. McGrawHill/Interamericana de España.edu/ntsbarsh/Business-stat/opre504S. García Muñoz. Métodos de investigación social.ar/sautu/pdfs/manual-spss. (2002).fsoc. A.U. Samuelson. El cuestionario como instrumento de evaluación/investigación. Antonio. (1977).F.f. Exploración de datos. (2003). Marín Fernández. Prentice Hall. Paul A. Josefa. S.catedras. (s.

276 .

Apéndices Apéndice I: Repaso a matemáticas básicas Apéndice II: Glosario de símbolos Apéndice III: Glosario de términos Apéndice IV: Lista de fórmulas. 279 283 287 297 277 .

278 .

Apéndice I Repaso a matemáticas básicas Propiedades de las operaciones La operación de adición (+) o se escribe o es comutativa: o es asociativa: 279 .

o tiene una operación inversa llamada sustracción: . o o tiene un elemento neutro 1 que no altera la multiplicación: es distributiva respecto la adición: La operación de potenciación o se escribe o es una multiplicación repetida: ces) o no es ni conmutativa ni asociativa: en general o (n vey tiene una operación inversa. que es igual a multiplicar por el recíproco. tiene un elemento neutro 0 que no altera la suma: o La operación de multiplicación (×) o o se escribe: o es conmutativa: = o o o es asociativa: es abreviada por yuxtaposición: tiene una operación inversa. llamada división: . para números diferentes a cero. que es igual a sumar un número negativo. llamada logaritmo: 280 .

regularidad de la suma: trabajando con números reales o complejos sucede que si entonces .o o o o puede ser escrita en términos de raíz enésima: y por lo tanto las raíces pares de números negativos no existen en el sistema de los números reales. (Ver: sistema de números complejos) es distributiva con respecto a la multiplicación: tiene la propiedad: tiene la propiedad: Propiedades de la igualdad La relación de igualdad (=) es: reflexiva: simétrica: si transitiva: si entonces y entonces Leyes de la igualdad La relación de igualdad (=) tiene las propiedades siguientes: si y entonces y si entonces si dos símbolos son iguales. regularidad condicional de la multiplicación: si y no es cero. entonces . Leyes de la desigualdad La relación de desigualdad (<) tiene las siguientes propiedades: 281 . entonces. uno puede ser sustituido por el otro.

de transitividad: si y si y entonces si y entonces si y entonces entonces Regla de los signos En el producto de números positivos (+) y negativos (-) se cumplen las siguientes reglas: 282 .

Apéndice II Glosario de símbolos Operadores matemáticos ≠ < > ≤ ≥ diferente menor que mayor que menor o igual que mayor o igual que raíz cuadrada X n X elevado a la n potencia 283 .

N! │X│ N factorial. multiplica a N por todos sus componentes menores que él y mayores de cero valor absoluto de X. que es la relación de los valores de Y en X frecuencia hipótesis nula hipótesis alternativa iteración número de grupos o categorías 284 . desde X1 hasta Xn n ∑ n i= 1 Xi n X i media aritmética de la muestra X = ∑1 i= Letras griegas α β χ2 μ σ2 σ x-μ σ/√n probabilidad de cometer el error de tipo I. probabilidad de cometer el error de tipo II. nivel de significación. es decir rechazar la Ho cuando es verdadera. es decir sin signo sumatoria de todas las X. aceptar la Ho cuando es falsa Chi cuadrada media de la población varianza de la población desviación estándar de la población error muestral error estándar Letras en español a b f Ho H1 i k término constante en una ecuación de regresión pendiente de la línea recta.

proporción complementaria de p. Q = (1-p) primer cuartil.X ) ‾ i= 1 n . posición 75ª de la muestra coeficiente de correlación de Pearson coeficiente de determinación ∑ (X i. probabilidad.1 ∑ (X i.X ) ‾ i= 1 n .N n p p(A) p(A│B) Q Q1 Q3 r r2 n tamaño de la población (elementos que la componen) tamaño de la muestra (elementos que la componen) proporción.1 n 2 2 S = S = 2 varianza de la muestra desviación estándar de la muestra valores estandarizados t de student con (n-1) grados de libertad valores estandarizados para la distribución normal t(n-1) Z 285 . porción probabilidad de que ocurra el evento A probabilidad de A dado que ocurrió B probabilidad de que no ocurra un evento. posición 25ª de la muestra tercer cuartil.

286 .

Las primeras técnicas del análisis de varianza fueron desarrolladas por el estadístico y genetista R. A. en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas.Apéndice III Glosario de términos Abscisa. Fisher en los años 1920 y 1930s y es algunas veces conocido como 287 . el análisis de la varianza o análisis de varianza (ANOVA. se refiere al eje horizontal. comúnmente denominado eje de las Xs. En el plano cartesiano. Análisis de varianza. según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados.

ninguna relación de causalidad. del atributo o característica de una entidad.Anova de Fisher o análisis de varianza de Fisher. La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. adaptados a la naturaleza de los datos. algorítmica etc. Coeficiente de correlación. Dato. Correlación. que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar. es una representación simbólica (numérica. El dato no tiene valor semántico (sentido) en sí mismo. Existen diversos coeficientes que miden el grado de correlación. Ordenar los datos de acuerdo a su magnitud. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. debido al uso de la distribución F de Fisher como parte del test de significancia estadística. de su extremo izquierdo y de su extremo derecho. es decir. Asintótica. Que tiene relación con una línea recta. Arreglo de datos. pero convenientemente tratado (pro- 288 . alfabética. (del latín datum).). En Estadistica la usamos para definir a la curva de distribucion normal "Gaussiana" ya que es una curva o campana que nunca "pega" en su base y se le llama doblemente asintótica. El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton). La correlación entre dos variables no implica. por sí misma. Estudio de las características de la totalidad de las unidades que componen la población o universo. de menor a mayor o viceversa. Censo.

La información representa un conjunto de datos relacionados que constituyen una estructura de menos complejidad (por ejemplo. el peso específico de una sustancia. Es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población. Es el número de veces (ni) que aparece en el estudio el valor de una variable estadística Xi. 289 . Es una parte de la estadística que se dedica a analizar y representar los datos. con el objetivo de estimar o contrastar características de una población o modelo estadístico. pero fundamental en todo estudio. su poder inferencial es mínimo y debería evitarse tal proceder. Este análisis es muy básico. desde las ciencias de la salud hasta el control de calidad. un capítulo de un libro de ciencias). el número de habitantes de un país. derivada de un conjunto de datos de una muestra. a partir de una pequeña parte de la misma (muestra). Estadística. Es transversal a una amplia variedad de disciplinas. y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales.cesado) se puede utilizar en la realización de cálculos o toma de decisiones. Estadística inferencial. Es una medida cuantitativa. análisis e interpretación de datos. Estadística descriptiva. etc. desde la física hasta las ciencias sociales. La estadística es una ciencia con base matemática referente a la recolección. Frecuencia absoluta. la fecha de nacimiento de un personaje histórico. Estadístico. Aunque hay tendencia a generalizar a toda la población las primeras conclusiones obtenidas tras un análisis descriptivo. que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Ejemplos de datos: la altura de una montaña.

Por ejemplo. Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Rango utilizado para dividir el conjunto de posibles valores numéricos al trabajar con grandes cantidades de datos. Es la suma de las frecuencias absolutas de todos los valores menores o iguales que él. Se encuentran mediante la fórmula n-1. se representa como H1. la hipótesis nula se presume verdadera hasta que una evidencia estadística en la forma de una prueba de hipótesis indique lo contrario. Es el cociente entre la frecuencia absoluta y el tamaño de la muestra (n). n. Se representa como Ho. cuando se realizan operaciones con grupos y no con sujetos individuales). una hipótesis nula es una hipótesis construida para anular o refutar. Es el cociente entre la frecuencia absoluta acumulada y el número total de datos. Es una hipótesis de contraste (oposición) con la hipótesis nula. Se suelen representar con histogramas y con diagramas de Pareto. Intervalo de clase. En estadística. Es un estimador del número de categorías independientes en una prueba particular o experimento estadístico. La frecuencia absoluta acumulada del último valor es igual al número de datos. Hipótesis nula. Fi. Cuando se le utiliza. donde n = número de sujetos en la muestra (también pueden ser representados por k-1 donde k = número de grupos. si los valores 290 .Frecuencia absoluta acumulada. Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi) Frecuencia. Frecuencia relativa (fi). Frecuencia relativa acumulada (Fi). Grados de libertad. Hipótesis alternativa.

Par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. Media. 26-50. Es la raíz n-ésima del producto de todos los números. 51-75. una vez ordenados estos. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de 291 . Intervalo de confianza. 76-100 cuando el intervalo de la clase es 25. Es una medida cuantitativa. es igual a la suma de todos sus valores dividida por el número de sumandos. derivada de un conjunto de datos de una muestra. Formalmente. dividida entre la sumatoria de las ponderaciones. Media geométrica. de una cantidad finita de números es igual al recíproco. estos números determinan un intervalo. Media armónica. y el valor desconocido es un parámetro poblacional.están entre 1 y 100. Media muestral. Su cálculo se realiza a través de la sumatoria de los valores individuales de la variable multiplicados por la ponderación correspondiente. Es la medida de un conjunto de valores de una variable X a los que se han asignado pesos (ponderaciones). llamada media aritmética. que se calcula a partir de datos de una muestra. Representada H. Es el valor de la variable que deja el mismo número de datos antes y después que él. Media ponderada. Mediana. Es el promedio de medida de una característica (variable) de un conjunto de números. o inverso. se podrían definir grupos por medio de los intervalos 1-25. con el objetivo de estimar o contrastar características de una población o modelo estadístico. de la media aritmética de los recíprocos de dichos números.

comúnmente denominado eje de las Ys. bajo ciertas condiciones de confianza. rechazar la hipótesis nula cuando ésta es verdadera. El nivel de confianza y la amplitud del intervalo varían conjuntamente. También se conoce como la probabilidad de cometer un error de tipo I. En el plano cartesiano se refiere al eje vertical. que ofrece una estimación más precisa. resumir los valores individuales. La probabilidad de éxito que se desea obtener en la estimación se representa por 1 – α. Ordenada. Es el valor que cuenta con una mayor frecuencia en una distribución de datos. se representa por α. y analizar los datos a fin de extraerles el máximo de información. de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza). 292 . Moda. Nivel de confianza. y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. Método estadístico. dado un nivel de confianza (1-α). Muestra. Nivel de significación. La suma del nivel de confianza y el nivel de significación es igual a 1. Es la probabilidad de fallar en la estimación en el intervalo de confianza. representa las características de la población o universo. aumentan sus posibilidades de error. Porción de la población que. con el segundo cuartil y con el quinto decil. El conjunto de técnicas que se utilizan para medir las características de la información.los datos. mientras que para un intervalo más pequeño. es decir. La mediana coincide con el percentil 50.

Es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos. objetos o medidas que tienen características observables comunes. el valor absoluto de un número real es su valor numérico sin su respectivo signo.4 kg. en un espacio común. 2.64 m. Tercer cuartil. Región crítica. Variable continua. Primer cuartil. En matemática. como la media aritmética. la varianza o su desviación estándar.. Valor absoluto... Es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada). 1. en teoría permiten que siempre exista un valor entre dos cualesquiera.65 m.) o la altura (1. o en otras palabras. (1-β) es la probabilidad de no cometer un error de tipo II.3 kg. Por ejemplo el peso (2. que solamente está limitado por la precisión del aparato medidor. Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores. su distancia en la recta numérica hasta el valor cero. Es la proporción del área debajo de la curva que incluye los valores de rechazo de una hipótesis nula. es decir rechazar la hipótesis nula cuando esta es verdaderamente falsa y debería ser rechazada. sea este positivo (+) o negativo (-). 293 .66 m.5 kg.. Población o universo.). 2.Parámetro. 1. Es una medida definida sobre valores numéricos de una población. Potencia de prueba. independiente al lado que pertenezca. Número total de individuos.

294 . Variable. por ejemplo. moderado. Dentro de ellas podemos distinguir: Variables cuantitativas. talla. adoptando diferentes valores en cada uno de los casos de un estudio. Variable cualitativa ordinal. La variable puede tomar distintos valores ordenados siguiendo una escala establecida. leve. vector o número) que puede ser medida. 2. Las variables cualitativas pueden ser ordinales y nominales. Variables cualitativas. etc. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. 4.Variable cualitativa nominal. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. Es una característica (magnitud. Son las variables que se expresan mediante cantidades numéricas. Ejemplo: El número de hijos (1. edad. como el peso. características o modalidad. Variable discreta. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y no. aunque no es necesario que el intervalo entre mediciones sea uniforme. Variables dependientes. hombre y mujer o son politómicas cuando pueden adquirir tres o más valores. Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. longitud. En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. Son las variables que expresan distintas cualidades. temperatura. 3. 5). grave.

295 . Es la variable que sola o en compañía de otras inciden en el valor de otra. Los cambios en los valores de este tipo de variables determinan cambios en los valores de otra (variable dependiente).Variables independientes.

296 .

Cuartil 3 = Q3 = valor correspondiente a la posición 3(n + 1)/4 Varianza de la muestral = S2 = (X1 .Apéndice IV Lista de fórmulas Cálculo de medidas resumen Media = Rango medio = Xmenor + Xmayor n Cuartil 1 = Q1 = (n + 1)/4 de las observaciones ordenadas. Mediana = (n + 1)/2 de las observaciones ordenadas.X)2 + ………….X)2 ‾ ‾ ‾ n-1 297 . es igual a la mediana.+ (Xn .X)2 + (X2 .

pero tienen que ocurrir. es decir son colectivamente exhaustivos si uno de los eventos debe ocurrir.X ) ‾ Varianza de la muestra expresada en forma sintética: S2 = i = 1 n . donde cada evento conjunto no pueden ocurrir simultáneamente. eventos mutuamente excluyentes.) i= ∑ (X i . P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn). probabilidad simple.1 n 2 Coeficiente de variación = CV = n (S‾ ) X Media de la población = µ = Varianza de la población 2 ∑ fX i i= 1 N n 2 i µ σ = ∑1(X N. La probabilidad de A es igual a suma de sus probabilidades parciales. 298 .1 n 2 ‾ Desviación estándar de la muestra = S = ∑1( X i . donde X es igual al número de resultados en los que ocurre el evento y T es igual al número de resultados posibles. por lo que se les denomina.∑ (X i.X ) i= n . probabilidad de A.µ ) Desviación estándar de la población = σ χ = i = 1 N Coeficiente de variación de la población = CVpob = Error estándar Es = S/n½ Cálculo de probabilidades n 2 (σ ) µ P(A) = X/T.

µ x ) P (X i ) 2 n i= 1 Desviación estándar de la distribución de un variable discreta = σ = Distribución de probabilidad binomial: ∑ (X i.µ x ) 2 P (X i ) i= 1 n n! px(1-p) n-x x!(n-x)! 299 . regla de multiplicación. B2. = P(A y B) P(A|B) = P(A) y P(B|A) = P(B).P(AUB) = P(A) + P(B) . regla de adición. P(E) + P(~E) = 1. suma de probabilidad complemento. P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn). P(A|B) = P(A y B)/P(B) P(A y B) = P(A|B) P(B). P(A y B) = P(A) P(B) regla de multiplicación para eventos independientes. regla de independencia. regla de adición cuando A y B son mutuamente excluyentes. B3… Bn son eventos mutuamente excluyentes y colectivamente exhaustivos.P(A B). donde B1. Teorema de Bayes: P(B i|A)= P(A|B P(A|B i)P(B i) 1 ) P(B 1) + P(A|B 2)P(B 2)……+ P(A|B n) P(B n) Permutaciones = n!/(n-X)! Combinaciones = n!/X!(n-X)! Valor esperado de la distribución de un variable discreta = µx = E(X) = ∑ X i P ( X i) i= 1 n Varianza de la distribución de un variable discreta = σ = 2 ∑ (X i. P(AUB) = P(A) + P(B).

Distribución de probabilidad de Poisson: -λ x P(X = x|λ) = e λ x! 2 1 e-(½)[(x-µx )/σx ] Distribución normal: f (X)= 2π σx Estandarización de valores reales a valores Z: Z = X-µx σx Aproximación a la distribución normal de la distribución binomial. X-µ Z = σx x Cálculo de índices Z Xa -λ λ Índice de Precios Laspayere = IPL = (ΣPn x Qo)/ΣPo x Qo Índice de cantidades Laspayere =IQL 2006 = (ΣQn x Po)/ΣPo x Qo Para el índice de valor se utiliza la fórmula de Passche. IPQ = (ΣPn x Qn)/ΣPo x Qo Método de mínimos cuadrados: Y = a +bX a = (ΣY)/n b = Σ (XY)/ ΣX2 300 . X-µ Z = σx x Z Xa -np np(1-p) Aproximación a la distribución normal de la distribución Poisson.

Sign up to vote on this title
UsefulNot useful