P. 1
estadística I

estadística I

|Views: 8.615|Likes:
Publicado pormarkluiz

More info:

Published by: markluiz on Sep 15, 2011
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

07/30/2013

pdf

text

original

ESTADÍSTICA BÁSICA PARA NEGOCIOS

Conceptos y aplicaciones

Volumen I: Estadística descriptiva y Probabilidad básica.

Marco Luiz García

3

4

Prefacio Las generaciones anteriores a la era de las Tecnologías de la Información TI, crecimos con la afirmación de que los cursos de estadística eran complejos, aburridos, incomprensibles, tanto que eran verdaderas pruebas de resistencia, tenacidad y frustración. Los catedráticos de la materia se concentraban más en explicar los modelos matemáticos que en el uso y aplicación de los resultados. El propósito de esta edición es hacer que la Estadística sea un campo interesante de aplicación práctica en diversos aspectos de la realidad, especialmente en el área de negocios. Acorde con el propósito, el libro pretende ser una herramienta de aprendizaje y práctica, utilizando los paquetes de software estadísticos que realicen los complicados y laboriosos cálculos matemáticos. Específicamente se orientará al uso de la hoja de cálculo de Excel y del paquete estadístico SPSS, es decir, se trata de combinar los últimos avances de la Estadística y la Tecnología de la información. Se pretende que el aprendizaje de los estudiantes sea a través de diferentes problemas de la vida real, eliminando los ejemplos inventados o acontecidos en otros contextos que nada tienen que ver con nuestra realidad. En un intento de ser más pragmáticos, se omiten algunos temas que en el área de negocios raramente se utilizan y que sólo confunden y desesperan al estudiante. Es tiempo de terminar con la anacrónica manera de enseñar estadística, que enfatiza sobre el aprendizaje de modelos matemáticos y fórmulas de cálculo que hostigan a los estudiantes y los distrae del verdadero propósito del uso de la Estadística: proporcionar información para la toma de decisiones. Uno de los principales enfoques del libro es preservar y enfatizar sobre la distinción entre los parámetros de la población y los estadísticos de la muestra. La distinción es básica para el pleno entendimiento del uso de la Estadística como método para la toma de decisiones. 5

Acerca del contenido, se considera de suma importancia el aprendizaje de la Estadística descriptiva porque, además de ser una técnica de representación descriptiva de cualquier fenómeno, se considera como prerrequisito para entender y aplicar los conceptos y procesos de la Estadística inferencial. Más que el desarrollo de modelos y fórmulas matemáticas, se considera que la Estadística es un lenguaje que se puede leer e interpretar, por ello se agrega en la parte final un apartado de apéndices que contiene: un repaso a las matemáticas básicas, un glosario de símbolos y términos generalmente aceptados y una lista de fórmulas. Los ejercicios al final de cada capítulo son extremadamente importantes para que el estudiante pueda relacionar el marco teórico con la aplicación práctica, al tiempo que el estudiante descubre la utilidad del uso del método estadístico en el campo profesional en el que va a incursionar. El propósito último del contenido es que el estudiante sepa seleccionar las herramientas estadísticas apropiadas para la obtención y procesamiento de datos y cómo interpretar y entender los resultados de su esfuerzo.

6

Presentación Estadística Básica para Negocios, Conceptos y Aplicaciones, volumen I Estadística Descriptiva y Probabilidad Básica del Mtro. Marco Luiz García ve la luz bajo los mejores auspicios. Se trata de una obra en la que el autor aborda el estudio sistemático de la estadística y su aplicación práctica en los negocios en época moderna, como lo anuncia el título que es fruto de su larga experiencia como docente, consultor particular y estudioso de la materia objeto de este libro. Cuando la teoría y la praxis, además del estudio e investigación se conjugan, necesariamente da el nacimiento a un producto de calidad que cumple diversos objetivos, como lo señala el autor. En primer término, se logra una meta preestablecida que implica muchas horas de trabajo, investigación, reflexión, manteniendo la perspectiva hacia un propósito definido. De igual forma, esta obra del Mtro. Luiz García, está diseñada para utilizarse como libro de texto en la materia de estadística que imparte desde hace varios años en la Unidad Académica de Derecho y Ciencias Sociales “Lic. Francisco Hernández García” de la Universidad Autónoma de Tamaulipas, atendiendo una necesidad inaplazable de dotar al alumno de un instrumento de estudio integral, didáctico, económico, con ejemplos y sistemas modernos, que esgrimiendo la informática y el avance tecnológico de nuestros días, lo convierte en un texto fundamental para aprender los conceptos básicos de la estadística y su utilización en el diagnóstico y planeación de los negocios. Es de advertirse, sin necesidad de ser un especialista en la materia, que el autor utiliza un lenguaje técnico preciso, despojado de información innecesaria y que por lo mismo se traduce en un material sustantivo para la enseñanza de la materia estadística. Contiene el libro diez capítulos en los que abarca el contenido básico que permite al estudiante entrar en contacto de una manera más clara y directa con la enseñanza de esta disciplina, y además del basamento teórico le ofrece aplicaciones prácticas para su debida utilización.

7

es bienvenida una publicación como el que hoy ofrece el Mtro.En cualquier área del conocimiento. Ramiro González Sosa Abogado General de la UAT 8 . Luiz García. para sistematizar el análisis y la toma de decisiones en la marcha de la empresa. del que seguramente abrevarán muchas generaciones de estudiantes que lo adoptarán como un referente obligado en la didáctica de esta importante materia. Lic.

porque lo van a entender a la primera. Si los alumnos tienen cierta base matemática y/o estadística. es bastante halagador para los propósitos del libro. España. “Digo esto porque da la impresión que has hecho mucho hincapié en explicar las cosas de una forma muy sencilla y simple. Abusando de su amabilidad le pedí que revisara el contenido del libro y lo hizo en una forma profesional y diligente. actual Delegado Provincial del Instituto Nacional de Estadística y Delegado Provincial de la Oficina del Censo Electoral en Salamanca. que parece algo malo. para personas con poca preparación matemática. Esto.Agradecimientos. me parece estupenda la línea que has utilizado en la elaboración del texto. Carlos Hinojosa Cantú por darme la oportunidad de impartir las materias de Estadística Descriptiva y Estadística Inferencial que forman parte del pensum de la licenciatura de Negocios Internacionales. De igual manera y con la misma intensidad expreso mi agradecimiento al matemático y experto en estadística. De manera muy especial quiero manifestar mi agradecimiento al Lic. el texto les va a parecer muy simple. Por considerar importante sus observaciones. Así que puede ser estupendo según tus objetivos. a quien conocí circunstancialmente en un viaje que realicé a ese maravilloso país. me permito citar textualmente uno de sus comentarios. viniendo de un experto. Si esto es así. puede ser justo lo que tú persigues con la creación de este libro.” Este comentario. Cristóbal José Rojas Montoya. es decir. 9 . Su encargo me motivó a diseñar apuntes que fueran entendidos por los estudiantes que tienen formación preparatoria en las áreas sociales. recién creada en la UA de Derecho y Ciencias Sociales de la Universidad Autónoma de Tamaulipas.

10 .

CAPÍTULO 6. Características de la distribución de datos numéricos. CAPÍTULO 9. La distribución normal. CAPÍTULO 5. CAPÍTULO 10. El método estadístico. Presentación de datos categóricos en tablas y diagramas. 11 . Organización y presentación gráfica de datos. CAPÍTULO 2. Uso de paquetes estadísticos. CAPÍTULO 3.Contenido Resumido CAPÍTULO 1. Probabilidad básica. Elaboración de estudios estadísticos. Modelos de distribución de probabilidad para variables aleatorias discretas. CAPÍTULO 7. CAPÍTULO 8. CAPÍTULO 4. Análisis de series.

12 .

...... Realización de encuestas....8 1.7 1. Tipos de datos.9 1.2 2.. 37 13 .6 1.12 Introducción Tipos de estudios.4 2...Contenido detallado Prefacio 1.12 2. 17 2.4 1..... niveles de medición y escalas de medición. Mapa conceptual del término Estadística.3 2.5 1.3 1.6 2.2 1... El método estadístico…………………………. Problemas de repaso del capítulo.1 1.. Mapa conceptual de los estudios estadísticos. Resumen. 1.7 2. Términos clave Problemas de repaso del capítulo. Tipo de muestreo Uso de una tabla de números aleatorios..5 2. La obtención de datos...…………..11 2.8 2. Elaboración de estudios estadísticos….. Errores comunes en la aplicación de una encuesta Resumen. Términos clave. Definición del término “Estadística” División de la Estadística Términos comúnmente usados en Estadística Método Estadístico La Estadística y el uso de programas de cómputo.... Definición operacional.. 2..1 2.10 2...10 Introducción.9 2.

Términos clave. Definición de las variables de análisis. Diagrama de Pareto. Problemas de repaso del capítulo.4 4.5 3. Medidas de deformación.5 4.12 81 Introducción. Obtención de resultados. 5.2 4.7 4.1 3.3 5. Problemas de repaso del capítulo.2 5.9 3.11 Introducción Medidas de Posición de tendencia central.10 4. Diagrama de tallo y hojas. 3.1 5. 4. Características de la distribución de datos numéricos……. 14 131 .3 4.8 4.1 4. Tabla de datos originales sin orden y ordenados. Mapa conceptual de organización y presentación de datos numéricos.11 3. Resumen. Medidas de dispersión: varianza y desviación estándar.2 3. Edición de datos. Organización y presentación gráfica de datos numéricos………………………………………………….6 4.7 3.4 5.3.8 3.4 3. Resumen. Histograma o diagrama de distribución de frecuencias. Uso de la desviación estándar.3 3. 4. Tabla y polígono de porcentaje acumulado. Cálculo de mediciones descriptivas de la población.6 3.10 3.5 Introducción. Captura de datos. Análisis de 5 puntos y gráfica de caja de sesgo. mapa conceptual de distribución de datos numéricos 99 5.9 4. Uso de paquetes estadísticos………………………………. Tabulación de datos numéricos: distribución de frecuencia. Polígono de frecuencias. Términos clave.

Resumen. Espacio muestral y tipos de eventos.1 6. Presentación de datos categóricos en tablas y diagramas… 6. Mapa conceptual de probabilidad. Distribución de Poisson. 8.8 7.. Varianza y desviación estándar de una variable discreta.9 8..7 7..3 8.8 8. Ejemplos: Funciones de distribución de probabilidad discreta.6 Tabla de frecuencias.3 6. Elección de la gráfica apropiada.10 7..5.3 7.. Valor esperado de una variable discreta.4 Introducción.. Tabulación de datos categóricos.6 7. Distribución Binomial. Tabla de contingencia o de datos cruzados.9 7.4 7.10 8.1 8..2 6.11 Introducción.7 8.5 8. Problemas de repaso del capítulo. 143 7.4 8. Características de la función de la distribución de probabilidades de Poisson. Modelos de distribución de probabilidad para variables aleatorias discretas……………………………. 15 .. Formas de examinar el espacio muestral..11 187 Introducción Definición del concepto. Características de la distribución binomial.6 8. Resumen. 155 8.5 7. Probabilidad simple y probabilidad conjunta. 7. 6.1 7.2 7. Criterios de probabilidad: subjetivo y objetivo.. Términos clave. Principios fundamentales para enumerar... Teorema de Bayes..2 8.. Probabilidad básica……………………………….

Ejemplos. Resumen Términos clave.10 9.3 9. Análisis de patrones básicos Métodos de estimación de las tendencias Correlación Mapa conceptual de análisis de series 237 Bibliografía APÉNDICES 275 277 16 . Mapa conceptual de modelos de distribución 9. 10.2 9. La función de densidad de probabilidad de una variable aleatoria continua.13 8.1 10.5 9..12 8.9 9. Mapa conceptual de la distribución normal 10.3 10.12 215 Introducción.6 Introducción Construcción de números índice. La distribución normal.11 9. 9.1 9. Análisis de series………………………………………….14 Términos clave. El modelo matemático.6 9.2 10. Aplicaciones.7 9.8 9.5 10.4 10.4 9. Uso de distribución normal como una aproximación a la distribución binomial o a la distribución de Poisson. Propiedades de la distribución normal. Problemas de repaso del capítulo.. La distribución normal……………………………………. Problemas de repaso.8.

particularmente en el área de negocios 17 .Capítulo 1 El método estadístico ********************* Objetivo del Capítulo Presentar una visión general del concepto de Estadística. su evolución y aplicación.

18 .

El significado anterior supone que los números manipulados bajo ciertas normas pueden representar cualquier cosa que tengamos en mente. créditos y así. por lo tanto. impuestos. muertes. deudas. 1 hocus pocus: apócope de Hoc est corpus meum que los paganos.1 Introducción Si se le preguntara al hombre de la calle qué significa para él el término Estadística. O también podríamos escuchar decir que la Estadística es una simple recolección de datos. La palabra estadística a menudo nos trae a la mente imágenes de números apilados en grandes arreglos y tablas. La Estadística nos auxilia a construir indicadores para la toma de decisiones. La Estadística es mucho más que números apilados y gráficas bonitas. Es una ciencia con tanta antigüedad como la escritura. de volúmenes de cifras relativas a nacimientos.1. a través del tiempo relacionaron con palabras mágicas que se decían durante la comunión y que se fue reduciendo a hocus pocus. que no entendían latín. 19 . se puede considerar como auxiliar de todas las demás ciencias. la medicina. ingresos. la administración. poblaciones. es decir. producción. La economía. largamente podremos enumerar su aplicación en fenómenos naturales y en todas las actividades del hombre. en la mayoría de los casos se obtendría respuestas como “Estadística es “hocus pocus1 con números”. control de calidad. es un lenguaje.

las ciencias sociales. los datos deportivos. como todas las ciencias. Sabrá de la existencia de paquetes estadísticos de cómputo disponibles para el cálculo de medición estadística. la inflación. Lo anterior 20 . En el área de negocios. no surgió de improviso. los índices de accidentes. datos escritos. El tema de la estadística moderna abarca la recolección. 2. Comprender el significado de los diferentes términos estadísticos: población. como de restos arqueológicos. la ingeniería. etc. Cada día de nuestra vida moderna está significado por datos estadísticos relacionados con el mercado de valores. lo que facilita su uso sin profundizar el conocimiento de los modelos matemáticos que los sustentan. muestra. desde hechos de simple recolección de datos hasta la diversidad y rigurosa interpretación que se da hoy en día. El significado de la palabra “Estadística” y la aplicación del método estadístico. Así pues. dato. el desempleo. variable aleatoria. entre otros. encuesta. Apreciar la utilidad de los estudios enumerativos y analíticos. censo. se basan fundamentalmente en la aplicación de la estadística. presentación y caracterización de la información que contribuya tanto para el análisis como para el proceso de toma de decisiones. sino mediante un proceso largo de desarrollo y evolución. la ausencia de estadísticas conlleva un caos generalizado. La evolución de la Estadística La Estadística. el alumno podrá comprender: 1. Al término del capítulo. deja a los administradores y ejecutivos sin información relevante que fundamente la toma de decisiones en tiempos de incertidumbre. 3. 4. la administración pública. entre otros. el origen de la Estadística se remonta a los comienzos de la historia y esto se sabe tanto a través de crónicas.la biología.

de expresarme en términos de Número. el desarrollo de modelos matemáticos que representan la realidad y la probabilidad del acontecer de fenómenos (sucesos). producción. “En lugar –dice.de usar sólo palabras comparativas y superlativas. no sólo saber el número de habitantes. Petty no sólo enseñó con su práctica y preceptos cómo se deben de recopilar y manejar los datos. Sir William Petty expone un punto de vista completamente nuevo para la investigación económica. 1969: 92). en su obra Political Arithmetick escrita probablemente en 1672 y publicada en 1690.) y. de usar sólo argumentos de sentido y de tomar en cuenta únicamente las causas que tengan fundamentos visibles en la naturaleza” (Roll. ingresos. Así. etc. con su perfecta organización política. éstos pasaron a ser base constitucional del gobierno. Históricamente el desarrollo de la Estadística moderna se debe a dos fenómenos totalmente separados: La necesidad del gobierno de conocer las características de su población (número. he tomado el camino…. podemos señalar que en Roma. pero fue bajo Antoninos que la declaración de nacimientos adquirió una verdadera institución legal que era necesaria hacerla ante el "prefecto del erario" en el templo de Saturno y no después de 30 días de nacimiento. cuántos esclavos.es explicable porque en ese tiempo se estaba recién formando la sociedad y era algo inherente a la necesidad de saber cosas elementales como: cuántos habitantes tiene la tribu. sino que puso 21 . Peso y Medida. salud. A finales del siglo XVII. jurídica y administrativa favoreció para el desarrollo de la Estadística. educación. Bajo el mandato de Servio Tulio. edades. Con la caída del Imperio Romano las estadísticas se pierden en Europa. y argumentos intelectuales. etc. con cuántos bienes cuenta. bajo la civilización árabe. Una muestra es el Censo que se realizaba cada 5 años y que tenía por objeto. sino también su cantidad de bienes. También en un inicio se llevaba un registro de nacimientos y de fallecimientos. floreciendo más.

Fisher.Primera Fase: Los Censos.. La formulación matemática de la teoría de la probabilidad se da en la investigación de juegos de azar en la época del Renacimiento. no fue hasta principios del siglo XX que los estudiosos como Pearson. Estos y otros matemáticos como Bernoulli..Tercera Fase: Estadística y Cálculo de Probabilidades. DeMoivre. se trata de los primeros intentos de entender las relaciones entre la población y la economía. Con las aportaciones del matemático francés Blaise Pascal y de Chevalier de Mere se dieron las bases para el cálculo de la probabilidad. se puede afirmar que no sólo es el fundador de la economía política sino también del uso de la estadística como método de investigación. Gosset. ante esta contundente evidencia de primacía. Aritmética política y títulos similares. La evolución del uso de la Estadística se puede distinguir en tres etapas: 1. que establece que el progreso de una economía se aprecia fundamentalmente a través del creciente volumen de la población que se dedica a los servicios. Fue el creador del termino pleno empleo y formulador de la Ley de Petty. Neyman. Wald y Tukey sentaron las bases de desarrollo de los métodos de la estadística inferencial que actualmente se aplica en los diversos campos de la investigación en nuestra actualidad. 2. y Gauss fueron los precursores de la estadística inferencial..Segunda Fase: De la Descripción de los Conjuntos a la Aritmética Política. 3. Petty es mejor conocido por sus escritos de historia económica y estadística previos al trabajo de Adam Smith. 22 . Sus trabajos más famosos son los de tipo demográfico. Sin embargo.en su debido lugar la investigación de los hechos en relación con el análisis teórico.

La Estadística que conocemos hoy en día debe gran parte de su realización a los trabajos matemáticos de aquellos hombres que desarrollaron la teoría de las probabilidades. Fue Godofredo Achenwall. esta etimología aumenta el valor intrínseco de la palabra. Para comprender las tendencias de costos en la contabilidad. Creía. con la cual se adhirió a las ciencias formales como una ciencia aliada. que extrajo al parecer del término italiano statista (estadista). Uso de la Estadística en el área de negocios Contabilidad Seleccionar muestras de registros contables para fines de auditorías. La raíz remota de la palabra se halla. profesor de la Universidad de Gotinga. y con sobrada razón. al provocar en éstas. que significa estado o situación. se ha demostrado que el determinismo fue reconocido en la Física como resultado de las investigaciones atómicas y que este principio se juzga aplicable tanto a las ciencias sociales como a las físicas. quien acuñó en 1760 la palabra estadística. en el término latino status. la investigación de las leyes de comportamiento de ciertas variables que intervienen en un fenómeno cuyo valor. por cuanto la estadística revela el sentido cuantitativo de las más variadas situaciones. por otra parte. particularmente en la rama denominada indeterminismo o relatividad. Finanzas 23 . gracias a la Estadística se han puesto de manifiesto. Es por esta razón que la estadística se presenta como un poderoso auxiliar de las distintas ciencias y técnicas. Los progresos más recientes en el campo de la Estadística se refieren al ulterior desarrollo del cálculo de probabilidades. que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente.

Para analizar las tendencias de las medidas financieras de la empresa. Para conocer los gustos. Para segmentar el mercado por área geográfica. Producción Para controlar y mejorar los estándares de calidad del producto. distribución y consumo de bienes y servicios a nivel internacional) obliga a las empresas a poner mayor énfasis en la competitividad de sus productos servicios. diferenciación de producto. Para conocer el nivel de desempeño. el predominio de la economía global (producción. Mercadotecnia Para conocer el mercado potencial del producto y definir el mercado objetivo. por tipo de cliente. del mercado financiero y del mercado bursátil. precio. Para conocer las fuerzas demográficas y económicas del entorno de la empresa. 24 . Para desarrollar modelos de pronóstico de éstas medidas. puntos de venta. Para definir estrategias de mercado: publicidad. tipo de mercado. preferencias y demanda del consumidor. Para controlar y mejorar la productividad de la planta. La Estadística y la competitividad empresarial En los albores del siglo XXI. con el propósito de incrementar las ventas y la rentabilidad.

es necesario lograr niveles elevados de calidad y productividad que permitan operar con una rentabilidad meritoria. atención a nuevos clientes. 25 . tanto dentro como fuera del país. etc. Para ello. La interpretación adecuada de los resultados incluye el reconocimiento de que los datos son substancialmente variables y que su pertinencia y empleo permiten tomar decisiones para mejorar un estado actual. El antecedente más antiguo fue la Dirección General de Estadística (DGE) la cual fue creada en 1882. como es la información sobre clientes. Parte fundamental de la práctica gerencial que procura la competitividad es la aplicación de ciertos métodos estadísticos y su adecuada interpretación de resultados. Geografía e Informática (INEGI). En 1895 se levantó el primer Censo de Población. diferenciación del producto. publicaciones gremiales o especializadas) Con el propósito de coordinar los Sistemas Nacionales Estadístico y de Información Geográfica. estándares de calidad. mejoramiento de la calidad. etc. producción. haciendo que sus productos sean útiles y atractivos. Datos gubernamentales. atención a nuevos mercados. características de la materia prima. mejoramiento de precios. proveedores. costos.Se entiende por competitividad a la capacidad de las empresas de producir bienes y servicios en forma eficiente (con costos decrecientes y calidad creciente) y eficaz. la población y la economía de México. con autonomía técnica y administrativa.relacionada con su negocio. mejoramiento de costos. La competitividad exige que las empresas conozcan toda la información -interna y externa. características de la competencia. el gobierno federal cuenta con el Instituto Nacional de Estadística. órgano desconcentrado de la Secretaría de Hacienda y Crédito Público. sea sobre producción. características de los sistemas de logística. y brindar el servicio público de información estadística y geográfica sobre el territorio. innovación.

a la vivienda. procesar. instituciones de educación o investigación.INEGI genera estadísticas de cobertura nacional. regional. el INEGI tiene que ver con la realización de encuestas referidas a la población. empresas especializadas en el sector. Además de información estadística creada por las instituciones gubernamentales. al gasto familiar. estatal y local de temas como: estadísticas sociodemográficas. fabricación. Con tantas aplicaciones del término Estadística parece imposible obtener por consenso una sola definición. estadísticas ambientales.2 Definición del término “Estadística” Los estudiantes confunden comúnmente los demás términos asociados con las Estadísticas. 1. estadísticas económicas. y cada cierto tiempo realiza estudios sobre el índice de precios. el 10% de los clientes de supermercados pagan con tarjeta de crédito). Además de su requerimiento constitucional de realizar los censos de población y vivienda. sin embargo. transporte. entre otros. es posible hacer una distinción entre las definiciones comúnmente aceptadas. analizar y presentar la información pertinente de un estudio. Esta última es la razón del libro. estadísticas de género. agropecuarios y económicos. 26 . existen varias publicaciones especializadas en datos industriales o comerciales específicos creadas por organizaciones gremiales. b) También se utiliza para referirse al conjunto de técnicas y métodos que se utilizan para obtener. estadísticas de ciencia y tecnología. una confusión que es conveniente aclarar debido a que esta palabra tiene dos significados: a) En primer término se usa para referirse a la información procesada (siete de cada diez personas prefieren comprar jabón de la marca X que de la marca Z. medios de comunicación.

en la presentación de datos en forma medidas resumen. Para muchos. la Estadística se ha dividido en dos grandes ramas: la Estadística Descriptiva y la Estadística Inferencial. Esta definición enfatiza la visión de que la estadística es una herramienta relacionada con la colección. Como consecuencia. Estadística Inferencial: se deriva de muestras. en general. presentación y caracterización de un conjunto de datos con el fin de describir apropiadamente las diversas características que distinguen a ese conjunto de datos (Berenson & Levin. sin intentar inferir nada que vaya más allá de los datos. la 27 . sean éstos obtenidos a través de observaciones directas o a través de otros datos. la Estadística es la ciencia auxiliar de todas las ciencias. 2004: 3). También es considerada como un método de relación con esos datos (Ibíd.). de tablas y de gráficas. análisis e interpretación de datos numéricos con el fin de realizar una apropiada toma de decisión (Muñoz. esto es.3 División de la Estadística Para su mejor estudio. organización presentación. demográficos. La estadística descriptiva puede definirse como aquellos métodos que incluyen la recolección.La estadística es considerada como la colección de datos numéricos los cuales son expresados en términos de cuentas resumidas. La estadística. de observaciones hechas sólo acerca de una parte de un conjunto numeroso de elementos y esto implica que su análisis requiere de generalizaciones que van más allá de los datos. (Haber y Runyon. es la ciencia que trata de la recopilación. Tal es el caso de los censos económicos. 1. 1996: 3). 1977: 6). entre otros. organización y análisis de datos numéricos u observaciones. Estadística Descriptiva consiste sobre todo. como tales. de vivienda.del fenómeno en estudio mediante medidas resumen. Ésta comprende cualquier actividad relacionada con los datos y está diseñada para resumir o describir las características – variables.

1. La Estadística inferencial investiga o analiza una población partiendo de una muestra tomada. costos. representados en la figura 1. sexo. (Ibíd.característica más importante del reciente crecimiento de la estadística ha sido un cambio en el énfasis de los métodos que describen a métodos que sirven para hacer generalizaciones.) Para entender ambas definiciones.4 Términos comúnmente utilizados en estadística Variable: una característica o fenómeno que puede obtener diferentes valores. temperatura. son ejemplos de variables. Peso. ventas. 1. es necesario conocer el significado de los términos utilizados. talla. Fig. 28 . Una variable es diferente a una constante. basándose sólo en los resultados de la muestra. al menos no dentro del contexto o situación para el cual está previsto. que no puede modificarse.1 Funciones del an álisis estadístico Población (total de alumnos de la UAMFHG) Datos (observaciones) Estadística descriptiva Muestra (selección de algunos alumnos representativos del total de alumnos de la UAMFHG) Estadística inferencial 1. ingreso. la cual nunca cambia de valor. La Estadística inferencial puede definirse como aquellos métodos que hacen posible la estimación de una característica de una población o la toma de una decisión referente a una población.

estatura y peso de una persona. Variables cuantitativas: son las variables que se expresan mediante cantidades numéricas. Los cambios en los valores de este tipo de variables determinan cambios en los valores de otra (variable dependiente). Por ejemplo. requie- 29 . Victoria y que tienen entre 12 y 36 años. todas las personas que viven en Cd. Los datos pueden ser de naturaleza numérica o categórica. duplicaciones. Variable aleatoria: valor de la característica o fenómeno específico de una observación escogida al azar. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. Dato: números o medida que se obtienen a través de obtener la dimensión de la variable en una observación. enorme volumen de información. Éstos pueden ser enumerados por unidades o acumulación de puntos. Variables dependientes: son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes.Variables cualitativas: son las variables que expresan distintas cualidades o características. toda la población de Tamaulipas. en un espacio común. todos los estudiantes de la UAT. omisiones. 65 kilogramos de peso.65 metros de altura. 1. Variables independientes: Es la variable que sola o en compañía de otras inciden en el valor de otra. Las variables cuantitativas además pueden ser discretas o continuas. Población o universo: el número total de individuos. Censo: Cuando se estudia la totalidad de las unidades que componen la población o universo. Todos los mexicanos. objetos o medidas que tienen características observables comunes. son los datos de las variables de edad. Desventaja: errores de observación. noubicación (no medibles) del encuestado. 25 años de edad.

Para su representación. Estadísticos: son las medidas resumen resultantes. El objetivo de la encuesta sería describir las características (variables: edad e ingreso) de toda la población (parámetros).σ). Muestra: una porción de la población que. bajo ciertos procedimientos específicos. que significan la media y la desviación estándar de la muestra. 30 . suponga que se quiere investigar. instalaciones). La muestra sería sólo aquellos estudiantes que se seleccionaron para participar en el estudio. Parámetros: los valores de las características observadas (variables) que representan a la población o universo. misma que tendría que ser representativa de todas las licenciaturas y de todos los semestres. se puede decir que la estadística inferencial es el proceso de utilizar la estadística muestral para sacar conclusiones acerca de los parámetros de la población. representa las características de la población o universo. Por lo tanto. la edad y el nivel de ingresos de los alumnos de la UADYCS. La población o el universo en este caso serían todos los estudiantes inscritos en el período vigente. Para relacionar estas definiciones con un ejemplo. Los censos de población y vivienda que realiza el INEGI es un buen ejemplo.S). personas. dinero.ren enormes recursos para su elaboración (tiempo. mediante una encuesta. generalmente se utilizan letras itálicas (ejemplo: X . Generalmente se utiliza el alfabeto griego para representarlas (ejemplo: µ. que significan la media y la desviación estándar de la población respectivamente. Los estadísticos se utilizan para estimar los parámetros de la población a través de una muestra. bajo ciertas condiciones de confianza. La descripción se obtendría a través del uso de estadísticos obtenidos de la muestra. de los datos originales obtenidos en una muestra.

producción.5 Método estadístico El conjunto de técnicas que se utilizan para medir las características de la información. es lo que se llama métodos estadísticos. Recopilación de la información existente Para conocer la dimensión del problema es necesario consultar la información histórica interna o externa que esté relacionada con el problema que requiere aten- 31 . Los métodos de análisis para la información cuantitativa se pueden dividir en los siguientes seis pasos: 1. rendimientos. etc. importaciones. oferta. satisfacción del cliente. sea porque no se tiene acceso a toda la población. 2. Presentación. Definición del problema En el ámbito de los negocios. Definición del problema. 3. resumir los valores individuales. como inflación. y analizar los datos a fin de extraerles el máximo de información.El uso de estadística inferencial surge de la necesidad de muestrear. costos. 5. paridad monetaria. Obtención de información original. 4. precios. inventarios. índices de crecimiento. 6. análisis de puntos de venta. los problemas tienen que ver con ventas en cantidad y valor. número de clientes. sea porque la población es muy grande y en consecuencia obtener sus características es muy tardado o muy caro. control de calidad. y todas las variables del entorno que afecten directa e indirectamente a la empresa. demanda. Recopilación de la información existente. Análisis. consumo. Clasificación. 1. exportaciones.

estos datos.1 que se observa en la próxima página. tendremos que consultar la información existente que produce INEGI. el nivel de educación. el gasto familiar. la tabla1. tendremos que consultar los registros contables. por períodos o por ubicación geográfica de tal manera que tenga una ponderación adecuada para su análisis. como los precios de la competencia. tal como el tamaño de la población. Clasificación La información obtenida. 32 . las ventas por productos. las preferencias del consumidor. Obtención de información original. existente y original. que se convertirán en información. Por ejemplo. se requiere de conocer información que no existe y que hay que generar. Presentación La información clasificada se presenta a través de tablas y gráficas que pueda interpretarse. por zona geográfica. se obtienen en forma directa a través de la observación. Siguiendo con el mismo problema de ventas. por ejemplo: las ventas de huevo disminuyó en un 10% en unidades. Si el problema es de mercado.ción. si hablamos de un problema de ventas. se clasifica por estratos. las características de los productos. el ingreso. los de inventarios. etc. pero en precio aumentó un 20% en precio por lo que resultó un aumento del 8% en el valor de lo vendido. la edad de la población. Análisis de la información De los datos clasificados y presentados se pueden derivar una serie de análisis. por ejemplo. etc. la experimentación y la encuesta.

00 2005 Unidades Valor Vendidas ventas 100 120 10 1. el desarrollo del curso considera. académica y de investigación.00 1. 10.00 2. Así.00 2006 Unidades Valor Vendidas venta 90 140 15 1. El predominio de la economía global obliga a las empresas a poner mayor énfasis en la competitividad.950. Coloquialmente se puede decir que la Estadística es la ciencia auxiliar de las ciencias.080. el alumno tendrá acceso a los paquetes estadísticos como el STATISTICA.00 600.00 980.00 42.00 7. Es aplicable a una amplia variedad de disciplinas.6 La estadística y el uso de programas de cómputo El uso de paquetes de cómputo para el cálculo estadístico es cada vez más común en la comunidad empresarial.000. usada también en la toma de decisiones en áreas de negocios e instituciones gubernamentales.7 Resumen La estadística es una ciencia matemática que se refiere a la colección. se pondrá mayor atención al uso de métodos estadísticos apropiados y análisis de resultados que a la teoría matemática subyacente a los métodos. 33 . 1.Tabla 1.690. Bajo esa premisa. desde la física hasta las ciencias sociales.1 Precios y cantid ades vendidas en 2005 -2006 Artículo Huevo (docena) Leche (litro) Carne (kilo) Precio Unit. Parte fundamental de la competitividad es el pleno conocimiento e adecuada interpretación de la información relacionada con el entorno interno y externo de la empresa.00 Precio Unit 12. el SPSS o la hoja de cálculo de Excel. estudio e interpretación de los datos obtenidos en un estudio. que para realizar los análisis estadísticos de práctica.00 630.00 350.00 35.00 5.00 1.

para usarlos correctamente. series de tiempo y tendencias de datos. Resúmenes gráficos incluyen varios tipos de figuras y gráficos. descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). visualización y resumen de datos originados a partir de los fenómenos en estudio. estadísticas criminales. la estadística descriptiva y la estadística inferencial. Estas inferencias pueden tomar la forma de respuestas a preguntas si/no (prueba de hipótesis). Actualmente. Ejemplos básicos de descriptores numéricos son la media y la desviación estándar. de ahí que la estadística se divide en dos áreas de estudio. Hay también una disciplina llamada estadística matemática. Otras técnicas de modelamiento incluyen ANOVA. la cual se refiere a las bases teóricas de la materia. pronósticos de futuras observaciones. entre otras. La estadística inferencial. que se dedica a la generación de los modelos. que se dedica a los métodos de recolección. estadísticas de salud. La aplicación del método estadístico se utiliza para describir y para inferir las características del objeto de estudio. el uso generalizado de sistemas de cómputo ha simplificado la realización de estudios estadísticos. como en estadísticas económicas. descripción. Los datos pueden ser resumidos numérica o gráficamente. La palabra estadísticas también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos. derivaciones y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. La estadística descriptiva. las hojas de cálculo y los paquetes estadísticos son de extraordinaria ayuda.La aplicación del método estadístico en la realización de estudios estadísticos actualmente es imprescindible. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población de estudio. estimaciones de características numéricas (estimación. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. se requiere utilizar los cono34 .

Describa una aplicación de la estadística en la investigación médica o en la administración de la salud. 6. ello ayudaría a reducir los errores de digitalización. Describa una aplicación de la estadística en los deportes 3.9 Problemas de repaso del capítulo En los siguientes ejercicios. Describa una aplicación de la estadística en economía o finanzas. describa una aplicación específica e identifique la población y los parámetros que son de interés principal del estudio.cimientos adquiridos en este capítulo. Describa el Método estadístico. cálculo y análisis. Describa la diferencia entre la estadística descriptiva y Estadística inferencial. 7. Describa una aplicación de la estadística en el área de publicidad y mercadotecnia. 1. Describa una aplicación de la estadística en la administración de empresas 4.8 Términos clave: Dato Estadística Estadística descriptiva Estadística inferencial Estadística moderna Estadístico Muestra 1. 1. 2. Parámetro Población Universo Variable Variable aleatoria Variable cualitativa Variable cuantitativa 35 . 5.

10 Mapa conceptual del término Estadística E S T A D Í S T I C A Origen Aplicación Significado • Comienzos de la historia • Siglo XVII • Siglo XX • Necesidades de Gobierno • Desarrollo de modelos de representación • Soporte de todas las ciencias • Información procesada • Técnicas y métodos para el manejo de datos Estadística moderna Descriptiva Inferencial Método estadístico: Definición del problema Recopilación de información Clasificación Presentación Análisis 36 .1.

especialmente los que se requieren elaborar para los negocios y la importancia de obtener buenos datos 37 .Capítulo 2 Elaboración de estudios estadísticos ********************* Objetivo del Capítulo Mostrar la importancia de diseñar un estudio estadístico.

de cualquier tamaño o complejidad deben de medir en forma permanente el nivel de desempeño a través de conocer información sobre costos. Pero también debe conocer de los cambios que ocurren en el medio ambiente en que se desarrolla. ingresos percápita. necesidades. 38 . competencia. económica y de predicción. dónde se deben realizar los cambios de adaptación a las nuevas exigencias de mercado. Estos cambios no pueden ser implementados sin el conocimiento de la información apropiada pertinente.2. tales como población. gustos.1 Introducción Las organizaciones modernas enfrentan gran complejidad para su buen funcionamiento. etc. cantidad. calidad. preferencias. cuándo. es que en el mundo globalizado que operan cambia constantemente y presenta nuevos desafíos y amenazas. eficiencia de productos. servicios y procesos. Existe la necesidad permanente de adaptarse al cambio. productividad. oportuna. Las organizaciones modernas y competitivas. tanto en las entradas como en las salidas y en el proceso de transformación. veraz. Los administradores de las organizaciones modernas tienen la responsabilidad de conocer cómo. precios. Una de las razones por las cuales las organizaciones modernas son complejas. suficiente.

5. Aún y cuando cada organización tiene diferentes necesidades de estudios estadísticos. procesamiento y presentación de información. cómo se clasifican. Conocer los diferentes tipos de datos. Saber diseñar un cuestionario con preguntas objetivas. pedagógicamente y metodológicamente se pueden hacer generalizaciones que el profesional tendrá que adaptar a sus necesidades de aplicación. Conocer los tipos estudios estadísticos que se pueden realizar. en base a ellos. agrupación. lo más probable es que se elaboren estudios de mala calidad y por lo tanto. especialmente los que requieren aplicación de una encuesta. los datos de entrada deben ser de origen fidedigno y cumplir con una serie de características de codificación que faciliten su captura. Por ello el proceso de recolección es extremadamente importante en la realización de un estudio. 6. Cabe señalar que actualmente el uso generalizado de equipos de cómputo “la edad de la tecnología de la información” ha facilitado esta tarea de obtención. Conocer la importancia de diseñar un estudio estadístico. ambigüedades o malas interpretaciones. Utilizar una tabla de números aleatorios para la definición de los individuos de la encuesta. cómo se obtienen los datos. Si los datos están distorsionados por sesgos. Conocer las diferentes fuentes de obtención de datos. el alumno deberá ser capaz de: 1. 3. 4. se toman malas decisiones. agrupan y presentan. 39 . niveles de medición y escalas de medición. correlación y análisis. 2. Al término del capítulo.Para que un estudio estadístico sea útil en el proceso de toma de decisiones. plenas de significado y alta relación con el objeto de estudio. Esta sección pretende introducir al alumno a determinar qué tipo de estudios estadísticos se requieren en las organizaciones.

los resultados en un futuro (TRADE. El censo de población y vivienda es un buen ejemplo de estudio enumerativo. 1995: 84). El objetivo es el de proporcionar estimaciones de las características de la población y tomar ciertas decisiones sobre ellas.2 Tipos de estudios. 1996: 5). Ambos tipos de estudios utilizan el método estadístico para la toma de decisiones. De ahí surgen las preguntas de ¿Cuántos son hombres y cuántas mujeres? ¿Cuántos consumen el producto? ¿Qué marca de producto prefieren? ¿Qué nivel de ingresos tienen? ¿Cuántos negocios similares existen? ¿Cuál es el aforo vehicular por las principales avenidas? 40 . previo a la operación comercial de una empresa. Las condiciones de producción agrícola del 2004 o 2005 o de cualquier año pasado se han ido y no se repetirán.2. El área geográfica definida para el estudio enumerativo se le denomina marco y proporciona los elementos para la selección de una muestra. Hay dos tipos de estudios “enumerativos” y “analíticos”. En ese sentido no existe un proceso subyacente. bajo ciertos cambios en el proceso original. Los estudios analíticos son utilizados para estudiar procesos y pueden predecir. Medir el rendimiento del maíz es un estudio enumerativo. Ambos utilizan los datos como materia prima para su elaboración. Un ejemplo de estudio enumerativo sería aquel que se realiza en cierta área geográfica. Los estudios enumerativos son aquellos que muestran cómo son las cosas pero que no tienen la cualidad de predecir por ellos mismos. Los estudios enumerativos involucran la toma de decisiones respecto a una población y/o sus características (Berenson & Levin.

los estudios analíticos involucran realizar alguna actividad sobre un proceso para mejorar el desempeño en el futuro (Ibíd.Fig. el tazón completo representa la población. 2. las preguntas del estudio se hacen en relación a saber ¿Qué hay en el tazón? ¿Cuántas canicas son de color negro. sus características enumerativas en conjunto Otro ejemplo de un estudio enumerativo es la descripción del contenido de un tazón de canicas. en forma aproximada.) 41 . Muestra Por otro lado.1 Mapa base para estudio enumerativo de mercado La técnica Estadística permite diseñar una muestra representativa de un área geográfica específica y determinar. o en qué proporción son negras? ¿Qué probabilidad existe aleatoriamente de escoger una canica negra? Figura 2.2 Estudio enumerativo.

El propósito de un estudio analítico es el de obtener predicciones de comportamientos futuros y de resultados. los mejoradores agrícolas. en ventas. se refiere al análisis de procesos. (TRADE. entre otras. las salidas son los bienes o servicios que la organización oferta al medio ambiente (clientes reales y potenciales). que no es otra cosa que el análisis de la información de respuesta del medio ambiente a las salidas de la organización. En un sistema empresarial. salidas y retroalimentación. de los resultados. entre otros. devoluciones. las entradas son principalmente materia prima. procesos de transformación. Un estudio analítico. un pionero de estudios estadísticos en control de procesos. 1995: 84) El análisis de resultados del sistema organizacional se da a través de lo que se conoce como retroalimentación. los procesos de transformación se refieren a las actividades propias de la organización. Esto es la generación de información anticipada para la toma de decisiones para la mejora del proceso y en consecuencia. el tipo de semilla. el tipo de suelo. personas. sugerencias. quejas. Los procesos. se componen de varias etapas. en forma general: entradas. pedidos. dice que un proceso consiste en equipo. reflejadas. en más de las veces. utilizando el enfoque de sistemas. métodos. es decir a la transformación de las entradas en salidas. material y personas que son conjuntados para producir salidas en un medio ambiente. es un ejemplo de estudio analítico. maquinaria y equipo e información. las plagas. también influyen los métodos de cultivo. si bien es cierto que las condiciones de clima predominan en los rendimientos agrícolas. Por ejemplo. Walter Shewhart. El Dr. 42 .El estudio de los resultados de un proceso de producción o de prestación de servicios considerados durante cierto tiempo. en agricultura.

etc.) 43 . crédito. Los estudios estadísticos más comunes en el área de negocios. ventas. tienen que ver con control de producción. b) Medir el desempeño y tomar medidas correctivas c) Apoyar la toma de decisiones en la definición de estrategias d) Para satisfacer nuestra curiosidad. precios de mercado. estudios de mercado (mercado potencial. cobros.Figura 2. control de calidad. mercado objetivo.3 Ámbito de aplicación de estudios analíticos Competidores Proveedores Distribuidores Clientes Empleados Accionistas Sociedad Accionistas Sindicato Gobierno Cámaras Grupos de interés Gerencia General Tierra Mano de obra Capital Administración y Finanzas Producción Mercadotecnia Productos o Servicios Entradas Proceso Salidas Retroalimentación Existen cuatro razones básicas para realizar estudios estadísticos (enumerativos o analíticos): a) Contar con material imprescindible en un estudio de investigación.

gremiales o individuales. el estudiante debe comprender las distintas fuentes de datos. son de fuente secundaria. del inglés garbage in. Para diseñar un estudio estadístico. que se traduce como basura entra. Los datos primarios se obtienen a través de: a) diseñar un experimento. Primero. Sin importar la fuente. la observación o el levantamiento de encuesta. b) realizar observaciones de comportamiento de actitudes u opiniones de los individuos que son de interés del estudio o c) realizar una encuesta. a este tipo de información se le conoce como información de fuente secundaria. estará equivocado o tendrá errores: se tomarán malas decisiones. Los investigadores han adoptado el término GIGO. el estudio será de mala calidad y su uso para el que fue creado. 2. el compilador es la fuente secundaria. El recolector de datos es la fuente primaria. 44 .La calidad de los estudios estadísticos La calidad de los estudios estadísticos depende de la calidad de los datos que los soporten. sean gubernamentales. los datos generados por terceros.3 La obtención de datos Existen varios métodos de obtención de datos. Los datos generados por el usuario son de fuente primaria. basura sale. se puede utilizar datos ya publicados por otras instancias. se hace una distinción entre el recolector original de datos y la organización o individuo que los compilan. La de fuente primaria se obtiene en forma directa a través de la experimentación. garbage out. Lo que el trata de significar es que si los datos obtenidos son equivocados o tienen errores. los tipos de datos que existen y los sistemas de medición. depende del tipo de estudio que se quiera realizar.

se le pide a uno que tome la bebida en cierta cantidad y después se le analizan sus signos vitales (presión arterial. Una diferencia clara con el método empírico en general es que éste trata de considerar los errores. respiración. para medir los efectos de una bebida vigorizante. por lo que a veces se utiliza erróneamente como sinónimo de método empírico. experimental y al otro grupo de control.) al otro individuo se le pide que tome sólo agua purificada y también se le miden los signos vitales. dilatación de pupila. Se llamará a un grupo. pulsaciones. etc. Así. los datos son sacados de la manipulación sistemática de variables en un experimento. Pero se podría trabajar con varios grupos con distintas cantidades de ingesta de vigorizante. el de la condición. En este método. a dos grupos de jugadores después de un partido de futbol.Método de experimentación La obtención de datos por el método de la experimentación es el más complejo y eficaz de los métodos empíricos. el investigador interviene sobre el objeto de estudio modificándolo directa o indirectamente para crear las condiciones necesarias que permitan revelar sus características fundamentales y sus relaciones esenciales bien sea: -Aislando al objeto y las propiedades que estudia de la influencia de otros factores -Reproduciendo el objeto de estudio en condiciones controladas -Modificando las condiciones bajo las cuales tiene lugar el proceso o fenómeno que se estudia. Por ejemplo. Una vez hecho el experimento se comparan las mediadas de los signos vitales de ambos. 45 . contenido de glucosa. de modo que una inferencia pueda ser hecha en cuanto a la causalidad del cambio observado.

leen las etiquetas y toman la decisión de compra. las condiciones del área. En la actualidad muchas empresas utilizan el método de investigación etnográfica (ciencia que estudia. La investigación por el método de observación obtiene información que la gente no puede o no quiere proporcionar. toman el producto lácteo. O una gasolinera podría evaluar la posibilidad de abrir nuevas sucursales mediante la observación de los esquemas de tráfico. los motivos. un investigador de mercados de productos lácteos podría visitar puntos de venta y observar a los compradores desde que entran a la tienda. acciones y situaciones pertinentes. A causa de esas restricciones. para lo cual debe poseer algunas cualidades que le dan un carácter distintivo. Método de encuesta El método de obtención más utilizado en los estudios de mercado es la realización de una encuesta. El método de la observación permite obtener datos primarios mediante la observación de la conducta de las personas. o la conducta privada. Las investigaciones etnográficas proporcionan a menudo detalles íntimos que no se pueden obtener por la observación tradicional. como las emociones.Método de la observación Fue el primer método utilizado por los científicos y en la actualidad continua siendo su instrumento universal. sin embargo. Una encuesta es un conjunto de preguntas dirigidas a una muestra representativa de población o de instituciones. algunas cosas no pueden observarse. la ubicación de la competencia. La realización de una encuesta debe tener un diseño muestral y un marco de aplicación. Permite conocer la realidad mediante la percepción sensorial directa de entes y procesos. La encuesta es una investigación estadística en 46 . la observación es la única manera de obtener información. describe y clasifica las culturas o pueblos) para observar a individuos en su hábitat natural. En muchos casos. con el fin de conocer estados de opinión o hechos específicos. Por ejemplo. los investigadores suelen utilizar como complemento otros métodos de recopilación de datos. caminan por los anaqueles.

por tanto. Gran Turismo. 2. carga soportada por una cuerda. tres estrellas. otro ejemplo sería el grado de satisfacción de un producto o un servicio: muy satisfecho.). 47 . .4 Tipos de datos. niveles de medición y escalas de medición Las variables generan dos tipos de datos: categóricos y numéricos. dos estrellas. imposible de analizar en su totalidad. estos pueden ser discretos o continuos.Las características de la población varían si el estudio se prolonga demasiado tiempo. . etc.La población es grande y. Los datos categóricos representan categorías de la observación. no satisfecho.El proceso de estudio es destructivo o es necesario consumir un artículo para extraer la muestra (ejemplos: vida media de una bombilla.que la información se obtiene de una porción representativa de las unidades que componen el universo. satisfecho.Rapidez: al reducir el tiempo de acopio y tratamiento de los datos. resultaría inútil gastar recursos en un análisis exhaustivo. La encuesta es preferible a los censos (o estudio de toda la población) por las siguientes razones: .Reducción de costes: al estudiar una parte de la población. Un ejemplo de dato categórico sería la respuesta a la pregunta ¿Pertenece usted a un club social? si o no. . . Los datos numéricos representan dimensión del fenómeno. precisión de un proyectil. . igualmente sería un dato categórico la clasificación de los hoteles de una estrella. los gastos de recogida y tratamiento de los datos serán menores que si los obtenemos del total de la población.La población es suficientemente homogénea respecto a la característica medida. es una respuesta categórica. se consigue mayor rapidez.

La escala cardinal sirven para representar una cantidad (intervalo o de relación) 48 . como también es variable la cantidad servida y las condiciones ambientales del lugar.14 Tipo de datos. Figura 2. la altura de un estudiante es el ejemplo de una variable numérica continua. ordinal y cardinal (intervalo y relación). Cualquier observación en particular se denomina “valor de la variable”.72 metros.Los datos numéricos surgen del conteo o de la medición de los fenómenos. si se estudiara el precio de una taza de café americano en Victoria o en Matamoros. Tipo de datos Categóricos Tipo de pregunta Respuesta Numéricos Niveles de medición En el sentido más amplio. 1. La escala ordinal se utilizan para representar un ordenamiento. 1. Los datos discretos son respuestas numéricas que surgen de un proceso de conteo. 3. 2. Incluso los datos numéricos discretos pueden considerarse como producto de una medición mediante el conteo. todos los datos ha obtener son medibles. Todo lo que se observa generalmente es referido como variables. 4. Los tres niveles de medición en escala reconocidos son: nominal. Por otro lado. los datos continuos son respuesta numérica de un proceso de medición. Por ejemplo. la medición acepta fracciones de la unidad. Un ejemplo de dato numérico discreto sería el número de refrescos que compra al día: 2. la variable principal sería el precio. seguramente el valor de la variable será diferente en varios establecimientos. 3. La escala nominal se utiliza para nombrar.

PRD. Se puede asignar un valor numérico para representar la variedad de clases en una escala nominal pero este número no tiene propiedades cuantitativas. si los datos observados simplemente se clasifican en diversas categorías. de escala ordinal se refiere cuando la medición representa un orden en una serie. en las que no implica ningún orden. Las observaciones no ordenadas constituyen el nivel más bajo de mediada y son referidas como una escala nominal. En esta escala las diferencias son expresadas en términos de inequidades algebraicas: a es menor que b (a<b) o a es mayor que b 49 . Figura 2. La medición de variables categóricas nominales resultan de la aplicación de una escala de medición que permite solo determinar las relaciones = y ≠. Por ejemplo: Variable categórica nominal dicotómica: género (femenino / masculino).Escala de medición Los datos obtenidos de una variable categórica pueden ser medidos en una escala nominal u ordinal. Es decir. permite clasificar a los individuos en grupos. Variable categórica nominal politómica: afiliación partidista (cuando se distinguen más de dos partidos) como PRI. por lo tanto. El valor que toma una variable categórica nominal indica la categoría a la que pertenece. Variable categórica Seguro de automóvil Tipo de seguro de vida que se tiene Afiliación política si Categoría no Temporal Vitalicio PRIísta PANista PRDísta El siguiente nivel de medición. sólo sirven para identificar la clase. PAN.5 Ejemplos de escala nominal. Los grupos pueden ser dicotómicos (dos categorías) o politómicos (más de dos categorías).

etc. Los valores numéricos asociados con esta escala son cuantitativos y por ello permite el uso de operaciones aritméticas como la suma. la clasificación de las películas. la categoría de los empleados. En esta escala de intervalo utilizada existe lo que se conoce como cero absoluto y se supone que es equivalente a -273º C. más alto. No podemos decir que 40º C es a 20º C como 20º C es a 10º C.(a>b). resta.6 Ejemplos de escala ordinal. Lo anterior se debe a que el punto de medición 0º C es arbitrario. La diferencia entre estos dos tipos de escala radica en que la escala de intervalo emplea un punto arbitrario (cero) de comparación mientras que la escala de relación emplea un cero real. por lo que 40º C equivale a 273º C + 40º C de calor. Los números empleados en la escala ordinal no son cuantitativos. etc. La medición de temperatura en grados Celsius o Fahrenheit son ejemplos de medición en escala de intervalos. sólo indican una posición pero no qué tanto es la diferencia entre las diferentes posiciones de la escala. multiplicación y división. Ejemplos de aplicación de la escala ordinal incluye: la designación de clase de un estudiante en un grupo. más veloz. Variable categórica Clase de estudiante en un grupo Clasificación de películas Clasificación hotelera Categoría Primero Segundo Tercero G PG PG-13 R X Finalmente el nivel más alto de medición en la ciencia es alcanzado por el uso de números cardinales (escala de intervalo y de relación). Figura 2. 50 . Las relaciones entre variables serán: más grande. 20º C representa 273º C + 20º C de calor y 10º C representa 273º C + 10º C.

son formas más concretas de medición. ≠. el doble de alta de una que mide . Una persona mide 1. existe un punto cero verdadero que pueda ser tomado en cuenta para realizar comparaciones. Figura 2. que de una de escala ordinal. además de que las diferencias son significativas e iguales en cualquier punto de la escala. La medición de las variables categóricas ordinales resultan de la aplicación de una escala de medición que permite determinar las cuatro relaciones =. igual que en las lecturas de 25º C y 27º C. En la escala de relación (o de cociente). 51 . así la diferencia entre 37º C y 39º C es de 2º grados. > y <.7 ejemplos de escala cardinal (intervalo o relación) Variable numérica Temperatura ( C o F) o o Nivel de medición Intervalo Tiempo de calendario (hebreo o islámico) Intervalo Altura (en pulgadas o centímetros) Peso (en libras o kilogramos) Edad (en años o días) Relación Relación Relación Generalmente los datos obtenidos de una variable numérica han sido medidos en una escala de intervalo o de relación.Cabe señalar que la diferencia entre dos lecturas tiene el mismo significado en cualquier nivel de la escala.80 metros. Lo que permite ordenar a los individuos en un orden creciente o decreciente con relación a una característica medida.90 metros. porque se puede distinguir no sólo la dimensión sino también la diferencia con otras observaciones. Estas escalas constituyen los niveles más altos de medición.

Análisis y selección de los ítems. Una manera de realizar este tipo de estudios es aplicando un cuestionario con una serie de ítems con respuestas alternativas con una escala de medición de actitudes. conocida también como escala sumativa está en función de una serie de ítems que reflejan una actitud positiva o negativa acerca de un estímulo o referente. se le asigna un puntaje a cada ítem a fin de clasificarlos según reflejen actitudes positivas o negativas. mediante la aplicación de pruebas estadísticas se seleccionan los ajustados al momento de efectuar la discriminación de la actitud en cuestión. como la escala de Likert.Escala tipo Likert Frecuentemente se requieren conocer las inclinaciones. se propone seguir los siguientes pasos: 1. nociones preconcebidas. Asignación de puntajes a los ítems. 3. analiza los pensamientos y sentimientos de la persona hacia los hechos. temores. Se le solicita a los sujetos que expresen su acuerdo o desacuerdo frente a cada ítem mediante una escala. 4. sentimientos. amenazas y convicciones de cierta población acerca de cualquier asunto específico. prejuicios o distorsiones. La escala Likert. se elaboran una serie de enunciados afirmativos y negativos sobre el tema o actitud que se pretende medir. rechazando aquellos que no cumplan con este requisito. Aplicación del cuestionario en una muestra representativa de la población cuya actitud deseamos medir. 52 . la puntuación de cada sujeto se obtiene mediante la suma de las puntuaciones de los distintos ítems. Para realizar un estudio de esta naturaleza. 2. El número de enunciados elaborados al principio debe ser mayor al número final de enunciados incluidos en la versión final. ideas. Asignación de puntuaciones a los sujetos. que fue desarrollada por el sociólogo Rensis Likert en 1932. como las preferencias. 5. Preparación de los ítems del cuestionario.

preferencias de consumo). Entre las técnicas de análisis se encuentran la correlación ítem-escala por medio del coeficiente de correlación de Pearson. el análisis factorial. Los ítems por lo general tienen implícita una dirección positiva o negativa. cada elemento se puede analizar por separado o. Por ejemplo: “Los menonitas son un grupo étnico con excelentes valores hacia el trabajo”: ( ) Totalmente de acuerdo ( ) De acuerdo ( ) Indiferente ( ) En desacuerdo ( ) Totalmente en desacuerdo La escala de Likert es un método de escala bipolar que mide tanto el grado positivo como negativo de cada enunciado. de esta forma se obliga a elegir un lado de la escala. Es recomendable realizar un análisis estadístico de los ítems con el propósito de ser selectivos.Después de concluir la aplicación del cuestionario. Por ello las escalas de tipo Likert son un tipo de escalas sumativas. Las respuestas a los elementos se pueden sumar. 53 . teniendo en cuenta que todos los elementos midan el mismo concepto (p.ej.. ya que no existe la posibilidad de neutralidad. A veces se utilizan 4 niveles de respuesta. entre otros. las respuestas a cada elemento se suman para obtener una puntuación total para un grupo de elementos. en algunos casos. el coeficiente gamma. Cada ítem está estructurado con cinco o más alternativas de respuesta. La unidad de análisis que responde a la escala marcará su grado de aceptación o rechazo hacia la proposición expresada en el ítem. el análisis discriminante.

la definición operacional de la variable productividad. Una definición operacional proporciona un significado a un concepto o variable que puede comunicarse a otros individuos. aumento de sueldo y prolongación de vacaciones. encuestador. de modo que se capte su sentido y se adecúe al contexto. 1996: 18). Las personas que participan en un estudio estadístico. hoy y mañana para todos los individuos (Berenson & Levin. estabilidad en el cargo. En la definición operacional se debe tener en cuenta que lo que se intenta es obtener la mayor información posible de la variable seleccionada. la definición operacional de la variable productividad se circunscribe al trabajo realizado por un trabajador en determinado lapso de tiempo y con cierto tipo de incentivos. tales como salarios. analizar la productividad en relación con el uso de ciertos materiales o maquinarias. al formular la definición operacional. por ejemplo. debe considerar las condiciones contribuyentes. capturista. El investigador. En el ejemplo se pretende buscar una relación entre motivación y productividad. lo que hace necesario establecer la definición operacional para obtener la respuesta o interpretación apropiada. Una condición contribuyente aumenta la posibilidad de que un fenómeno ocurra pero no lo 54 . encuestado.5 Definición operacional En un estudio estadístico generalmente participan diferentes tipos de personas. se pueden identificar como: responsable del estudio. colaboradores en el diseño. En otras palabras. y para ello se deberá hacer una cuidadosa revisión de la literatura disponible sobre el tema de investigación. entonces la definición operacional hubiese sido otra. Por ejemplo. oportunidades de progreso. compilador y tomador de decisiones. beneficios sociales. deberán hablar el mismo lenguaje. Es algo que tiene el mismo significado ayer. Si el objeto de estudio hubiese sido otro. todas las personas que tengan interés en un estudio estadístico específico. premios. contingentes y alternativas al problema que trata. podría ser la siguiente: cantidad de bienes producidos por un trabajador en una jornada laboral de ocho horas.2.

ya que por sí misma no causa el fenómeno sino que es uno entre otros tantos factores que inciden en su ocurrencia. Para el caso de definir a la variable productividad. análisis e interpretación de los datos obtenidos. entre lo descriptivo y lo explicativo. se produce una interacción permanente entre la observación y la reflexión. dimensiones e indicadores.hace implícito o cierto. al tipo de investigación que se realiza. en líneas generales. La operacionalización de las variables está estrechamente vinculada al tipo de técnica o metodología empleadas para la recolección de datos. empleada por ejemplo en las entrevistas en profundidad. Éstas deben ser compatibles con los objetivos de la investigación. nos encontramos 55 . Cuando nos encontramos con variables complejas. a la vez que responden al enfoque empleado. En los estudios de tipo social. Las técnicas cuantitativas se emplean cuando el universo de estudio es amplio y la complejidad de las variables posibilita una aceptable desagregación en niveles susceptibles de cuantificarse y ser analizados. pueden ser cualitativas o cuantitativas. Con esta técnica. entonces se puede hacer una distinción entre variables. puede afirmarse que el pasaje de la dimensión al indicador hace un recorrido de lo general a lo particular. donde el pasaje de la definición conceptual a su operacionalización requiere de instancias intermedias. Las condiciones contingentes y alternativas que inciden en la medición de una variable son más proclives a ser analizadas en las investigaciones sociales. Las dimensiones vendrían a ser subvariables o variables con un nivel más cercano al indicador. las técnicas cualitativas son más utilizadas en las investigaciones exploratorias. su flexibilidad permite la construcción de categorías en la búsqueda. del plano teórico al plano de lo empíricamente contrastable. Estas técnicas. Por su parte. A modo de síntesis. la encuesta es el instrumento de recolección de datos más utilizado en las investigaciones cuantitativas.

con diferentes subdimensiones que forman parte de la variable.6 Realización de encuestas Las encuestas es lo más directo y rápido para obtener datos pero puede tener riesgos y lagunas. maquinaria. Es muy importante definir las relaciones existentes entre un grupo de variables en las que se suponen que algunas de 56 . desperdicios. Dada una población. que no son otra cosa que parámetros que contribuyen a ubicar la situación en la que se halla la problemática a estudiar. A su vez. para la realización de una encuesta: a) el diseño de las preguntas y. b) el análisis final para sacar conclusiones a un nivel de estadística descriptiva. requieren operacionalizarse en indicadores. para poder ser contrastadas empíricamente por el investigador. Para la variable productividad. El diseño de las preguntas y análisis de respuestas es el tratamiento de datos que se espera realizar. por ejemplo. 2. se calcula la dimensión suficiente de una muestra y se genera procedimiento aleatorio. materiales o energía consumida. preferentemente con un equipo de cómputo. los indicadores son datos. En un sentido restringido. en la dimensión mano de obra. para determinar los individuos de la población a los que se les aplicará el cuestionario. lo más común es exponer los datos en porcentajes y medidas comparativas al interior y exterior de la muestra. como ser: cantidad de producción. La clasificación de los individuos de la población debe tener la misma estructura numérica que el procedimiento aleatorio definido. Hay dos pasos esenciales. los indicadores podrían ser cantidad de productos envasados por un trabajador en ocho horas de trabajo. costo de mano de obra. tiempo de producción. estas dimensiones. Cada una de estas subvariables son las dimensiones de la variable productividad.

en términos generales. “Por constructo u objeto conceptual. z} Donde f(x) es la satisfacción del cliente y a. En forma general. b. con el precio. entre otros. Los modelos utilizados constan. de dos partes: a) un modelo estructural que especifica las relaciones de dependencia existente entre las constructos latentes y. proposiciones. c.ellas (denominadas constructos)2 se miden a partir de otras variables observables denominadas indicadores. b) un modelo de medida que especifica cómo los indicadores se relacionan con sus correspondientes constructos. los conceptos. Distinguiremos cuatro clases básicas de constructos: conceptos. b. En consecuencia. contextos y teorías”. por lo tanto. son las variables que la determinan. …. ausencia o magnitud de un fenómeno. 57 . si estuvo conforme con la atención. La variable satisfacción del cliente es una variable dependiente y el resto son variables independientes. las hipótesis (que son proposiciones). con los tiempos de entrega. c. se requiere seguir los siguientes pasos: Elección del tema de estudio: uso del tiempo libre de los estudiantes 2 Un constructo es. con el sistema de venta. las teorías y las clasificaciones científicas son constructos. Estas operaciones son mediciones o registros numéricos. por ejemplo: si se quisiera medir la satisfacción del cliente sería difícil determinarla recabando las respuestas de que sí está o no satisfecho con tal o cual producto. Una definición operacional de un constructo se refiere a las operaciones mediante las cuales un investigador determina la presencia. una idea. Para ser más aproximado al concepto de satisfacción habrá que preguntar si el producto cumplió con sus expectativas. entendemos una creación mental. además de la práctica administrativa inherente. se puede expresar como: f(x)= {a. Para la realización de una encuesta (y cualquier tipo de estudio estadístico). Más precisamente y según el filósofo argentino Mario Bunge.

el mercado objetivo. la impresión de la imagen de la empresa. las cantidades promedio de consumo. continúa o hace que ésta fracase. ya que en base a éste se inicia. Definir el método de aplicación: personal. a través de formular las preguntas de investigación. En el área de negocios los estudios se diseñan para estimar los gustos y preferencias del consumidor. la competencia. Elección del tema Los temas para realizar estudios estadísticos son prácticamente infinitos. etc. la disponibilidad de recursos para adquirir el producto. Marco Teórico de la investigación En todo proceso de investigación. no probabilístico. Dependerá del área de interés del investigador. en línea. correo tradicional. Diseñar del instrumento de recolección de datos (cuestionario): preguntas numéricas o categóricas Definir el ámbito de aplicación: local Definición del universo: Estudiantes de la UA Derecho y Ciencias Sociales Definir el tipo de muestreo: Probabilístico. los precios de mercado. un elemento que direcciona el camino a seguir en todo trabajo científico es el marco teórico.Marco teórico del tema: teorías en que se fundamenta el estudio y lo que se desea investigar. Obtención y tratamiento de datos: digitalización y análisis estadístico Elaboración de informe: se refiere a la redacción de lo que se encontró en la investigación y comparación de los parámetros que se conocen. posteriormente al planteamiento del problema de 58 . teléfono.

es decir. el siguiente paso consiste en sustentar teóricamente el estudio. Por ejemplo. El derecho al tiempo libre. A esta etapa se le denomina “marco referencial” que no es otra cosa que conocer. los individuos pueden realizar actividades que disfrutan. hasta donde sea posible. descripción y explicación. De éstas.estudio (tema de estudio). por ello. investigaciones y antecedentes en general que se consideran válidos para un correcto encuadre del estudio. que se ha tomado como referencia. la distracción. La observación. tiene más un sentido cualitativo. el desarrollo personal. en el estudio del uso del tiempo libre. se puede obtener una visión completa de las formulaciones teóricas sobre las cuales se ha de fundamentar el conocimiento científico propuesto en las fases de observación. Esto exige del investigador la identificación de un marco de referencia sustentado en el conocimiento científico. es una situación donde no existe obligación de realizar una determinada tarea. diversión. por lo que al realizarla se apropia parcialmente de la estructura teórica ya existente”. descripción y explicación de la realidad a investigarse debe ubicar en la perspectiva de lineamientos de carácter teórico. “cada investigación toma en cuenta el conocimiento previamente construido. no es solo cuestión cuantitativa o temporal. puesto que en él se modifica el estilo de vida del individuo y las 59 . la distracción. Además debe tomarse en cuenta el marco de referencia y el marco conceptual en el cual se circunscribe la investigación a realizar. En el tiempo libre. tales como satisfacer necesidades personales. que se han definido los objetivos que se pretenden lograr y las interrogantes que se quieren despejar con su realización. como el descanso. lo primero que se tiene que hacer es definir el concepto “Tiempo libre” que. El marco teórico no solamente abarca la revisión de conceptos y/o teorías que apoyan una investigación. las investigaciones que se han efectuado sobre el tema. Este paso implica analizar y exponer aquellas teorías. según algunos autores. A esta etapa se le denomina “elaboración del marco teórico”. enfoques teóricos.

también exigen una responsabilidad y obligación para con el grupo. por ley a un máximo de 8 horas durante el horario diurno. es el “Tiempo de Trabajo” el cual en México se limita. sociales. Se entiende por trabajo a una actividad física o mental realizada por un individuo a cambio de un jornal o de un salario. laborales. En el tiempo libre se adoptan los principios y valores que se incorporan a la calidad de vida. El marco teórico del uso de tiempo libre inicia con la distribución teórica del tiempo disponible. Ejemplos de estas formas de trabajo no remunerado. políticos o públicos que comprometen la asistencia ineludible del individuo. que se consume en actividades tales como el transporte público o privado. que como en los casos anteriores. Por cierto. ya que existen otras formas no remuneradas y que exigen una considerable cuota de tiempo y de esfuerzo por parte del individuo que se dedica a ellas. en etapas más profundas y avanzadas. como las económicas y las que satisfacen las necesidades fisiológicas. la asistencia a ciertos actos familiares. son los estudios (jornada escolar). El tercer tipo es el “tiempo social”. Se sabe que los médicos recomiendan alrededor de 8 horas de sueño para que el organismo descanse y pueda recuperarse del desgaste cotidiano.estructuras sociales de su entorno. También los actos y ceremonias de índole religiosa. 60 . El segundo bloque en cantidad de tiempo consumido durante el día. en las charlas y reuniones con compañeros de trabajo o de estudios y que exigen cierta obligatoriedad. las relaciones afectivas de pareja. esto quiere decir. Asimismo. no es la única. es en este tiempo en cuando se produce la formación de los grupos sociales más permanentes. Si bien el trabajo remunerado es la modalidad laboral más claramente identificable. en los que surge la amistad y. que un tercio del día se debe dedicar al abandono total de cualquier actividad necesaria para el sostenimiento de la vida y la salud. en números. así como los trabajos realizados en el hogar para su funcionamiento y conservación (jornada doméstica).

éstas facilitan la codificación. nivel educativo. es decir. queda un residuo. relaciones familiares. datos del ambiente que le rodea: por ejemplo.Por último y como consecuencia de la ocupación y la utilización de los otros tiempos para la satisfacción de las necesidades económicas y sociales. Los datos que se pueden obtener con un cuestionario pertenecen a cuatro categorías: a) Hechos (datos actuales): datos personales del grupo social estudiado: por ejemplo. etc. Diseño del cuestionario. considerar las variables numéricas y categóricas. un tiempo restante que queda liberado de toda obligación: el tiempo libre. Las preguntas abiertas (aquellas donde el encuestado exponga su punto de vista) deben de clasificarse u ordenarse apropiadamente. Es muy conveniente procurar que las respuestas sean en su mayoría del tipo numéricas o categóricas. procesos y programas. Las preguntas deben estar libres de ambigüedades. de trabajo. El cuestionario es un instrumento considerado clásico en las ciencias sociales para la obtención y registro de datos. Su versatilidad permite utilizarlo como instrumento de investigación de las características de personas. en consecuencia. que el "cara a cara" de la entrevista. Existe una relación inversa entre la amplitud de un cuestionario y la tasa de respuesta. Es un instrumento de recolección de datos que puede abarcar aspectos cuantitativos y cualitativos. vivienda. de vecindad. cada pregunta deberá de presentarse claramente. y datos de 61 . ésta tiene lugar de una forma menos profunda e impersonal. Su característica singular radica en que para registrar la información solicitada a los mismos sujetos. deberá de acompañarse de definiciones operacionales para obtener respuestas apropiadas. con el menor número de palabras. edad. Al mismo tiempo. Si fuera necesario evitar confusiones debido a la complejidad de las preguntas. permite consultar a una parte representativa de la población (muestra) de una manera rápida y económica.

Las preguntas del cuestionario.001 a 5. es decir índices de nivel de conocimiento de los diversos temas estudiados en el cuestionario. d) Cogniciones..). poniendo una señal convenida: una cruz. Y 62 .000. de expectación. En ese caso. c) Actitudes y motivaciones.su comportamiento con respecto al tema de estudio (compró. subrayar. vendió. a veces.001 a 100.001 a 10.001 a 20. Suelen ser preguntas con la opción afirmativa y negativa. Revela el grado de confianza a conceder a las opiniones sobre juicios subjetivos. no sé/sin opinión. y.. Al usuario se le da a elegir entre un abanico de opciones. según el modo de formularse. todo lo que empuja a la acción. ningún encuestado puede dejar de responder por no encontrar su categoría. Ejemplo: ¿Tiene en su domicilio acceso a Internet? Sí ( ) No ( ) En otras ocasiones las preguntas están categorizadas. a las cuales se suman los niveles de información. al comportamiento. Ejemplo: ¿Cuántos habitantes tiene la ciudad donde vive? Menos de 2. El sujeto no tiene sino elegir alguna o algunas. pueden ser cerradas y abiertas. probó. Las categorías o respuestas serán exhaustivas si abarcan todos los casos que pueden darse.001 a 50. todo lo que se podría llamar datos subjetivos.000 ( ) De 2.. o al menos todas aquellas que mejor responden a la situación.000 ( ) De 50.000 ( ) De 5.000 ( ) Las respuestas o categorías que se ofrezcan a este tipo de preguntas han de reunir dos condiciones esenciales: que sean exhaustivas y excluyentes. b) Opiniones. fue. y ésta a la base de las opiniones. ( ) De 10. Las cuestiones cerradas ofrecen al usuario que va a ser evaluado todas las alternativas posibles. etc. rodear con un círculo.000 ( ) De 20.

Al final del capítulo. ir a conciertos. En este caso es conveniente elegir un número par de opciones. así como sus posibles respuestas. ir al teatro. a 63 . cuando ningún sujeto al contestar al cuestionario. exposiciones. Es muy difícil reducir contestaciones dispares a unas categorías significativas que permitan recoger la información más relevante. Así ocurre por ejemplo: En las clases teóricas del curso de formación que está haciendo. Actividades de tiempo libre que le gustan y que practica habitualmente: ir de copas. la dificultad aparece a la hora de tratar la información recogida. hacer deporte. a continuación se señalan algunos cuestionamientos. ¿Toma apuntes o notas de lo que dice el expositor? Nunca ( ) Pocas veces ( ) Con frecuencia ( ) Siempre ( ) Por otro lado. con objeto de evitar que el encuestado pueda responder a la opción central. Sin embargo. bailar. pueda elegir válidamente dos respuestas distintas de la misma pregunta. Las preguntas abiertas son más fáciles de formular. dejando ésta a la consideración del sujeto que completa el cuestionario. ir a discotecas. con objeto de poderla cuantificar después. sin esforzarse en reflexionar. correspondiente al número de veces que se repite una acción determinada. no hacer nada. Algunas preguntas se presentan bajo una escala cuantitativa. puesto que no hay que prever ningún tipo de respuesta ni investigar acerca de la exhaustividad y exclusión de las categorías propuestas. ir de excursión. Posibilidades y limitaciones de las cuestiones abiertas y cerradas. Siguiendo con la idea de realizar un estudio sobre uso de tiempo libre. asistir a competencias deportivas. Sólo contienen la pregunta y no ofrecen ningún tipo de respuesta. ir al cine. cuatro o seis. ir a museos. escuchar música.serán excluyentes. las preguntas abiertas no ofrecen ninguna categoría para elegir. salir a reunirse con amigos.

local. si el ámbito es la República mexicana. la muestra sistemática. si el estudio fuera de esa área geográfica. Hay cuatro tipos de muestras de probabilidad más comunes: aleatoria simple. la muestra de agrupación. todas las personas que viven en la colonia Obrera y que tienen entre 12 y 36 años. Universo.manera de ejemplo se presenta el cuestionario para investigar el uso de tiempo libre de los estudiantes de la UADYCS. El ámbito de aplicación de la encuesta se refiere al espacio comprendido dentro de límites geográficos determinados. El universo del estudio es el número total de individuos u objetos que tienen características observables comunes. si el ámbito es el estado de Tamaulipas. 2. en el ámbito de aplicación definido. Muestreo probabilístico Una muestra probabilística es aquella en que los sujetos de la muestra se eligen sobre la base de probabilidades. la muestra estratificada y. Todos los mexicanos.7 Tipo de muestreo Un vez conocido el marco de estudio o listas actualizadas del universo y calculado el tamaño apropiado de la muestra. institucional. se procede a definir los candidatos a proporcionar los datos. Ámbito de aplicación. Todos los tamaulipecos. regional. 64 . Éste puede ser internacional. Existen básicamente dos tipos de muestra: Probabilística y no probabilística. nacional.

y en determinadas situaciones. de ahí en adelante tomar uno de cada k intervalos regulares. es muy útil la extracción de números aleatorios mediante equipo de cómputo.em+(n-1)k} 65 . calculadoras o tablas construidas para ese propósito. tomar como muestra los elementos de la lista: {em. no será posible medir más que una vez la bombilla seleccionada. Sin reposición de los elementos: cada elemento extraído se descarta para la subsiguiente extracción. b) Muestra sistemática Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el tiempo. Por ejemplo. que se denomina coeficiente de elevación. Con reposición de los elementos: las observaciones se realizan con reemplazo de los individuos. aumenta la probabilidad de extracción de los subsiguientes. es conveniente tener en cuenta la periodicidad del fenómeno. em+3k…. Para realizar este tipo de muestreo. de forma que la población es idéntica en todas las extracciones. Ocasionalmente. Determinar en qué fecha se producirá la primera extracción. Luego hay que calcular una constante. para ello hay que elegir al azar un número entre 1 y k. entre 1 y k. 2. la probabilidad de repetir una extracción es tan pequeña que el muestreo puede considerarse sin reposición aunque. donde N es el tamaño del universo y n el tamaño de la muestra. em+k. em+2k. Elegir aleatoriamente un número m. En poblaciones muy grandes. Primero hay que identificar las unidades y relacionarlas con el calendario (cuando proceda). realmente. k= N/n.a) El muestreo aleatorio simple puede ser de dos tipos: 1. Al descartar el elemento extraído. no lo sea. si se extrae una muestra de una "población" de bombillas para estimar la vida media de las bombillas que la integran.

Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos más parecidos tienden a estar más cercanos. la representan 66 . el muestreo sistemático suele ser más preciso que el aleatorio simple. puede haber cierta homogeneidad. para un estudio de opinión. Así. de manera natural. 2.Esto es lo que se denomina muestreo sistemático. es a menudo menos probable de cometer errores con un muestreo sistemático que con el aleatorio simple. Por ejemplo. Dentro de cada estrato el muestreo se realizaría mediante el método de muestra aleatoria simple. dentro de cada uno de estos grupos. d) Muestra de agrupación o conglomerado Cuando la población se encuentra dividida. es decir. puede resultar interesante estudiar por separado las opiniones de hombres y mujeres pues se estima que. Asignación proporcional: El tamaño de cada estrato en la muestra es proporcional a su tamaño en la población. Por otro lado. existen dos técnicas de muestreo estratificado: 1. ya que recorre la población de un modo más uniforme. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra. c) Muestra estratificada. Consiste en la división previa de la población de estudio en grupos o clases que se suponen homogéneos respecto a la característica a estudiar. se tomaría una muestra que contenga también esa misma proporción. Para ello es necesario un conocimiento previo de la población. si la población está compuesta de un 55% de mujeres y un 45% de hombres. Asignación óptima: la muestra recogerá más individuos de aquellos estratos que tengan más variabilidad. en grupos que se suponen que contienen toda la variabilidad de la población. Según la cantidad de elementos de la muestra que se han de elegir de cada uno de los estratos.

Muestreo no probabilístico El muestreo no probabilístico se realiza cuando la extracción de la muestra y su tamaño para ser representativa se valoran de forma subjetiva. es decir. el muestreo se llama bietápico. El primero funciona mejor cuanto más homogénea es la población respecto del estrato. seleccionados al azar. Los conglomerados deben presentar toda la variabilidad. Para muchos estudios sólo se dispone de una muestra no probabilística como una muestra de juicio. Figura 2. ocurre lo contrario. Las ideas de estratificación y conglomerados son opuestas. aunque deben ser muy parecidos entre sí.fielmente respecto a la característica a elegir. las personas a encuestar. En el segundo. aunque más diferentes son éstos entre sí. Dentro de los grupos seleccionados se ubicarán las unidades elementales. por ejemplo. se extraen los individuos por el método aleatorio simple.8 Tipos de muestra Tipo de muestra Probabilística No Probabilística Aleatoria simple Sistemática Estratificada Agrupación De juicio De cuota De parte grande 67 . Se basa en una buena estrategia y el buen juicio del investigador. los miembros del grupo. o sólo a algunos de ellos. y podría aplicársele el instrumento de medición a todas las unidades. pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio. de cuota o de parte grande. Este método tiene la ventaja de simplificar la recogida de información muestral cuando. dentro de cada conglomerado.

se requiere ser más específico del tipo de vivienda (residencial. La fórmula para calcular el tamaño de la muestra se deriva de la fórmula de estandarización: 68 .Tamaño de la muestra Para que la encuesta pueda ser aplicada con alto grado de confiabilidad. Victoria. se requiere especificar una serie de características que determinan la pertenencia de sus miembros y al universo a que pertenecen. del universo debe de cumplir dos requisitos fundamentales: que sea representativa y que sea adecuada. cuando tiene la magnitud suficiente para que las características objeto del estudio (variables) sean confiables para inferir las características del universo. reduce los esfuerzos y recursos requeridos para su realización. entre otras). la media de esta distribución es la media de las medias de todas las posibles muestras y se puede considerar como la media verdadera del universo (Goode y Hatt. según el interés del estudio: número de cuartos. la primera es a través de conocer el error estándar de la población o por lo menos un error estimado. autoconstrucción. las variables a obtener podrían ser. Así pues. para un estudio de mercado de muebles del hogar. entre otras. nivel de ingreso de los habitantes. ubicación geográfica. usos. la muestra. Los valores que forman esta distribución hipotética son las medidas de todas las posibles muestras de un universo. y lo es. necesidades de muebles. de interés social. Si se quisiera hacer un estudio de la vivienda en Cd. Mientras más específicas sean sus características. La especificación del universo o marco de estudio. 1975: 281). Para que la muestra sea representativa. más fácil será su estudio. Además de que la muestra debe cumplir el requisito de representatividad. El error estándar mide la dispersión en torno a la media de una distribución hipotética. Para determinar la magnitud de la muestra existen dos formas. también se requiere que sea adecuada. mediada de los mismos.

Por lo que la ecuación queda como: Es = Z σ/n½. ps . Método de aplicación del cuestionario Existen básicamente cuatro modos mediante el cual se realiza el trabajo de la aplicación del cuestionario de una encuesta: la entrevista personal.p p(1-p) n La diferencia entre la porción de la muestra y la porción de la población ps . 69 .p se conoce como error de muestreo y se denota como e. σ la desviación estándar y n el tamaño de la muestra. esto es cuando np y n(1-p) adquieren un valor de cuanto menos 5. La otra forma de estimar el tamaño de la muestra es cuando la distribución binomial puede ser aproximada a la distribución normal. despejando n se tiene que: n = Z e2 Z= Por ahora es suficiente saber que existe la manera de calcular el tamaño de la muestra. Lo que significa que si se conoce la desviación estándar de la población y el error estándar se puede conocer el tamaño de la muestra. la aplicación práctica se realizará en temas posteriores. Z es el valor crítico determinado. la de correo tradicional y últimamente a través de Internet (correo electrónico o de página Web). que corresponde a (1. despejando nos resulta que n = Z2(σ /Es)2 Donde Es representa al error estándar.. la entrevista telefónica.X-µ Z = σx x n La diferencia entre la media de la muestra y la media de la población se conoce como error de muestreo y se denota como Es. Por lo que la ecuación queda como: 2 p(1-p) p(1-p) Z n = e.α)/2 del centro de una distribución normal estandarizada. Cada modo tiene ventajas y desventajas de aplicación.

uno en cada columna de la tabla.Tabla2. se procede a digitalizarlos. análisis y conclusiones. gráficas. 2002 Tratamiento de datos Una vez que se aplican los cuestionarios. considerando cada cuestionario como un registro. el tipo de trabajo que se reporta y el tema estudiado. Estará definido según sus autores. que permiten a otras personas conocer y entender sobre lo que se investigó y a las conclusiones a que se han llegado. cálculos. en el cual quedan plasmados una serie de procedimientos de obtención de datos. Todo informe tiene un carácter muy particular. Sin embargo. Un registro es un conjunto de campos que contienen los datos que pertenecen a una misma repetición de entidad. Elaboración de informe de resultados El informe es un documento. La estructura implícita de un registro y el significado de los valores de sus campos exige que dicho registro sea entendido como una sucesión de datos. resultados.1 Características de los métodos de aplicación del cuestionario Fuente: Shiffman & Kanuk: Consumer Behavior. existe un mínimo de apartados que debe contener: Carátula o portada de identificación Índice de contenido 70 .

se escoge al azar una casilla y se comienza a agregar un número de dígitos igual a los que se utilizaron para definir los elementos de la población. Tabla 2.8 Uso de una tabla de números aleatorios Una tabla de números aleatorios consiste en generar una serie de dígitos aleatorios y ordenarlo en el orden que se generaron en filas y columnas. Para encontrar el primer dígito de la tabla. La tabla de dígitos se utiliza en lugar de utilizar un ánfora con códigos de identificación de cada uno de los miembros de la población.Introducción o resumen Objetivos que se persiguen Marco Teórico en que se fundamenta la investigación Tratamiento estadístico de datos obtenidos (medidas resumen) Resultados obtenidos (comparación con la teoría) Conclusiones y recomendaciones 2.2 500 números generados aleatoriamente 07100 90373 24960 26488 33661 13259 23749 25534 24894 15189 07100 90373 24960 26488 33661 13259 23749 25534 24894 15189 83910 56611 78253 72888 97998 10168 10017 21426 71997 07445 83910 56611 78253 72888 97998 10168 10017 21426 71997 07445 21710 61976 99909 65107 35231 64810 29109 48093 21129 12329 21710 61976 99909 65107 35231 64810 29109 48093 21129 12329 24202 52068 18888 40414 52187 35963 53734 31101 57979 85458 24202 52068 18888 40414 52187 35963 53734 31101 57979 85458 91421 85578 76917 29831 40572 63702 39652 57484 11609 14730 91421 85578 76917 29831 40572 63702 39652 57484 11609 14730 64858 79534 71939 43688 06496 76212 99004 58751 24902 27438 64858 79534 71939 43688 06496 76212 99004 58751 24902 27438 25927 27277 84748 76738 98954 31559 47986 06848 21507 60155 25927 27277 84748 76738 98954 31559 47986 06848 21507 60155 26152 15619 46603 96551 83952 72504 97556 74224 44859 08726 26152 15619 46603 96551 83952 72504 97556 74224 44859 08726 46286 55571 39459 48329 59223 61955 58590 22680 32722 33059 46286 55571 39459 48329 59223 61955 58590 22680 32722 33059 25868 27581 83049 25989 87956 80005 30420 78024 35990 10565 25868 27581 83049 25989 87956 80005 30420 78024 35990 10565 71 . Para usarla es necesario primero asignar un número de código a cada elemento de la población. el elemento escogido como parte de la muestra será aquel que coincida con los datos encontrados en la tabla.

. se continúa con el inicio de ésta. 445. Existen cuatro tipos de errores más comunes: de cobertura o sesgo. El error de muestreo puede reducirse tomando tamaños de muestra mayores.000 elementos estarían entre el 000 y el 999. de no respuesta. 707.Por ejemplo. ………. los números de identificación de los 1. si la población es de 1. Aún y cuando la definición de la muestra utilice el muestreo probabilístico. Si se llegara a repetir un número. Error de cobertura consiste en la exclusión de ciertos grupos de la población. 72 . cada uno de ellos se identifica con un número de tres dígitos. el primer número formado por cuatro dígitos será 979. 267. Suponiendo que se escogió al azar la casilla de la columna 5 de la segunda fila. 810. al influjo del encuestador sobre el encuestado o a las exageraciones o minimizaciones que hace el encuestado. 2.. Error de Medición se refiere a inexactitudes en las respuestas registradas que ocurren debido a una mala formulación de las preguntas. de muestreo y de medición. Error de no-respuesta o sesgo de no-respuesta resulta del fracaso de recolectar datos sobre el total de los sujetos de la muestra. Error de Muestreo refleja la variedad o las diferencias de oportunidad de muestra a muestra basándose en la probabilidad de los sujetos que están siendo seleccionados en las muestras particulares. 214. 017. ésta está expuesta a errores de aplicación. 199. este se descarta y se continúa formando los necesarios.000 elementos. y los subsiguientes serán: 981. así como durante el cómputo de los mismos. aunque esto incrementará el costo de aplicación.9 Errores comunes en la aplicación de una encuesta Al momento de recopilar los datos que serán procesados es susceptible de cometer errores. Para evitar este tipo de error es necesario contar con un marco apropiado de la población o una lista actualizada de todos los sujetos de donde se extraerá la muestra. Al terminarse la tabla. 016.

Si la muestra se selecciona correctamente. Algunos de estos errores son: Sesgo: Es imposible ser completamente objetivo o no tener ideas preconcebidas antes de comenzar a estudiar un problema. Un caso extremo de sesgo sería la situación donde primero se toma una decisión y después se utiliza el análisis estadístico para justificar la decisión ya tomada. Proyección descuidada de tendencias: la proyección simplista de tendencias pasadas hacia el futuro es uno de los errores que más ha desacreditado el uso del análisis estadístico. Existen otros errores que no tienen nada que ver con la digitalización y que no son tan fácilmente identificables. tendrá básicamente las mismas propiedades que la población de la cual fue extraída. y existen muchas maneras en que una perspectiva o estado mental pueda influir en la recopilación y en el análisis de la información. entonces puede suceder que los resultados no signifiquen nada. Existen dos maneras de resolver los problemas derivados de los errores de aplicación: (1) analizando cuidadosamente los datos y tratar de recolectar los datos más confiables de aquellos individuos cuyas respuestas son inusuales y (2) realizar una nueva muestra aleatoria que sustituya las que se descartaron. En estos casos se dice que hay un sesgo cuando el individuo da mayor peso a los datos que apoyan su opinión que a aquellos que la contradicen. pero si el muestreo se realiza incorrectamente. Recuerde el acrónimo GIGO. Datos no comparables: el establecer comparaciones es una de las partes más importantes del análisis estadístico. 73 . pero es extremadamente importante que tales comparaciones se hagan entre datos que sean comparables.

a su vez. La medición cardinal o escalar son de tipo discreto o continuo. En la realización de estudios socio-demográficos. sea cualquiera de los dos métodos. Para la realización de la encuesta se requiere definir o conocer el ámbito de estudio. existen dos tipos de estudios estadísticos: estudios enumerativos y estudios analíticos. Lo primero que se definió fue que existen dos tipos de variable: categórica y numérica. 74 . Existen cuatro fuentes para obtener los datos: uso de datos publicados. El capítulo trató también sobre la recolección y presentación de datos para un estudio estadístico.10 Resumen. las variables categóricas se pueden medir en una escala nominal u ordinal. diseño de experimento. mientras que las variables numéricas se miden en una escala cardinal (de intervalo o de relación). los primeros sobre las características de una población y los segundos sobre las características de un proceso. error de no respuesta o sesgo de no respuesta. la forma más directa y rápida de obtener los datos es a través de la realización de una encuesta. Para definir la muestra se utiliza el método no probabilístico y probabilístico. es necesario identificar la fuente que los proporcione. los más comunes son: error de cobertura o sesgo de selección. la definición de la muestra tiene riesgo de errores. error de muestreo y error de medición. Una vez que se define el tipo de variables (datos) que se requieren para realizar el estudio estadístico. el universo de estudio y definición de la muestra. con el fin de conocer estados de opinión o hechos específicos. por observación y realización de encuesta. entendiendo a esta como un conjunto de preguntas normalizadas dirigidas a una muestra representativa de población o instituciones. Ambos sirven para la toma de decisiones.2. En forma general.

indique si el estudio es enumerativo o analítico. b) Una empresa desea reducir el número de errores en el cálculo de pago de horas extras. Medición cardinal Medición de intervalo Medición de relación Medición nominal Medición ordinal Muestra adecuada Muestra de agrupación Muestra estratificada Muestra sistemática Muestreo con reemplazo Muestreo no probabilístico Muestreo probabilístico Muestreo sin reemplazo Números aleatorios Variable categórica Variable numérica 75 . c) La Universidad desea determinar si la asistencia total de alumnos inscritos en clases que comienzan antes de las 9:00 horas aumenta o disminuye con relación al tipo de materia impartida a esas horas. 1. de Experimentación Estudio analítico Estudio de Observación Estudio enumerativo Fuente primaria Fuente secundaria GIGO 2. argumente la elección.2.12 Problemas de repaso del capítulo. Para cada inciso siguiente. a) La universidad requiere conocer el número de estudiantes inscritos en clases con horario anterior a las 9:00 hs.11 Términos clave Datos Datos continuos Datos discretos Definición operacional Encuesta Error de cobertura Error de medición Error de muestreo Error de no respuesta Est.

i) Una empresa desea saber las características de preferencia de marca en pasta dental. ¿Cuál es la diferencia entre un muestreo simple con reemplazo y un muestreo simple sin reemplazo? 10. f) Una empresa desea saber el nivel de ingresos de sus clientes g) Una empresa desea saber si el sistema de producción ha reducido el número de piezas defectuosa con las mejoras de proceso instrumentadas. ¿Cuántos tipos de muestreo probabilístico existen? 9. h) Una empresa desea conocer el nivel de precios de mercado de los productos que comercializa. ¿Cuál es la diferencia entre un dato discreto y dato continuo? 5. ¿Cuáles son los niveles de medición? 6. ¿Qué significa una definición operacional? 7. ¿Cuál es la diferencia entre una muestra probabilística y una no probabilística? 8.d) La UADYCFHG desea determinar las razones de los estudiantes por las cuales ha aumentado la cantidad de inscritos en la carrera de Negocios Internacionales. 2. ¿Cuál es la diferencia entre una variable aleatoria numérica y una categórica? 4. j) La UAT desea conocer las intenciones de ingreso a la Universidad de los estudiantes de preparatoria. e) Una empresa desea realizar un estudio sobre cómo reducir el número de errores en la facturación. ¿Qué tipo de errores más comunes se presentan en la definición de la muestra? 76 . ¿Cuál es la diferencia entre una un estudio estadístico enumerativo y un estudio estadístico analítico? 3.

c. autoempleo) Dependencia económica familiar (autónomo. a) Número de credencial de estudiante b) Tipo de automóvil de la VW. Matrícula Edad Género Estado civil Lugar de origen antes de ingresar a la Universidad Situación laboral (empleado. e) Nivel de categoría de la planta docente. g. d) Lugar en que llegaron los corredores en la carrera universitaria. c) Cargo mensual. del recibo de consumo de energía eléctrica. e. j. b. en pesos y centavos. Suponga que requiere editar la siguiente información estadística de los estudiantes de la UADYCFHG después de la segunda semana de clases. g) Disponibilidad de efectivo para actividades de recreación. Determine en cada uno de los incisos si la variable es categórica o numérica. desempleado. a. ¿Qué se requiere realizar para editar los datos en una hoja de cálculo electrónica o en un paquete estadístico? 12. f. otro) Número de miembros de la familia Ingresos familiares Período de estudio (semestre que impera) 77 . 13. f) Especialidad académica de los catedráticos.11. Si es numérica determine si es discreta o continua. i. d. señale el tipo de variable y el nivel y la escala de medición que le corresponde. paternal. h) Ingresos mensuales de los catedráticos. h.

aprovechamiento escolar. Dispone de computadora personal r. ¿Consideras importante contar con libros de texto? o. métodos de enseñanza. Elabore un cuestionario de aplicación en la UADYCS sobre un tema que sea de su interés. Carrera que estudia l. como ausentismo. Número de horas de uso diario de Internet t. tabaquismo. 78 . etc. Número de materias que cursa en el período actual n. Turno académico m. Número de horas de uso diario de computadora s.k. Número de libros de textos con que cuenta (uno por materia) q. alcoholismo. deportivismo. Gasto mensual en uso de Internet (conexión o uso de chat) 14. Cantidad de dinero gastada en adquirir libros p.

Enumerativos Analíticos Método estadístico Fuente de datos Secundaria •Gobierno •Industria •Instancias especializadas Elección del tema Diseño de cuestionario Ámbito de aplicación Definición del universo • nominal Categóricos •ordinal Numéricos •Cardinal (de intervalo –de relación): discretos -continuos Primaria •Experimentación •Observación •Encuesta Definición de tipo de muestreo Preparación de datos Método de aplicaación 79 .13 Mapa conceptual de los estudios estadísticos.2.

80 .

Capítulo 3 Organización y presentación gráfica de datos numéricos ********************** Objetivo del Capítulo Mostrar como organizar y presentar en tablas y diagramas los datos numéricos 81 .

82 .

83 . a través del muestreo. Las observaciones independientes pueden registrarse en una forma ordenada o diagrama de tallo de hojas y luego presentarse en forma tabular. ordenada e interpretativa. Al término del capítulo.3. Presentar los datos en forma resumida. el alumno podrá comprender: 1. 3. La ventaja de construir el diagrama de Tallo y hojas. la mejor manera de interpretar sus valores es por medio de un resumen y una representación gráfica. sean enumerativos o analíticos (de proceso).1 Introducción En los apartados anteriores se ha visto la importancia de aplicación del método estadístico y la importancia de contar con datos de origen. se reitera la conveniencia de utilizar la muestra de datos para la realización de estudios estadísticos. Puesto que el muestreo ahorra tiempo. dinero y esfuerzo. como la distribución de frecuencias o en forma gráfica como histograma. Sin importar si los datos corresponden a una muestra o a una población. En particular se mostrará cómo grandes series de datos numéricos pueden presentarse de una manera que facilite su análisis. Este apartado se trata sobre la presentación de datos. cuando estos son en una cantidad mayor de 10. confiables y suficientes. polígono de frecuencias o diagrama de Pareto. La digitalización de datos 2.

Cada fila de una tabla representa un conjunto de datos relacionados. Posterior a la captura. los datos que pertenecen a una misma entidad. Construir los diferentes tablas y diagramas de datos: histograma. una tabla de una base de datos puede imaginarse formada de filas y columnas o campos. un registro representa un ítem único de datos implícitamente estructurados en una tabla (características de los objetos o sujetos en estudio). Se le asigna automáticamente un número consecutivo (número de registro) que en ocasiones es usado como índice. y concretamente en el contexto de una base de datos. La utilidad de agrupar los datos en clases. En términos simples. La fila se interpreta entonces como una variable relacional compuesta por un conjunto de secuencias ordenadas. el analista arreglará los datos de acuerdo a sus necesidades. 3. Las variables a estudiar son: rendimiento de millas por galón (mpg). es decir se capturan tal y como le llegan al capturista. polígono de frecuencias o diagrama de Pareto. uno en cada columna de la tabla. cada uno de ellos. La estructura implícita de un registro y el significado de los valores de sus campos exige que dicho registro sea entendido como una sucesión de datos. cada una de las cuales consta de dos ítems: el nombre de la columna relevante (dato) y el valor que esta fila provee para dicha columna. y todas las filas de la misma tabla tienen la misma estructura. aunque lo normal y práctico es asignarle a cada registro un campo clave nominal para su búsqueda.2 Tabla de datos originales sin orden y ordenados Cuando se recolecta una serie de datos. 5. centímetros cúbi- 84 . En estadística. Supongamos que una empresa está interesada en estudiar las características del parque vehicular que circuló en los Estados Unidos en el año de 1970.4. Para ello recopiló las características de los 30 automóviles más vendidos en ese año. Generalmente la captura de datos de una encuesta corresponde a un conjunto de registro que contienen. habitualmente se hace sin ningún orden.

Los datos obtenidos sin ordenar se presentan en la tabla 3.1 Hoja de captura de registros sin ordenar En este ejemplo lo que se trata de mostrar es que en un solo registro existen diversas variables relacionadas y que es difícil realizar cualquier análisis en el orden con 85 . caballos de fuerza (horse).cos del motor (engine). tiempo de aceleración de 0 a 60 millas/hora (accel). año de fabricación (year). origen de fabricación (origin) y número de cilindros del motor (cylinder).1 Tabla 3. peso en libras (weight).

que se capturaron los datos. Un primer análisis estadístico se podría realizar al ordenar los datos en forma ascendente o descendente, es decir de menor a mayor o de mayor a menor. En la tabla 3.2 se puede observar el cambio de posición de los registros tomando en consideración el orden de los valores ascendentes de la variable mpg. Tabla 3.2 Hoja de registros ordenada por una variable de interés

En este primer intento de análisis estadístico podemos observar los valores mínimos y máximos de la variable mpg. También se puede observar la relación directa 86

o inversa que existe entre las variables. Por ejemplo, se puede observar que a mayor rendimiento, menor tamaño del motor, menor fuerza en caballos y menor peso en libras. Es importante señalar que cuando el número de registros es más grande y sobrepasa más de una hoja de cálculo, este procedimiento es poco útil. Mientras mayor sea el número de observaciones registradas más difícil es sacar provecho a la clasificación ordenada. En tales situaciones es útil agrupar los datos en un diagrama de tallo y hojas, con el fin de estudiar las características de los datos. 3.3 Diagrama de tallo y hojas Un diagrama de tallo y hojas separa el valor de los datos en un dígito guía y un dígito gregario, los dos asociados representan el valor del dato. El diagrama de tallo y hojas se puede construir desde la tabla de datos sin ordenar o desde la tabla de datos ordenada. Dependiendo del grado de exactitud que requiere el estudio estadístico, las cifras de los valores, siguiendo la metodología tradicional, es conveniente trabajar con dos o tres dígitos. Por ejemplo 2,356 libras se puede representar por 2.4 miles de libras; 50.726 toneladas por 51 toneladas. Usando los datos sin ordenar de la tabla 3.1 se construye fácilmente el diagrama de tallo y hojas. Observe que el primer registro tiene el dato de 18, el segundo de 15, el tercero de 18…… Registrando todos los valores de la variable mpg sería:
Tallo & hojas 1 85867544454687545548 2 1421765453 El valor del tallo es:10 Cada hoja: 1 caso(s) Número de casos: 30

Figura 3.1 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles sin ordenar (mpg). Fuente: tabla 3.1

87

Colocando los dígitos en forma ascendente de acuerdo a la tabla 3.2, el diagrama arreglado quedaría de la siguiente forma:
Tallo & hojas 1 44444455555566778888 2 1124455667 El valor del tallo es:10 Cada hoja: 1 caso(s) Número de casos: 30

Figura 3.2 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada Fuente: tabla 3.2

Tal vez el valor de los datos está muy concentrado y sea conveniente incrementar el número de tallos. Aquí lo que procede es dividir cada valor de tallo en valores bajos (0 a 4) y valores altos (5 a 9)

Figura 3.3 Millas por galón Diagrama de tallo y hojas del rendimiento de los automóviles (mpg) ordenada y ampliando en número de tallos. Fuente: tabla 3.2

3.4 Tabulación de datos numéricos: distribución de frecuencia Utilizando los datos originales es posible construir tablas y diagramas que faciliten el análisis estadístico, así, una tabla de mucha utilidad es la tabla de distribución de frecuencias, en ella se disponen los datos en forma agrupada por categorías, ordenadas en forma ascendente o descendente. Para construir una tabla de frecuencias debe ponerse atención a 3 conceptos fundamentales:

88

1. Seleccionar el número de agrupamientos, o clases. 2. Obtener un intervalo de clase de cada agrupamiento y 3. Establecer los límites de cada intervalo de clase En forma general, dependiendo el número de observaciones, el número de clases de intervalo no debe de ser menor de 5 y mayor de 15, ambos extremos dificultan la interpretación. Cada clase o intervalo tendrá una amplitud igual. Una manera para determinar la amplitud de cada agrupamiento o intervalo de clase, es aplicando la relación del rango y el número de intervalos deseado. Considerando los datos de la tabla 3.2, se observa que el rango de la variable mpg es 27-14 = 13. Si se quisiera 6 tipos de clase, los valores de cada clase serían de 13/6= 2.16. Para conveniencia y facilidad de lectura, el intervalo de clase seleccionado se redondea a 2 mpg. Los límites de los diversos agrupamientos deben de establecerse de manera que incluyan todas las observaciones. Así, el primer intervalo de clase se establece desde mayor de 12 hasta menor o igual que 14, el segundo desde mayor de 14 hasta menor o igual que 16 etc. Estableciendo los límites de cada clase, de esta manera las 30 observaciones se han registrado en 8 clases, como se puede observar en la tabla 3.3 de distribución de frecuencia y porcentaje de la muestra. Tabla 3.3 Distribución de frecuencias y porcentaje de la muestra
Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 porcentaje 20.00 26.66 20.00 0.00 10.00 6.66 13.33 3.33

89

La principal ventaja de utilizar la tabla de distribución de frecuencias es que visualmente se pueden detectar algunas características de la muestra, tales como el alcance aproximado de las observaciones, que va desde 12 hasta 28 mpg, tendiendo a agruparse en los valores de 12 a 18 mpg. El hecho de agrupar los valores observados en clase, implica transformar una variable de cardinal (de cociente o de intervalo) en una variable categórica ordinal de orden débil que no se identifica los valores individuales dentro de un intervalo. Para atenuar un poco esta desventaja, se acostumbra a utilizar el punto medio. El punto medio de una clase (o marca de clase) es punto de la mitad de los límites de cada clase y es representativo del valor de la clase. La tabla de distribución de frecuencias sirve para dibujar tres importantes diagramas: el histograma o diagrama de distribución de frecuencias, el polígono de frecuencias y el diagrama de Pareto. 3.5 Histograma o diagrama de distribución de frecuencias El histograma es una gráfica de barras que permite describir el comportamiento de un conjunto de datos en cuanto a su tendencia central, forma y dispersión. El histograma permite que de un vistazo se pueda tener una idea objetiva sobre la calidad de un producto, el desempeño de un proceso o el impacto de una acción de mejora. La correcta utilización del histograma permite tomar decisiones no solo con base en la concentración de valores, sino también con base en la dispersión y formas especiales de comportamiento de los datos. El histograma se construye a partir de la tabla de distribución de frecuencias. Para evitar posibles anormalidades en la construcción del histograma se procede seguir las siguientes instrucciones: a. Determinar el rango de datos. La diferencia entre el dato máximo y el dato mínimo.

90

se observa en la figura 3. Construir los intervalos de clase con relación al paso anterior. Obtener la frecuencia de cada clase.4 Histograma o gráfica de distribución de frecuencias 8 26. La grafica de frecuencias del ejemplo del rendimiento de los automóviles (mpg). Sin embargo mientras mayor sea el número de observaciones y los intervalos de clase reducidos.33% 4 10% 6. 91 . el polígono se muestra a veces en forma dentada. d.3 Polígono de frecuencias Otro gráfico utilizado para el análisis de datos es el polígono de frecuencias. c. Graficar el histograma: se grafican en barras. en las que su base es el intervalo de clase y la altura sean las frecuencias de las clases.66% 2 3. Se puede utilizar los definidos en la tabla de frecuencias. Obtener el número de clases o barras y la longitud de clase. Se cuentan los datos que caen en cada intervalo de clase. este efecto tiende a suavizarse. el cual se forma con la unión lineal de los puntos medios de cada clase. e.b.33% 0% 0 12 14 16 18 20 22 24 26 28 Millas por galón Fuente: Tabla 3.4 Figura 3.66% 20% 6 20% Frecuencia 13. Dado que la unión de los puntos medios es a través de rectas.

4 Distribución de frecuencias y porcentaje acumulado Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 Frecuencia Porcentaje acumulada porcentaje acumulado 6 20.66%. que terminará con el número total de observaciones y el 100% acumulado.66 25 6.00 66.66% 3.33% 0 12 14 16 18 20 22 24 26 28 Millas por galón Fuente: Tabla 3.00 92 .66 46.66 23 10.66 20 0. Para construir la tabla de frecuencia y porcentaje acumulado se parte de la tabla 3.00 66.00 20.00 14 26. que en conjunto representan el 66.66% 6 20% 20% Frecuencia 4 13.33 96.3 Tabla y polígono de porcentaje acumulado Estas herramientas de análisis de datos son de considerable importancia.33 100.5 Polígono de frecuencias 8 26.33% 10% 2 6.Figura 3. porque nos señalan cómo se concentran los valores de las observaciones.66 83.67 30 3. En el caso del ejemplo.66 20 20. se puede observar que las primeras tres clases concentran 20 observaciones.33 29 13.3 de distribución de frecuencias y porcentajes y se realiza el agregado de cada clase hasta la última. Tabla 3.00 76.

93 . se construye ordenando en una tabla de frecuencias desde la clase que mayor número de observaciones tenga hasta la de menor.6 Polígono de frecuencias y porcentajes acumulados 100% 100% 96. El diagrama permite llevar a cabo el principio de Pareto (pocos vitales.6. donde en el eje horizontal se registran los puntos medios del intervalo de clase y en el eje vertical se registran las frecuencias o porcentajes acumulados partiendo de cero.8 Diagrama de Pareto El diagrama de Pareto u 80-20.4 3.66% 20% 20% 0 12 14 16 18 20 22 24 26 28 Millas por galón Fuente: tabla 3.33% 76. figura 3. que hay muchos problemas sin importancia frente a unos pocos graves.67% 83. Figura 3.El polígono de porcentajes acumulados.66% 80% 60% Frecuencia 40% 46.66% 66. se construye a partir de los cálculos de la tabla 3.4. Hay que tener en cuenta que tanto la distribución de los efectos como sus posibles causas no son de carácter lineal sino que el 20% de las causas totales hace que sean originadas el 80% de lo efectos. muchos triviales) es decir.

00 20.33 0.66 20.65 99.Tabla 3.00 porcentaje acumulado 26.66% 0 14-16 12-14 16-18 24-26 20-22 22-24 26-28 18-20 Millas por galón 94 .5 se puede elaborar el muy útil diagrama de Pareto.5 Distribución de frecuencias y porcentaje acumulado de mayor a menor frecuencia.33 10.99% 79.99 Siguiendo con el mismo ejemplo.66% 20% 26.66 66.66 79. Clase 14<x<=16 12<x<=14 16<x<=18 24<x<=26 20<x<=22 22<x<=24 26<x<=28 18<x<=20 Frecuencia 8 6 6 4 3 2 1 0 porcentaje 26. y derivado de la tabla 3. Figura 3.7 diagrama de Pareto 100% 100% 100% 96.66% 60% Frecuencia 40% 46.66 3.99% 80% 66.99 96.00 13.00 6.99 89.65% 89.66 46.99 99.

usualmente se estudia un subconjunto seleccionado de la población. se comienza con un proceso o una población a ser estudiada. dentro de un rango creado por la diferencia longitudinal de los valores mínimo y máximo de la muestra. 3. Polígono de frecuencias. Con el fin de que no se traslapen los intervalos de clase. Esta puede ser una población de personas en un país. en base al rango de la muestra. se definen límites inferiores y superiores en cada intervalo de clase. Los datos numéricos. límite de clase Intervalo de clase Tabla de distribución de frecuencias Diagramas de distribución de frecuencias: histograma. llamado muestra. 95 . Por razones prácticas. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo. como se pudo observar en el capítulo anterior.3. se agrupan por clases de intervalo iguales. de granos cristalizados en una roca o de bienes manufacturados por una fábrica en particular durante un periodo dado. Los datos obtenidos ahora son agrupados por categorías. Al aplicar estadística a un problema científico. Los datos acerca de la muestra son recogidos por observación o por experimento. Diagrama de Pareto. en número de clases y el tamaño de intervalo.10 Términos clave Datos sin ordenar Clasificación ordenada Diagrama de tallo y hojas Rango Clase. se procede a realizar las tablas y diagramas de frecuencias simples o acumuladas. Una vez decidido. industrial o social. en lugar de compilar datos de una población entera.9 Resumen El capítulo trató sobre el resumen de datos y representación gráfica de los mismos.

550 45.300 135.150 73.750 32.350 30.000 60.300 21.000 42.900 35.250 a) Reduzca los datos a 2 dígitos y elabore un diagrama de tallo y hojas sin ordenar y ordenado.250 27.000 30.050 25.800 51.500 30. 4.400 28.350 36.900 26.000 57. b) Forme una tabla de distribución de frecuencias (simple y acumulada) y de porcentaje (simple y acumulada) c) Elabore el histograma.250 29.000 30. Explique la diferencia entre la tabla datos sin ordenar y ordenados 2.000 45.000 36.050 31.100 23.150 81.150 29.550 35.850 33.500 54.900 103.600 28.3.000 27.550 31.600 22.950 92.900 78.000 26.250 56.750 34.250 31. Explique la diferencia entre histograma de frecuencia.625 21.750 40.200 28.000 25.125 21.11 Problemas de repaso del capítulo 1.500 48.100 16.100 23. 5.750 110.200 30.000 26.000 45.100 40. ¿Cuándo es más útil utilizar el diagrama de tallo y hojas que una tabla de datos ordenada? 3.900 20.950 31. 96 .000 24.000 26.100 21.150 40.200 35.000 22.000 53.950 24.300 24.950 34.400 33.550 41.050 27.200 19.250 32.000 46.350 21.750 22.000 22.000 55.350 27. ¿Cuál es ventaja principal de uso del diagrama de Pareto. 24.800 60.100 24. Los datos de la siguiente tabla son los sueldos de una muestra aleatoria de 100 empleados con licenciatura en Negocios Internacionales egresados entre el año 2000 y 2005.750 24.050 78. el polígono de frecuencias y el diagrama de Pareto.250 30.300 38.650 24.000 21.450 27.900 42.900 24.500 68.750 25.125 46.750 22. polígono de frecuencia y polígono de frecuencia acumulado.050 30.375 29.150 72.800 31.200 82.950 25.850 36.750 16.

3. Digitalización de datos (captura) Orden ascendente Diagrama Tallo y hojas o descendente Histograma Tabulación de datos Polígono de frecuencias Diagrama de Pareto 97 .12 Mapa conceptual de organización y presentación de datos numéricos.

98 .

variación.Capítulo 4 Características de distribución de datos numéricos ********************** Objetivo del Capítulo Comprender las características de los datos numéricos representativas de la población o de la muestra: tendencia central. forma) y sus mediciones descriptivas de resumen 99 .

el alumno deberá ser capaz de: 1.1 Introducción Como se ha visto en los temas anteriores. la gráfica de caja y sesgo. la fase previa a cualquier estudio estadístico es la recolección. medidas de dispersión y medidas de deformación. Los instrumentos auxiliares para realizar esta tarea son básicamente las tablas de la base de datos. Comprender el significado de la concentración de los datos numéricos a través de las medidas de posición. organización y presentación de los datos. De aquí en adelante los temas a desarrollar estarán enfocados a la elaboración de un resumen.4. 100 . Apreciar el valor de las técnicas de análisis de datos: los cinco puntos. el diagrama tallo y hojas. descripción de las características de la distribución y la interpretación de datos. La concentración de datos numéricos de una variable de una población o muestra aleatoria da lugar a tres principales clases de medidas del fenómeno en estudio: medidas de posición. 2. medidas de dispersión y medidas de deformación. Es necesario recordar que las características numéricas de la muestra se les denomina “estadísticos” y las características de la población “parámetros” Al término del capítulo. las tablas y diagramas de distribución de frecuencias relativas y acumuladas.

2 Medidas de Posición de tendencia central Las medidas de posición son unos estadísticos que nos sintetizan la información sobre los datos que analizamos. la x se puede calcular sumando todos los valores de X y dividiendo también se pueentre el total de observaciones: x = ( X1 + X2 + X3 + ……. Sin embargo. X2.Xn. x = media o valor promedio de la variable de interés de la muestra. la moda. Si la distribución de valores en grandes y pequeños de la muestra fueran equivalentes. conocida también como media. dependerá del grado de concentración de los datos la que tenga mayor peso. de expresar mediante la fórmula: x = Xi media aritmética n i=1 n En donde: n = tamaño de la muestra o número de observaciones. es el promedio o medición de tendencia central más utilizada. el rango medio y el eje medio.4. Por lo tanto. Las cinco medidas de posición de tendencia central son: la media. la mediana. facilitando su manejo. El término “promedio” se utiliza comúnmente para describir el valor de la parte central de una distribución. Xi = diferentes valores que toma la variable aleatoria de la muestra. las medidas de posición resumen los valores significativos del conjunto de datos. La media aritmética La media aritmética. En lugar de trabajar con toda la tabla de frecuencias. existen cinco diferentes medidas de tendencia central que pueden tener diferente valor unas de otras. Se calcula sumando todos los valores de las observaciones divididas entre el número de observaciones. ……. pero si hubiera 101 .Xn )/n. la media aritmética es un valor representativo de la muestra. una muestra que contiene n observaciones X1. X3.

el valor de la media aritmética no sería muy representativo. a continuación se presentan dos pequeñas muestras con la misma media pero características completamente distintas. Suponga que. denominados Escala de puntos. Cuando existen valores extremos significativos la media aritmética trasmite una representación distorsionada de los datos. la media en ambas es igual. es decir. la suma del valor de las observaciones entre el número de observaciones. Tabla 4. dentro de la misma base de datos se tomaron aleatoriamente dos pequeñas muestras de 6 observaciones cada una.muchos valores pequeños y pocos grandes. x = 112/6 = 18.2 Distribución de los valores de la muestra “A” 14 16 18 20 22 24 26 102 .1 Distribución de frecuencias de los valores de la variable mpg de dos muestras aleatorias de 6 elementos c/u Xi de A 16 17 18 18 21 22 112 Xi de B 14 15 17 18 22 26 112 ∑ Considerando la fórmula para calcular la media. 4. sin embargo tienen diferentes características. Fig. la media no sería el mejor promedio para describir las características de la muestra. así pues. Para entender esta posible distorsión. viceversa.66 para ambas. sin embargo la diferencia de características se observa en los siguientes gráficos.

Suponga que en la muestra “A” del ejemplo anterior. 103 . Si el número de observaciones es par. El valor de la mediana corresponde al valor promedio de estas dos observaciones. el punto de posición se encuentra entre las dos observaciones medias de la clasificación ordenada. con los siguientes valores: 16 1 17 2 18 3 21 4 22 5 Aplicando la fórmula (n + 1)/2 = 3. se localiza el punto de posición medio y el valor de ese punto corresponde al valor de la mediana. Muestra de tamaño impar. la localización del punto medio se determina utilizando la fórmula: (n + 1)/2. por lo que ésta no es representativa de las características de la muestra. en seguida. La mediana La mediana es el valor que corresponde a la observación que se encuentra en la mitad del + forma ascendente o descendente. lo que significa que la mediana se localiza en la observación número 3 y tiene un valor de 18. Si el número de observaciones es impar. 4. Por otro lado.3 Distribución de los valores de la muestra “B” 14 16 18 20 22 24 26 De hecho los datos de la muestra “A” son bastante parecidos y se agrupan alrededor de la media de la muestra. los datos de la muestra “B” están muy dispersos y alejados de la media. la media es la medida descriptiva promedio apropiada. en este caso. en lugar de seis observaciones se realizaron cinco. El significado de dispersión se estudiará más adelante.Fig.

es el único valor que se repite. El valor de la mediana es igual al promedio de las dos observaciones. es decir entre las observaciones 3 y 4. aplicando la fórmula (n + 1)/2.5.5 14 1 La moda La moda es el valor de las observaciones que aparecen con más frecuencia. que otras mediciones de tendencia central. El rango medio El rango medio es una medida de posición de tendencia central que se obtiene al promediar los valores extremos de las observaciones. La moda no se ve afectada por la ocurrencia de valores extremos.Muestra de tamaño par. sin embargo sólo se utiliza para propósitos descriptivos dado que es el valor más variable de una serie de muestras. 18 . (17 + 18)/2 = 17. la mediana se localiza en (6 + 1 )/2 = 3. Se obtiene fácilmente de una clasificación ordenada. es decir la de menor y la de mayor valor. Para el ejemplo de la muestra “B”. 4 22 5 26 6 Rango medio “A” (16 + 22)/2 = 19 Para el caso de la muestra “B” 14 1 15 2 17 3 18 4 22 5 26 6 104 . En el caso de la muestra “B” no hay moda ya que ningún valor se repite. Rango medio = (Xmenor+Xmayor)/2 Para el caso de la muestra “A” 16 1 17 2 18 3 21 4 22 5 15 2 17 3 . En el caso de la muestra “A” la moda es 18.

igual a 1. el rango medio de la muestra “A” es igual a (16 + 22)/2 = 19. El eje medio se obtiene de promediar esos dos valores. se toma el valor más próximo a la posición calculada. se toma el valor promedio.Rango medio “B” (14 + 26)/2= 20 En el ejercicio anterior. respectivamente. Para identificar los valores de los cuartiles se utilizan las siguientes fórmulas: Cuartil 1 = Q1 = valor correspondiente a la posición 1/4(n + 1) de las observaciones ordenadas.75 es 15. primero es necesario localizar las posiciones de los valores del 1er cuartil y 3er cuartil.75. Cuartil 3 = Q2 = valor correspondiente a la posición 3/4(n + 1) de las observaciones ordenadas. Eje medio Una medida de tendencia central que no se ve afectada por los valores extremos es el eje medio. dado que los valores de la muestra “A” son muy homogéneos y cercanos al valor de la media. el valor del rango medio está muy próximo al valor de la media. 105 . si ésta se encuentra en el punto medio de dos observaciones. tomando los datos de la muestra “B” tratarán de facilitar el entendimiento del cálculo del valor del eje medio. éstos se localizan al término de contar el 25% y el 75% del número de observaciones. En el caso de la muestra “B” el rango medio es igual a (14 + 26)/2 = 20. El rango medio se ve afectado significativamente por la existencia de valores muy extremos dado que sólo se consideran éstos. el valor más próximo a la posición 1. Para conocer el valor del eje medio. Q1 = valor correspondiente a la posición 1/4(6 + 1) de las observaciones ordenadas. Para estimar el valor de las observaciones del 1er y 3er cuartil. Las siguientes gráficas.

Los valores de la muestra “A” son mucho menos variables que los de la muestra “B”. como se observó en los ejemplos de las medidas de posición de las muestras “A” y “B”. pueden tener la misma tendencia central pero diferir en términos de variación. El rango es recorrido que existe entre la observación de mayor valor y la de menor valor. 14 1 15 . los valores extremos (14) y (26) no afectan al cálculo del valor del eje medio. el valor más próximo a la posición 5. 4.5 Como se puede observar. Rango = Xmayor – Xmenor Usando los datos de la muestra “B” 14 15 17 18 22 26 106 . el rango intercuartil.25.3 Medidas de dispersión: varianza y desviación estándar. Otra de las características de la distribución de las observaciones es que tanto se acercan o se alejan del valor de la media.Q3 = valor correspondiente a la posición 3/4(6 + 1) de las observaciones ordenadas. Existen cinco mediciones de variación: el rango. 2 17 3 18 4 22 5 . la desviación estándar y el coeficiente de variación. la varianza. igual a 5. El rango (alcance) El rango es la medida de variación más fácil de calcular de un conjunto de datos ordenados. 26 6 Número de observaciones = 6 Eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.25 es 22.

El rango intercuartil es 22-15 = 7 Esta medición considera la dispersión entre los valores extremos que se encuentran en la parte media de la muestra.75.El rango es 26 -14 = 12 mpg El rango mide la variación total de las observaciones. Es decir la diferencia de valor entre el 3er cuartil y el 1er cuartil. el valor más próximo a la posición 5. el rango no consigue describir realmente el grado de variación entre el valor menor y el mayor. 2 Número de observaciones = 6 Q1 = valor correspondiente a la posición (6 + 1)/4 de las observaciones ordenadas.75 es 15.25 es 22.25. por lo tanto. Q3 = valor correspondiente a la posición 3(6 + 1)/4 de las observaciones ordenadas. no se ve influenciada por los valores extremos. La manera de calcularlo es igual a: Rango intercuartil = Q3-Q1 14 15 1 . se sabe que cualquier valor de la muestra tendrá un valor dentro de ese rango. igual a 5. El rango intercuartil El rango intercuartil es una medida de variación entre los valores de las observaciones que se encuentran al final del 25% y 75% del número de las observaciones. 26 6 107 . El rango intercuartil abarca el 50% de las observaciones más cercanas a la media. 17 3 18 4 22 5 . Aunque es una medición simple y fácil cálculo. el valor más próximo a la posición 1. igual a 1. Siguiendo con la misma muestra de datos “B”.

X2. Así. nuevamente se tomará el conjunto de datos de la muestra “B” que se ha venido utilizando.x )2……. n = el tamaño de la muestra Xi = valores iterativos de la variable X El cálculo de la varianza se hace del promedio de las diferencias al cuadrado ya que. mientras que las diferencias al cuadrado son agregativas.x )2 + (X2 . 26 6 108 . La varianza y la desviación estándar son medidas que sí consideran al total de los valores de las observaciones. S2. aunque son muy fáciles de calcular y entender su significado no son suficientemente descriptivos ya que no consideran la mayor parte de las observaciones. 14 1 15 .x )2]/n-1 Utilizando la notación matemática de sumatoria de las diferencias de las observaciones con respecto a la media. la varianza muestral. puede calcularse como: S2 = [(X1 . La varianza de la muestra o varianza muestral es muy aproximada al promedio de las diferencias de las observaciones con respecto a la media al cuadrado. Para ver la diferencia. la sumatoria de las diferencias lineales se hacen cero o un mínimo.La varianza y la desviación estándar Las mediciones de rango y rango intercuartil. para la muestra que tiene n observaciones. X1. X3. Xn. se puede expresar de la siguiente forma: S2 = Donde x = a la media aritmética. sólo consideran dos valores en cada caso.………….+ (Xn . 2 17 3 18 4 22 5 . en una distribución de tendencia central.x )2 + (X3 .

66 -18.16+53.34 ∑ 0 109 (Xi-X)2 21.66 -18.40+2.66 3.66 -3.66 mpg [(14 .66) + (22 – 18.34 7.66 -0.008…casi cero Mientras que utilizando el casi promedio de las diferencias al cuadrado se obtiene: S2 = [(14 .66)]/ 5 = [-10.44+11.66 -18.x ) + (17 .2 suma de diferencias del valor de las observaciones con respecto a la media.66 Otra manera de apreciar la diferencia de cálculo es a través de la siguiente tabla: Tabla 4.66) 2 + (3.76 0.x )]/ n-1 = [(14–18.x ) + (22 .88 103.66 (Xi-X) -4.x ) 2 + (17 .66 -18.66)2+(15-18.40 2.64 + 10.34)2 ]/ 5 = S2 = [21.88]/5 = 103.x )2 +(18 .66)2+(26–18.66)2+(18–18.66) 2 + (-1.66) 2 + (-0. (simples y elevadas al cuadrado) Xi 14 15 17 18 22 26 X -18.66) 2 + (-3.66 -18.68] = 0.44 11.x ) + (26 .66)2+(22-18.76+0.x ) + (18 .66) + (18–18.Utilizando el cuasi promedio de diferencias lineales de la muestra “B” con una media x = 18.x ) 2 +(22 .72 13.66)2+(17–8.x )2 +(26 .34) 2 + 7.x )2 +(15 .x ) + (15 .72+13.16 53.04/5 = 0.3/5 = 20.66) + (15-18.33 .66)+(26–18.x )2]/ n-1 S2=[(14–18.66) + (17– 8.66 -1.66)2]/ 5 S2 = [(-4.

La desviación estándar de la muestra simplemente se calcula sacando la raíz cuadrada de la varianza.: metros.66 mpg. con una varianza de 20. tiene una raíz cuadrada de 5. su cálculo da como resultado unidades cuadradas: metros cuadrados. que son las unidades de medida originales de las observaciones. lo que significa que el total de las observaciones distan en promedio ±5. la desviación estándar es casi el promedio de los valores absolutos de las diferencias de las observaciones con respecto a la media.66 – 5. cuyo símbolo es s. el promedio de los valores menores se sitúa en (18. Si la media tiene un valor de 18. unidades poco prácticas en el análisis de datos.54) =13. La varianza y la desviación estándar miden la dispersión promedio que existe entre el valor de la media y el valor de las observaciones. dado que su cálculo arroja unidades lineales. pesos cuadrados.12 mpg y el valor promedio de los valores mayores en (18. kilogramos cuadrados. que es igual a la desviación estándar. kilos. es la medida de dispersión de mayor utilidad. etc. pesos.54) = 24. Mientras que la varianza es casi el promedio de las diferencias cuadradas del valor de las observaciones con respecto a la media.54 unidades.54 mpg del valor de la media. La varianza es útil para ciertos procesamientos de datos.66 mpg2. ésta no podrá ser nunca negativa. sin embargo. Puesto que los cálculos de la varianza se realizaron elevando al cuadrado las diferencias.2 mpg. S= En la muestra “B”.54 unidades del valor de la media y que el valor promedio de los valores mayores se sitúa a +5. 110 .54 mpg. Esto nos dice que el valor promedio de las observaciones menores se sitúan a -5.66 + 5. La desviación estándar.

para darnos una idea rápida de la forma de distribución. es decir la desviación estándar entre la media: Coeficiente de variación = CV = S/ x Regresando a los datos de la muestra “B” tenemos que: Coeficiente de variación = CV = 5 . a diferencia de las anteriores medidas de dispersión.Coeficiente de variación El coeficiente de variación. la varianza y la desviación estándar miden el grado de esparcimiento de las observaciones entre ellas y con relación a un valor central. el rango intercuartil. Mientras más propagados o dispersos estén los valores. todas las medidas de dispersión serían iguales a cero. forma y medidas de variación. menor serán estas mediadas.4 Análisis de 5 puntos y gráfica de caja de sesgo Después de conocer las principales propiedades de distribución de un conjunto de datos numéricos: tendencia central. es una medida relativa y describe la relación del valor del promedio de las desviaciones con respecto a la media. Mientras más homogéneos sean los valores. es posible. realizar un resumen de estas características a través de una gráfica que considere a dos medidas de tendencia central (la mediana y el rango medio) y dos medidas de variación (el rango y el rango intercuartil) Xmenor Q1 mediana Q3 Xmayor 111 . Si todos los valores de las observaciones fueran iguales.6 6 ) Lo que significa que los valores mayores o menores de la media se desvían aproximadamente un 30% del valor de la media. 4. la media. Interpretación de las medidas de dispersión Las medidas de dispersión: el rango.5 4 = .2968 ( 1 8 . mayor será el valor de las medidas de dispersión.

5. el valor que Mediana = al valor que se localiza a la mitad de las observaciones = (n+1)/2 = (6+1)/2 = 3. la media es mayor que la mediana. el valor que le corresponde es 17. Figura 4. lo que significa que el mayor peso de las observaciones se encuentra a la derecha. 17 Xmayor = 26 18 22 26 Q1 = al valor de la posición de (n+1)/4= (6+1)/2 = 1.4 distribuciones examinadas a través de la gráfica de caja y sesgo Mmediana = media Mmediana Mmedia media Mediana Distribución equilibrada Distribución sesgada a la derecha Distribución sesgada a la izquierda 112 .5.75 casi 2. el valor que corresponde a casi 2 es 15. por lo tanto. por lo tanto Q1= 15 Q3 = al valor de la posición de 3(n+1)/4= 3(6+1)/4 = 5. es decir. es decir el promedio del valor de las observaciones con valor 17 y 18 14 16 18 20 22 24 26 Se puede observar el sesgo hacia la derecha. por lo tanto Q3= 22 casi 5.Para los datos de la muestra “B” 14 Xmenor 15 = 14.25 corresponde a casi 5 es 22.

No podemos basar nuestras conclusiones únicamente en expresiones que vengan dadas en términos de medidas de posición y dispersión. En la distribución equilibrada. constante e igual a la medida de posición en cuestión con un error dado por la correspondiente medida de dispersión. En la distribución sesgada a la derecha. para lo cual hemos estudiado las medidas de posición y dispersión de la distribución de una variable. como se observa en la figura anterior. no debemos proceder a una interpretación que implique un comportamiento colectivo uniforme.5 Medidas de deformación Una vez iniciado el análisis estadístico de resumen de la información. 4. el 75% de las observaciones se encuentran entre el inicio de la caja (1er cuartil) y el extremo superior. las longitudes de los sesgos pueden variar significativamente y no es posible que la mediana se localice al centro de la caja. Si bien intentamos generalizar el comportamiento del colectivo que sea objeto de nuestro estudio. necesitamos conocer más sobre el comportamiento de la distribución de la misma. significa que el número de observaciones menores es igual al número de 113 . el número y peso de los valores menores y mayores son iguales. En la distribución sesgada a la izquierda.Cuando los valores de las observaciones están claramente sesgadas a la derecha o a la izquierda. lo que significa es que el mayor número de observaciones se encuentran agrupadas en el extremo superior. lo que significa es que el mayor número de observaciones se encuentran agrupadas en el extremo inferior. para lo cual las medidas de posición son nuestro mejor instrumento. el 75% de las observaciones se encuentran entre el extremo menor y el final de la caja (3er cuartil). Cuando las observaciones se distribuyen en forma simétrica. Cualquier conjunto de datos tienden a distribuirse de una forma simétrica o asimétrica con respecto a la media.

si la media excede a la mediana.observaciones mayores y la suma de las diferencias de los valores con respecto a la media es igual a cero. los datos pueden describirse como de sesgo positivo o sesgada a la derecha.3 Formas de distribución Mmediana = media Mmediana Mmedia Mmedia Mediana La asimetría es más ostensible al analizar la representación gráfica de la distribución. 114 . Si son iguales. Lo común es que estas observaciones tiendan a acumularse más a un lado del centro de recorrido. La simetría perfecta es una condición teórica difícil de observar en la realidad. sin llegar a realizar la misma. (Xi. Para describir la simetría de distribución de los valores de las observaciones. sea a la izquierda o a la derecha.x ) = 0 Otra característica es que la media y la mediana son iguales. Las medidas de forma se clasifican en medidas de asimetría y medidas de curtosis o apuntamiento. prácticamente se considera una distribución simétrica o normal. cuando la media es excedida por la mediana. las medidas de forma de una distribución se basan en su representación gráfica. Esto es: Media = Mediana: simetría o de sesgo cero Media > mediana: sesgo positivo o derecho Media < mediana: sesgo negativo o izquierdo Figura 4. sin embargo. sólo basta comparar la media y la mediana. los datos están generalmente sesgados a la izquierda o sesgo negativo.

por lo que no es invariante ante un cambio de escala.Medidas de asimetría más comunes. Si una distribución es simétrica. esta medida vendría expresada en las mismas unidades que las de la variable elevadas al cubo. referiremos los valores de la distribución a este promedio. Para conseguir un indicador adimensional. y por tanto el mismo número de desviaciones con signo positivo que con signo negativo. elevadas a la potencia impar más simple (que es tres). Podemos partir. A. es decir. Fisher. Coeficiente de asimetría de Fisher: ahora se intenta buscar una medida que recoja la simetría o asimetría de una distribución. sin necesidad de llevar a cabo su representación gráfica. Si la distribución es simétrica. cuya expresión es: 115 .x ) elevadas a una potencia impar para no perder los signos de las desviaciones. de hacer esto. de las desviaciones (X i . el eje de simetría de su representación grafica será una recta paralela al eje de ordenadas. Esta cantidad es el cubo de la desviación estándar. siendo la suma de desviaciones positivas igual a la suma de las negativas. tomaríamos como medida de asimetría el momento de orden tres centrado en la media. que pasa por el punto cuya abscisa es la media aritmética. existe el mismo número de valores a la derecha que a la izquierda de la media x . Por ello. debemos dividir la expresión anterior por una cantidad que venga en sus mismas unidades de medida. Pero. cuando la distribución es asimétrica. obteniéndose así el coeficiente de asimetría de R. Las medidas de asimetría tienen como finalidad el elaborar un indicador que permita establecer el grado de simetría (o asimetría) que presenta una distribución. Lo más sencillo sería tomar como medida de asimetría el promedio de estas desviaciones.

Si g1 >0 la distribución es asimétrica positiva (a derecha).Si g1 =0 la distribución es simétrica.x ). m2 y m3: (Xi. (Xi. unimodales y moderadamente asimétricas el coeficiente definido como Ap = ( x .x )3*ni De la fórmula: (1/30 * 1690.x )2 (Xi.x )3 (Xi. y Si g1 < 0 la distribución es asimétrica negativa (a izquierda).x )3 Xi ni x Xi- x (Xi. donde Mo es la moda.x )2*ni (Xi.3 Momentos m1.x )2. (Xi.35/82. existe mayor número de datos a la izquierda. es decir. 116 . Coeficiente de asimetría de Pearson: Karl Pearson propuso para distribuciones campaniformes. Tabla 4.25 = 0.66)/(1/30 * 567.6851 La distribución es asimétrica a la derecha.37)2/3 = 56.Mo) /σ.

Como en una distribución campaniforme simétrica x = Mo = Me, si la distribución es asimétrica positiva o a derechas,

x

se desplaza a la derecha de la moda, y por

tanto, x - Mo > 0. En el caso de distribución asimétrica negativa la media se sitúa por debajo de Mo, por lo que el valor x - Mo < 0. La desviación estándar que aparece en el denominador no modifica el signo de la diferencia x - Mo y sirve para eliminar las unidades de medida de dicha diferencia. Así tendremos que si Ap = 0 la distribución es simétrica, si Ap > 0 la distribución es asimétrica positiva y si Ap < 0 la distribución es asimétrica negativa. Coeficiente de asimetría de Bowley: Está basado en la posición de los cuartiles y la mediana, y viene dado por la expresión Ab = (Q3 + Q1 - 2Me)/(Q3 + Q1). Se cumple que si Ab = 0 la distribución es simétrica, si Ab > 0 la distribución es asimétrica positiva y si Ab < 0 la distribución es asimétrica negativa. Q3 y Q1 son los cuartiles tres y uno respetivamente. Coeficiente Curtosis o de apuntamiento El coeficiente curtosis define la distribución de frecuencias en la zona central de la misma. La mayor o menor concentración de frecuencias alrededor de la media y en la zona central de la distribución dará lugar a una distribución más o menos apuntada. Por esta razón a las medidas de curtosis se les llama también de apuntamiento o concentración central. En la distribución normal se verifica que m4 = 3σ4 siendo m el momento de orden 4 respecto a la media y σ la desviación estándar. Si consideramos la expresión g2= (m4/σ4) - 3, su valor será cero para la distribución normal. Por ello, como coeficiente de apuntamiento o curtosis se utiliza la expresión:

117

Del ejemplo anterior: Tabla 4.4 Momentos m1, m2 y m4: (Xi- x ), (Xi- x )2, (Xi- x )4
Xi ni

x

Xi-

x

(Xi- x )2

(Xi- x )4

(Xi- x )2*ni

(Xi- x )4*ni

De la fórmula: [(1/30 * 21,082.58)/ (1/30 * 567.37)2]-3 = -1.03 Tomando la normal como referencia, diremos que una distribución puede ser más apuntada que la normal (es decir, leptocúrtica) o menos apuntada (es decir, platicúrtica). A la distribución normal, desde el punto de vista de la curtosis, se le llama mesocúrtica.

118

Una distribución es: mesocúrtica (apuntamiento igual al de la normal) cuando g2 = 0, leptocúrtica (apuntamiento mayor que el de la normal) si g2 > 0, platicúrtica (apuntamiento menor que el de la normal) si g2 < 0. 4.6 Cálculo de mediciones descriptivas de la población Para explicar el cálculo e interpretación de las medidas descriptivas de posición de tendencia central, forma y dispersión, se han calculado los estadísticos de los datos de una muestra: “A” y “B”. Si se quisiera hacer un estudio descriptivo con mayor exactitud, sería a través del cálculo de los parámetros de la población. La media de la población, con símbolo µ, se calcula con la fórmula:

µ=
Donde N = tamaño de la población Xi = diferentes valores que toma la variable aleatoria de la población. f = frecuencia o repetición de valores de cada Xi. La moda, el rango medio y el eje medio de la población se calculan igual como se explicó en los apartados anteriores. La varianza y la desviación estándar de la población se simboliza con la letra griega σ2 y σ respectivamente. Se calcula mediante la fórmula:

119

σ2 =

∑ (X i- µ ) i= 1 N

n

2

σ =
y

∑ (X i - µ ) i= 1 N

n

2

El coeficiente de variación, señala el grado de dispersión relativa entre la desviación estándar y el valor de la media Cv = (σ/μ) Con los datos de la tabla 3.2, sin agrupar, se obtiene la siguiente tabla de distribución de frecuencias de la población de 30 vehículos más vendidos en 1970: Tabla 4.5 Distribución de frecuencias de los valores de la variable mpg

Aplicando las fórmulas tenemos los siguientes resultados: Media: µ

=

, µ= 553/30 = 18.43 mpg.

Mediana: punto de posición = (N +1)/2 = (30 +1)/2 = 15.5 El valor de la mediana, se toma del valor promedio de las posiciones 15 y 16 de la tabla 4.3, que corresponde a los valores de 17 y 17. El promedio de los dos valores es igual a 17.

120

Moda: el valor que más aparece en las observaciones es el 15 mpg. Rango medio: rango medio = (Xmenor + Xmayor)/2 = (14 + 27)/2 = 20.5 Q1: punto de posición 1/4(N +1) = 1/4(30 +1)/4 = 7.75, es decir, la posición 8, cuyo valor es igual a 15 mpg. Q3: punto de posición 3/4(N +1) = 3/4(30 +1) = 23.25, es decir, la posición 23 cuyo valor es igual a 22 mpg. Eje medio: eje medio = (Q1 + Q3)/2 = (15 + 22)/2 = 18.5 Rango (alcance): rango = Xmayor – Xmenor = 27 – 14 = 13 Alcance intercuartil; Q3-Q1 = 22 -15 = 7 Varianza: σ 2 =
∑ (X i - µ ) i= 1 N
n 2

= [(14 – 18.43)2 + (15 – 18.43)2 + (16 – 18.43)2 + ...(27 –
n 2

18.43)2 ]/30 = 19.56

Desviación estándar: σ

=

∑ (X i - µ ) i= 1 N

= 4.42

Coeficiente de variación: σ/µ = 4.42/18.43 = 23.98 Resumen de cinco puntos y caja y sesgo: Xmenor Q1 14 15 mediana 17 Q3 22 Xmayor 27

14

16

18

20

22

24

26 27

Entre los valores de rendimiento mpg de los 30 automóviles más vendidos en el año 1970, dado que la media excede a la mediana, 18.43 vs 17, se puede considerar

121

como sesgada a la derecha. Cálculo de mediciones descriptivas de datos agrupados.5 18. de variación Forma 18.66 17.98 sesgo der.68 sesgo der. Medición muestral (n= 6) población (N= 30) Media Mediana Moda Xmenor Xmayor Rango medio Eje medio Rango (alcance) Rango intercuartil Varianza Desviación estándar Coef. En esta 122 . generalmente no se dispone de datos originales.54 29. periódico o publicaciones especializadas. es raro realizar estudios con muestras tan pequeñas.42 23.5 12 7 20. La mayoría de las veces lo que se obtiene de las fuentes secundarias son las características de agrupados o estratificados. Se observa que los valores de medición descriptivos de la muestra y de la población son bastante similares aún y cuando la muestra es muy pequeña.66 5.43 17 14 y 15 14 27 20. aquí lo que se trató es de hacer un ejercicio que facilitara el entendimiento de la Estadística descriptiva. es decir revistas.5 13 7 19.5 no 14 26 20 18. Tabla 4.56 4.4 Comparación de medidas de la muestra “B” y de la población. Cuando en la realización del estudio estadístico se utiliza fuente secundaria de datos. En la práctica. censos. Conclusión similar se obtiene de observar la gráfica de caja y sesgo. 18.

4.00 20. Aunque existen diversas fórmulas para calcular las diferentes medidas de tendencia central y de variación cuando se dispone de datos agrupados.00 66. Tabla 4.00 66. A manera de ejercicio.66 20 0.33 96.00 Figura 4.66% 3.66 25 6. las medidas descriptivas pueden estimarse de una manera aproximada.00 14 26.33% 5 6.66 20 20. donde los datos originales no están disponibles. es más fácil para su estimación utilizar los diagramas de frecuencias relativas y acumuladas para su cálculo.66 46.66 23 10. dado que son aproximaciones.situación.33 29 13.00 76. se supone que sólo se cuenta con los datos agrupados de la tabla 3.33% 0 12 14 16 18 20 22 24 26 28 123 .66 83.67 30 3.5 distribución de frecuencia de datos agrupados Clase 12<x<=14 14<x<=16 16<x<=18 18<x<=20 20<x<=22 22<x<=24 24<x<=26 26<x<=28 Frecuencia 6 8 6 0 3 2 4 1 Frecuencia Porcentaje acumulada porcentaje acumulado 6 20.33 100.66% 20% 20% 15 Porcentaje 10 10% 13.5 Polígono de porcentajes 30 25 20 26.

ésta se localiza aproximadamente trazando una línea horizontal del 50% del eje vertical (porcentaje) hasta que cruce la curva de porcentaje acumulado.2 y Q3 = 20. la mejor aproximación sería un promedio de las tres. es decir 13 y 27 mpg.6.67% 83. fácilmente se puede estimar el valor de la mediana. Q1 = 13. de ahí se traza una línea vertical hasta el eje horizontal de los valores de la variable “millas por galón”. la media es igual a la mediana. la varianza.5.5 de éstos valores se calcula el rango intercuartil aproximado a 5. De la misma forma se puede aproximar el valor del primer cuartil y del tercer cuartil. Si los datos fueran perfectamente simétricos. sin embargo en algunas situaciones pueden realizarse aproximaciones útiles.66% 66. si fueran aproximadamente simétricos.5 mpg.6 Polígono de porcentajes acumulado 100% 100% 96. El rango se calcula con los valores promedio de la primera clase y de la última. la desviación estándar y el coeficiente de variación no pueden calcularse una vez que los datos se han agrupado.66% 90% 80% 70% 60% Porcentaje 50% 40% 30% 20% 46. utilizando la fórmula rango = Xmayor – Xmenor resulta 27 – 13 = 14 Desafortunadamente la media.Fig. diagrama de porcentaje acumulado. al rango medio y al eje medio.66% 20% 0 12 Q1 14 Xmenor 16 Me 18 20 Q2 22 24 26 Xmayor 28 Millas por galón Utilizando visualmente la figura 4. 4. Aproximadamente el valor de la mediana es 15. La desviación estándar podría aproximarse como el promedio entre un sexto del rango y tres cuartos del rango intercuartil.33% 76. Siguiendo con 124 .

6 presenta una comparación entre el resumen de las medidas descriptivas reales obtenidas de los datos sin procesar. el rango medio es igual a (Xmenor + Xmayor )/2 = (27 +13)/2 = 20. Medición datos población datos agrupados 17. se tiene que la mediana es igual a 15.85.79. varianza (3.el mismo ejemplo.36 3. 125 .71 sesgo der.45 15.5 Eje medio 18.6 Comparación de medidas descriptivas de la variable mpg de la población (cálculo exacto) y datos agrupados.45 La desviación estándar aproximada sería de (rango/6 + 3 rango intercuartil/4)/2 = (14/6 + 3*7/4) = 3.79)2 = 14.85)/3 = 17.42 Coef. de variación 23.56 Desviación estándar 4.36 La tabla 4. Tabla 4.85 14 7 14.5 + 20 + 16.2 + 20.5 no 13 27 20 16.5)/2 = 16. el promedio de estas tres medidas centrales es de (15. aplicando las fórmulas explicadas en los capítulos 3 y 4 y las medidas aproximadas de los datos agrupados obtenidas a través de distribución de frecuencias y distribución de frecuencias acumulada. y el eje medio es igual a (Q1 + Q3) = (13.5. Media 18.5 Rango (alcance) 13 Rango intercuartil 7 Varianza 19.98 Forma sesgo der.79 21.43 Mediana 17 Moda 15 Xmenor 14 Xmayor 27 Rango medio 20.

para datos de cualquier distribución.44%. ±3 y ±4 desviaciones estándar. se tiene que. • Al menos [1 – (1/22)] *100% = 75. 126 . A mediados del siglo XIX. más adelante se estudiará.75% de las observaciones están contenidas dentro de una distancia ±4 desviaciones estándar alrededor de la media. en teoría de probabilidades. En forma general. en forma de campana.1/k2).4.26% de todas las observaciones se encuentran alrededor de ± 1 desviación estándar. que si los datos forman la distribución normal. el 68. en forma separada. por lo que.7 Uso de la desviación estándar. basados en los modelos matemáticos de Gauss y Bienaymé & Chebyshev. Aunque el cálculo Bienaymé-Chebyshev se aplica a cualquier tipo de distribución de datos. 99. • Al menos [1 – (1/42)] *100% = 93. los matemáticos Bienaymé y Chebyshev encontraron.73% y 99. es menor o igual que 1/k2. mientras que el 95. • Al menos [1 – (1/32)] *100% = 88.0% de las observaciones están contenidas dentro de una distancia ±2 desviaciones estándar alrededor de la media. la agrupación alrededor de la media está dado por la ecuación (1 . o campana de Gauss.89% de las observaciones están contenidas dentro de una distancia ±3 desviaciones estándar alrededor de la media. la probabilidad de que las observaciones estén distanciadas de su media en más de k veces la desviación típica.99% estarán en ±2. se estima que dos de cada tres observaciones se encuentran a una distancia de 1 desviación estándar de la media (es decir el 67% del total de las observaciones y aproximadamente el 95% de las observaciones están contenidas en una distancia de 2 desviaciones estándar alrededor de la media. con respecto a la media. que sin importar cómo se distribuye una serie de datos de una variable aleatoria. Existen muchas variables asociadas a fenómenos naturales que se distribuyen en forma equilibrada.

rango intercuartil. varianza. En conjunto.9 Términos clave Análisis de datos Medidas de posición: media. para cualquier tipo de distribución. 127 . o sea el punto de escala numérica alrededor del cual se agrupa la mayoría de las observaciones obtenidas al captar el fenómeno que interesa. la varianza. 4. moda. coeficiente de variación. Medidas de dispersión: rango. se calcula tres tipos de medidas estadísticas: de posición. En lugar de trabajar con toda la tabla de frecuencias.Mientras que en el cálculo de Bienaymé-Chebyshev nos indica. sesgo a la izquierda. Medidas de forma: equilibrada. al menos qué tan posible es que una observación se encuentre alrededor de la media. como el rango. desviación estándar. las medidas estadísticas resumen los valores significativos del conjunto de datos. con sólo comparar el valor de la media con el de la mediana. la desviación estándar y el coeficiente de variación indican el mayor o menor grado en que las observaciones se alejan del valor central dado por las medidas de posición. nos dice exactamente qué tan probable es que cualquier observación esté lejos o cerca de la media. Escala de puntos. 4. sesgo a la derecha.8 Resumen El cálculo de las medidas estadísticas sintetiza la información sobre los datos que se han recopilado. facilitando su manejo e interpretación. el rango medio y el eje medio. eje medio. Las medidas de posición. rango medio. como la media. las medidas de forma. la moda. la aplicación del modelo de Gauss. y las medidas de dispersión. el rango intercuartil. mediana. para distribuciones normales. la mediana. indican el nivel general del fenómeno. de forma y de dispersión. muestran el grado en que las observaciones tienden a acumularse por arriba o por debajo de los valores centrales y tienen por objeto determinar el grado de asimetría de una distribución de frecuencias.

11.. relativas y acumuladas. 18.9 140. elabore el diagrama de Pareto.7 136. mediana.8 137.4. 128 . Los datos siguientes representan las cantidades prometidas (en miles de pesos) por todos los ex alumnos que fueron llamados durante los primeros nueve días: 16.Los siguientes datos representan el precio al menudeo de camisetas de una muestra de 20 tiendas más frecuentadas de la ciudad.7 136. el rango medio y el rango intercuartil b) Calcule la varianza y la desviación estándar c) Describa la forma de esta serie de datos d) Describa la cantidad ofrecida por los ex-alumnos e) Escriba un reporte donde estime la cantidad en recaudar si el fonotón dura 30 días 2. b) Calcule la media.1 144. rango.6 136.3 133. 22.7 134.3 135.8 139. 17. 13. Precio de camisetas al menudeo 137.2 141.4 139. rango intercuartil.1 a) Forme el diagrama de tallo y hojas.2 141.. elabore el análisis de 5 puntos y la caja de sesgo.6 138 140. 16 a) Calcule la media.5 138. 10.10 Problemas de repaso del capítulo 1. desviación estándar y coeficiente de variación. mediana.Un grupo de estudiantes de la Universidad han decidido llevar a cabo un fonotón para recabar fondos para la construcción de un Centro de Artes.4 140 138. elabore las tablas y diagramas de frecuencias absolutas. eje medio.1 139.

0 0.5 Para cada conjunto de datos (cabello normal y cabello fino) calcule a) Forme el diagrama de tallo y hojas.0 2.3 1.9 8.2 3.5 4.9 6. rango.9 0.4 8.Los siguientes datos corresponden al costo por onza en pesos de muestras aleatorias de 31 champuses etiquetados para cabello normal y 29 para cabello delgado. elabore el análisis de 5 puntos y la caja de sesgo.3 1.1 3.8 5.1 1.5 2.1 Cabello fino 6.8 9.8 3.9 5.2 1.6 2.9 4.8 2.. b) Calcule la media. elabore el diagrama de Pareto.7 5.0 0.5 8.8 3.8 7.7 2.2 1. rango intercuartil.0 1. eje medio.3.2 1.4 9.3 4.4 8.9 4.5 1.7 2.8 1.0 1. mediana.2 4.0 8.0 6. 129 .3 1.7 5.4 6. desviación estándar y coeficiente de variación. Cabello normal 7.9 2.7 1.3 3.3 5.6 2.8 0.3 1.5 1.4 2.3 2.1 0. elabore las tablas y diagramas de frecuencias absolutas.9 2.9 6. relativas y acumuladas.7 6.

11 Mapa conceptual de distribución de datos numéricos.4. Medidas de posición Medidas de dispersión Medidas de deformación Medidas de asimetría • Coeficiente Fisher • Coeficiente Pearson • Coeficiente Bowley Media El rango El rango intercuartil Varianza Mediana Moda Rango medio Eje medio Medida Curtosis • Coeficiente Curtosis Desviación estándar 130 .

evitando así los laboriosos cálculos matemáticos y dedicar más atención a la interpretación para la toma de decisiones.Capítulo 5 Uso de paquetes Estadísticos ********************* Objetivo del Capítulo Mostrar cómo el uso de la computadora ayuda al análisis estadístico. 131 .

132 .

el alumno deberá ser capaz de: 1. Cuando son cantidades pequeñas de datos. el trabajo de ordenar y agrupar y calcular las medidas resumen de los datos se complica. como materia prima del estudio. Obtener los diagramas apropiados para el análisis gráfico de la distribución de datos. mediante su aplicación.5. Lo que si es cierto. el paquete estadístico se encarga de realizar todos los cálculos estadísticos. realizar un análisis descripti- 133 . 2.1 Introducción Hasta ahora lo que se ha tratado de explicar es la técnica del manejo de datos para facilitar su análisis e interpretación. como se ha dicho desde el inicio. denominado “la base de datos” está bien computado. es que en la mayoría de los estudios estadísticos es inevitable la digitalización manual de datos. se pueden realizar manualmente. Al analista sólo le resta saber interpretar los resultados. existen paquetes estadísticos que realizan todo este pesado trabajo. Afortunadamente. Al término del capítulo. Obtener las medidas resumen de una muestra a través del uso del paquete estadístico SPSS. Si el conjunto de registros. El programa SPSS (Statistical Package for Social Sciences) permite. pero cuando la muestra rebasa las 100 observaciones.

En la parte inferior de la página principal hay una pestaña “vista de variables” que hay que abrir: Figura 5. contrastes de hipótesis. también figuran el cálculo de intervalos de confianza. análisis de regresión o análisis multivariantes. para capturar los datos es necesario definir las características de cada variable.2 Edición de datos Una vez que se ha accedido al programa (haciendo clic el icono correspondiente) la interfaz con el usuario se compone de dos ventanas principales: 1.vo de una o varias variables. 5. Desde ambas ventanas se puede acceder a la barra de menús (desde donde se selecciona el análisis que se quiere realizar) y a la barra de botones rápidos (desde la que se puede acceder a las opciones de menú más comúnmente solicitadas). Entre sus muchas prestaciones. utilizando gráficos que expliquen su distribución o calculando sus medidas características.1 Página principal del paquete SPSS 134 . donde irán apareciendo los resultados de los análisis realizados. El editor de datos: de aspecto y funcionalidad semejantes a las de cualquier hoja de cálculo 2. Al ejecutar el programa estadístico SPSS. El visor de resultados.

Enlistar todas las variables que se van a analizar. Se requiere establecer la escala de medición: nominal. es necesario considerar las siguientes indicaciones. fecha de nacimiento. si requiere punto.2 Página principal de Resultados de SPSS. también se puede definir si es de fecha. etc. 3. categoría de empleo. ordinal o cardinal (escalar) A manera de ejemplo. Defina si es numérica o categórica. en orden que facilite la captura. si la separación de miles se hace coma. 2. nivel de educación. 6.Figura 5. Antes de definir las características de las variables. utilizando la misma estructura de datos del estudio estadístico de automóviles que se ha venido utilizando en los ejercicios de los apartados 135 . 4. si representa dinero y el número de decimales que se requiere. Por ejemplo: 1 = femenino y 2 = masculino 5. Definir el nombre con el que se identifica la variable. 1. Se requiere establecer un código de equivalencias para los diferentes valores de las variables. Se requiere señalar el significado literal de la variable: género.

En la siguiente figura se puede observar la forma en que se definen las características de las variables en el paquete estadístico SPSS. Una vez que se ha diseñado la edición de la presentación de los datos recabados. Los datos están listos para su análisis estadístico. La tabla de datos puede salvarse como archivo de datos con extensión . La magnitud de lo datos dificulta el cálculo manual de las mediciones descriptivas. se procede a su captura. En la figura 5. por lo que se utiliza los paquetes estadísticos SPSS.3 Características de las variables de estudio 5. 136 . listo para utilizarse por el paquete estadístico SPSS.4 se puede observar el resultado de estas actividades.sav. se genera una base de datos de 406 registros.3 Captura de datos. Figura 5.anteriores.

según sea el caso. se obtendrá un menú de análisis.4 Obtención de resultados Habiendo capturado todos los datos de la muestra o de la población.4 Presentación de datos digitados en SPSS 5.4 Análisis de datos 137 . a través del comando analizar/estadísticas descriptivas.Figura 5. Figura 5.

en el caso del ejemplo se escogerá la variable Miles per Galon (mpg): Figura 5.5 Definición de variable de análisis Al escoger el sub-menú aparece un recuadro de definición de variables a analizar y de estadísticos a visualizar.5.5 Definición de variable a analizar Figura 5.6 Definición de características de los estadísticos 138 .

7 Definición de características de los gráficos Figura 5.8 Estadísticos obtenidos 139 .Figura 5.

140 . en el sub-menú de estadísticas descriptivas.6 Tabla de frecuencias. se obtendría lo siguiente: Figura 5. Si desea conocer la tabla de frecuencias.10 Frecuencias.Figura 5.9 Gráficos obtenidos: Tallo y hojas y caja y sesgo 5.

7 3.11 Tabla de frecuencias no agrupada obtenida Miles pe r Gallon Frecuenc ia 6 6 2 2 4 2 1 2 2 2 1 30 Porcentaje 20.7 13.7 13.3 6.0 Porcentaje válido 20.3 90.3 76.7 100.7 6.7 3.0 46.3 6.3 6.0 40.0 V álidos 14 15 16 17 18 21 22 24 25 26 27 Total Figuera 5.7 83.7 3.7 6.7 3.3 100.0 6.0 20.Figuera 5.7 6.3 100.0 96.3 66.7 53.12 Histograma y distribución de frecuencias 141 .3 6.7 6.0 Porcentaje ac umulado 20.0 20.7 6.7 73.0 6.7 6.

300 38.150 40.000 24. Utilizando el paquete SPSS.300 135.600 28.000 60.800 31.125 46.350 36.000 27.500 68.050 78.900 26.000 30.750 22.000 46.250 30.550 31. obtenga las medidas de posición.950 24.000 26.000 45.300 21.650 24. 24.7 Problemas de repaso del capítulo 1.100 24.000 42.750 22.450 27.250 142 .350 21.750 110.000 55.375 29.300 24.000 22.000 57.900 35.950 92.800 51.350 27.200 19.000 25.000 26.050 25.250 29.750 16.000 36.000 22.100 23.200 28.250 31.050 27.200 35.750 34.750 32.150 73.350 30.900 20.950 31.900 103.150 29.550 35. que son los sueldos de una muestra aleatoria de 100 empleados con licenciatura en Negocios Internacionales egresados entre el año 2000 y 2005.550 45.100 40.250 56.750 40.750 25.900 78.950 34.400 28.200 82.000 26.000 30.850 33.250 32.900 24.5.500 30.000 45.250 27.200 30.100 16.550 41.500 54.900 42.750 24.800 60.100 23.150 72.000 53.050 31.000 21. dispersión y distorsión y los diagramas de distribución de frecuencias y de Pareto de los datos de la siguiente tabla.500 48.850 36.125 21.600 22.150 81.400 33.050 30.950 25.625 21.100 21.

Capítulo 6 Presentación de datos categóricos en tablas y diagramas. ********************* Objetivo del Capítulo Mostrar cómo organizar y presentar en tablas y diagramas los datos categóricos 143 .

144 .

Realizar tablas cruzadas o matriciales que relacionen a dos o más variables categóricas. europeo o japonés.2 Tabulación de datos categóricos Siguiendo con la misma base de datos de los autos más vendidos en el año 1970. estos se pueden presentar. se quiere saber el porcentaje del origen: americano. el alumno podrá: 1.6. se realizará una tabla de resultados cruzados. Construir tablas y diagramas que representen un resumen de datos categóricos. de barras y de puntos. Si el interés de análisis es una variable. Para saberlo. en forma de tablas y diagramas. se tendrá que construir una tabla resumen que agrupe los autos por origen. 2. Utilizar los paquetes estadísticos para presentar resúmenes de datos categóricos. 3. con el fin de facilitar el análisis y la toma de decisiones. 145 .1 Introducción Este capítulo trata sobre la presentación de datos categóricos. se realizarán tablas resumen y diversos diagramas. Si el propósito es relacionar dos o más variables categóricas. como el diagrama de pastel. Al terminar el capítulo. 6.

3 100.0 6.0 Porciento ac umulado 73.0 A meric ano Europeo Japonés Total Figura 6.0% 73. Japonés Europeo 6.0 Porciento validado 73.1 Diagrama de barras en porciento.7 100.0% 20.3 93.Tabla 6.3 20.7 100.2 Diagrama de pastel en porciento. Japonés País de origen Europeo Americano 0 20 40 60 80 Porcentaje Figura 6.0 6.1 Resumen de frecuencias y porcentajes por origen 1970 Frecuenc ia 22 6 2 30 Porciento 73.3 20.3% Americano 146 .

3 Elección de la gráfica apropiada La representación gráfica de datos es una técnica muy útil para la presentación de informes ejecutivos.3 Diagrama Pareto en cantidades y en porcentaje 40 Porcentaje 30 100 20 22 50 10 Cantidad 6 0 Americano Europeo 2 Japonés 0 País de origen Figura 6. según ciertas investigaciones sobre la percep- 147 .4 Gráfica de puntos de cantidades Americano Europeo País de origen Japonés 0 10 20 30 Cantidad 6.Figura 6. otros prefieren utilizar la sobriedad gráfica en razón de destacar el contenido de las gráficas. Es importante señalar que. Sin muchas explicaciones. muchos creen que los adornos y colores será la manera de ser efectivos. Algunas personas confunden el propósito de uso de gráficas. objetivamente se pueden interpretar el significado de los datos.

es necesario mostrar la relación que existe entre dos o más variables de estudio.2 Datos cruzados: país de origen/número de cilindros 3 Cilindros Recuento País de origen Americano Europeo Japonés 0 0 0 Numero de cilindros 4 Cilindros 5 Cilindros Recuento Recuento 0 0 6 0 2 0 6 Cilindros Recuento 3 0 0 8 Cilindros Recuento 19 0 0 6.5 Uso de paquetes estadísticos en la presentación de datos categóricos Al igual que la tabulación. 148 . De ser así. se puede relacionar dos variables categóricas.4 Tabla de contingencia o tabla de datos cruzados Muchas de las veces. Aunque. por ejemplo. las escalas de longitud son más fácil de interpretar que las de área. la tabla de datos cruzados o de contingencias es una manera de presentar esta situación. el origen de fabricación y el número de cilindros. Tabla 6. Siguiendo con el estudio de las características de los autos más vendidos en el año 1970. la gráfica de puntos de cantidades o porcentaje sería más fácil de interpretar que la gráfica de pastel o de barras. cuando el número de observaciones es grande. podemos utilizar la computadora para realizar esta ardua tarea. incluso la hoja de cálculo de Excel.ción humana. en los estudios estadísticos. Existen diversos paquetes de análisis de datos. La elección del tipo de gráfica para la presentación de datos categóricos sigue siendo altamente subjetiva y a menudo depende de las preferencias del analista o del receptor. 6. diagramación y tratamiento de datos numéricos. hay que destacar que la gráfica de pastel es estéticamente agradable y muestra la proporción y suma total de las categorías.

Figura 6.En el caso del paquete estadístico SPSS. La longitud de las barras representa habitualmente la frecuencia de casos de cada categoría. en este caso. La función se puede cambiar en la parte inferior del cuadro de diálogo. un porcentaje del número total de casos o una función de otra variable (por ejemplo. Figura 6. También se puede mostrar una clave para identificar la función.6 Menú para definición de variable 149 . el valor medio para cada categoría). el de barras. para el diseño de gráficas existe un comando que se llama Gráficos y se opera de la siguiente manera: se escoge el tipo de gráfico que se desea. la mayor parte de las veces respecto a los grupos definidos por una o dos variables categóricas.5 Menú generador de gráficos Un gráfico de barras presenta estadísticos de resumen de una o más variables.

aglomerada y estratificada País de origen Cantidad 150 . Figura 6. los segmentos representarán el porcentaje con el que cada categoría contribuye al total. En ese caso. las categorías de la variable de la leyenda se apilan unas sobre otras. La parte superior de un segmento conforma la base del siguiente. En las barras apiladas. se ilustrará con un ejemplo de cada una de ellas. las barras de las categorías se podrán agrupar unas junto a otras o apilarse. Para que sea más objetivo el resultado. se agrupan por categorías definidas y barra estratificada. Si se ha seleccionado una leyenda de apilado de color o de estilo.7 Gráfica de barras de presentación de datos categóricos: simple. sólo se deberán seleccionar funciones adecuadas para la apilación en las barras que representan. barra conglomerada. Este tipo de gráficos destaca la suma de las categorías. existe tres opciones: barra simple. por tanto.Barras agrupadas y apiladas. Si se asigna una variable categórica a Color o Estilo. al interior de cada barra se puede estratificar por categorías existentes. donde sólo se grafica la escala de valores de cada categoría. En otras palabras. podrá cambiar el eje dependiente para que represente el 100%.

Las variables categóricas definen categorías (filas. Las variables categóricas pueden ser nominales u ordinales: nominal. Datos con un número limitado de valores o categorías distintas (por ejemplo. Por ejemplo los niveles de satisfacción con un servicio. 0 = hombre y 1 = mujer). se seleccionan las variables y las medidas de resumen que aparecerán en la tabla. sexo o religión). Son ejemplos de variables nominales: la región. Las variables categóricas pueden ser variables de cadena (alfanuméricas) o variables numéricas que utilizan códigos numéricos para representar a categorías (por ejemplo. También se hace referencia a estos datos como datos cualitativos. Por ejemplo. una tabla por defecto de la variable categórica sexo sólo mostrará el número de hombres y el número de mujeres. En el panel superior izquierdo de la ventana se muestran las variables del archivo de datos. Una variable puede ser tratada como nominal cuando sus valores representan categorías que no obedecen a una ordenación intrínseca.6. Una variable puede ser tratada como ordinal cuando sus valores representan categorías con alguna ordenación intrínseca. Por ejemplo. el departamento de la compañía en el que trabaja un empleado. columnas y capas) en la tabla y el estadístico de resumen por defecto es el recuento (número de casos en cada categoría).6 Generación de tablas En la pestaña “Tabla” del generador de tablas. el código postal o la confesión religiosa. que vayan desde muy insatisfecho hasta muy satisfecho. Lista de variables. Tablas personalizadas distingue entre dos niveles de medida diferentes para las variables y trata de manera distinta las variables en función de su nivel de medida: Categóricas. 151 . ordinal.

8 Menú para definir las variables Aparece en pantalla un área de trabajo para definir las variables que se desea colocar en las filas o en las columnas. En el ejemplo. sin utilizar una variable categórica para definir grupos. Por ejemplo. 152 . Figura 6.7 Menú generador de tablas En la página principal de SPSS se escoge el comando Tablas/Tablas personalizadas Figura 6. Esto resulta especialmente útil para apilar resúmenes de varias variables de escala. una tabla por defecto de los ingresos dentro de las categorías de sexo mostrará los ingresos medios de los hombres y los ingresos medios de las mujeres. También puede resumir las variables de escala por sí mismas.Las variables de escala se resumen normalmente dentro de las categorías de las variables categóricas y el estadístico de resumen por defecto es la media. se escogió para las filas la variable “origen” y para las columnas la variable “número de cilindros”.

8 Proyecto de presentación Aparece en pantalla el proyecto de presentación. Tabla 6. e inmediatamente aparece la tabla de datos cruzados.3 Datos cruzados de las variables “País de origen” y “número de cilindros” 3 Cylinders Recuento Country of Origin American European Japanese Total 0 0 0 0 Number of Cylinders 4 Cylinders 5 Cylinders Recuento Recuento 0 0 6 0 2 0 8 0 6 Cylinders Recuento 3 0 0 3 8 Cylinders Recuento 19 0 0 19 153 . Al darle click al botón de aceptar.Figura 6.

154 .

Capítulo 7 Probabilidad básica ********************* Objetivo del Capítulo Comprender los conceptos básicos de probabilidad como base necesaria para el estudio de distribución de probabilidad e inferencia estadística 155 .

156 .

como los sistemas de producción. Utilizar el criterio de probabilidad 2. lo que determina la probabilidad de ocurrencia de cada caso en particular. 157 . siendo suficiente para manejarlo en la vida cotidiana. los posibles resultados tienden a presentarse un número muy parecido de veces. Cuando un suceso aleatorio se repite un gran número de veces. distribución y consumo de bienes y servicios. Una definición rápida del término probabilidad sería “la posibilidad de que suceda un evento en particular”. La teoría de la probabilidad se usa extensamente en la ciencia y la filosofía para sacar conclusiones sobre la ocurrencia de sucesos potenciales y la mecánica subyacente de sistemas complejos. lo cual indica que la frecuencia de aparición de cada resultado tiende a estabilizarse.7.1 Introducción El concepto o idea que generalmente se tiene del término probabilidad es adquirido de forma intuitiva. Al terminar el capítulo el alumno debe de ser capaz de: 1. Utilizar una tabla de contingencia o un diagrama de Venn para determinar las probabilidades de eventos conjuntos.

y aplicar la regla de adición. Para determinar la posibilidad de ocurrencia de un evento existen dos criterios de apreciación: la probabilidad subjetiva y la probabilidad objetiva. 7. 5. Utilizar el Teorema de Bayes para calcular probabilidades a la luz de nueva información. Cuando la probabilidad objetiva se basa en el conocimiento anticipado del proceso. ¿Cuál es la probabilidad de que llueva? ¿Cuál es la probabilidad de que tenga éxito un producto nuevo? La asignación de probabilidad subjetiva se base en una combinación de experiencia del individuo. Precisamente por su carácter de subjetividad no se considera con validez científica.3. Comprender las reglas para encontrar las probabilidades simples. La probabilidad objetiva. En el caso más simple. cuando cada resultado es igualmente posible. aunque en la vida diaria es de las que más se utilizan al no apoyarse más que en el sentido común y los conocimientos previos de la persona. aceptada con validez científica. Distinguir entre eventos mutuamente excluyentes y colectivamente exhaustivos e independientes. estado de ánimo y el análisis de condiciones particulares. donde X es igual al número de resultados en los que ocurre el evento y T es igual al número de resultados posibles. es la que se obtiene por el conocimiento previo de un proceso o por la observación de resultados. y no en resultados matemáticos o estadísticos. La probabilidad subjetiva de un evento es la que se realiza en base al conocimiento tácito de una persona. esta posibilidad de ocurrencia puede definirse como: p(A) = X/T. conjuntas y condicionadas de un conjunto de posibles eventos. 158 . 6. 4. probabilidad a priori.2 Criterios de probabilidad: subjetivo y objetivo. Utilizar las diversas reglas de contar el número total de eventos.

En el caso de la baraja. y se saca nuevamente al azar. la probabilidad de que un visitante de domingo. puesto que hay 26 cartas negras de un total de 52. el espacio muestral consiste en las 52 cartas. la probabilidad de éxito o de fracaso.3 Espacio muestral y tipos de eventos Cuando se realiza un experimento. Inmediatamente no se puede asegurar que salga o no una carta negra. si se repite continuamente este proceso. completado por varios eventos. dependiendo de la clasificación. que es cualquier proceso que produce un resultado o una observación. la proporción de cartas negras extraídas será muy cercana a . el espacio muestral (EM) es EM={1.50 Existe otro enfoque de probabilidad objetiva. De total de visitantes de domingo a un museo. Si se quiere encontrar la probabilidad de sacar del mazo de barajas. Por consiguiente.6}. aunque se sigue definiendo como la proporción entre el número de resultados favorables y el número total de resultados. sin comodín.3125 7.Un ejemplo clásico es el mazo de barajas o el juego de dados.4. de 400 entrevistados 125 aceptaron haber comprado un recuerdo. la probabilidad de que compren artículos de recuerdo se puede encontrarse seleccionando una muestra aleatoria de la población. A este conjunto de valores que puede tomar una variable se le denomina espacio muestral. compre un recuerdo es 125/400 = .5. Por ejemplo: Si se tiene un dado cualquiera. pero podemos afirmar que a largo plazo. sigue siendo la misma. estos resultados se basan en datos observados. se van a obtener un conjunto de valores.3. la respuesta correcta sería 26/52 ó ½ ó . Si los eventos se clasifican por 159 .50 ó el 50%. Si se vuelve a incorporar cada carta que se extrae. seleccionado aleatoriamente. no del conocimiento anterior a un proceso. se mezcla. se conoce como probabilidad empírica o a posteriori. una carta negra.2.

o una carta de color negro. tiene una probabilidad de cero. La manera en que se subdivide el espacio muestral será el tipo de probabilidad que se estime. ocurren. el evento cierto. y si éste consta de un solo elemento entonces es un evento simple. hay cuatro eventos: picas. Reyna……. corazones. Los eventos que no forman parte de A se les denomina evento complemento y está representado por A’. el evento complemento de carta negra. tiene una probabilidad de uno. Existen eventos que siempre. es decir. son todas las cartas rojas. Rey. El evento complemento As son todas las cartas que no sean As. o una espada. Si existen más de una variable en el suceso. y en cambio existen otros que nunca ocurren. Cuando se tiene toda la certeza de que el evento ocurrirá. si la clasificación es por valor de la carta. no importa el número de experimentos o su situación. Como el de extraer un As del mazo de la baraja. Si tomamos un subconjunto cualquiera del espacio muestral tenemos lo que se denomina un evento.palo. entonces es un evento conjunto. 160 . Tomando esto en cuenta se pueden distinguir tres tipos de evento: evento simple. cuando un evento no tiene posibilidad de ocurrir. tréboles y diamantes. el evento nulo. Al evento se le denomina evento A.2. existen trece eventos: As. el espacio muestral está formado por las combinaciones de valores de cada una de las variables. evento complemento y evento conjunto.

también se les preguntó si quedaron satisfechos con el material histórico exhibido. 315 visitantes contestaron que si estaban satisfecho pero 225 de ellos no habían comprado recuerdos. se construyen las siguientes tablas de datos cruzados. lo más usados son la tabla de datos cruzados y el diagrama de Venn.4 Formas de examinar el espacio muestral Existen varias formas de examinar el espacio muestral específico.1 Espacio muestral de un mazo de cartas Posibles eventos en el espacio muestral del mazo de cartas: Evento simple: As Evento simple: Roja Evento complemento: No As = As’ Evento complemento: No roja = Roja’ Evento conjunto: As roja Evento conjunto: No As roja = As roja’ En el ejemplo de la muestra de 400 visitantes del domingo al museo. La tabla de datos cruzados o de contingencia.Figura 7. lo que significa que de los 315 que contestaron estar satisfechos 90 también compraron un recuerdo. consiste en construir una matriz de relación de las variables de interés. 7. Siguiendo con los ejemplos de las barajas y de los visitantes al museo. 161 .

A’UB’. como el SPSS. intersecciones como A B. A’ y B.2 La tabla de datos cruzados o de contingencia. La tabla de contingencia para los 400 visitantes del domingo al museo se representa en la tabla 7.1 Datos cruzados para analizar el evento As roja Roja As No As Totales 2 24 26 Negra Totales 2 4 24 48 26 52 El valor de las celdas de la tabla 7. Tomando los datos de la tabla 2. A B’ y A’ B. en donde cada variable sólo presenta dos eventos: A. La figura 7.1 de datos cruzados se obtuvo de distribuir el mazo de 52 cartas en cuatro subconjuntos Ases roja y Ases negra. 162 . se construye el siguiente diagrama de Venn. En el espacio muestral AB. B’. no Ases roja y no Ases negra. Este diagrama muestra gráficamente los diversos eventos como uniones o intersecciones de círculos. cuando el espacio muestral es grande.Tabla 7. pueden suceder uniones como AUB. se puede construir con ayuda de un paquete estadístico.2 Datos cruzados para analizar compra y satisfacción Compraron si no Totales Satisfechos si No Totales 90 35 125 225 50 275 315 85 400 Otra forma de presentar el espacio muestral es utilizando el diagrama de Venn. A’ B’. Tabla 7. AUB’ y A’UB.2 representa un diagrama de Venn típico para una situación de dos variables. A = 4 y B = 26.

2(a) Diagrama de Venn para los eventos A y B A’ B’ A’ B’= 50 AUB A B AUB= 350 35 90 225 A B A B = 90 163 U U U U U U U U .Figura 7.2 Diagrama de Venn para los eventos A y B A’ B’ A’ B’ = 24 AUB A B AUB= 28 2 2 24 A B Espacio muestral de 52 cartas A = Ases = 4 B = cartas negras = 26 A B = Ases negros = 2 A B = Ases o cartas negras = 28 A’ B’ = Ases y no cartas negras = 24 A B= 2 Figura 7.

Espacio muestral de 400 visitantes

A = Compraron = 125 B = satisfechos = 315 A B = Compraron-satisfechos = 90 A Compraron o satisfechos = 350 A’ ’ No compraron- no satisfechos =50 7.5 Probabilidad simple y probabilidad conjunta. Hasta aquí se ha tratado de explicar el concepto de probabilidad, el espacio muestral y los tipos de eventos. Ahora se verá la forma en que se calculan las probabilidades, de acuerdo al tipo de evento que se presente. Lo que debe quedar claro y se considera como la regla más evidente de la teoría de probabilidad es que en todos los casos la probabilidad siempre tiene una proporción cuyo valor varía entre 0 a 1. Un evento imposible de ocurrir, evento nulo, tiene la probabilidad de cero, y un evento cierto, tiene la probabilidad de 1. Probabilidad simple La probabilidad simple se refiere a la probabilidad de ocurrencia de un evento simple, P(A), como: La probabilidad de sacar un As de un mazo de barajas La probabilidad de sacar una carta negra La probabilidad de compra de los visitantes del domingo al museo La probabilidad de satisfacción de los visitantes del domingo al museo Utilizando la fórmula para encontrar la probabilidad de ocurrencia = X/T, se tiene que:

164

La probabilidad de sacar un As de un mazo de barajas = 4/52 La probabilidad de sacar una carta negra = 26/52 La probabilidad de compra de los visitantes del domingo al museo = 125/400 La probabilidad de satisfacción de los visitantes del domingo al museo =315/400 Los datos anteriores, para el cálculo de probabilidad se pueden extraer de la tabla de datos cruzados o del diagrama de Venn elaborados en el apartado anterior. Aquí se puede apreciar que la probabilidad simple de un evento se puede calcular a través de la suma de las probabilidades relativas del espacio muestral: P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn) En la tabla 7.1 se puede observar que la probabilidad de A es igual a: P(A) = P(As negro) + P(As rojo) = 2/52 + 2/52 = 4/52 Probabilidad conjunta Cuando se habla de varios eventos dentro del mismo experimento, probabilidad conjunta, se pueden dar varios casos, como la carta As roja o Rey negro de un mazo de barajas, o que un visitante del domingo al museo que haya comprado un recuerdo y esté satisfecho con el material histórico exhibido. Para que se dé una probabilidad conjunta significa que ambos eventos A y B deben ocurrir simultáneamente. Observando las tablas de datos cruzados de la tabla 7.1, las cartas que son As y negras son las que se encuentran en la celda de la fila As y de la columna Negra, que son 2, por lo que la probabilidad de escoger un As negro es igual a:

165

P(As negro) = Número de Ases negros/total de cartas = 2/52 Este resultado también puede observarse en el diagrama de Venn de la figura 7.2, el evento conjunto A y B (As negro) y corresponde a la intersección A B. La probabilidad de escoger aleatoriamente un visitante del domingo al museo y que haya comprado y esté satisfecho con el material histórico exhibido, se obtendrá de la tabla 7.2 y de la figura 7.2 de la manera siguiente P(comprar y satisfecho) = 90/400 Ahora que se ha analizado la noción de probabilidad conjunta, debe de recordarse que la probabilidad simple es igual a la suma de las probabilidades relativas o de conjunto de un espacio muestral, es decir: P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn), donde cada evento conjunto no pueden ocurrir simultáneamente, por lo que se les denomina, eventos mutuamente excluyentes, pero tienen que ocurrir, es decir son colectivamente exhaustivos si uno de los eventos debe ocurrir. Los eventos B1, B2, B3……. Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. Por ejemplo, ser hombre y ser mujer son eventos mutuamente excluyentes y colectivamente exhaustivos. Nadie es ambos (mutuamente excluyente) y todos son uno u otro (colectivamente exhaustivos). Regresando al ejemplo de la baraja, la probabilidad de sacar un As se puede expresar de dos maneras: P(As) = 4/52 ó P(A) = P(As rojo) + P(As negro) = (2/52) + (2/52) = 4/52 = 1/13 = .0769

166

Por otro lado, en ocasiones un evento o más eventos dependen de otro evento previo, es decir, un evento A ocurre dado que ocurrió un evento B. Si existe este tipo de relación entre eventos se dice que son eventos dependientes o condicionados (el evento A depende del evento B, o el resultado del evento A está condicionado al resultado del evento B). Por otro lado, si no existe tal relación entre eventos se dice que son eventos independientes. Los criterios de dependencia o de independencia se definirán más adelante, en términos de probabilidad condicional. De lo anterior se puede afirmar que las probabilidades de los eventos de un espacio muestral tienen las siguientes propiedades: Las probabilidades relativas son mayores o iguales que cero. La probabilidad relativa del espacio muestral es igual a la unidad. Si dos eventos son mutuamente excluyentes, es decir que no ocurren simultáneamente, entonces la probabilidad relativa de su unión es la suma de las probabilidades relativas de cada uno. Cálculo de probabilidad conjunta Cuando se tienen eventos simples no existe mucho problema en el sentido del cálculo de las probabilidades, pues basta con una relación o el uso directo del cálculo combinatorio. Pero en el caso de eventos conjuntos, que son los compuestos por más de un evento simple, el proceder de manera análoga resulta muy complejo y las operaciones pueden sobrepasar la capacidad de cálculo existente. Sin embargo, utilizando las propiedades de la probabilidad, y las siguientes reglas, se podrán expresar las probabilidades de estos eventos en términos de los eventos simples que lo componen, siempre y cuando se conozcan las probabilidades de éstos. La probabilidad de una unión de eventos, se puede calcular de la siguiente manera:

167

Regla 1. (Regla de la adición general). Si A y B son dos eventos, la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B, menos la probabilidad de que ocurran A y B simultáneamente. Es decir, P(A ) = P(A) + P(B) - P(A B)

La probabilidad de la adición (unión) considera la ocurrencia del evento A o del evento B o la de ambos A y B. La regla de la adición consiste en tomar la probabilidad de A y sumarla a la probabilidad B; La intersección A y B se resta del total porque ya ha sido incluida en las probabilidades relativas de A y B. Para los ejemplos que se han venido presentando, de las tablas 7.1 y 7.2, los cálculos de la adición A y B son los siguientes: De la tabla 7.1, la probabilidad de que sea un As o una carta roja es igual a (4/52 + 26/52) – 2/52 = 28/52 De la tabla 7.2, la probabilidad de que compren un recuerdo o estén satisfechos es igual a (125/400 + 315/400) – 90/400 = 350/400 Ahora, si el caso es que los eventos sean mutuamente excluyentes se tiene: Regla 2. (Regla de exclusión). Si dos eventos, A y B, son mutuamente excluyentes entonces la probabilidad de que ocurra A o B es igual a la suma de las probabilidades de ocurrencia de A y de B dado que la intersección A B (A y B) no existe y tiene un valor igual a cero. Es decir P(A ) = P(A) + P(B)

En los ejemplos anteriores, los eventos no son excluyentes porque existe la intersección A y B, pero, por ejemplo, si se desea saber la probabilidad de escoger una carta de picas o una carta de corazones si se escogiera sólo una carta del mazo de 52. Utilizando la regla de adición se obtendría:

168

como son eventos mutuamente excluyentes.2. (Regla condicional). la probabilidad de que ocurra A dado que ocurrió B.2. ¿cuál es la probabilidad de sacar un as negro. y se denota P(A|B). la probabilidad de escoger una carta roja o una carta negra.1. ¿Cuál es la probabilidad de que los que hayan comprado estén satisfechos?: 169 . y P(B) es la probabilidad relativa de B. la probabilidad se calcula de la siguiente manera: P(roja o negra) = P(roja) + P(negra) 26/52 + 26/52 = 52/52 = 1 Retomando los conceptos de eventos dependientes o condicionales. pero alguno tiene que suceder.1 y 7. es: = P(A y B) Donde P(A y B) es igual a la probabilidad conjunta de A y B. se va a definir la probabilidad condicional como sigue: Regla 3.P(picas o corazón) = P(espada) + P(corazón) – P(corazón y espada) 13/52 +13/52 -0/52 = 26/52 Para los eventos colectivamente exhaustivos también se aplica la ecuación anterior. dado que las cartas son negras?: P(As|negro) = P(As y negro)/P(negro) = (2/52)/(26/52) = 2/26 De la tabla 7. La probabilidad de que ocurra un evento A dado que ocurrió el evento B (el evento A depende del evento B). De la tabla 7. Regresando a los ejemplos de la tabla 7. por ejemplo.

considerando el mazo de 52 cartas. P(A|B) = P(A y B)/P(B) Despejando la probabilidad conjunta de P(A y B).P(compra satisfechos) = P(compra y satisfechos)/P(satisfechos) = (90/400)/(315/400) = 90/315 Hay que notar que esta propiedad no es conmutativa. lo que se reduce a 2/26. por lo que no hay que confundir P(A|B) y P(B|A). Por lo que se cumple la regla. Lo mismo sucede con la segunda igualdad. tenemos la regla general de la multiplicación: P(A y B) = P(A|B) P(B) Para mostrar el uso de la regla de la multiplicación. Regla 5. (Regla de multiplicación). Ahora recordemos que la probabilidad de sacar un As es 4/52. P(A y B) = P(A|B) P(B) 170 . ¿cuál es la probabilidad de que dos cartas consecutivas sean rojas. El “color de la carta” y “ser un As” son eventos estadísticamente independientes. dado que se sabe que es negra es 2/26. Regla 4 (Regla de independencia). la probabilidad de que sea una carta negra dado que es un As es igual a 2/4 y la probabilidad de que sea una carta negra es 26/52. situación que sí ocurre con la probabilidad de unión o la intersección de eventos. lo que se reduce a 2/4. Dos eventos A y B son independientes si y sólo si P(A|B) = P(A) y P(B|A) = P(B) En la primera igualdad se observa que la probabilidad de elegir una carta que sea As.

es decir: P(A y B) = (26/52) (26/52) = 676/2705 = 0. Los eventos A y B son estadísticamente independientes si sólo si P(A|B) = P(A) 2. al utilizar la ecuación de probabilidad condicional. 171 . entonces el número de cartas será 51. Los eventos A y B son estadísticamente independientes si sólo si P(A y B) = P(A) P(B).2450 Qué sucede si la primera carta extraída se regresa al mazo (muestreo con reemplazo). entonces estadísticamente son independientes.La probabilidad de que la primera carta sea roja es 26/52. puesto que 26 de las 52 cartas son rojas. puesto que no tuvo ninguna influencia en su acontecer.2499 El ejemplo de muestreo con reemplazo muestra que la segunda selección es independiente de la primera. entonces la probabilidad de elegir una segunda carta roja es igual a la probabilidad de la primera. Así pues. tenemos lo siguiente: P(A y B) = (26/52) (25/51) = 650/2652 = 0. la probabilidad de que la segunda también sea roja es 25/51. A y B. Si la primera carta no se regresa al mazo (muestreo sin reemplazo). La probabilidad de que la segunda carta sea también roja depende de la primera selección. Si la primera carta fue roja. Por lo que: 1. por lo tanto. la regla de multiplicación para eventos independientes se expresa de la siguiente manera: P(A y B) = P(A) P(B) Si esta condición se cumple para dos eventos. puesto que 25 cartas rojas siguen en el mazo de 51.

se obtiene: P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn) Donde B1. otra manera de expresar esta regla es P(~E) = 1 . Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. es el resultado que da la distribución de probabilidad condicional de una variable aleatoria A dada B en términos de la distribución de probabilidad condicional de la variable B dada A y la distribución de probabilidad marginal de sólo A. Este concepto puede ampliarse para revisar probabilidades basadas en nueva información y 172 . utilizando los datos de la tabla 7. de la siguiente manera: P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn) Y utilizando la regla de multiplicación. retomando la ecuación para calcular la probabilidad simple de A. entonces: P(E) + P(~E) = 1.1. Para ilustrar esa fórmula. (Regla de complemento) Si E es un evento y ~E su complemento.6 Teorema de Bayes.P(E) 7.Conociendo la regla de multiplicación. enunciado por Thomas Bayes. B2. la probabilidad de escoger un As se aplica de la siguiente manera: P(A) = P(A|B1) P(B1) + P(A|B2)P(B2) P(As) = (2/26)(26/52) + (2/26) + (26/52) 2/52 + 2/52 = 4/52 Otra propiedad que se deriva de todas las anteriores es cuando se busca la probabilidad del complemento de un evento E. B3……. El teorema de Bayes. en la teoría de la probabilidad. que denotaremos como ~E: Regla 6.

El teorema de Bayes se desarrolla a partir de las definiciones de la probabilidad condicional y probabilidad simple. se aplica en el siguiente ejemplo: En una etapa de la producción de un artículo se aplica soldadura y para eso se usan tres diferentes robots. se obtiene: P(B|A) = P(A|B) P(B) P(A) Pero como P(A) es igual a P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn). así como la proporción de artículos que cada uno procesa. queda: P(B|A) P(A) = P(A|B) P(B) Dividiendo entre P(A). de acuerdo a la siguiente tabla.así determinar la probabilidad de un efecto particular se deba a una causa específica. de la siguiente manera: P(A y B) = P(A|B) P(B) P(A y B) = P(B|A) P(A) Si se sustituye la igualdad. desde B1 hasta Bn. P(B i|A)= P(A|B P(A|B i)P(B i) 1 ) P(B 1) + P(A|B 2)P(B 2)……+ P(A|B n) P(B n) donde Bi es cualquier valor que puede tomar. entonces. 173 . Para comprender mejor la aplicación del teorema de Bayes. La probabilidad de que la soldadura sea defectuosa varía para cada uno de los tres.

tendríamos cinco veces más: 0.Tabla 7. a) La primera pregunta conduce a lo que se conoce con el nombre de fórmula de la probabilidad total.005 0. cuál es la probabilidad de que haya sido soldado por el robot C. ¡sería un desastre!.3 Producción y defectos por robot empleado Robot A B C Defectuosos 0.005 o 0. La idea es empezar por descomponer el evento “defectuoso”en “viene del robot A y es defectuoso'” o “viene del robot B y es defectuoso” o “viene del robot C y es defectuoso”.5%. Primero es necesario conocer la proporción global de defectos de los tres robots. •Si se toma un artículo al azar y resulta con defectos en la soldadura.002 0.1%. si todas las pone el B.001 o 0. habría pocos defectos. En símbolos tendremos: P(d) = P(A y d) + P(B y d) + P(C y d) ó P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C) 174 . En cambio. Después de reflexionar un momento se ve que si todas las soldaduras las pusiera el robot C. De modo que en nuestra respuesta debemos tener en cuenta las diferentes proporciones de lo maquinado en cada robot. serían 0.001 Porcentaje de Producción 18% 42% 40% Ahora surgen un par de preguntas: •Cuál es la proporción global de defectos producida por las tres máquinas.

Sustituyendo con los números. La probabilidad que se busca es un condicional pero al revés de las que se tienen. para calcularla se utiliza la definición de probabilidad condicional: P(C | d) = [P(C y d)] / [P( d )] El numerador (lo de arriba) se calcula con P(C y d) = P(C) P(d|C) y el denominador se calcula con la fórmula de probabilidad total P(d) = P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C) 175 . se conoce las probabilidades condicionales de otro evento dado cada uno de ellos. La fórmula de arriba se llama fórmula de la probabilidad total.42)(0. conduce a la aplicación de lo que se conoce con el nombre de teorema de Bayes. Esto es muy razonable. Hay tres eventos A. a la vez más simple y más complicada. Se puede ver que el resultado se encuentra entre todas ellas y se encuentra relativamente cerca de los porcentajes de los robots más utilizados (el B y el C).00286. b) La segunda pregunta es.Antes de ponerle números y resolver nuestro problema fijémonos en la fórmula obtenida. Además. se tiene que P(d) = (0. B y C que son ajenos y cubren todo el espacio muestral.18)(0.40)(0. casi 3 piezas por cada mil. Se conoce las probabilidades de cada uno de ellos.001) = 0.005) + (0. Es bueno comparar este resultado con los porcentajes de soldaduras defectuosas de cada robot por separado.002) + (0. Se busca P(C|d).

lo mismo para cada robot. la probabilidad de que sea no defectuoso es igual a la probabilidad complemento de la probabilidad de defectuosos.4007 Lo anterior se obtiene del siguiente procedimiento: Como la probabilidad de defectuosos P(|d) = .1802.40)(0. Pero.001)] o sea: P(C|d) = [0.99714. 176 .005) + (0. por lo tanto.4191 y P(C|no d) = 0.18)(0.1399. 40%.001)]/[(0.002) + (0. por el contrario la pieza no hubiese tenido defectos de soldadura. Esto quiere decir que. O sea que si se toma una pieza al azar.7343 y P(A|d) = 0. su probabilidad complemento o P(|no d) = . se tendría: P(B|d) = 0. P(B|no d) = 0. casi 14%. al saber que la pieza seleccionada es defectuosa. Utilizando de nuevo la fórmula de Bayes las probabilidades de los robots A y B.42)(0. el mismo teorema de Bayes daría: P(A|no d) = 0.1259 Comparadas con las probabilidades de cada máquina sin saber que la pieza es defectuosa se observa un gran incremento en la probabilidad de B. la probabilidad de que provenga del robot C disminuye a solamente 14%.00286. en este caso el saber que la soldadura es defectuosa. Si.juntando las dos se tiene la fórmula de Bayes: P( C|d) = [P(C) P(d|C)] / [P(A) P( d|A) + P(B) P( d|B) + P(C) P( d|C)] Aplicándola al ejemplo se tiene: P(C|d) = [(0. nos provee con una gran cantidad de información.00286] = 0.0004]/[0. como ese robot produce sólo 1 de cada mil soldaduras defectuosas.40)(0. la probabilidad de que haya sido soldada por el robot C es alta.

42)(0. Tabla 7.998)/ .99714 = 0. prácticamente no altera las probabilidades de producción en uno u otro. Para apreciar mejor el cambio.18)(. el robot C es tan bueno.42)(0.1802 P(B|no d) = P(B y No d)/P (No d) = (. Por el contrario.99714 = 0.4191 P(C|no d) = P(C y No d)/P (No d) = (.995)/.4191 0. 177 .999 Porcentaje de Producción 18% 42% 40% P(A|No d) = P(A y No d)/P (No d)= (.42 0.4 Producción y defectos por robot empleado Robot A B C No Defectuosos 0. pero la diferencia es muy pequeña.18 0. las probabilidades cambian dramáticamente.5 Producción y probabilidad condicional de defectos y no defectos Robot A B C Total P( ) 0.4007 1.1259 0.40 1.00 Es tan grande el éxito de los tres robots en el soldado correcto que el saber que la pieza no tiene defectos.99714 = 0.00 P( |d) 0.995)/. Se ponen en una sola tabla las probabilidades iniciales y las condicionales obtenidas bajo el conocimiento de la soldadura de la pieza. al saber que la pieza es defectuosa.Tabla 7.998 0.4007 Las probabilidades no son idénticas a las probabilidades no condicionales.7343 0. comparado con el B que.1399 1.1802 0.00 P( |no d) 0.995 0.

se desea saber: a. La fórmula de Bayes sirvió para pasar de las probabilidades no condicionales a las condicionales. ¿Cuál es la probabilidad de que la enfermedad no esté presente? Probabilidad de enfermedad. P(E’) = . P(P|E) = .90.97 Probabilidad prueba positivo dada la No enfermedad.En este ejemplo el cálculo de probabilidades condicionales nos cuantifica algo que el sentido común nos dice de otra forma.02. la probabilidad de que dé positivo si la enfermedad no está presente es de . P(P|E’) = .90 Probabilidad de No enfermedad. Si la prueba de diagnóstico médico ha dado resultado positivo.03. dada la información. la probabilidad de que la prueba dé positivo si la enfermedad está presente es del . Si se considera que la probabilidad que una persona tenga cierta enfermedad es del . ¿Cuál es la probabilidad que la enfermedad esté presente? b.02 178 . Si la prueba de diagnóstico médico ha dado resultado negativo.03 Probabilidad prueba positivo dada la enfermedad. Otra aplicación interesante del Teorema de Bayes se relaciona con el área de diagnóstico médico. P(E) = . ¿Qué proporción de todas las pruebas de diagnóstico médico indican resultados positivos c. Se dispone de pruebas de diagnóstico para comprobar si la persona realmente tiene la enfermedad.

582 0.97)= .90 0.0194 . Probabilidad de Probabilidad Probabilidad Probabilidad enfermedad condicional conjunta revisada P(Ei) P(P|Ei) P(P|Ei)P(Ei) P(Ei|P) 0.03 0.97 0.0464 = .90)(.0194/.0464 1.0194 P(E’)=.418 0.0270 P(E y P’)=P(P’ IE)P(E) P(E)=.02 ) (.0270/.03)= .02 0.90) (.03 =(. ¿Cuál es la probabilidad que la enfermedad esté presente?: P(E|P) = [P(P|E) P(E)]/P(P|E)P(E) + P(P|E’)P(E’) = [.02)(.0464 = . ¿Qué proporción de todas las pruebas de diagnóstico médico indican resultados positivos? 179 .97 P(E’ y P’)=P(P’ IE’)P(E’) =(.98)(.Figura 7.90]/ [(.03 * . Si la prueba de diagnóstico médico ha dado resultado positivo.6 Probabilidad de enfermedad y prob.0000 Evento Ei E = tienen una enfermedad E' = No tienen enfermedad Respuesta a la primera pregunta. condicionada.97)= .9506 Tabla 7.03) + (.03)= .0030 P(E’ y P)=P(P IE’)P(E’) =(.10)(.3 Árbol de decisión para la aplicación del teorema de Bayes P(E y P)=P(P IE)P(E) =(.0270 .97)]= .0270/.582 Respuesta a la segunda pregunta.0464 = .

97)]= . ¿Cuál es la probabilidad de que la enfermedad no esté presente? P(P’|E) = 1 – P(P|E) = 1 . o cálculo combinatorio.10) (. El análisis combinatorio.9506/. permite enumerar tales casos o sucesos y así obtener la probabilidad de eventos más complejos. aquí se señalan cinco diferentes principios para enumerar. o sea ..98 * .97]/ [(.98 ) (.98 Utilizando la ecuación del teorema de Bayes se tiene: P(E’|P’) = [P(P’|E’) P(E’)]/P(P’|E)P(E) + P(P’|E’)P(E’) = [. para ello se utiliza el principio fundamental de conteo.03) + (.997 7. habría que contar el número de veces que pueden ocurrir todos los sucesos que se desean observar.7 Principios fundamentales para enumerar En ocasiones el trabajo de enumerar los posibles sucesos que ocurren en una situación dada se convierte en algo difícil de lograr o simplemente tedioso.02 = .024. Respuesta a la tercera pregunta. el número de resultados posible es igual a kn Si una moneda se arroja 10 veces. En el caso de que exista más de un suceso a observar.Se refiere a la probabilidad simple del evento P.90 = . el número de resultados posibles es 210 = 1. 180 . el número de resultados posibles es 62 = 36. es decir al numerador de la operación anterior: P(P|E)P(E) + P(P|E’)P(E’). Principio 1: Si cualquiera de k eventos mutuamente excluyentes y colectivamente exhaustivos puede ocurrir en cada uno de n intentos.0464. Si un dado se lanza dos veces. Si la prueba de diagnóstico médico ha dado resultado negativo.9536 = ..10 P(P’|E’) = 1 – P(P|E’) = 1 .

cuantas maneras diferentes se pueden acomodar los 4 libros: 6!/(6-4)! = 6!/2! = 360 Principio 5: Muchas de las veces no interesa el orden de los resultados. a esta manera de ordenar los X objetos se le denomina permutaciones. El número de formas en que siete libros pueden ordenarse es igual a 7! ) 7*6*5*4*3*2*1= 5040. a este cálculo se le denomina combinaciones y n su expresión matemática es Cxn ó X .Principio 2: Si hay k1 eventos del primer intento. conocido en forma abreviada cono n!. k2 eventos del segundo intento y kn eventos del enésimo intento. 000. el número total de placas posible sería (27) (27) (27) (10) (10) (10) = 19. la manera de calcular es n!/X!(n-X)!. sino. sólo en el número de formas en que X objetos pueden seleccionarse de n objetos.(kn) Si el código de una placa de automóvil consistiera en tres letras seguidas de tres dígitos. Observamos un evento que no tiene posibilidad de ocurrir (es 181 . Si se tienen 6 libros. Principio 4: El número de formas de ordenar X objetos seleccionados de n objetos es = n!/(n-X)!. entonces el número de resultados posible es: (k1)(k2)…. 0! = 1. pero sólo hay espacio para acomodar 4.8 Resumen () La probabilidad es la posibilidad u oportunidad de que suceda un evento particular. o n factorial. La probabilidad involucrada es una porción o fracción cuyo valor varía entre cero y uno exclusivamente. 683. 7. Principio 3: El número de formas en que n objetos pueden ordenarse es igual a n(n-1)(n-2)…(1).

El primero a menudo se denomina como el planteamiento de la probabilidad clásica a priori. La compilación de todos los eventos posibles se llama el espacio muestral. llamado probabilidad clásica empírica. La manera en que se subdivide el espacio muestral depende de los tipos de probabilidades que se han de determinar. El tercer planteamiento de probabilidad se denomina el enfoque de probabilidad subjetiva. Se han definido tres planteamientos de probabilidad. 182 . Un evento simple puede describirse mediante una característica sencilla. probabilidad condicionada y probabilidad independiente. resulta de interés definir tanto el complemento de un evento como un evento conjunto y su condición de exclusión y ocurrencia. Aquí la probabilidad de éxito se basa en el conocimiento anterior del proceso involucrado. se puede determinar la probabilidad simple. probabilidad conjunta. tiene una probabilidad de cero. Definiendo la diversidad de los eventos posibles en un espacio muestral. Cada tipo posible de ocurrencia se denomina un evento. En el segundo ejemplo. estos resultados se basan en datos observados.decir. Los elementos básicos de la teoría de probabilidades son los resultados del proceso o fenómeno bajo estudio. el evento cierto). no en el conocimiento anterior a un proceso. En el caso más simple. cuando cada resultado es igualmente posible. mientras que un evento que seguramente ocurrirá (es decir. el evento nulo). aunque la probabilidad se sigue definiendo como la proporción entre el número de resultados favorables y el número total de resultados. tiene una probabilidad de uno. Tomando esto en cuenta.

7. Dé tres ejemplos de cada uno de los tipos de probabilidad: a priori. empírica o a posteriori y subjetiva Probabilidad a priori Probabilidad conjunta Probabilidad empírica o a posteriori Probabilidad objetiva Probabilidad simple Probabilidad subjetiva Regla condicional Regla de adición Regla de complemento Regla de exclusión Regla de independencia Regla de multiplicación Tabla de datos cruzados Teorema de Bayes 183 .9 Términos clave: Criterio de probabilidad Diagrama de Venn Espacio muestral Evento cierto Evento conjunto Evento nulo Eventos colectivamente exhaustivos Eventos complemento Eventos dependientes o condicionados Eventos independientes Eventos mutuamente excluyentes Eventos simples Principios para enumerar. empírica o subjetiva: a) Que al siguiente lanzamiento de una moneda caiga en águila o en figura b) Que el equipo del Guadalajara le gane al equipo del América c) Que el último número de la Lotería Nacional sea un 9 d) Que la suma de dos dados lanzados sea 7 e) Que en el siguiente lote de producción existan 3 piezas defectuosas 2. Para cada uno de los siguientes eventos. indique si el tipo de probabilidad es a priori.7.10 Problemas de repaso 1.

Suponga que el encuestado elegido disfruta de comprar ropa. Entre las preguntas estaba ¿Disfruta comprar ropa?. de 480 hombres 272 respondieron que sí. ¿Cuál es entonces la probabilidad que no disfrute comprar ropa? g. De las 520 mujeres 488 respondieron que sí.3. ¿Cuál es entonces la probabilidad que sea un hombre? 184 . sea un hombre o no disfrute comprar ropa j. no disfrute comprar ropa e. sea mujer y disfrute de comprar ropa f. sea un hombre o una mujer f. disfrute comprar ropa c. Suponga que el encuestado es mujer. sea un hombre y disfrute comprar ropa h. sea hombre y no disfrute comprar ropa g. sea mujer d. sea hombre b. sea una mujer o disfrute comprar ropa i. a) Construya una tabla de 2x2 y el diagrama de Venn b) Dé un ejemplo de un evento simple c) Dé un ejemplo de evento conjunto d) ¿Cuál es el complemento de “disfruta de comprar ropa”? e) ¿Cuál es la probabilidad de que el encuestado sea a. En una gran área metropolitana se seleccionó una muestra de 1000 encuestados para determinar información diversa respecto al comportamiento de los consumidores.

h. Sin embargo sólo 4 libros caben en el portafolios. Un estudiante tiene 9 libros que desearía acomodar en un portafolios. ¿Disfruta de comprar ropa y el género de los encuestados son estadísticamente independientes? Explique. cada uno con 30 posiciones. La cerradura de la bóveda de un banco consiste en tres discos. cada uno de los tres discos deberá estar en la posición correcta. sea capaz de abrir la bóveda del banco? c) Explique por qué las combinaciones de discos no son combinaciones matemáticas expresadas por la ecuación n!/X!(n-X)! 5. 4. Sin importar el arreglo ¿Cuántas formas hay de colocar 4 libros en un portafolios? 185 . a) ¿Cuántas combinaciones de discos diferentes existen para la cerradura? b) Cuál es la probabilidad de que si se eligió aleatoriamente una combinación (una posición de cada disco). Para que la bóveda se abra.

7.11 Mapa conceptual de probabilidad Probabilidad Tipos de probabilidad Objetiva Subjetiva Simple Conjunta Condicional Apriori Empirica Regla de adición Regla de multiplicación Representación Independencia estadística Tabla de contingencia Diagrama de Venn Árbol de decisión Teorema de Bayes 186 .

Capítulo 8 Modelos de distribución de probabilidad para variables aleatorias discretas ********************* Objetivo del Capítulo Propiciar la compresión del concepto de esperanza matemática y su aplicación en la toma de decisiones. así como los diferentes modelos de distribución de probabilidad de variables discretas 187 .

188 .

2. Se iniciará definiendo la distribución de probabilidad y se define las dos características básicas de cualquier distribución de probabilidad: su media o valor esperado E(X) y su varianza.8. el alumno debe ser capaz de: 1. Al terminar el capítulo. Encontrar cualquier probabilidad binomial o de Poisson 4. Después se explicará dos modelos importantes de distribución de probabilidad discreta: la distribución binomial y la distribución de Poisson. Comprender la aplicación de los modelos de probabilidad binomial y de Poisson 3. en este capítulo se estudiará el concepto de esperanza matemática y los modelos de distribución de probabilidad que representen eventos discretos. Saber cuándo y cómo se puede utilizar la distribución de Poisson para aproximar la distribución de binomial. Calcular el valor esperado y la varianza de una distribución de probabilidad discreta. la teoría de la probabilidad y los métodos de conteo.1 Introducción Utilizando el conocimiento sobre las medidas estadísticas. σ2. 189 .

La tabla sirve para calcular diferentes posibilidades de ocurrencia. 5 ó 6) = 1/6: P(4) = 1/6 190 .1 Distribución de probabilidades teóricas de los resultados de arrojar un dado Resultado Probabilidad Resultado 1/6 1/6 1/6 1/6 1/6 1/6 1.1. tal que una probabilidad de ocurrencia está asociada con cada resultado. Tabla 8. La distribución de probabilidad para los resultados de una sola vuelta de rodar un dado se describe en la tabla 8. la suma de probabilidades debe de ser igual a 1. 2. La variable aleatoria puede ser discreta (conteo) o continua (medición). pero sólo uno de ellos (1. La tabla incluye todos los resultados posibles y como son eventos colectivamente exhaustivos.0 La probabilidad de que sea cualquier número.8. la que se define como: un listado mutuamente excluyente de todos los resultados posibles para una variable aleatoria. 4. En este capítulo se tratará ciertos modelos de distribución discreta.2 Concepto de distribución de probabilidad discreta Para definir el concepto de distribución de probabilidad discreta. es necesario recordar que una variable aleatoria es cierto fenómeno de interés cuyo resultado puede expresarse numéricamente. 3.

5 Debe considerarse que al arrojar un dado. nunca se podrá obtener una cara con valor de 3. se habrá obtenido el mismo número de unos.5. la interpretación que debe darse es de que a la larga. y el valor promedio es 3. el valor esperado es igual a: µx = E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3.5. la probabilidad de que sea un par (2.seises. después de muchos tiros. La probabilidad de que sea igual o menor de 2: P(≤2) = P(1) + P(2) = 1/6 + 1/6 = 2/6 = 1/3 8. El E(X) se obtiene de la suma de los productos de cada resultado posible Xi por la probabilidad de ocurrencia P(Xi). 4 o 6) es igual a: P(par) = P(2) + P(4) + P(6) = 1/6 +1/6 +1/6 =3/6 = ½. doses…. 191 . La ponderación es la probabilidad asociada a cada uno de los resultados. el cual se expresa matemáticamente de la siguiente manera: µx = E(X) = ∑ n X i P ( X i) i= 1 Para la distribución teórica de los resultados de arrojar un dado.3 Valor esperado de una variable discreta El valor esperado E(X) de una serie de eventos aleatorios mutuamente excluyentes y colectivamente exhaustivos es la media (µ).Utilizando la regla de adición para eventos mutuamente excluyentes. es decir el 50% de probabilidad de que sea un par. El valor esperado de una variable aleatoria discreta es la suma de todos los resultados ponderados posibles.

la pregunta es.5)2 (1/6) + (4-3. 192 .5)2 (1/6) + (2-3. es decir: σ = ∑ (X i.µ x ) P (X i ) σ = i= 1 i 2 n 2 Además.5)2 (1/6) + (5-3.µx )2 por la probabilidad correspondiente P(Xi).5)2 (1/6) = 2.4 Varianza y desviación estándar de una variable discreta La varianza de una serie de eventos aleatorios mutuamente excluyentes y colectivamente exhaustivos es el promedio pesado de las diferencias cuadradas entre cada resultado posible y su media. La ponderación es la probabilidad asociada a cada uno de los resultados.5)2 (1/6) + (6-3.9166.5 pesos por jugada. Si se considera el valor de cada elemento de la distribución de probabilidad en pesos. a la larga el jugador obtendría un promedio de 3. como ya se ha visto anteriormente.5)2 (1/6) + (3-3. a la larga quién sale ganando. el cual se expresa matemáticamente de la siguiente manera: ∑ (X . Esta medición puede obtenerse a través de la suma de los productos de las diferencias entre los resultados posibles y la media al cuadrado (X i . la varianza y la desviación estándar se calculan de la siguiente manera: σ2= (1-3. la desviación estándar es igual a la raíz cuadrada de la varianza. lo que le haría perder 50 centavos por jugada.Suponiendo que un casino le paga a un jugador en pesos el número que saque por cada que arroje un dado y le cobra cuatro pesos por cada vez que lo arroja. 8. (σ2).µ x ) 2 P (X i ) i= 1 n Para la distribución de probabilidad teórica de los resultados de arrojar un dado. siendo los pesos las probabilidades de cada uno de los resultados respectivos. La varianza de una variable aleatoria discreta es la suma de las diferencias entre cada resultado posible y su media al cuadrado ponderadas.

20 0.15 0.5 Ejemplos: 1. la B a la izquierda 2. En el juego de dados.05 0.10 0. para la B es 3 La desviación estándar es igual para ambas distribuciones La distribución A está sesgada a la derecha.71 8.10 0.05 P(X) 0.20 0. La distribución de probabilidad está dada por la siguiente tabla: 193 .15 0.9166 = 1.50 a) Calcule las medias para cada distribución b) Calcule la desviación estándar para cada distribución c) Señale la diferencia de cada distribución La media para la distribución A es igual a 1. la variable aleatoria de interés (X) toma los valores del total de los dos números.Por lo que la desviación estándar es igual a la raíz cuadrada de 2.50 0. Dadas las siguientes distribuciones de probabilidad Distribucción A X 0 1 2 3 4 Distribución B X 0 1 2 3 4 P(X) 0.

e) A la larga. 9.6. o puede ganar $2. c) Forme la función de distribución de probabilidades que represente los diferentes resultados en la apuesta d) Determine la media de esta distribución.Número posible 2 3 4 5 6 7 8 9 10 11 12 No de veces que puede salir 1 2 3 4 5 6 5 4 3 2 1 36 Probabilidad de cada evento 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 1/36 36/36 a) Determine la media o valor esperado al arrojar un par de dados b) Calcule la varianza y la desviación estándar Una manera de apostar es que el jugador que apuesta un $1.00 si la suma de los números de los dados es 5.00 si la suma es 3.00 si la suma es 2 o 12. 4. ¿Cuál es la ganancia o pérdida del jugador y de la casa? 194 .00 puede perder un $1. puede ganar un $1. 10 u 11.7 u 8.

41 La función de distribución de probabilidad con apuesta está dado por la columna V*P La suma para esa función de distribución de probabilidad es igual a -.6 centavos por peso apostado 8.6 centavos por cada peso apostado A la larga.83 La desviación estándar es 2.2 Distribución de probabilidad de valor de arrojar dos dados La media de la distribución de arrojar dos dados es igual a 7 La varianza es igual a 5. el jugador pierde 5.055 A la larga.6 Funciones de distribución de probabilidad discreta La distribución de probabilidad de una variable discreta puede especificarse a través de: 195 .Tabla 8. la casa gana 5.

Si en cambio no nos interesa el orden.p) = 1. la probabilidad de tener cualquier combinación está dada por la llamada distribución binomial: P(X = x|n. Frecuentemente nos enfrentamos con el caso de muchos experimentos que pueden dar como resultado sólo dos valores posibles éxito o fracaso. Un listado teórico de resultados y probabilidades consecuencia de la aplicación de un modelo matemático representativo. p) = (número de posibles secuencias) x (probabilidad de una secuencia en particular): x!(n-x)! p (1-p) n! x n-x Al utilizar este modelo matemático. han sido la distribución binomial y la distribución de Poisson. sin embargo las probabilidades se consiguen directamen- 196 . los cálculos pueden ser bastante laboriosos.7 Distribución Binomial. Un listado empírico de resultados y sus frecuencias relativas observadas 3. incluso para los negocios.p)n-x. que satisfacen la condición de normalización (p) + (1. especialmente al crecer n. 8. tendremos respectivamente (x) y (n-x). Denotamos entonces p y 1 –p como las probabilidades para cada resultado. la correspondiente probabilidad será (p)x (1. Si estamos interesados en tener experimentos con el primer resultado en un orden determinado. a esta expresión matemática se le conoce como función de distribución de probabilidad. Un listado subjetivo de resultados asociados con sus probabilidades subjetivas que representan el grado de convicción del modelador. Se han desarrollado diferentes modelos matemáticos para representar la distribución de probabilidad de diversos fenómenos discretos que ocurren en las ciencias sociales y naturales. Las más útiles. Al cabo de un número n de experimentos.1. 2.

1 – p. Cada observación puede considerarse como seleccionada de una población infinita sin reemplazo o de una población finita con reemplazo. de un software estadístico o de la hoja de cálculo de Excel. En juegos de azar: en la ruleta americana. usualmente denominadas éxito y fracaso. p = 1/6) = 2!(3-2)!(1/6) (1-1/6) 2 3-2 3! 1/36 (5/6)= 3(5)/216 = 15/216 2!1! La distribución binomial posee cuatro propiedades esenciales: Las observaciones posibles pueden obtenerse mediante dos métodos de muestreo distintos. la probabilidad de que una observación se clasifique como fracaso. Aplicaciones de la distribución binomial. Cada observación puede clasificarse en una de dos categorías mutuamente excluyentes y colectivamente exhaustivas. ¿Cuál es la probabilidad de que el rojo salga 15 o más veces en 19 intentos? 197 . es constante para todas las observaciones. es independiente del resultado de cualquier observación. Un ejemplo sencillo de la aplicación del modelo matemático o función de la distribución de probabilidad binomial es el siguiente: ¿Qué probabilidad existe de que sean dos cincos en tres tiros de un dado? 3! P( X = 2|n = 3. El resultado de cualquier observación. p. es constante de observación a observación.te de tablas previamente elaboradas. evitando complicaciones de cálculo. es decir el éxito o el fracaso. Por tanto. La probabilidad de que una observación se clasifique como éxito.

1 juego de ruleta americana Aplicando el modelo matemático 19-15 n! px(1-p)n-x = 19! (18/38)15 (1-18/38) x!(n-x)! 15!(19-15)! 93.024 4! (6.6*10 /2*10 ) 18 23 5 6 (4. Figura 8.7*10 /4. En el juego de azar.9*10 )(1.En producción: ¿Cuál es la probabilidad de que en una muestra de 20 piezas ninguna salga defectuosa si el 8% de tales piezas son defectuosas? En educación: ¿Cuál es la probabilidad de que un estudiante apruebe un examen de 10 preguntas de respuesta múltiple (cuatro opciones) si escoge aleatoriamente las respuestas? Aprobar es contestar correctamente 6 o más preguntas.8*10 29) =(0. el resultado es independiente de los resultados anteriores o posteriores.1*1027 /9. la probabilidad de que salga rojo (éxito) es igual a 18/38 y la probabilidad de que sea negro o verde (fracaso) es igual a 20/38. En cada uno de los ejemplos anteriores se cumplen las cuatro propiedades de la distribución de probabilidad binomial. cada vez que se gire.0041) 198 . Como la ruleta no tiene memoria.

Si en lugar de utilizar el modelo matemático.2 menú de consulta de distribución binomial en Excel 199 . Hállese la probabilidad de que. la probabilidad de que una persona en estas condiciones viva 30 años o más es 2/3. transcurridos 30 años. Las cinco personas. se consulta directamente la hoja de cálculo de Excel. utilizando el comando F(x)/Estadísticas/DISTR.Un agente de seguros vende pólizas a cinco personas de la misma edad y que disfrutan de buena salud. vivan: 1. 3. Exactamente dos personas.BINOM Figura 8. 2. Al menos tres personas. Según las tablas actuales.

Se abre el programa con un variable disponible y se le da un valor cualquiera.0. como se observa en la figura 8. 1. se deberá seguir el siguiente procedimiento. la probabilidad de que salgan defectuosos es . la probabilidad de éxito es .FALSO). la probabilidad es igual a 0.20.0. por ejemplo 1 2.3 menú Transformar en SPSS Al teclear Transformar/calcular variable.En producción.40.05 Si quiere utilizar el programa estadístico SPSS.FALSO). utilizando la hoja de cálculo de Excel: DISTR. es decir que no salga ningún defectuoso.188.BINOM(6. En educación.25. Se teclea el comando Transformar/calcular variable. aparece la siguiente pantalla: 200 . la probabilidad de pasar con 6 el examen es de . utilizando la hoja de cálculo de Excel: =DISTR.3 Figura 8.BINOM (0. la probabilidad de fracaso.25.08.08.

2. esto es poner el nombre de la variable en la que va aparecer el valor calculado.Binom. aparecen los espacios para colocar los valores de cálculo. En el caso del ejemplo. que corresponde a la función de distribución de probabilidad binomial. en la parte superior. En el grupo de funciones (menú superior del lado derecho) se escoge el comando FDP y FDP centrada. se hace doble click y automáticamente aparece la leyenda explicativa y. éste corresponde a la función de distribución de probabilidad no acumulada.Figura 8. que corresponden a la probabilidad de que 15 veces aparezca el rojo en 19 intentos con una probabilidad binomial de 18/38. se teclearía 15. se deberá de definir la variable destino.4 menú calcular variables en SPSS En esta pantalla se tiene que realizar el siguiente procedimiento: 1. 19 y 18/38.5 201 . como se aprecia en la figura 8. Para que aparezca el comando aceptar. 3. Posteriormente se escoge el menú inferior Pdf.

pero en lugar de escoger el comando FDP y FDP centrada.5 resultados del cálculo de variable en SPSS Cuando se trata de calcular la probabilidad acumulada. que corresponde a función de distribución de probabilidad acumulada. se sigue el mismo procedimiento.7 202 . se escoge FDA y FDA centrada. como se puede observar en la figura 8. Figura 8.Figura 8.6 cálculo de probabilidad acumulada en SPSS El resultado que se obtiene es de 0. cuál es la probabilidad de que en el juego de la ruleta americana en 19 lanzamientos caiga entre cero y 15 veces. Siguiendo con el mismo ejemplo.99904.

7 resultados de cálculo de probabilidad binomial acumulada en SPSS 8.5. es sesgada cuando p es ≠ 0.5 y mayor sea el número de observaciones. es simétrica. menos sesgada será la observación.Figura 8. ¿Con qué frecuencia se espera que salga el color rojo? En promedio. dicho de otra manera. ¿Cuál es el valor esperado del valor de X?.5 Mientras más cercano sea el valor de p a 0. teóricamente se espera: E(X) = 19 (18/38) = 9 Se espera 9 ocurrencias en 19 giros. sin importar el tamaño de n. La desviación estándar de la distribución binomial se calcula utilizando la ecuación: σ = n p (1 -p) 203 .8 Características de la distribución binomial La distribución de probabilidad binomial puede ser simétrica o sesgada. La media de la distribución binomial puede obtenerse fácilmente con la multiplicación de los valores de n y de p. a la larga. si se gira 19 veces la ruleta americana. cuando p = 0. µx = E(X) = n* p Por ejemplo.

entonces se aplica el modelo de distribución de Poisson. La distribución de Poisson parte de la distribución binomial: cuando en una distribución binomial se realiza el experimento un número "n" muy elevado de veces y la probabilidad de éxito "p" en cada ensayo es reducida. 2. sino que también se usa para proporcionar aproximaciones a la distribución binomial. La probabilidad de observar exactamente un éxito en el intervalo es invariable. de tal manera que: 1.9 Distribución de Poisson La distribución de Poisson es otra función de distribución que se utiliza mucho. 3.18 204 . Algunos ejemplos de aplicación de la distribución de Poisson: Número de llamadas por hora que se reciben en una estación de bomberos Número de automóviles que cruzan un puente internacional al día Número de manchas en un metro cuadrado de tela = 2.En el ejemplo de la ruleta: σ = 1 9 ( 1 8 /3 8 ) ( 2 0 /3 8 ) 8. La ocurrencia de un éxito en cualquier intervalo es estadísticamente independiente de otra ocurrencia en cualquier otro intervalo. área. La distribución de Poisson se aplica en eventos discretos que ocurren en un área de oportunidad de intervalo continuo: tiempo. La probabilidad de observar exactamente más de un éxito en el intervalo es cero. no sólo representa numerosos fenómenos discretos. longitud.

se ajustan a la aplicación de la función de distribución de Poisson.m y 1:00 p. el promedio de llegadas por minuto es de 180/60 = 3 P(X = x|λ) = PX = 2| λ= 3) = e-3.Número de chispas de chocolate por galleta Número de defectos por lote en un proceso de producción En cada uno de los ejemplos anteriores.71828 λ = número esperado de éxitos E(X) = µx.0(3. número de “éxitos” por unidad. se analiza el número de clientes que llegan a un banco entre las 12:00 a.0)2/2! = 9/2. la variable aleatoria discreta. Si en lugar de utilizar el modelo matemático y se dispone del uso de la hoja de cálculo de Excel. ¿Cuál es la probabilidad que en un minuto lleguen dos clientes? Primero habrá que hacer la conversión de clientes/hora a clientes/minuto. se utiliza el comando F(x)/Estadísticas/POISSON para obtener la probabilidad de éxito.m. Cualquier llegada de cliente es un evento discreto sobre un punto en particular sobre el intervalo continuo de una hora. dado que se esperan λ éxitos es: -λ x P(X = x|λ) = e λ x! P(X = x|λ) = la probabilidad de que X = x dado que se conoce λ.2240 El cálculo del modelo matemático de la función de distribución de Poisson es bastante tedioso. Para comprender mejor la función de distribución de Poisson.0*2 = . X = número de éxitos por unidad. El modelo matemático de la distribución de Poisson para obtener X éxitos. 205 .718283. e = constante matemática aproximada a 2. Si durante ese intervalo llegaron en promedio 180 clientes.

¿cuál es la probabilidad de que cualquier galleta inspeccionada a) se encuentren menos de 5 chispas b) se encuentre exactamente 5 chispas c) se encuentre 5 o más chispas d) se encuentre 4 ó 5 chispas Utilizando la hoja de cálculo de Excel se calcula de la siguiente manera: Cuando se dice “menos de 5 chispas”.8 menú de consulta de distribución Poisson en Excel Otra aplicación El gerente de control de calidad de Galleta María está inspeccionando un lote de galletas de chispas de chocolate que se acaban de hornear.6.1606 Cuando se dice 5 o más quiere decir 1-P(0.6. 1.FALSO) = 0. ó 4. 3 y 4) = 0. el número promedio de chispas por galleta es 6.Figura 8. utilizando la tabla de distribución de Poisson. 3. Si el proceso de producción está bajo control. 2. chispas. 1.7149 206 . quiere decir 0.2851 Exactamente 5 chispas: POISSON(5. por lo que se considera una probabilidad acumulada: POISSON(4. 2.VERDADERO) = 0.

2945 Si quiere utilizar el programa estadístico SPSS. aparece la siguiente pantalla: Figura 8.9 menú Transformar en SPSS Al teclear Transformar/calcular variable. por ejemplo 1 4.10 menú calcular variables en SPSS 207 .Cuando se dice entre 4 ó 5 se refiere a P(4)+P(5)= 0. 3.9 Figura 8. Se abre el programa con un variable disponible y se le da un valor cualquiera. se deberá seguir el siguiente procedimiento. Se teclea el comando Transformar/calcular variable. como se observa en la figura 8.

cuál es la probabilidad de que al menos dos clientes lleguen en un minuto. aparecen los espacios para colocar los valores de cálculo. como se aprecia en la figura 8. que corresponde a la función de distribución de probabilidad de Poisson. En el caso del ejemplo. éste corresponde a la función de distribución de probabilidad no acumulada.Poisson. se escoge FDA y FDA centrada. que corresponde a función de distribución de probabilidad acumulada. 208 . se hace doble click y automáticamente aparece la leyenda explicativa y. Siguiendo con el mismo ejemplo. 5. En el grupo de funciones (menú superior del lado derecho) se escoge el comando FDP y FDP centrada. 6. Cuando se considera al menos dos se refiere a la probabilidad acumulada de que lleguen 2 y 3.En esta pantalla se tiene que realizar el siguiente procedimiento: 4. pero en lugar de escoger el comando FDP y FDP centrada.11 resultados del cálculo de variable en SPSS Cuando se trata de calcular la probabilidad acumulada. se teclearía 2 y 3 que corresponden a la probabilidad de que 2 aparezcan en un minuto dado que λ = 3. se sigue el mismo procedimiento. en la parte superior. se deberá de definir la variable destino. Posteriormente se escoge el menú inferior Pdf. esto es poner el nombre de la variable en la que va aparecer el valor calculado. Para que aparezca el comando aceptar.11 Figura 8.

Forma. puede generarse una distribución de probabilidad de Poisson específica.13 Figura 8. 209 .Figura 8. Una distribución de Poisson estará sesgada a la derecha cuando λ es pequeña.99904. Cada vez que se especifica el parámetro λ.13 resultados de cálculo de probabilidad binomial acumulada en SPSS 8.10 Características de la función de la distribución de probabilidades de Poisson. y se aproximará a la simetría al crecer. como se puede observar en la figura 8.12 cálculo de probabilidad acumulada en SPSS El resultado que se obtiene es de 0.

05). La ponderación es la probabilidad asociada a i= 1 ∑ X i P ( X i) n cada uno de los resultados: σ = simplemente es su raíz cuadrada. claramente no puede exceder el tamaño de la muestra n. Existen tres formas de definir una distribución de probabilidad discreta: un listado teórico. como es la de lanzar un dado de 6 caras. Como una introducción al conocimiento de la distribución de probabilidad se puso como ejemplo la distribución de probabilidad uniforme. el número de éxitos de n observaciones.µ x ) P (X i ) 2 n i= 1 . La variable aleatoria de la función de distribución de Poisson puede variar teóricamente de 0 a ∞. donde Xi toma los valores de 1 hasta n: µx = E(X) = . la varianza de una variable aleatoria discreta es la suma de las diferencias entre cada resultado posible y su media al cuadrado ponderadas. la suma de las probabilidades es igual a 1. por lo que la desviación estándar 210 . la variable aleatoria de Poisson. la media o valor esperado es igual a la suma de los productos de Xi por la probabilidad de Xi. por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ) Para aquellas situaciones en las que n es grande (mayor o igual a 20) y p es muy pequeña (menor a 0.Una propiedad de esta distribución es que la media y la varianza son iguales al parámetro λ. la distribución de Poisson puede usarse para aproximar la distribución binomial. es decir en la obtención de un listado teórico obtenido de un modelo matemático que represente algunos fenómenos de interés. donde la distribución de probabilidad es de 1/6 para cada cara. cuando se usa como una aproximación a la distribución binomial. 2 ∑ (X i. El desarrollo del contenido del capítulo se basó en los de primer tipo. Sin embargo. un listado empírico y un listado subjetivo.11 Resumen Se denomina distribución de variable discreta a aquella cuya función de probabilidad sólo toma valores positivos en un conjunto de valores de X finito o numerable. 8.

el cálculo de la probabilidad de ocurrencia se puede obtener de tablas previamente elaboradas. la ocurrencia de un éxito en cualquier intervalo es estadísticamente independiente de que ocurra en cualquier otro intervalo. Una propiedad interesante de la distribución de Poisson es que la media y la varianza son iguales al parámetro λ. Cada observación puede tomar una de dos categorías: éxito o fracaso y el resultado de cualquier observación es independiente del resto de las observaciones anteriores o posteriores. La distribución binomial se utiliza para analizar una población infinita sin reemplazo o una población finita con reemplazo.12 Términos clave Distribución de probabilidad para una variable aleatoria discreta Esperanza matemática o valor esperado Varianza y Desviación estándar de una variable aleatoria discreta Valor monetario esperado Función de distribución de probabilidad discreta Distribución binomial Distribución de Poisson 211 . o de la hoja de cálculo de Excel. Los estadísticos de la distribución binomial se calculan como la media o E(X) = np. la probabilidad de observar exactamente más de un éxito en el intervalo es cero y. la desviación estándar es igual a la raíz cuadrada de np (1-p). 8. El área de oportunidad debe reducirse de tal forma que la probabilidad de observar exactamente un éxito es estable. un intervalo continuo de tiempo. En ambas distribuciones de probabilidad: binomial y Poisson. La probabilidad de Poisson se aplica en eventos discretos que ocurren en un área de oportunidad. longitud o área.Dos modelos matemáticos o función de distribución de variable aleatoria discreta se estudiaron. de un paquete estadístico. la distribución binomial y la distribución de Poisson.

8. 8.00 a que la suma es mayor que 7. es decir 2. De manera similar. 4. es decir. Hallar la probabilidad de que al examinar 50 piezas sólo haya: a) una defectuosa b) cinco defectuosa 3. se arroja una vez un par de dados y la suma resultante determina si el jugador gana o pierde su apuesta. Por ejemplo. 3 ó 2.00 si el resultado es igual a 7 o menor. 9. 3. 5. 2. Calcula la probabilidad de a que una vez administrada a 15 pacientes: 212 . es decir 7.5 o 6. el jugador puede apostar $1. b) Pruebe que la ganancia o pérdida esperada a la larga para el jugador es igual.72. el jugador perderá $1.00 sobre el resultado de 7. 9. 11 y 12. En el juego de dados de sietes.. 4 . Para esta apuesta el jugador ganará $4.Una máquina fabrica una determinada pieza y se sabe que produce un 7 por 1000 de piezas defectuosas. a) Forme la función de distribución de probabilidad que represente los diferentes resultados que son posibles para cada una de las modalidades señaladas en el párrafo anterior. 10. el jugador puede apostar $1. Un tercer método de juego es apostar $1.00 si el resultado es 7 y perderá $1. 10. sin importar el método que se utilice. Aquí el jugador pierde un $1.. 6. 11 y 12.13 Problemas de repaso del capítulo 1.00 si no lo es.La probabilidad de éxito de una determinada vacuna es 0. es decir 7.00 a que la suma es menor. Para esta apuesta.00 si el resultado es igual o mayor que siete.8.

a) Ninguno sufra la enfermedad b) Todos sufran la enfermedad c) Dos de ellos contraigan la enfermedad 4. 8.002.La probabilidad de que un artículo producido por una fábrica sea defectuoso es p 0. Los archivos del departamento de tránsito indican una media de cinco accidentes por mes en él.. c) cuando más una imperfección en 15 minuto.. b) 10 cheques sin fondos en cualquiera de dos días consecutivos.Si un banco recibe en promedio 6 cheques sin fondo por día. b) al menos dos imperfecciones en 5 minutos. cuando se marquen 10 números de teléfono elegidos al azar. 213 . El número de accidentes está distribuido conforme a la distribución de Poisson.Si se admite que un número de teléfono de cada cinco está comunicando.3 y 4 accidentes en un mes determinado.1.2 imperfecciones en promedio por minuto. sólo comuniquen dos? 5...2.000 artículos a unos almacenes. ¿Cuáles son las probabilidades de que reciba. Se envió un cargamento de 10. a) cuatro cheques sin fondo en un día dado. 7. la varianza y la desviación típica. Hallar el número esperado de artículos defectuosos. el nuevo jefe del departamento quiere calcular la probabilidad de exactamente 0. 6. ¿cuál es la probabilidad de que. Determine las probabilidades de identificar a) una imperfección en 3 minutos.En la inspección de hojalata producida por un proceso electrolítico continuo se identifican 0.Supóngase que estamos investigando la seguridad de un crucero muy peligroso..

8.14 Mapa conceptual de modelos de distribución de probabilidad para variables aleatorias discretas. Distribuciones de probabilidad discreta Definiciones y propiedades Valor esperado E(X) Varianza σ2 Distribución Binomial Aproximación de Poisson a Binomial N≥ 20 P≤ .05 Distribución de Poisson 214 .

215 .Capítulo 9 La distribución normal ********************* Objetivo del Capítulo Propiciar la compresión del uso de la función de distribución de probabilidad normal de una variable continua y el uso aproximado para variables discretas.

216 .

La distribución normal. también llamada distribución de Gauss o distribución gaussiana. Al concluir el capítulo. Se hará énfasis en sus características y sus diversas aplicaciones. el alumno será capaz de: 1. Es. la distribución normal. Comprender las propiedades de la distribución normal 2. lo que favorece su aplicación como modelo a gran número de variables estadísticas. Encontrar el valor porcentual que corresponde a cualquier punto debajo de la curva 217 . Esto se debe a dos razones fundamentalmente: Su función de densidad es simétrica y con forma de campana. es la distribución de probabilidad que con más frecuencia aparece en estadística y teoría de probabilidades. además. límite de otras distribuciones y aparece relacionada con multitud de resultados ligados a la teoría de las probabilidades gracias a sus propiedades matemáticas.1 Introducción En este capítulo se estudiará la distribución de probabilidades más importante en Estadística.9.

el peso. La función de densidad de probabilidad de una variable continua más utilizado se le conoce como distribución normal o gaussiana.3. moda. fuera del alcance de este curso. La obtención de probabilidades para fenómenos continuos requiere del conocimiento matemático de cálculo integral. Saber cuándo y cómo utilizar una distribución normal como aproximación a las distribuciones de variable aleatoria discreta como la binomial y la de Poisson.33 desviaciones estándar. La distribución de los eventos gráficamente se asemeja a una campana simétrica. alcance medio y eje medio) son idénticas.2 La función de densidad de probabilidad de una variable aleatoria continua Las funciones de densidad de probabilidades continuas surgen de la medición de diversos fenómenos de interés como la estatura. La dispersión media es igual a 1. Las mediciones de tendencia central (media. No obstante. 2. 3. 9. el tiempo. dada la importancia de aplicación. se han construido tablas de probabilidad especial y se han creado programas de cómputo con el fin de eliminar los laboriosos cálculos matemáticos. en torno a un valor central que coincide con el valor medio de la distribución: un 50% de los valores están a la derecha de este valor central y otro 50% a la izquierda. mediana. entre las que se encuentran las siguientes: 1. 218 . 9.4 Propiedades de la distribución normal La distribución normal tiene varias propiedades teóricas importantes.3 La distribución normal La distribución normal se caracteriza porque los valores se distribuyen en forma de campana. 9.

lo que propicia que exista un número infinito de combinaciones y se requerirá. transformar los valores de cualquier variable aleatoria de X a una variable aleatoria normal estandarizada mediante la fórmula: X-µ Z = σx x 2. un número infinito de tablas. aunque en la práctica caerá entre los valores de ± 3 desviaciones estándar. Una desviación estándar σz = 1. La probabilidad de ocurrencia de un evento es igual a la frecuencia relativa 9. La variable aleatoria tiene un alcance teórico de ± ∞.5 El modelo matemático El modelo matemático que representa la función de densidad de probabilidad se denota mediante f (X)= 1 e-(½)[(x-µx )/σx ] 2π σx 2 Dado que e y π son números constantes. 5. para el cálculo de probabilidades. Para hacer práctico el uso del modelo matemático se requiere estandarizar los datos originales. Para estandarizar el modelo matemático (reducir el modelo) se consideran 3 condiciones: 1. 219 . La distribución normal estandarizada siempre tiene una µz = 0 y 3. cada que se modifique la media de la población µ o la desviación estándar σ se generará una distribución de probabilidad diferente. Bajo estas condiciones siempre se puede convertir cualquier conjunto de datos normalmente distribuidos a su forma estandarizada y determinar cualquier probabilidad deseada a partir de la distribución normal estandarizada.4.

(150-1σ). que para efectos prácticos el total de las observaciones se distribuyen en ± 3 σ (desviaciones estándar) los valores posibles en segundos que los trabajadores tardarían en realizarlo serían: (150-3σ). (150+2σ) y (150+3σ). 138. Tabla 9.1 Estandarización de una variable aleatoria X La interpretación gráfica de la distribución normal estandarizada se puede apreciar en la figura 9. 162. es decir entre los siguientes: 114. 150.9. (150-2σ). (150-0σ). un obrero tarda 150 segundos en realizarlo.6 Ejemplo: En el montado de una pieza de un proceso de producción. Con el propósito de realizar un análisis de probabilidades. 174 y 186. Considerando. (150+1σ). con una desviación estándar de 12 segundos. el analista estandarizó los datos normales –convirtió los valores reales a valores Z-. como se puede observar en la tabla 9. 126.1 220 . después de un entrenamiento. un analista de tiempos y movimientos de producción determinó que el tiempo promedio.1.

La interpretación se ilustra en la figura 9. las probabilidades o proporciones totales bajo el área de la curva es igual a 1.1 Transformación de escalas de normal a normal estandarizada 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Uso de las tablas de probabilidad normal.00. Al usar la tabla se puede observar que todos los valores de Z deben de registrarse hasta con dos decimales.2 representa las probabilidades. Por lo tanto. para los valores de Z.13% de probabilidad de que el obrero escogido aleato- 221 . es decir.2 y representa el 34. Los datos representan la población entera de la plana y por lo tanto. el analista desea determinar la probabilidad de que un obrero seleccionado aleatoriamente requiera entre 150 y 162 segundos para montar la pieza. la pregunta sería ¿Cuál es la probabilidad de que el tiempo del obrero esté entre la media y una desviación estándar? La tabla 9.3413.13% del área total debajo de la curva. El valor de Z = 1 se localiza en la intersección de la fila con valor de 1.0 y la columna con valor de . el valor de interés del ejemplo será Z = 1.0. para los valores de X estandarizados. El diagrama en forma de campana de la figura 9. Utilizando los datos estandarizados. equivalente al 34. Siguiendo con el ejemplo.1 ilustra el polígono de frecuencias relativas para la distribución normal que representa el tiempo (en segundos) de montaje de todos los obreros. la cual indica .Figura 9.

3413 X-µ Z = σx x 12 =1 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Utilizando la hoja de cálculo de Excel. Cada valor representa el área bajo la curva desde la media o Z= 0 hasta +3Z.50. área de interés: P (150 ≤X≤162 Área = .3413. A . por lo que es necesario restarle el .ESTAND(1).8413 se le resta . se introduce el valor de Z y se obtiene el valor de la probabilidad acumulada.2 Distribución normal estandarizada. Figura 9. se obtiene el área de . se utiliza el comando F(x)/Estadísticas /DISTR. que corresponde al área entre 0 y 1Z.50 que corresponde a la primera mitad de la curva.NORM. Figura 9.riamente caiga en ese rango.3 Comando de cálculo del valor Z en la hoja de cálculo Excel 222 .

3962 0.4997 0.4192 0.3 3.4115 0.8 2.3078 0.4898 0.3289 0.4671 0.3159 0.4989 0.4732 0.4236 0.4918 0.4803 0.0279 0.4292 0.4904 0.4969 0.4 0 0.1985 0.3554 0.0319 0.6 1.3413 0.2794 0.4625 0.2967 0.0557 0.3315 0.4982 0.4861 0.1 1.1628 0.0753 0.4564 0.7 0.4956 0.4474 0.3944 0.3133 0.3 1.3907 0.4778 0.0832 0.4934 0.4922 0.0714 0.1255 0.4931 0.4991 0.4332 0.2 Distribución normal estandarizada: valores de área desde la media hasta Z Z/ 0 0.4997 0.489 0.4846 0.1331 0.04 0.0359 0.4997 0.4997 0.4649 0.1103 0.498 0.4953 0.4871 0.4913 0.4929 0.383 0.4901 0.4997 0.4664 0.4945 0.4943 0.4693 0.7 2.08 0.6 0.4991 0.4826 0.3729 0.4394 0.4429 0.4998 223 .4798 0.4817 0.4993 0.4893 0.475 0.17 0.379 0.0517 0.2224 0.4989 0.4962 0.2517 0.4972 0.8 0.1517 0.4981 0.1 3.1064 0.4967 0.4986 0.4505 0.4032 0.3621 0.2 0.2324 0.4783 0.0987 0.485 0.4 1.4986 0.291 0.1293 0.4971 0.494 0.4916 0.4147 0.4911 0.4881 0.0793 0.2 2.4996 0.Tabla 9.3665 0.3 0.4995 0.4993 0.4515 0.4887 0.4964 0.4761 0.5 1.3997 0.2019 0.4678 0.4738 0.4599 0.4995 0.4545 0.4979 0.4985 0.258 0.4987 0.1217 0.3023 0.4452 0.3849 0.4265 0.4767 0.0871 0.4656 0.4418 0.4991 0.4966 0.4992 0.02 0.1368 0.3051 0.4965 0.4842 -0.1844 0.381 0.3238 0.4997 0.3212 0.2852 0.0438 0.4719 0.3686 0.0636 0.4992 0.2389 0.4808 0.2257 0.2823 0.4987 0.4963 0.496 0.1879 0.4994 0.4968 0.03 0.398 0.499 0.1406 0.497 0.07 0.334 0.4997 0.4946 0.4995 0.1 2.4279 0.4988 0.4952 0.3708 0.4251 0.3 2.4982 0.05 0.4974 0.4641 0.4406 0.4207 0.4162 0.4973 0.4495 0.4222 0.1141 0.1772 0.4993 0.4066 0.3365 0.4957 0.9 3 3.219 0.4996 0.4 2.4984 0.2642 0.0596 0.4996 0.4979 0.2 1.4772 0.2673 0.2881 0.4961 0.0239 0.4484 0.2088 0.0199 0.9 1 1.4994 0.4699 0.008 0.4909 0.2764 0.4983 0.4357 0.483 0.4995 0.2939 0.148 0.4864 0.4925 0.3869 0.4838 0.4573 0.3531 0.4884 0.2291 0.4582 0.0122 0.4875 0.4906 0.5 2.4976 0.3508 0.0948 0.4525 0.4959 0.4015 0.4082 0.2422 0.4977 0.2611 0.4985 0.195 0.4821 0.2486 0.4978 0.06 0.3577 0.1808 0.2704 0.0478 0.2734 0.499 0.4608 0.1 0.4463 0.4131 0.1443 0.4974 0.4319 0.1554 0.492 0.4868 0.3599 0.4951 0.8 1.4713 0.4987 0.4936 0.4 0.3925 0.4996 0.012 0.004 0.3485 0.4997 0.4997 0.2995 0.4345 0.2123 0.437 0.4995 0.4984 0.4948 0.4996 0.4744 0.4177 0.7 1.4535 0.1915 0.4049 0.4981 0.0398 0.4834 0.4726 0.1591 0.1736 0.2357 0.4996 0.377 0.4997 0.4955 0.0675 0.1664 0.4941 0.4306 0.4099 0.4988 0.2454 0.2549 0.4633 0.6 2.4938 0.4441 0.091 0.4949 0.3438 0.3389 0.4616 0.1179 0.3888 0.4554 0.09 0 0.016 0.3749 0.4793 0.4977 0.5 0.9 2 2.4995 0.3106 0.2157 0.3186 0.4756 0.4812 0.4686 0.4994 0.3461 0.3264 0.4382 0.2054 0.4932 0.01 0.3643 0.4927 0.4788 0.4994 0.2 3.4989 0.4993 0.4896 0.4591 0.4975 0.499 0.4854 0.1026 0.4994 0.4992 0.4706 0.4992 0.4857 0.

13566 0.3 -2.0003 0.3 -0.00005 0.02067 0.04272 0.00007 0.00415 0.00159 0.03005 0.02938 0.24196 0.0004 0.01578 0.48404 0.05592 0.01255 0.07636 0.05 0.05262 0.20045 0.48006 0.00368 0.5 0.06 0.0968 0.00539 0.08226 0.06811 0.01287 0.00798 0.0116 0.00298 0.01876 0.12924 0.00015 0.001 0.00094 0.23576 0.17878 0.03754 0.01426 0.28774 0.00006 0.08379 0.10383 0.49601 0.00003 0.00019 0.9 -0.15386 0.4 -0.09 0.45224 0.20897 0.00006 0.00466 0.15625 0.00621 0.07078 0.42074 0.32997 0.02743 0.26763 0.40904 0.00003 0.00248 0.0139 0.46414 224 .04456 0.20327 0.00003 0.03362 0.10204 0.25462 0.00034 0.02018 0.3 -3.1 -2 -1.1515 0.11507 0.05821 0.41683 0.00047 0.4 -3.32276 0.00107 0.06057 0.00056 0.21185 0.00006 0.00122 0.07353 0.00036 0.48803 0.01044 0.00164 0.00169 0.36317 0.00889 0.00005 0.00074 0.2 -0.14007 0.00003 0.00017 0.05705 0.00038 0.8 -1.00018 0.00964 0.24825 0.00226 0.06944 0.00031 0.00317 0.00084 0.0197 0.00357 0.00082 0.00006 0.46017 0.35942 0.00135 0.4 -1.30153 0.04363 0.00048 0.00062 0.36692 0.16109 0.00494 0.5 -2.07214 0.02872 0.00015 0.43644 0.00391 0.00154 0.12714 0.10935 0.00014 0.40129 0.00219 0.00523 0.1 0 0.04093 0.00193 0.00005 0.01222 0.0002 0.017 0.00587 0.00004 0.6 -0.00008 0.06301 0.0951 0.4325 0.26434 0.00025 0.44433 0.06681 0.29116 0.01618 0.46811 0.4 -2.8 -3.00009 0.47607 0.01831 0.00289 0.23269 0.00009 0.0006 0.5 -0.5 -1.00453 0.00016 0.02275 0.0048 0.2946 0.31561 0.00604 0.00212 0.08534 0.1 -1 -0.00199 0.00022 0.00035 0.025 0.01 0.38209 0.7 -0.00028 0.21476 0.18943 0.00069 0.17105 0.01101 0.00181 0.18673 0.00003 0.1 -3 -2.00066 0.7 -3.19215 0.00012 0.41293 0.11123 0.00326 0.01072 0.01191 0.0024 0.03074 0.9 -1.00004 0.4562 0.14231 0.02442 0.00004 0.19489 0.00002 0.07 0.00029 0.00402 0.14457 0.08691 0.00307 0.06178 0.00002 0.02222 0.22065 0.03836 0.00058 0.00008 0.09176 0.3707 0.00003 0.14917 0.0044 0.02 0.37448 0.32635 0.02118 0.00045 0.01923 0.34457 0.00023 0.39743 0.00019 0.00554 0.0548 0.00054 0.30502 0.25143 0.00026 0.01743 0.31917 0.00002 0.03438 0.07927 0.01659 0.00013 0.16602 0.0009 0.00012 0.00256 0.01539 0.00187 0.00079 0.00008 0.00175 0.31206 0.42465 0.10749 0.44038 0.27759 0.00149 0.00011 0.09342 0.00007 0.00021 0.00336 0.14686 0.00043 0.00714 0.0028 0.13136 0.00042 0.16354 0.04006 0.18141 0.34826 0.27425 0.00024 0.9 -2.02619 0.00144 0.03 0.00008 0.00032 0.28434 0.10027 0.2 -2.00233 0.00379 0.03288 0.0001 0.00842 0.00508 0.00734 0.22663 0.19766 0.0505 0.47209 0.17361 0.08851 0.00914 0.44828 0.12507 0.18406 0.00071 0.2 -1.16853 0.00004 0.00639 0.0057 0.7 -2.25784 0.00064 0.13786 0.1335 0.01463 0.09012 0.00939 0.20611 0.3 -1.40516 0.0392 0.01321 0.22965 0.00004 0.0233 0.0005 0.00087 0.29805 0.02385 0.121 0.00118 0.00017 0.00005 0.30853 0.26108 0.00695 0.0082 0.37828 0.5 -3.05155 0.6 -3.21769 0.6 -1.119 0.00022 0.01355 0.11314 0.00111 0.9 -3.01017 0.01786 0.6 -2.03515 0.11702 0.00013 0.0537 0.00866 0.23885 0.00131 0.04648 0.04947 0.33724 0.00014 0.17618 0.06425 0.00011 0.00114 0.8 -2.00002 0.00264 0.00657 0.0099 0.08 0.04746 0.00126 0.00005 0.00272 0.12302 0.00076 0.00427 0.28095 0.10565 0.0001 0.03593 0.015 0.00676 0.06552 0.09852 0.24509 0.8 -0.15865 0.02559 0.00776 0.04 0.0778 0.00103 0.49202 0.00347 0.00007 0.7 -1.35197 0.07493 0.00755 0.00139 0.0113 0.3859 0.42857 0.00003 0.22363 0.00003 0.03216 0.03673 0.0268 0.02807 0.00027 0.38974 0.3 Distribución normal estandarizada: valores de área desde la media hasta –Z 0 -4 -3.04181 0.0001 0.04846 0.03144 0.02169 0.Tabla 9.00205 0.04551 0.05938 0.00004 0.35569 0.00052 0.00097 0.08076 0.33359 0.39358 0.00039 0.27093 0.3409 0.2 -3.

Ahora.7 Aplicaciones Una vez conociendo el procedimiento y uso de la estandarización de una densidad de distribución normal se pueden resolver distintos cuestionamientos de probabilidad referentes a la distribución normal. ¿Cuál es la probabilidad de que lo haga entre 114 y 138 segundos? 5. es decir 1-. resulta ser el área total del lado izquierdo. Para determinar la respuesta hay dos maneras de calcularla. Usando la tabla 9.6587.3. ¿Cuál es el alcance intercuartil (rango en segundos) esperado para que los obreros monten la pieza? Respuestas a las preguntas Pregunta 1: Encontrar la P(X<150 o X>162). por lo que el área de más de 162 segunda es igual a 225 . ¿Cuál es la probabilidad de que lo haga en menos de 124 segundos? 4.3413. utilizando la regla de complemento o la regla de adición para eventos mutuamente excluyentes. tales como: 1. habrá que restarle el área que abarca los valores de 0 a 1Z. La regla de complemento se aplica como 1(la probabilidad de que ocurra entre 150 y 162 segundos). si el área total del lado derecho es igual a . ¿Cuántos segundos deben de transcurrir antes de que el 50% de los obreros monten la pieza? 6. ¿Cuál es la probabilidad de que lo haga entre 136 y 162 segundos? 3. se observa que el área bajo la curva normal de -4Z hasta Z = 0 es igual a . ¿Cuántos segundos deben de transcurrir antes de que el 10% de los obreros monten la pieza? 7.3413 = . ¿Cuál es la probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 150 segundos o en más de 162? 2. que corresponde a .9.50.50.

b) Determinar la probabilidad de la media a 138 segundos. Área = . Encontrar la P(138 ≤X≥ 162) Para encontrar el área de probabilidad que se encuentra entre los valores de 138 y 162. La suma de ambas áreas es de . el valor de la probabilidad de -1Z. el primer paso ya se ha determinado anteriormente y tiene un valor de .50 X-µ Z = σx x 12 =1 Área = .50 .4 Figura 9. Como la tabla de cálculo o el uso de software sólo permite calcular la probabilidad de la media hasta un valor positivo o negativo de Z.4 Área de P(X<150 o X>162). es decir (.3413 Área = . se obtiene la probabilidad de que se realice en menos de 150 segundos y se le suma a la probabilidad de que sea en más de 162.3413 = .3413.50) –(. El resultado se ilustra en la figura 9. se observa en la figura 9. 226 .50 + .6826.5 que el área se encuentra entre los valores de Z igual -1 y Z igual a 1. el área de interés podrá obtenerse en tres pasos: a) Determinar la probabilidad de la media a 162 segundos. Esto es P(X<150 o X>162) = .3413. c) Sumar la probabilidad de ambas.1587.1587 = 6587. Utilizando las tablas. el cálculo de la probabilidad de 138 segundos se obtiene de restarle a ..50.1587 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Pregunta 2..1587) = . Aplicando la regla de adición. el segundo paso.

se deduce que el área de 1Z es igual a el área de -1Z.3 de los valores negativos de Z o directamente el la hoja de cálculo de Excel. Figura 9.17 Área = .3413 Área = . podrá consultarse directamente en la tabla 9.3413 X-µ Z = σx x 12 = -1 162-150 X-µ =1 Z = σx x = 12 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala Pregunta 3.3415) + (.0150 114 -3 126 -2 138 -1 150 0 162 1 174 2 186 X escala 3 Z escala 227 . primero tendrá que calcularse el valor de Z.3415) = . entonces el área total será de (. El área puede observarse en la figura 9.6826.6 Figura 9. sabiendo de la simetría de la curva de distribución normal.Otra manera de calcularlo es.5 Área de P(138 ≤X≥ 162) Área = . Encontrar la P (X < 124) Para encontrar el área de probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza en menos de 124 segundos.6 Área de P(X< 124) X-µ Z = σx x 12 = -2.

Pregunta 4. Encontrar la P(124 ≤X ≤138). Para encontrar el área de probabilidad de que un obrero seleccionado aleatoriamente pueda montar la pieza entre 124 y 138 segundos. Puesto que la tabla o la hoja de cálculo de Excel sólo permiten calcular el área desde la media hasta cierto valor de Z, la probabilidad de interés se podrá obtener en tres pasos. a) Determinar la probabilidad o área bajo la curva de la media hasta 124 segundos. b) Determinar la probabilidad o área bajo la curva de la media hasta 138 segundos c) Restar el área menor a la mayor para evitar doble conteo El área hasta 124 segundos corresponde al área entre la media y -2.17 Z, esto es .0150 El área hasta 138 segundos corresponde al área entre la media y -1Z, esto es .1587 La resta de áreas es igual a .1587 -.0150 = .1437, este resultado se puede observar en la figura 9.7 Figura 9.7 Área de P(124 ≤X ≤ 138)
Área = .1587- .0150=.1437

X-µ 124-150 Z = σx x = 12 = -2.17 X-µ 138-150 Z = σx x = 12 = -1 Área para -1Z = .1587

Área = .0150 puesto que Z = -2.17

114 -3

126 -2

138 -1

150 0

162 1

174 2

186 X escala 3

Z escala

228

Pregunta 5. Para determinar cuántos segundos transcurren antes de que el 50% de los obreros monten la pieza, debe considerarse la simetría de la curva de distribución normal, si la media es igual a 150 segundos y ésta se encuentra exactamente en la mitad de la curva, significa que el 50% de los obreros tardan hasta 150 segundos en montar la pieza. Pregunta 6. Para determinar cuanto tiempo transcurre antes de que el 10% de los obreros terminen de montar la pieza, se busca en la tabla 9.3 de valores negativos de Z, se busca en el interior de la tabla el valor que más se aproxime al .10 y se encuentra que es el valor de Z = -1.28, que es el valor estandarizado de X. Pero como lo que es de interés es el valor de X, ahora se utiliza la ecuación de estandarización en forma inversa, es decir, conociendo Z, ahora se estima el valor de X.

X-µ Z = σx x ;
150 + (-1.28)(12) = 134.64

µx+Z( σx) = X

Pregunta 7. Para obtener el rango intercuartil lo primero que se tiene que realizar es el cálculo de Q1 y Q3. Como el área debajo de la curva es simétrica y la densidad de la curva es igual a 1, entonces el primer cuartil se localiza desde la media hasta .2500 del área izquierda y el tercer cuartil de la media hasta el .2500 del área derecha, se localizan los valores más próximos a ella en las tablas 9.3 y 9.2. Se observa que los valores de Z son -.67 y +.67 respectivamente. Utilizando la ecuación anterior, se tiene que: Q1 = X = µx+Z(σx) = 150 + (-.67)(12) = 141.96 segundos Q2 = X = µx+Z(σx) = 150 + (67)(12) = 158.04 segundos El rango intercuartil es igual a Q3 – Q1 = 158.04 – 141.96 = 16.08 segundos.

229

9.8 Uso de distribución normal como una aproximación a la distribución binomial o a la distribución de Poisson Se ha dicho que la distribución binomial es simétrica, como la distribución normal, siempre que p = .5, mientras más grande sea el número de observaciones de la muestra n, y mientras más cerca se p de .5, más simétricamente será la distribución. Como regla general, cuando np y n(1-np) tengan un valor de al menos 5, se puede utilizar la distribución normal. Por lo tanto, para encontrar probabilidades aproximadas correspondientes a los valores de la variable aleatoria discreta X se utiliza la siguiente aproximación:

X-µ Z = σx x
Donde np = a la media de la distribución binomial

Z

Xa -np np(1-p)

np(1-p) es igual a la desviación estándar de la distribución binomial
Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa = ± .5 según sea el caso. Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una aproximación a la distribución binomial, de una muestra n = 1600 llantas, se obtienen aleatoriamente de un proceso continuo en el que la experiencia dice que hay 8% se producen con defecto. ¿Cuál es la probabilidad de que en esta muestra no más de 150 llantas sean defectuosas. Puesto de np = 1600 (.08)= 128 y n(1-p) es igual a 1600(.92) = 1,472 exceden de 5, entonces se puede utilizar la aproximación de la distribución normal.

Z

X a-np 1/2 np(1-p) = 150.5 – 128 /[(1600)(.08)(.92)] = 22.5/10.85 = 2.07

230

Usando la tabla 9.2 se observa que el área bajo la curva es de .4808, de tal forma que la probabilidad está dado por .5000 + .4808 = .9808. Por otro lado, la distribución normal también puede utilizarse como una aproximación al modelo de Poisson, siempre que el parámetro λ (número esperado de éxitos) sea igual o mayor que 5. Puesto que la media y la varianza de una distribución de Poisson son iguales a λ, se recuerda que: Una propiedad de esta distribución es que la media y la varianza son iguales al parámetro λ, por lo que la desviación estándar es igual a √λ (raíz cuadrada de λ), por lo que

X-µ Z = σx x
Donde

Z

Xa -λ

λ

λ= a la media de la distribución Poisson

λ es igual a la desviación estándar de la distribución se Poisson
Xa = número ajustado de éxitos de x, para variable discretas, de tal forma que Xa = ± .5 según sea el caso. Ejemplo. Para ilustrar la aplicación de utilizar la distribución normal como una aproximación a la distribución de Poisson, se considera que en una planta de producción el número de interrupciones de trabajo al día por problemas con el equipo es de 12. ¿cuál es la probabilidad aproximada de tener 15 interrupciones:

Z

Xa -λ

λ

15.5 -12.0/(12)1/2 = 1.01

El número ajustado de éxitos, es de 15.5, se observa que el valor del área debajo de la curva par Z = 1.01 es de .3438, si se le agrega el área del lado izquierdo de la curva que es igual a .50, se tiene que la probabilidad aproximada de tener 15 o

231

menos interrupciones en la planta por problemas del equipo, es de .8438, esta aproximación se acerca bastante a la probabilidad de Poisson exacta, que calculada tiene un valor de .8445. 9.9 Resumen La mayoría de las variables aleatorias que se presentan en los estudios relacionados con las ciencias sociales, físicas y biológicas, son continuas y se distribuyen según una función de densidad. La función de densidad más utilizada se conoce como distribución normal o distribución gaussiana. La característica principal de esta distribución es que su representación gráfica tiene forma de campana simétrica que ilustra la igualdad de los valores mayores y menores ponderados con respecto a la media. La ponderación de los valores está dada por la frecuencia relativa de las observaciones y es igual a la probabilidad de ocurrencia. Dado que la función de densidad de la distribución normal está dado por un modelo matemático que relaciona los valores de la media y la desviación estándar, existe un gran número de valores que representan la densidad de distribución de probabilidades como poblaciones existan con diferente media o desviación estándar:

f (X)=

1 e-(½)[(x-µx )/σx ] 2π σx

2

Para hacer práctica la aplicación de la función de densidad de la distribución normal, se requiere estandarizar los valores de Xi a valores Z, considerando a la media con un valor igual a cero y la desviación estándar igual a 1, el cálculo de los valores de Z se realizan mediante la fórmula:

X-µ Z = σx x
Una vez estandarizados los valores de Xi, los valores de Z, con valores prácticos de ±3, se define el área que corresponde a los valores de Z, ya sea utilizando la tabla de distribución normal o un paquete estadístico o la hoja de cálculo de Excel.

232

c) Por arriba del límite superior aceptado.Los valores de ±3Z. la función de densidad de la distribución normal. d) Por debajo del límite superior aceptado.10 Términos clave Función de densidad de probabilidad Distribución normal o campana de Gauss Estandarización Valores Z 9.010 cm.025 cm. b) Entre el límite inferior y el diámetro solicitado. Por experiencia. 9.Una pequeña empresa de diseño y fabricación de piezas mecánicas ha recibido un pedido de cojinetes de diámetro de 1.11 Problemas de repaso del capítulo 1.912 cm. Los límites de aceptación son ±. utilizadas para calcular la distribución de probabilidad de variables aleatorias discretas. es decir. Aproximaciones a la distribución binomial Aproximación a la distribución de Poisson 233 .9772 y ±1 desviación estándar.. cubren el . el . es decir. e) Por arriba de que valor de diámetro estará el 93% de los cojinetes. cubren un área de . el gerente de la empresa sabe que el valor esperado es 1. 6 desviaciones estándar.6826.9974 del total de la densidad de la curva. y una desviación estándar de . ¿Cuál es la probabilidad de que un cojinete muestreado aleatoriamente esté? a) Entre la media solicitada y la media real. ±2Z.9 cm. cuatro desviaciones estándar. Bajo ciertas condiciones. se puede aplicar como una aproximación de las distribuciones binomial y de Poisson.

también sabe que si el contenido es de 2. 3. b) Se espera que al menos el 90% de las botellas tuviera al menos cuánto refresco? c) Se espera que al menos el 90% de las botellas contuvieran simétricamente entre qué y qué cantidad? d) Suponga que en un esfuerzo de reducir el número de botellas que contienen menos de 1.90 litros.90 litros o más de 2.10 litros.02 litros.. Menos de 1.05 litros.10 litros puede ocasionar derrames del líquido. podrían ser multados por la PROFECO.06 m. Más de 2.05 y 2. Bajo esa circunstancia ¿Cuáles serían las respuestas para los incisos a. a) ¿Qué proporción de las botellas contendrá? 1..90 litros. y una media de peso de 56. Con una desviación estándar de . 5.2. Entre 2.Se sabe que una de cada tres personas que entran a una tienda departamental hace al menos una compra. Si la media de estatura del grupo es de 1.0 litros. 234 . semestre mide 1.25 kg..10 litros.5 kg. sabe que si los refrescos que distribuye no satisfacen el 95% del contenido neto.90 y 2. Entre 1. 4. 2.10 litros.70 metros y pesa 61. el embotellador calibra la máquina de tal forma que la media es ahora de 2. b y c? 3. Entre 1. 6.Una empresa que distribuye refrescos embotellados de 2 litros con una desviación estándar de .90 y 2. 4.0 litros. Menos de 1.65 metro con una desviación estándar de . Determine si la medida más inusual de la alumna es la estatura o el peso.Una alumna del 5º.43 kg.

¿Cuál es la probabilidad aproximada de que? 1. A lo más cuatro hagan al menos una compra. b) Si se selecciona una muestra aleatoria de n = 81 personas. 30 o más hagan al menos una compra 2.. Dos o más hagan al menos una compra.a) Si se selecciona una muestra de n = 5 personas ¿cuál es la probabilidad de que? 1. A lo más 40 hagan al menos una compra 5. 2.¿Cuál es la probabilidad aproximada de que un estudiante apruebe un examen de 100 de cierto y falso si tuviera que adivinar cada respuesta? ¿Cuál es la probabilidad aproximada de que un estudiante obtenga exactamente 60 respuestas correctas en un examen de 100 preguntas de cierto y falso si tuviera que adivinar cada respuesta? 235 .

9.12 Mapa conceptual de la distribución normal Distribución normal Propiedades Aproximación a distribuciones discretas Evaluación de supuestos Campana de Gauss Para binomial cuando np y n(1-p)≥ 5 Para la de Poisson cuando λ ≥ 5 236 .

como los precios. etc.Capítulo 10 Análisis de series ********************* Objetivo del Capítulo Mostrar como se puede estudiar la tendencia de crecimiento de un fenómeno. 237 . la producción. la población.

238 .

tanto consideradas individualmente como en conjunto.10. la demanda.1 Introducción Como ya se ha visto. El análisis de series de tiempo abarca dos tipos: la construcción de números índice y análisis de patrones básicos. una de las principales preocupaciones de la Estadística es el análisis de cambio de las variables. las exportaciones y en general. El análisis de series históricas sirve para estudiar la tendencia de crecimiento de la población. las importaciones. Una de los instrumentos que más se utilizan en el área de negocios es el análisis de series de tiempo o análisis de series históricas. 239 . no solo el para análisis individual de cada variable. así como para determinar su tendencia de crecimiento y realizar comparaciones con otros factores que estén relacionados. sino que algunos de ellos adquieren mayor mérito cuando se utilizan para comparar entre variables con diferente dimensión. el ingreso. la producción. todos los factores que tienen un crecimiento y desarrollo. Su propósito es el de determinar las tasas de crecimiento (negativo o positivo) de un factor en un momento dado con respecto a otro. Para facilitar tal tipo de análisis estadístico se han creado distintos instrumentos.

Existen muchos números índices que se pueden construir.500.66%. Ejemplo.33% con respecto al mes pasado.00 y la sucursal “B” $32.500. como se verá más adelante.000. En general un número índice es aquella medida estadística que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de más de una en relación al tiempo o al espacio.8333 * 100% = 83.500.000. Los índices bien utilizados ayudan a corregir los objetivos y metas de la empresa.00/16. el análisis sería: 240 . Los índices más habituales son los que realizan las comparaciones en el tiempo. los números índices son en realidad series temporales.00 y el mes pasado se vendió $16.39 * 100 = 139%. etc. Si este mes se vendió $23. el índice nos indica cuanto bajó la producción: 1250 piezas/ 1500 piezas = . por lo que. que es lo mismo que la producción se redujo en un 16. los índices de clientes. Un número índice es un número relativo con una base igual al 100% y se utiliza como un indicador de comparación de la variación de un número de un factor (factores) y otro número que representa ese mismo factor (factores) en otro lugar o en otro tiempo.10.00 entonces las ventas se comportaron de la siguiente manera: $23. los índices de ventas.2 Construcción de números índice El problema de la comparación estadística se resuelve en buena manera mediante el uso de números índices.00 = 1. El mes pasado se produjeron 1500 piezas y este mes se produjeron 1250.000. por ejemplo los índices de producción. es decir las ventas aumentaron en un 39% El mes pasado la sucursal “A” de la empresa vendió $12.

00/$30. si la sucursal “A” vendió el mes anterior al próximo pasado la cantidad de $10. pese a que ambas están expresadas en las mismas unidades de medida. la sucursal “A” apenas vendió el 39% de lo que vendió la sucursal “B” Cabe señalar que más de las veces la comparación en valores absolutos o reales en dos áreas geográficas diferentes no son válidos. Sucursal “B”: $32.000.25 * 100%. no sería posible comparar las dos variables.$12.39 * 100%.00.000.06% La elaboración de índices no solo determinar cual ha sido el ritmo de variación de esta magnitud en cada una de las dos áreas.00/32. Cuando 241 . Del ejemplo anterior. entonces.500. los índices de cantidades y los índices de valores.00/$10.000. sino que además posibilitan que se pueda realizar comparaciones entre ambas.500. lo que significa que la sucursal “B” vendió el 6. el ingreso. pues las mismas hacen referencia a áreas geográficas muy diferentes. los gustos. ya que elimina la dimensión.066 * 100%. lo significa que la sucursal “A” vendió 25% más. el análisis más apropiado es: Sucursal “A”: $12. entonces.000. Para este caso los números índice son de gran ayuda. dado que cada área geográfica tiene diferentes características como la población. que refleja el poder adquisitivo de los valores nominales expresados en unidades monetarias. las preferencias.00 = 1.00 y la sucursal “B” $30. cantidades y valores Para fines de un estudio de mercado los índices más utilizados son los índices de precios.00 = . Éstos son utilizados para deflactar (quitar la inflación) a los precios y a los ingresos. etc.000.00 = 1. pues si se hubiera trabajado en términos absolutos.000. Índices de precios.

2 50 2. ……….1 Precios e índices de precios del café veracruzano índice/año Precio base 25 1. se desarrollará los siguientes ejemplos: Ejemplo.. se les denomina a precios corrientes.0 30 1. cuando sólo consideran un factor. leche y carne que se con- 242 .6 índice año anterior 1. …………. Éstos. Supongamos que se quiere construir los números índices simples y compuestos de precios. se les denomina a preciso constantes del año base.88 40 1.los precios no son deflactados.81 Año 2001 2002 2003 2004 2005 2006 Para su cálculo se realizaron las siguientes operaciones: Índices de base fija: 2001/2001. cantidades y valores de los huevos.40 1.66 . 2004/2003.1 1. cuando influyen varios factores. como el índice de precios al consumidor (varios artículos y varios precios). 2003/2002. cuando se les aplica el índice de deflactación con respecto a un año.2006/2005 Ejemplo.2006/2001 Índice en eslabón o año anterior: 2002/2001. compuestos. Supóngase que los precios del café por kilogramo del país durante los últimos 6 años fue el siguiente: Tabla 10. La construcción de los índices pueden ser simples. 2002/2001.8 22 . en eslabón. 2003/2001. Para entender rápidamente su construcción.2 1.0 20 . también se pueden construir de base fija.

país).2 Precios.00 1950.00 42.00 2006 Cantidad Valor de vendida ventas 90 140 15 1080. transporte.00 5.9 (140/120) 1. vivienda.2 (7/5 ) 1.08 (980/600) 1.2006 Año Artículo Huevo (docena) Leche (litro) Carne (kilo) 2005 Precio Cantidad Valor de Precio unitario vendida ventas unitario 10.00 7. en los años 2005 y 2006. entre otros.sumió en un área geográfica (ciudad.16 (15/10) 1. se puede realizar sólo dividiendo la cantidad del año analizado por la cantidad del año base. 243 . En este caso y a manera de ejemplo sólo se considera la leche.00 350.2 índice cantidades (90/100) .3 Índices simples. estado. Para un análisis más preciso del cambio del costo de la vida se debe considerar el costo de alimentación. de acuerdo a los datos siguientes: Tabla 10.00 630. la carne y los huevos.00 980.8 Pero si se desea conocer el cambio relativo del costo de la vida.4 (42/35) 1.00 600. colonia. Debe incluirse los precios de los artículos más representativos del gasto de la familia. cantidades y valor 2005. incluso lo que oficialmente se llama “canasta básica”.00 Si se desea construir el índice de cambio de un solo factor.00 100 120 10 1000.5 índice valor (1080/1000) 1. 2006/2005 Artículo Huevo Leche Carne índice precio (12/10) 1.00 12.00 2690.63 (630/350) 1.00 35. no debe de analizarse el cambio de un solo artículo. Tabla 10.

La inflación indica la subida del nivel general de precios. se requiere utilizar la fórmula de los índices de Laspeyres: IPL 2006 = (ΣPn x Qo)/ΣPo x Qo = [ (12 x 100) + (7 x 120) + (42 x 10) ]/1950 = 1. Samuelson y Nordhaus (1999) la relacionan muy bien con el índice de precios cuando señala que un índice de precios es un indicador del nivel medio de precios. y sigue siendo. quitando el peso específico de cada artículo por la unidad de medida o por la cantidad.37 Índices de inflación y poder adquisitivo La inflación es un fenómeno económico de naturaleza monetaria que por sus consecuencias ha sido.26 IQL 2006 = (ΣQn x Po)/ΣPo x Qo = [ (90 x 10) + (140 x 5) + (15 x 35) ]/1950 = 1.Para construir los índices de precios y de cantidades. tanto los privados como los públicos.nivel de precios (año n-1) nivel de precios (año n-1) x 100 Lo sustantivo de esta definición es que el fenómeno en cuestión consiste en un aumento general y sostenido de los precios de todos los bienes y servicios tanto producidos como consumidos. La tasa de inflación es la tasa de variación del nivel general de precios y se expresa de la forma siguiente: Tasa de inflación año n = nivel de precios (año n) . fuente de preocupación para todos los agentes que intervienen en la economía. 244 . Pero más que hablar de los efectos de la inflación lo más conveniente será definirla cuidadosamente.08 Para calcular el índice de valor se utiliza la fórmula de Passche I valor 2006 = (ΣPn x Qn)/ΣPo x Qo = [ (12 x 90) + (7 x 140) + (42 x 15) ]/1950 = 1.

la situación sería similar. la subida de precios afecta a todos los bienes de una economía. Con esta base el Banco de México selecciona algunos productos y servicios y los integra en una canasta básica y calcula el peso de cada uno en la construcción del INPC.) es cada vez menor como resultado del incremento del precio de ese bien.50) y sal (ponderación 0. euro. La canasta se obtiene a partir de la Encuesta de Ingreso-Gasto de los Hogares (ENIGH) emitida por el INEGI.05). Por ejemplo. se trata de buscar un índice de precios que recoja de forma adecuada el fenómeno de la inflación. libra. La canasta básica del Banco de México está compuesta por 80 bienes y servicios 245 . a esto se le conoce como ponderación. Pero si en lugar de tratarse de un solo bien. Así pues.Ese incremento generalizado de precios tiene como consecuencia inmediata que la capacidad de compra del dinero se reduce de forma continuada. aunque el mismo tiene algunas limitaciones que no son del alcance de este libro. etc. debido a que tiene mayor incidencia en el presupuesto familiar (mayor ponderación) que la sal. la cantidad de un bien que puede adquirirse con una unidad monetaria dada (peso. si tomamos dos productos incluidos en la canasta básica del Banco de México: jitomate (ponderación 0. la inflación reduce la capacidad de compra del dinero o poder adquisitivo del mismo. La siguiente cuestión sería definir un instrumento estadístico que permita cuantificar esa subida generalizada de precios. A tal efecto. Dicha encuesta proporciona los gastos asociados de los hogares en 580 bienes y servicios. En México el Índice Nacional de Precios al consumidor INPC se elabora ponderando cada precio según la importancia económica del bien o servicio considerado para su cálculo. Es decir. solo que agravada. Es decir. el índice que suele utilizarse de forma casi universal es el índice de precios al consumidor (IPC). el primero afectará más el comportamiento del INPC. dólar.

ropa. aparatos y accesorios domésticos. transporte. así como otros servicios. o lo que es igual. vivienda. Precios. muebles. Estas cifras dan una idea bastante clara de cual ha sido la pérdida de la capacidad de compra del peso en México en tan sólo tres años.4 se recogen los valores medios anuales del IPC para México en el periodo 2006-2008 con base 2002. con 100 pesos del año 2008 solo se podría comprar lo que en 2002 con 74. Según el contenido de esta tabla.agrupados en las siguientes categorías: alimentos. salud y cuidado personal. Esto. 246 . dicho en otros términos. equivale a que si en 2002 un bien costaba 100 pesos. el nivel medio de los precios en ese periodo de tres años creció por encima de . El PIB nominal y PIB real El Producto Interno Bruto (PIB) mide el gasto total en los bienes y servicios en todos los mercados de la economía de un país. calzado y accesorios. educación y esparcimiento. Si el gasto total aumenta de un año a otro. Tabla 10. el precio de ese mismo bien en el año 2008 era 134 pesos. INEGI En la Tabla10. debe a dos fenómenos económicos: (1) la economía esta produciendo mas bienes y servicios o (2) los bienes y servicios están otorgándose a precios más altos.34 veces. bebidas y tabaco.4 Índice de Precios nacionales y valor del peso Añ o b a s e 2 0 0 2 = 1 0 0 % Fuente: elaboración propia en base a Cuaderno de Información Oportuna.

1558 0.510. Para ello. El PIB real da respuesta a una pregunta hipotética: ¿Cuál será el crecimiento real del PIB? Para poder realizar un análisis del PIB real.697.388.3526 0.092. INEGI 2008 Para realizar la comparación hay que seguir los siguientes pasos: 1.Seleccionar el año base 2.560...1590 0.. Usualmente se escoge como año base el más estable de la serie.801.Establecer el número índice base = 1 3.611.0978 0.2284 0. en la serie de datos del PIB e inflación 1990-1999 obtenida del INEGI a precios corrientes se observa que el año 1994 es el que tiene menor inflación.991 9.530 14.246.3477 0.927 16.654.Cuando se quiere estudiar la evolución de la economía.248. se requiere escoger un año base de análisis. por lo tanto puede seleccionarse como año base tabla 10.282.2654 0.699 Inflación 0.852 6.2082 0.701 5.Calcular los números índices en base a la inflación (variable conocida) a través 247 .198.677.603 12.294.645.027 3. Por ejemplo.5 PIB Nacional 1990 -1999 Año 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 PIB (Corrientes) 2.0697 0.694. utilizan un indicador llamado PIB real o PIB a precios constantes.750. se requiere considerar estos dos efectos.586.1672 Fuente: elaboración propia con datos del Banco de información sectorial.672.697.709 4. En concreto se requiere un indicador de la cantidad total de los bienes y servicios que están produciendo la economía que no se vea afectado por las variaciones de los precios de dichos bienes y servicios.5 Tabla 10.340 4.

IP1991)/ IP1991 Despejando: IP1991 = .3477 Para el cálculo del IP1996: Inflación 1996 = (IP1996 – IP1995)/ IP1995 = 0. Para el cálculo del IP1993: Inflación 1994 = (IP1994 – IP1993)/ IP1993 = 0.1.IP1993)/ IP1993 Despejando: IP1993 = 1/(1.3477 = (IP1995. Dado que se conoce la inflación y el índice del año base se procede a calcular los índices de los años anteriores y posteriores del año base.1558) = 0.de la fórmula: Inflación es = IPC(este año) menos IPC (del año pasado) entre IPC (año pasado).93 .0697) = 0.7328 Para el cálculo del IP1990: Inflación 1991 = (IP1991 – IP1990)/ IP1990 = 0.1558 = (0.3526+1) = 1.IP1992)/ IP1992 Despejando: IP1992 = .3477+1) = 1.3477*(.8229 Para el cálculo del IP1997: 248 .93/(1.2284 = (0.5965 Para el cálculo del IP1995: Inflación 1995 = (IP1995 – IP1994)/ IP1994 = 0.847/(1.3526 = (IP1996.7328/(1.0978) = 0.0978 = (0.2284) = 0.3477)/ 1.0697 = (1 .1)/ 1 Despejando: IP1995 = 1*(.93 Para el cálculo del IP1992: Inflación 1993 = (IP1993 – IP1992)/ IP1992 = 0.3477 Despejando: IP1995 = 1.IP1990)/ IP1990 Despejando: IP1991 = .847 .847 Para el cálculo del IP1991: Inflación 1991 = (IP1992 – IP1991)/ IP1991 = 0.7328 .

5525 Despejando: IP1995 = 2.1672+1) = 2.9792 • PIB nominal producción de bienes y servicios valorada a precios corrientes • PIB real producción de bienes y servicios valorada a precios constantes.2.2024 Para el cálculo del IP1998: Inflación 1998 = (IP1998 – IP1997)/ IP1997 = 0.8229*(.1672 = (IP1999.1590+1) = 2.Inflación 1997 = (IP1997 – IP1996)/ IP1996 = 0. Tabla 10.2.5525 Para el cálculo del IP1999: Inflación 1999 = (IP1999 – IP1998)/ IP1998 = 0.1590 = (IP1998.5525)/ 2.8229 Despejando: IP1995 = 1.2082+1) = 2.2024*(.2024)/ 2.6 PIB Nacional 1990 -1999 ( mi l e s d e p e s o s a p r e c i o s d e 1 9 9 4 ) Fuente: elaboración propia con datos del Banco de información sectorial.1.2082 = (IP1997.8229)/ 1. INEGI 2008 249 .2024 Despejando: IP1995 = 2.5525*(.

Técnicamente son números índices temporales complejos y en la mayoría de los casos ponderados. aunque los más conocidos son los que se refieren a las acciones. Sin embargo a precios constantes el crecimiento real fue apenas de 5 465 195 514/5 248 801 852 = 1. si quisiéramos analizar el crecimiento del PIB entre los años 1994 y 1999. Índices bursátiles Los índices bursátiles son números índices que reflejan la evolución en el tiempo de los precios de los títulos cotizados en un mercado. Los índices pueden suponer agrupaciones parciales de valores (sectoriales) o globales (generales).04. creció 210% más que 1994. En resumen tratan de reflejar el comportamiento de todos los valores que cotizan en la bolsa tomados en conjunto como si fuera una sola unidad. es decir apenas el 4% de crecimiento. tendríamos que a precios corrientes el crecimiento fue de 16 282 611 699/ 5 248 801 852 = 3. Dado que existen distintos tipos de títulos cotizados (acciones. calculado en función a las variaciones de precios de una selección de acciones balanceada. ponderada y representativa del conjunto de acciones cotizadas en la Bolsa Mexicana de Valores.La diferencia sustantiva entre el análisis del PIB a precios corrientes y del PIB a precios constantes radica en que a este último se le descuenta el efecto de la inflación. derivados) se pueden calcular diferentes tipos de índices. La muestra de activos que componen el índice obedece a ciertos criterios de elección que en general tienen que ver con el volumen negociado y la capitalización bursátil. La finalidad de los índices bursátiles es reflejar la evolución en el tiempo de los precios de los títulos admitidos a cotización en Bolsa. En México el indicador del desarrollo del mercado accionario es el índice de Precios y Cotizaciones (IPC).10 veces. 250 . es decir. Por ejemplo.

Los factores de cambio son los que se investigan y 251 . La fecha base es el 30 de octubre de 1978 = 100. político o de influencia social. porque el conocimiento del pasado permite predecir con mayor exactitud el comportamiento futuro. Se consideran en él 35 series accionarias clasificadas como de alta y media bursatilidad.7 Índice de precios y cotizaciones de la bolsa mexicana 10. Es decir. es decir. las más negociadas del mercado tanto por volumen como por importe. es el resultado de la interacción de diversos factores dinámicos que pueden ser de tipo económico. Una serie de tiempo que representa una actividad particular.3 Análisis de patrones básicos Los cambios en los fenómenos sociales y económicos en el pasado pueden ser analizados en base a los cambios de sus patrones básicos a través del tiempo. En materia de análisis de los cambios de series de tiempo es importante. El peso relativo de cada acción se explica por su valor de mercado. Tabla 10. se trata de un índice ponderado por valor de capitalización.La muestra empleada para su cálculo se integra por emisoras de distintos sectores de la economía y se revisa semestralmente.

252 . cíclico o irregular. gasto. Tendencia lineal La estimación de una serie de tiempos se puede efectuar a través del método gráfico y el de los mínimos cuadrados.Los fenómenos de tendencia señalan la dirección del movimiento de una serie de tiempo sobre un largo período. estacional o cíclica. Estas son de difícil estudio. Variación estacional. El movimiento puede ser de forma ascendente o descendente. los hábitos..4 Métodos de estimación de las tendencias Para el análisis de las series de tiempo se puede elaborar un manejo de datos al interior de cada período para determinar una cantidad que lo represente en forma de tendencia.Los fenómenos de variación estacional son movimientos periódicos que están influidos por las condiciones del tiempo. entre otros. Cuando se muestra gráficamente. las tradiciones. Éstos se presentan en forma de tendencia. Tendencia. producción.. normalmente se hace a través de una línea recta o una curva. 10. entre otras. cíclica o irregular. Fluctuaciones cíclicas.Representan todo tipo de movimientos de una serie de tiempo que no presenten característica en forma de tendencia. Movimientos irregulares.. Adicionalmente.estudian para la toma de decisiones. Las fuerzas que los motivan son principalmente factores económicos: niveles de inversión. consumo.. estacional. se tendrá que realizar un análisis cualitativo que explique el comportamiento real: estacional.Indican expansiones o contracciones de los movimientos alrededor de una cantidad normal.

se grafica. estos explican la dependencia de una variable "Y" respecto de una o varias variables cuantitativas "X": En el Método de Mínimos Cuadrados Ordinarios se estudia una única ecuación con solo dos variables y con una regresión lineal. El análisis de regresión trata de la dependencia de las variables explicativas. en forma individual. Figura 10. Métodos de mínimos cuadrados El Método de Mínimos Cuadrados Ordinarios es un modelo estadístico que hace parte de un grupo denominado Modelos de Regresión. Posteriormente se traza una curva que trata de pasar lo más cerca de cada uno de los puntos graficados.1 Método gráf ico Método Gráfico 24 22 20 18 Y 16 14 12 10 -5 -3 -1 X 1 3 5 Regression 95% confid. con una escala apropiada en cada uno de los ejes. con el 253 . los valores que le corresponden a cada variable.Método gráfico En un sistema de coordenadas X y Y. El método gráfico es un método rudimentario y debe ser considerado apenas como una aproximación.

. a = intersección de la recta en el eje de las Y (altura de la ordenada.. desde el origen al punto de intersección de la línea recta con el eje de la Y) b = pendiente de la línea recta Para poder considerar el método de los mínimos cuadrados. Las de tendencia lineal son aquellos puntos que más se acercan a una línea recta. el método de los mínimos cuadrados ordinarios consiste en hacer mínima la suma de los cuadrados residuales.objeto de estimar y/o predecir la media o valor promedio poblacional de la variable dependiente en términos de los valores conocidos o fijos de las variables explicativas. es decir lo que tenemos que hacer es hallar los estimadores que hagan que esta suma sea lo más pequeña posible. Σ (YYm)2 es un mínimo. que son: 1. adquieran propiedades que permitan señalar que los estimadores obtenidos sean los mejores. X = valor de la abscisa de un punto sobre la recta. es decir tiende a cero. Pues bien. Recordemos que la fórmula general de una línea es Y = a + bX. 2. variable independiente. Se trata de encontrar una recta que se ajuste de una manera adecuada a la nube de puntos definida por todos los pares de valores muestrales (Xi. variable dependiente.La suma de los cuadrados de estas desviaciones es un mínimo. los que hacen posible que los estimadores poblacionales que se obtienen a partir de una muestra. Este método de estimación se fundamenta en una serie de supuestos. se tiene que recurrir a las 2 propiedades matemáticas de un grupo de valores de tendencia central. en donde: Y = valor de la ordenada de un punto sobre la recta.Yi). 254 .La suma de las desviaciones de los valores individuales con respecto a la media es igual a cero Σ (Y-Ym) = 0.

de esta forma se obtienen dos ecuaciones llamadas ecuaciones normales del modelo que pueden ser resueltas por cualquier método ya sea igualación o matrices para obtener los valores de a y b Derivamos parcialmente la ecuación respecto de a: dG/da = 2∑ (Y.bX) (-1) = 0 ∑Y – na -b∑X ) = 0 Y = na + b ∑X Primera ecuación normal 2 2 Derivamos parcialmente la ecuación respecto de b dG/db = 2∑ (Y.Para obtener la solución de las dos incógnitas.a . mediante el método de mínimos cuadrados se requiere tener dos ecuaciones obtenidas de la primera derivada de a y de b: El procedimiento consiste entonces en minimizar los residuos al cuadrado Di² ∑Di = ∑(Yi-Ym)2 …reemplazando Ym por (a +bX) ∑ Di = ∑ [Yi-(a +bX) ]2 La obtención de los valores de a y b que minimizan esta función es un problema que se puede resolver recurriendo a la derivación parcial de la función en términos de a y b: llamemos G a la función que se va a minimizar: G= ∑ [Y-a -bX) ]2 Tomemos las derivadas parciales de G respecto de a y b que son las incógnitas y las igualamos a cero.bX) (-X) = 0 -2 ∑ (Y – a – bX ) (X) = 0 ∑XY -a∑X – b∑X2 = 0 255 .a . las constantes a y b en la ecuación general Y = a + bX.

Supóngase una serie de datos de exportación de un bien a lo largo de 7 años.2 Gráfico de dispersión 256 .∑XY = a∑X + b∑X2 Segunda ecuación normal Con el propósito de simplificar la fórmula..∑XY = a∑X + b∑X2 a = (ΣY)/n b = Σ (XY)/ ΣX2 Ejemplo.8 Exportaciones de café mexicano (en miles de toneladas) Año 1994 1995 1996 1997 1998 1999 2000 Exportaciones 165 180 259 274 247 225 250 Figura 10. Tabla 10.∑Y= na + b∑X II. se considera a ΣX = 0. lo que significa que: I..

57 b = ∑XY/ ∑X 2 = 333/28 = 11.67 47.67 -23.89 23.9 Cálculo de los parámetros a y b X -3 -2 -1 0 1 2 3 0 Y 165 180 259 274 247 225 250 1600 X2 9 4 1 0 1 4 9 28 XY -495 -360 -259 0 247 450 750 333 ∑X= 0 ∑Y= 1600 ∑X 2 = 28 ∑ XY= 333 a = ∑Y/n = 1600/5= 228.Tabla 10.78 35.89 0 11.89X Los nuevos valores cal culados de Y se observan en la tabla 10.11 228 239.45 Figura 10.22 216.78 263.45 Y 192.10 Nuevos valores de Y X -3 -2 -1 0 1 2 3 4 5 a 228 228 228 228 228 228 228 228 228 11.33 204.56 287.67 275.3 Línea de regresión 257 .56 59. Y = 228+11.89 X -35.89 La ecuación de la rect a es de.89 251.78 -11.5 Tabla 10.

con los comandos Analizar /Regresión/mínimos cuadrado en dos fases. También calcula la proyección para los años siguientes dando un click en guardar. se obtienen los valores de las constantes a y b al tiempo que calcula los nuevos valores para la ecuación de regresión.4 Menú de cálculo regresión lineal en SPSS 258 . Figura 10.Utilizando el paquete estadístico SPSS.

6 Resultados de cálculo de los parámetros a y b a b 259 .5 Menú de selección de variable dependiente e independiente Figura 10.Figura 10.

Figura 10. Los datos que se tienen son: 260 . de acuerdo a los datos estadísticos de INEGI.7 Nuevos valores de la línea de regresión Nuevos datos calculados Tendencia exponencial En el caso de la tendencia exponencial la ecuación general es Y = ae bx . la población total del municipio de Victoria para el año 2010 y 2020 suponiendo que las condiciones que influyen en el crecimiento siguen igual. los dos parámetros desconocidos a y b pueden calcularse con las siguientes fórmulas básicas: ∑LnY= nc + ∑Xb ∑LnY * X = ∑Xc + ∑X2b a = ec Ejemplo: Se requiere estimar. que expresada en logaritmos queda Ln Y = nc + Xb Aplicando el método de mínimos cuadrados.

∑X. como son: n. para ello se tiene que generar la siguiente tabla: Tabla 10.12 Cálculo de factores de ecuaciones básicas Ecuaciones básicas: ∑LnY= nc + ∑Xb ∑LnY * X = ∑Xc + ∑X2b 261 .Tabla 10.11 Datos históricos de población de Cd. ∑LnY y ∑X2. Victoria El primer paso es obtener los factores que integran las fórmulas básicas de cálculo.

c= 9.5.274. para el 2020.978 Sustituyendo los valores de a y de b en la ecuación general se tiene: Y = aebx = 15.85) = 397.30 = 8 c + 36 (.35=-36c -162b.35 = 36c + 204b Ahora se tiene dos ecuaciones con dos incógnitas que se pueden resolver en forma simultánea multiplicando la primera ecuación por -4. sería: Y = aebx = 15.978)(24.357)(9)) = (15. se puede obtener sólo con capturar los datos fuente y hacer click en el paquete estadístico SPSS. se tiene que: 90.978 (e(. La estimación exponencial. b = .357)(10)) = (15. tal como se muestra enseguida.47. sustituyendo el valor de b en la primera ecuación.978) (35.357.68 Por lo tanto a = ec = 2.7189. 262 .978 (e(.357). sería la población estimada para el 2010. 053. para el 2020. si se suma a la segunda ecuación nos queda: 15 = 42b. a través del modelo de regresión no lineal. obteniendo: 421. 8c = 77.35 = 36c + 204b -406.a = ec Sustitución de factores: 90.68 = 15.30 = 8c + 36b 421.5) = 567.

Figura 10.9 Selección de variables dependiente e independiente 263 .8 Datos originales y menú de regresión no lineal. Figura 10.

264 . que en la última fase puede cambiar sustancialmente.11 Valores de la curva de regresión (calculados) nuevos valores de la variable La estimación a través del método de tendencia exponencial para períodos largos es algo inexacto debido a que considera la evolución total del fenómeno.Figura 10.10 Hoja de resultados: valores de a y de b y gráfica de la tendencia curvilínea a b Figura 10.

aquí sólo se trata de dar una idea general de los más usados y que pueden calcularse con el apoyo de programas de cómputo. Se puede aplica la fórmula Yn = Yo (1 + t)n. sea éstos.063 = 207. 263. lo único que falta conocer es la t = tasa anual de crecimiento. t = raíz décima de (263. se observará que no existe mucha diferencia. pero si existe diferencia entre el método exponencial y el de interés compuesto.063 (1 + 0. pero están fuera de los propósitos de este libro. Existen métodos de ajuste para estimaciones más exactas. t es la tasa de crecimiento del período y n es el número de períodos.0238 – 1 = 0.0238 Para estimar la población para el año 2010 y 2020. años.063 (1 + 0. etc. se utiliza la fórmula de interés compuesto: Yn = Yo (1 + t)n.063/207.077 Si comparamos los valores calculados manualmente con los obtenidos con el paquete SPSS.0238)20 = 421. más que realizar los cálculos matemáticos. 263.923) – 1= 1. donde Yn es la cantidad a calcular.Tasa anual de crecimiento Existe otra manera de realizar la estimación exponencial que considera la tasa anual de crecimiento entre un período dado. Yo es la cantidad del período base. la tasa de crecimiento del último período se obtiene sustituyendo los valores de las poblaciones de 1990 y 2000. n se refiere a los 10 años del período. El investigador deberá escoger el que más se acerque a sus pretensiones.0238)10 = 332.923 (1 +t)10. días.821 Yn = Yo (1 + t)n. Para el caso de la población del municipio de Victoria. sustituyendo los valores en la ecuación tenemos: 263. 265 . meses.

por SPSS y de interés compuesto Valores Valores Valores obtenidos obtenidos en interés manualmente SPSS compuesto 2010 397. que la variación de una de ellas puede influir en el valor que pueda tomar la otra. no existe relación lineal.Y) σX y σY las desviaciones estándar de las distribuciones marginales.5 Correlación.077 10. Pudiendo haber relaciones no lineales entre las dos variables. es decir.Tabla 10.931 332. El valor del índice de correlación varía en el intervalo [-1. 13 Comparación de valores estimados obtenidos manualmente.274 568. Estas pueden calcularse con la razón de correlación. El coeficiente de correlación de Pearson es un índice estadístico que mide la relación lineal entre dos variables cuantitativas. El cálculo del coeficiente de correlación lineal se realiza dividiendo la covarianza por el producto de las desviaciones estándar de ambas variables: Siendo: σXY la covarianza de (X. +1]: Si r = 0. Pero esto no necesariamente implica una independencia total entre las dos variables. A diferencia de la covarianza.622 421.821 2020 567. la correlación de Pearson es independiente de la escala de medida de las variables.053 397. 266 .

5. Figura 10. El índice indica una dependencia total entre las dos variables denominada relación directa: cuando una de ellas aumenta. Si 0 < r < 1. como se puede observar en los siguientes cálculos utilizando el paquete estadístico SPSS. la otra disminuye en idéntica proporción. la otra también lo hace en idéntica proporción. Siguiendo con el mismo ejemplo de exportaciones de café mexicano. existe una correlación positiva perfecta. existe una correlación negativa perfecta. El valor del índice de correlación de Pearson para este ejemplo es de . Si r = -1. para aceptar como válida la línea de regresión calculada. existe una correlación negativa. Si -1 < r < 0. se requiere que el índice de correlación sea superior a 0.623. existe una correlación positiva.Si r = 1. lo que significa se puede aceptar como válido el cálculo. El índice indica una dependencia total entre las dos variables llamada relación inversa: cuando una de ellas aumenta.12 Cálculo de índice de correlación con SPSS 267 .

la producción. 10. tales como la población.82 -r = 0. las exportaciones y en general.6 Resumen Y X Y X El análisis de series históricas sirve para estudiar la tendencia de crecimiento de las variables. las importaciones.Diagramas de correlación -r = 1. el ingreso.38 Y X -r = -1. .57 Y X -r = 0. El análisis de series de tiempo abarca dos tipos: la construc- 268 . la demanda.14.0 Y X -r = -0.00 -r = 0. todos los factores que tienen un crecimiento y desarrollo.Figura 10.00 Y X 10.13 Resultados del cálculo de índice de correlación Figura.

Para el análisis de la tendencia del comportamiento de una variable dentro de un período dado se puede realizar en forma gráfica y a través del método de mínimos cuadrados. incluso la gráfica dela tendencia. Los número índice son números relativos que multiplicados por 100 representan el porcentaje comparado con una cifra original base. En general un número índice es aquella medida estadística que permite estudiar las fluctuaciones o variaciones de una sola magnitud o de más de una en relación al tiempo o al espacio. se tendrá que realizar un análisis cualitativo que explique el comportamiento real: estacional. Alguno índices como los de INPC y el IPC de casa bolsa su elaboración es compleja.ción de números índice y análisis de patrones básicos. sea para una tendencia lineal o curvilínea. 269 . Un instrumento estadístico que sirve de manera auxiliar para aceptar la relación de una variable dependiente con una independientes es el índice de correlación de Pearson. Los números índice se construyen para analizar el cambio de precios. cantidades y valores. Los hay simples y compuestos. Adicionalmente. El cálculo matemático para definir la línea o curva de regresión es más que complicado tedioso. Para el análisis de las series de tiempo se puede elaborar un manejo de datos al interior de cada período para determinar una cantidad que lo represente en forma de tendencia. cíclico o irregular. que es el cociente de la división de la covarianza de las variables en relación entre el producto de las desviaciones estándar de las mismas. Afortunadamente con los paquetes de software estadístico como el SPSS se facilita su cálculo y estimación.

10. con el método gráfico y el de mínimos cuadrados.La Secretaría de Desarrollo Económico y del Empleo del Gobierno del Estado desea realizar.8 Problemas de repaso del capítulo 1..El gerente de una tienda de abarrotes desea saber en forma individual y de conjunto.. una estimación del Producto Percápita de sus habitantes para los años 2005 y 2006. cantidades y valores de sus ventas del mes de octubre con respecto a las ventas del mes de octubre del año pasado.7 Términos clave Índice de correlación Índice de Precios y Cotizaciones IPC Índice Nacional de precios al consumidor INPC Índices compuestos Índices simples Inflación Método de mínimos cuadrados Método gráfico Números índice Tasa anual de crecimiento Tendencia curvilínea Tendencia lineal Variable dependiente Variable independiente 10. Para su estimación cuenta con los siguientes datos: 270 . El gerente tiene los siguientes registros: 2. la variación en precios.

De manera general una cadena de tiendas comerciales quiere estimar la población de México para el año 2020.3..Se quiere ajustar una recta que exprese las ventas de una empresa en función de los gastos en publicidad que hace a lo largo de 6 años (millones de pesos): a) Elabore la línea de regresión que represente la tendencia de estas dos variables b) Verifique con el índice de correlación su validez c) La empresa quiere obtener 35 millones de ventas. ¿cuánto debería gastar en publicidad? 4. Para hacerlo cuenta con los siguientes datos. en 271 ..

realice una estimación. Población de México en millones de personas 5. 272 .millones de personas. si en el año 2000. de acuerdo a los datos del XII Censo General de Población y Vivienda había 2 753 222 habitantes y en el año 2005.. de acuerdo al Conteo de Población y Vivienda eran 3 024 238.Estime la población del estado de Tamaulipas para el año 2010. Utilizando la tendencia exponencial y la de interés compuesto.

10.9 Mapa conceptual de análisis de series Análisis de series Números índice Métodos de estimación Índices de correlación Simples Compuestos Grafico Mínimos cuadrados Tasa de interés compuesto Tendencia lineal Tendencia Exponencial 273 .

274 .

ESTADÍSTICA: Prácticas de ordenador con SPSS para Windows.W y Hatt. Editorial Trillas. García Muñoz. ISBN: 84-688-6153-7. McGrawHill/Interamericana de España. William D.ucv. Estadística aplicada.catedras.pdf 275 .htm Ruíz Muñoz David (2004).A.fsoc.U. y Nordhaus.cl/web/estadistica/index.pdf Jara.eumed. Marín Fernández. Training Resources and Data Exchange (TRADE). Disponible en: http://www. P. (2003). México D. Métodos de investigación social.net/cursecon/libreria/drm/drm-estad.ar/sautu/pdfs/manual-spss. Madrid. (s. Josefa. S. (1995).f.S. Samuelson. Haber. (1975).terra.Bibliografía Berenson L.edu/ntsbarsh/Business-stat/opre504S. Disponible en: http://home. A.es/web/medellinbadajoz/sociologia/El_Cuestiona rio. (1999) Economía. General Statistics. Prentice Hall.S. (1977). (2002).A. (2003). (1996). Antonio. Disponible en: http://www. México D. Addison-Wesley Publishing Company. Paul A. Mark & Levine M. Hossein. F.uba.telefonica. Exploración de datos. introducción a la estadística descriptiva. Manual de Estadística.F.) Razonamiento Estadístico para Decisiones Gerenciales. Editado por eumed·net. Tomás.ubalt.htm. El cuestionario como instrumento de evaluación/investigación. How to Measure Performance: A Handbook of Techniques and Tools. conceptos y aplicaciones. Consultas en Internet: Arsham. Department of Energy. David. Disponible en: http://www. Disponible en: http://personal. Goode. U.pdf Recursos educativos para profesores. Estadística Básica en Administración. Safety and Health U. and Runyon R.

276 .

279 283 287 297 277 .Apéndices Apéndice I: Repaso a matemáticas básicas Apéndice II: Glosario de símbolos Apéndice III: Glosario de términos Apéndice IV: Lista de fórmulas.

278 .

Apéndice I Repaso a matemáticas básicas Propiedades de las operaciones La operación de adición (+) o se escribe o es comutativa: o es asociativa: 279 .

llamada logaritmo: 280 . tiene un elemento neutro 0 que no altera la suma: o La operación de multiplicación (×) o o se escribe: o es conmutativa: = o o o es asociativa: es abreviada por yuxtaposición: tiene una operación inversa. llamada división: . para números diferentes a cero.o tiene una operación inversa llamada sustracción: . que es igual a multiplicar por el recíproco. que es igual a sumar un número negativo. o o tiene un elemento neutro 1 que no altera la multiplicación: es distributiva respecto la adición: La operación de potenciación o se escribe o es una multiplicación repetida: ces) o no es ni conmutativa ni asociativa: en general o (n vey tiene una operación inversa.

(Ver: sistema de números complejos) es distributiva con respecto a la multiplicación: tiene la propiedad: tiene la propiedad: Propiedades de la igualdad La relación de igualdad (=) es: reflexiva: simétrica: si transitiva: si entonces y entonces Leyes de la igualdad La relación de igualdad (=) tiene las propiedades siguientes: si y entonces y si entonces si dos símbolos son iguales.o o o o puede ser escrita en términos de raíz enésima: y por lo tanto las raíces pares de números negativos no existen en el sistema de los números reales. entonces . regularidad condicional de la multiplicación: si y no es cero. uno puede ser sustituido por el otro. regularidad de la suma: trabajando con números reales o complejos sucede que si entonces . entonces. Leyes de la desigualdad La relación de desigualdad (<) tiene las siguientes propiedades: 281 .

de transitividad: si y si y entonces si y entonces si y entonces entonces Regla de los signos En el producto de números positivos (+) y negativos (-) se cumplen las siguientes reglas: 282 .

Apéndice II Glosario de símbolos Operadores matemáticos ≠ < > ≤ ≥ diferente menor que mayor que menor o igual que mayor o igual que raíz cuadrada X n X elevado a la n potencia 283 .

es decir rechazar la Ho cuando es verdadera. desde X1 hasta Xn n ∑ n i= 1 Xi n X i media aritmética de la muestra X = ∑1 i= Letras griegas α β χ2 μ σ2 σ x-μ σ/√n probabilidad de cometer el error de tipo I. que es la relación de los valores de Y en X frecuencia hipótesis nula hipótesis alternativa iteración número de grupos o categorías 284 . es decir sin signo sumatoria de todas las X.N! │X│ N factorial. nivel de significación. multiplica a N por todos sus componentes menores que él y mayores de cero valor absoluto de X. probabilidad de cometer el error de tipo II. aceptar la Ho cuando es falsa Chi cuadrada media de la población varianza de la población desviación estándar de la población error muestral error estándar Letras en español a b f Ho H1 i k término constante en una ecuación de regresión pendiente de la línea recta.

X ) ‾ i= 1 n . porción probabilidad de que ocurra el evento A probabilidad de A dado que ocurrió B probabilidad de que no ocurra un evento. posición 25ª de la muestra tercer cuartil.1 ∑ (X i. Q = (1-p) primer cuartil.N n p p(A) p(A│B) Q Q1 Q3 r r2 n tamaño de la población (elementos que la componen) tamaño de la muestra (elementos que la componen) proporción. probabilidad. proporción complementaria de p. posición 75ª de la muestra coeficiente de correlación de Pearson coeficiente de determinación ∑ (X i.1 n 2 2 S = S = 2 varianza de la muestra desviación estándar de la muestra valores estandarizados t de student con (n-1) grados de libertad valores estandarizados para la distribución normal t(n-1) Z 285 .X ) ‾ i= 1 n .

286 .

comúnmente denominado eje de las Xs. A. Fisher en los años 1920 y 1930s y es algunas veces conocido como 287 . el análisis de la varianza o análisis de varianza (ANOVA. en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. En el plano cartesiano. según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados. se refiere al eje horizontal. Las primeras técnicas del análisis de varianza fueron desarrolladas por el estadístico y genetista R. Análisis de varianza.Apéndice III Glosario de términos Abscisa.

Dato. Estudio de las características de la totalidad de las unidades que componen la población o universo. es decir. Correlación. Ordenar los datos de acuerdo a su magnitud. Que tiene relación con una línea recta. por sí misma. (del latín datum). El más conocido es el coeficiente de correlación de Pearson (introducido en realidad por Francis Galton). de menor a mayor o viceversa. Existen diversos coeficientes que miden el grado de correlación. El dato no tiene valor semántico (sentido) en sí mismo.Anova de Fisher o análisis de varianza de Fisher. es una representación simbólica (numérica. debido al uso de la distribución F de Fisher como parte del test de significancia estadística. adaptados a la naturaleza de los datos. Arreglo de datos. Se considera que dos variables cuantitativas están correlacionadas cuando los valores de una de ellas varían sistemáticamente con respecto a los valores homónimos de la otra: si tenemos dos variables (A y B) existe correlación si al aumentar los valores de A lo hacen también los de B y viceversa. algorítmica etc. de su extremo izquierdo y de su extremo derecho. ninguna relación de causalidad. Censo. que se obtiene dividiendo la covarianza de dos variables por el producto de sus desviaciones estándar.). En Estadistica la usamos para definir a la curva de distribucion normal "Gaussiana" ya que es una curva o campana que nunca "pega" en su base y se le llama doblemente asintótica. Asintótica. La correlación indica la fuerza y la dirección de una relación lineal entre dos variables aleatorias. La correlación entre dos variables no implica. del atributo o característica de una entidad. Coeficiente de correlación. pero convenientemente tratado (pro- 288 . alfabética.

pero fundamental en todo estudio. el peso específico de una sustancia. a partir de una pequeña parte de la misma (muestra). Estadístico. Aunque hay tendencia a generalizar a toda la población las primeras conclusiones obtenidas tras un análisis descriptivo. Es una parte de la Estadística que comprende los métodos y procedimientos para deducir propiedades (hacer inferencias) de una población. 289 . la fecha de nacimiento de un personaje histórico. el número de habitantes de un país. desde las ciencias de la salud hasta el control de calidad. un capítulo de un libro de ciencias). derivada de un conjunto de datos de una muestra. su poder inferencial es mínimo y debería evitarse tal proceder. desde la física hasta las ciencias sociales. que busca explicar condiciones regulares en fenómenos de tipo aleatorio. Es transversal a una amplia variedad de disciplinas. con el objetivo de estimar o contrastar características de una población o modelo estadístico. Frecuencia absoluta. Es una medida cuantitativa. y es usada para la toma de decisiones en áreas de negocios e instituciones gubernamentales. Es el número de veces (ni) que aparece en el estudio el valor de una variable estadística Xi. Estadística. La estadística es una ciencia con base matemática referente a la recolección. La información representa un conjunto de datos relacionados que constituyen una estructura de menos complejidad (por ejemplo. Estadística inferencial. análisis e interpretación de datos. Estadística descriptiva. Es una parte de la estadística que se dedica a analizar y representar los datos. Este análisis es muy básico. Ejemplos de datos: la altura de una montaña.cesado) se puede utilizar en la realización de cálculos o toma de decisiones. etc.

Frecuencia relativa (fi). Se representa como Ho. Es la suma de las frecuencias absolutas de todos los valores menores o iguales que él. donde n = número de sujetos en la muestra (también pueden ser representados por k-1 donde k = número de grupos. Es un estimador del número de categorías independientes en una prueba particular o experimento estadístico. una hipótesis nula es una hipótesis construida para anular o refutar. Con la frecuencia relativa acumulada por 100 se obtiene el porcentaje acumulado (Pi) Frecuencia. Fi. cuando se realizan operaciones con grupos y no con sujetos individuales). Es el cociente entre la frecuencia absoluta y el tamaño de la muestra (n). Por ejemplo. Hipótesis alternativa. Intervalo de clase. Hipótesis nula. si los valores 290 . Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Rango utilizado para dividir el conjunto de posibles valores numéricos al trabajar con grandes cantidades de datos. Es el cociente entre la frecuencia absoluta acumulada y el número total de datos. Frecuencia relativa acumulada (Fi). se representa como H1. Se encuentran mediante la fórmula n-1. En estadística. Es una hipótesis de contraste (oposición) con la hipótesis nula. n. Grados de libertad. La frecuencia absoluta acumulada del último valor es igual al número de datos. la hipótesis nula se presume verdadera hasta que una evidencia estadística en la forma de una prueba de hipótesis indique lo contrario. Se suelen representar con histogramas y con diagramas de Pareto. Cuando se le utiliza.Frecuencia absoluta acumulada.

y el valor desconocido es un parámetro poblacional. Es la medida de un conjunto de valores de una variable X a los que se han asignado pesos (ponderaciones). Es la raíz n-ésima del producto de todos los números. Representada H. De acuerdo con esta definición el conjunto de datos menores o iguales que la mediana representarán el 50% de 291 . 26-50. Es el promedio de medida de una característica (variable) de un conjunto de números. de una cantidad finita de números es igual al recíproco. Media ponderada. se podrían definir grupos por medio de los intervalos 1-25. es igual a la suma de todos sus valores dividida por el número de sumandos. Intervalo de confianza. dividida entre la sumatoria de las ponderaciones. derivada de un conjunto de datos de una muestra.están entre 1 y 100. Media muestral. Media geométrica. Formalmente. Su cálculo se realiza a través de la sumatoria de los valores individuales de la variable multiplicados por la ponderación correspondiente. Mediana. Media armónica. con el objetivo de estimar o contrastar características de una población o modelo estadístico. de la media aritmética de los recíprocos de dichos números. Es el valor de la variable que deja el mismo número de datos antes y después que él. 76-100 cuando el intervalo de la clase es 25. Media. Es una medida cuantitativa. estos números determinan un intervalo. o inverso. Par de números entre los cuales se estima que estará cierto valor desconocido con una determinada probabilidad de acierto. una vez ordenados estos. llamada media aritmética. 51-75. que se calcula a partir de datos de una muestra.

dado un nivel de confianza (1-α). Porción de la población que. representa las características de la población o universo. Método estadístico. La probabilidad de éxito que se desea obtener en la estimación se representa por 1 – α. y analizar los datos a fin de extraerles el máximo de información. La suma del nivel de confianza y el nivel de significación es igual a 1.los datos. comúnmente denominado eje de las Ys. Nivel de confianza. y los que sean mayores que la mediana representarán el otro 50% del total de datos de la muestra. Ordenada. 292 . se representa por α. Nivel de significación. que ofrece una estimación más precisa. mientras que para un intervalo más pequeño. En el plano cartesiano se refiere al eje vertical. resumir los valores individuales. Moda. También se conoce como la probabilidad de cometer un error de tipo I. con el segundo cuartil y con el quinto decil. de forma que un intervalo más amplio tendrá más posibilidades de acierto (mayor nivel de confianza). es decir. La mediana coincide con el percentil 50. bajo ciertas condiciones de confianza. rechazar la hipótesis nula cuando ésta es verdadera. El nivel de confianza y la amplitud del intervalo varían conjuntamente. aumentan sus posibilidades de error. El conjunto de técnicas que se utilizan para medir las características de la información. Muestra. Es el valor que cuenta con una mayor frecuencia en una distribución de datos. Es la probabilidad de fallar en la estimación en el intervalo de confianza.

es decir rechazar la hipótesis nula cuando esta es verdaderamente falsa y debería ser rechazada. independiente al lado que pertenezca. objetos o medidas que tienen características observables comunes.3 kg. Primer cuartil. 2. que solamente está limitado por la precisión del aparato medidor.4 kg. 1. Es la variable que puede adquirir cualquier valor dentro de un intervalo especificado de valores.). Número total de individuos.66 m. sea este positivo (+) o negativo (-).64 m.Parámetro. Es el valor en el cual o por debajo del cual quedan las tres cuartas partes (75%) de los datos.. Región crítica. en teoría permiten que siempre exista un valor entre dos cualesquiera. (1-β) es la probabilidad de no cometer un error de tipo II. Es el valor en el cual o por debajo del cual queda un cuarto (25%) de todos los valores de la sucesión (ordenada). En matemática. Potencia de prueba.) o la altura (1. 293 .5 kg. el valor absoluto de un número real es su valor numérico sin su respectivo signo.65 m. Variable continua. Por ejemplo el peso (2.. Población o universo. Valor absoluto. o en otras palabras. como la media aritmética. Tercer cuartil. Es la proporción del área debajo de la curva que incluye los valores de rechazo de una hipótesis nula. la varianza o su desviación estándar. en un espacio común. 2. su distancia en la recta numérica hasta el valor cero... 1. Es una medida definida sobre valores numéricos de una población.

hombre y mujer o son politómicas cuando pueden adquirir tres o más valores. características o modalidad. Variables cualitativas. como el peso. Variable. temperatura. Ejemplo: El número de hijos (1. por ejemplo. 4. Dentro de ellas podemos distinguir: Variables cuantitativas. Variables dependientes. Las variables cualitativas pueden ser dicotómicas cuando sólo pueden tomar dos valores posibles como sí y no. Son las variables que expresan distintas cualidades. grave. 3. Las variables cualitativas pueden ser ordinales y nominales. adoptando diferentes valores en cada uno de los casos de un estudio. moderado. La variable puede tomar distintos valores ordenados siguiendo una escala establecida. Es la variable que presenta separaciones o interrupciones en la escala de valores que puede tomar. edad. etc. longitud. Cada modalidad que se presenta se denomina atributo o categoría y la medición consiste en una clasificación de dichos atributos. leve. Son las variables que se expresan mediante cantidades numéricas. Es una característica (magnitud. talla. aunque no es necesario que el intervalo entre mediciones sea uniforme. Estas separaciones o interrupciones indican la ausencia de valores entre los distintos valores específicos que la variable pueda asumir. 5). Variable cualitativa ordinal. En esta variable los valores no pueden ser sometidos a un criterio de orden como por ejemplo los colores o el lugar de residencia. 294 . 2. Son las variables de respuesta que se observan en el estudio y que podrían estar influenciadas por los valores de las variables independientes. Variable discreta. vector o número) que puede ser medida.Variable cualitativa nominal.

295 . Es la variable que sola o en compañía de otras inciden en el valor de otra.Variables independientes. Los cambios en los valores de este tipo de variables determinan cambios en los valores de otra (variable dependiente).

296 .

X)2 ‾ ‾ ‾ n-1 297 . Mediana = (n + 1)/2 de las observaciones ordenadas.+ (Xn .X)2 + ………….X)2 + (X2 . Cuartil 3 = Q3 = valor correspondiente a la posición 3(n + 1)/4 Varianza de la muestral = S2 = (X1 .Apéndice IV Lista de fórmulas Cálculo de medidas resumen Media = Rango medio = Xmenor + Xmayor n Cuartil 1 = Q1 = (n + 1)/4 de las observaciones ordenadas. es igual a la mediana.

es decir son colectivamente exhaustivos si uno de los eventos debe ocurrir.1 n 2 Coeficiente de variación = CV = n (S‾ ) X Media de la población = µ = Varianza de la población 2 ∑ fX i i= 1 N n 2 i µ σ = ∑1(X N. donde cada evento conjunto no pueden ocurrir simultáneamente. por lo que se les denomina.X ) ‾ Varianza de la muestra expresada en forma sintética: S2 = i = 1 n . 298 .µ ) Desviación estándar de la población = σ χ = i = 1 N Coeficiente de variación de la población = CVpob = Error estándar Es = S/n½ Cálculo de probabilidades n 2 (σ ) µ P(A) = X/T. eventos mutuamente excluyentes. probabilidad de A. pero tienen que ocurrir. La probabilidad de A es igual a suma de sus probabilidades parciales.X ) i= n . donde X es igual al número de resultados en los que ocurre el evento y T es igual al número de resultados posibles.) i= ∑ (X i .1 n 2 ‾ Desviación estándar de la muestra = S = ∑1( X i . probabilidad simple. P(A) = P(A y B1) + P(A y B2) + P(A y B3)……+ P(A y Bn).∑ (X i.

P(AUB) = P(A) + P(B). regla de adición. B2. B3… Bn son eventos mutuamente excluyentes y colectivamente exhaustivos. Teorema de Bayes: P(B i|A)= P(A|B P(A|B i)P(B i) 1 ) P(B 1) + P(A|B 2)P(B 2)……+ P(A|B n) P(B n) Permutaciones = n!/(n-X)! Combinaciones = n!/X!(n-X)! Valor esperado de la distribución de un variable discreta = µx = E(X) = ∑ X i P ( X i) i= 1 n Varianza de la distribución de un variable discreta = σ = 2 ∑ (X i.P(A B).P(AUB) = P(A) + P(B) . = P(A y B) P(A|B) = P(A) y P(B|A) = P(B). P(E) + P(~E) = 1. regla de multiplicación. regla de independencia. regla de adición cuando A y B son mutuamente excluyentes. suma de probabilidad complemento. P(A) = P(A|B1) P(B1) + P(A|B2)P(B2)……+ P(A|Bn) P(Bn).µ x ) P (X i ) 2 n i= 1 Desviación estándar de la distribución de un variable discreta = σ = Distribución de probabilidad binomial: ∑ (X i. donde B1.µ x ) 2 P (X i ) i= 1 n n! px(1-p) n-x x!(n-x)! 299 . P(A|B) = P(A y B)/P(B) P(A y B) = P(A|B) P(B). P(A y B) = P(A) P(B) regla de multiplicación para eventos independientes.

X-µ Z = σx x Cálculo de índices Z Xa -λ λ Índice de Precios Laspayere = IPL = (ΣPn x Qo)/ΣPo x Qo Índice de cantidades Laspayere =IQL 2006 = (ΣQn x Po)/ΣPo x Qo Para el índice de valor se utiliza la fórmula de Passche.Distribución de probabilidad de Poisson: -λ x P(X = x|λ) = e λ x! 2 1 e-(½)[(x-µx )/σx ] Distribución normal: f (X)= 2π σx Estandarización de valores reales a valores Z: Z = X-µx σx Aproximación a la distribución normal de la distribución binomial. X-µ Z = σx x Z Xa -np np(1-p) Aproximación a la distribución normal de la distribución Poisson. IPQ = (ΣPn x Qn)/ΣPo x Qo Método de mínimos cuadrados: Y = a +bX a = (ΣY)/n b = Σ (XY)/ ΣX2 300 .

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->