Está en la página 1de 125

MANUAL DE ESTADÍSTICA BÁSICA PARA ESTUDIANTES DE MEDICINA

Alfonso S. González Cervera Departamento de Atención a la Salud Universidad Autónoma Metropolitana Unidad Xochimilco
agcerver@ correo.xoc.uam .m x

CONTENIDO .

Introducción. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . i Simbología. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ii CAPÍTULO 1: ORGANIZACIÓN DE LA INFORMACIÓN . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1. Variables y Constantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. Bases de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3. Distribuciones de Frecuencias y Construcción de Cuadros . . . . . . . . . . . . . . . . 5 1.4. Construcción de Gráficas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 Ejemplo 1.1: Una Base de Datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 Ejemplo 1.2: Errores en la Construcción de Gráficas . . . . . . . . . . . . . . . . . 19 CAPÍTULO 2: MEDIDAS DE RESUMEN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Generalidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de Tendencia Central . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1. Moda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.2. Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Media aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 2.1: Obtención de la Moda (Mo) y de la Mediana (Md) . . . . . . . . Ejemplo 2.2: Obtención de una Media Aritmética . . . . . . . . . . . . . . . . . . . Ejemplo 2.3: Media Ponderada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Medidas de Dispersión. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3. Rango . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4. Varianza (F2 , s2 ) y Desviación Estándar . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 2.4: Obtención e Interpretación de la Desviación Estándar (s) . . . Razones y Proporciones. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.5. Variables Cualitativas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 2.5: Obtención de una Proporción . . . . . . . . . . . . . . . . . . . . . . . . CAPÍTULO 3: DISTRIBUCIONES DE PROBABILIDAD . . . . . . . . . . . . . . . . . . . . . . . . . 3.1. Concepto de Probabilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.2. Distribución Binomial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.3. Distribución Normal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.4. Aproximación de la Distribución Binomial a la Normal . . . . . . . . . . . . . . . . . Ejemplo 3.1: Determinación del área bajo la curva (probabilidad) . . . . . . . Ejemplo 3.2: Aproximación de la Distribución Binomial a la Normal . . . . . 22 22 22 22 23 23 24 26 28 30 32 32 32 35 37 37 39 41 41 43 46 52 59 63

CAPÍTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS . . . . . . . . . . . . . . . . . 64 4.1. Población y Muestra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 4.2. Distribuciones Muestrales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66

4.3. Intervalos de Confianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 Ejemplo 4.1: Obtención de un Intervalo de Confianza para la Verdadera Media en una Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Ejemplo 4.2: Obtención de un Intervalo de Confianza para la Verdadera Proporción en una Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 CAPÍTULO 5: CONTRASTE DE HIPÓTESIS PARA UNA SOLA MUESTRA . . . . . . . . . . 5.1. Una Sola Media . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2. Una Sola Proporción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 5.1: Contraste de Hipótesis para Una Sola Media . . . . . . . . . . . . . Ejemplo 5.2: Contraste de Hipótesis para Una Sola Proporción . . . . . . . . . 76 76 79 80 83

CAPÍTULO 6: CONTRASTE DE HIPÓTESIS PARA DOS MUESTRAS GRANDES . . . . . 86 6.1. Medias de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 6.2. Proporciones de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88 Ejemplo 6.1: Contraste de Hipótesis para las Medias de Dos Muestras . . . . 90 Ejemplo 6.2: Contraste de Hipótesis para las Proporciones de Dos Muestras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 CAPÍTULO 7: DISTRIBUCIÓN t DE STUDENT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 7.1. Muestras Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97 7.2. Muestras no Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 Ejemplo 7.1: Contraste de Hipótesis para Dos Medias de Muestras Pequeñas Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 Ejemplo 7.2: Contraste de Hipótesis para Dos Medias de Muestras No Pareadas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104 CAPÍTULO 8: PRUEBA DE P 2 (JI AL CUADRADO) . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 Ejemplo 8.1: Obtención de Ji al Cuadrado . . . . . . . . . . . . . . . . . . . . . . . . 110 CAPÍTULO 9: REGRESIÓN LINEAL Y CORRELACIÓN . . . . . . . . . . . . . . . . . . . . . . . . 9.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.2. Regresión lineal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9.3. Correlación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Ejemplo 9.1: Regresión Lineal y Correlación . . . . . . . . . . . . . . . . . . . . . . 113 113 114 120 126

se vuelven innecesariamente complejos y confusos para los que desean o necesitan una introducción a este campo. . Pero no se pueden abordar estas últimas sin el conocimiento y manejo adecuado de las primeras. pues en la actualidad es imposible mantenerse actualizado en cualquier campo de la profesión sin la lectura o la consulta de artículos de investigación médica. Pero tampoco es posible entender lo que estos artículos se preguntan o afirman sin conocer el lenguaje. no se limita (ni mucho menos) a las técnicas de análisis que aquí se presentan. que se utiliza para el análisis de los resultados y para la interpretación de la información. por el tratamiento preliminar que se da a sus fundamentos. La epidemiología proporciona las herramientas necesarias para entender los procedimientos útiles y necesarios (los métodos) que permiten llevar a cabo investigaciones en el área de la salud. Desafortunadamente. La estadística. la gran mayoría de los libros de estadística para estudiantes de medicina (o como se les llama comúnmente. de bioestadística) no son muy estimulantes para el aprendizaje pues. pero debe tomarse en cuenta que. Este manual tiene como objetivo facilitar el aprendizaje. sin embargo. son las que constituyen la base para poder posteriormente avanzar sobre las más complejas.i INTRODUCCIÓN . este lenguaje está dado básicamente por la epidemiología y por la estadística. al menos el más sencillo. En medicina. El aprendizaje de la estadística es indispensable para todo estudiante de medicina. mientras que la estadística provee las técnicas que se requieren para analizar los resultados de esas investigaciones. no debe verse como un sustituto de la lectura y del estudio de algún libro de estadística. Estas son sólo las más elementales. De estas últimas se ocupa el presente manual. en su afán por exponer de la manera más formal los fundamentos de las técnicas.

G x: media aritmética de una muestra de la variable x (capítulo 2). capítulos 4 al 7). Ho : hipótesis nula (capítulos 5 al 9). proporción en una población (capítulo 2).1 : grados de libertad (gl). Caracteres latinos: a: valor de la intersección de una línea de regresión en una muestra (capítulo 9). EE : error estándar (o de muestreo o aleatorio o experimental. G y: media aritmética de una muestra de la variable y. s: desviación estándar en una muestra (capítulo 2). capítulo 9). b: valor de la pendiente de una línea de regresión en una muestra (o coeficiente de regresión. r: coeficiente de correlación de Pearson (capítulo 9). pero no siempre. gl : grados de libertad (usualmente.ii SIMBOLOGÍA . 2 s : varianza en una muestra (capítulo 2). 2 r : coeficiente de determinación (capítulo 9). n: número total de observaciones (casos) en una muestra. desviación estándar en una población (capítulo 2).1). p(x) : probabilidad de que ocurra un suceso x (capítulo 3). p>. Caracteres griegos: ": $ : :: B: E: F: F2 : P2 : valor de la intersección de una línea de regresión en una población (capítulo 9). n . Ji al Cuadrado (capítulo 8). p<. varianza en una población (capítulo 2). también se utiliza para señalar el número de observaciones con la característica buscada (capítulo 2). n . . valor de la pendiente (o coeficiente de regresión) de una línea de regresión en una población (capítulo 9). media aritmética de la variable x en la población(capítulo 2). p=:probabilidad de equivocarse al rechazar la hipótesis nula (capítulos 5 al 8). p: proporción en una muestra (capítulo 2). suma.

podremos apreciar que se modifica de acuerdo a la cantidad de luz que llega al ojo. no importando que se trate de un círculo grande o pequeño (la circunferencia siempre es 3. Por lo regular se utilizan letras. los análisis que puedan llevarse a cabo y las formas de presentación. mientras que la letra n se usa para representar el número total de repeticiones u observaciones. Las variables y las constantes son generalmente representadas por símbolos. k. pueden reducirse a dos categorías: variables cualitativas y variables cuantitativas. tiene que ver casi siempre con variables más que con constantes. pero todas. VARIABLES Y CONSTANTES . x. Se acostumbra usar las del final del abecedario (por ejemplo.718281828 aproximadamente. las físicas (constante de Boltzmann. Las variables también pueden clasificarse en distintas clases. el diámetro (una cantidad que se modifica) es una variable. o sea el número B). base de los logaritmos naturales). Otras letras. constante de Planck. Por ejemplo. Además. éstas son convenciones que pueden estar sujetas a cambios. j o k. podemos advertir que existen cantidades (o magnitudes) cuyos valores siempre permanecen fijos. h) o las químicas (número o constante de Avogadro.1. b. por lo que es aconsejable que siempre se aclare el significado de cada símbolo. c) para las constantes.1416 veces la longitud del diámetro. constante de equilibrio. KC). z) para las variables. constante de los gases. R. La estadística. Existen distintos tipos de constantes: las numéricas (como la mencionada arriba o el número e. dependiendo del tema o del autor. sin embargo. mientras que otras pueden tomar distintos valores. y las del inicio (por ejemplo.1 CAPÍTULO 1: ORGANIZACIÓN DE LA INFORMACIÓN 1. se usan para procesos de conteo repetitivo. De esta manera. especialmente cuando se trata de uno nuevo o se le da una denotación distinta a la usual. En primer lugar. . En este manual se procurará utilizar la simbología más común (ver la sección de Símbolos Utilizados). NA. pues ello define el diseño de la base de datos. En los libros de estadística podrán encontrarse clasificaciones diferentes. con el objeto de poderlas escribir rápida y concisamente al manipular fórmulas o reglas de computación. la relación entre la circunferencia y el diámetro (que siempre es la misma) es una constante. la relación entre la circunferencia de la pupila y su diámetro permanece constante. Sin embargo. igual a 2. aproximadamente. excepto por lo que aquí mencionaremos. a. por otro lado. sin embargo. Cuando se lleva a cabo una investigación. uno de los aspectos que en primer lugar se toma en cuenta es el tipo de datos recolectados. y. como i. si observamos el diámetro de la pupila.

Estas variables también se conocen como "discretas". pero en las que los distintos puntos no tienen relación con una magnitud determinada. se puede nacer en un lugar o en otro. término inapropiado en español. la presión. es usual que los datos cualitativos obtenidos sean codificados con números para su más fácil manejo. el número de pacientes tratados. Por ejemplo. correspondiendo el 1 al mineral más suave (talco) y el 10 al más duro (diamante).2 como se verá en los siguientes temas. es decir. Las variables continuas son las que pueden tomar cualquier valor entre dos puntos de una escala continua. Otras escalas muy utilizadas en medicina son: la de la puntuación APGAR. estas no manifiestan una cantidad o magnitud. el número de leucocitos. Variables discontinuas son las que se refieren a magnitudes que únicamente pueden tomar valores enteros en una escala: el número de embarazos. la de Glasgow para los estados de coma o la del cáncer cérvico-uterino. gravedad del paciente). Las variables cuantitativas son aquellas cuya magnitud puede expresarse en una escala numérica y son de dos tipos: las continuas y las discontinuas. Las variables pueden expresarse. La característi- . pero no se puede tener ambas condiciones a la vez (son mutuamente excluyentes). son aquellas en las que los números sirven sólo para identificación de las distintas categorías. a una característica o atributo. Como es conocido por cualquier persona que haya cursado la escuela secundaria. que establece la dureza de los minerales (de acuerdo con su capacidad para rayar a otros) y que va del 1 al 10. la presencia de un síntoma. la escala de Mohs. de acuerdo con su naturaleza.escalas cardinales: o nominales. particularmente cuando se crean bases de datos por medios electrónicos. los individuos del sexo masculino pueden ser identificados con el número 1. Estos atributos son mutuamente excluyentes. y la precisión con que se pueda medir la variable dependerá del instrumento de medición. a quienes presentan más síntomas el número 2. a quienes presentan un síntoma el número 1. los volúmenes. como su nombre lo expresa. Ejemplos de estas son: la talla (longitud). a los que no tienen ningún síntoma de un padecimiento estudiado se les puede asignar el número 0 (cero).escalas ordinales: son aquellas que expresan un orden. mientras que a los del sexo femenino se les puede asignar el número 2. en el ámbito médico se usan para señalar de manera subjetiva ciertos hechos (intensidad del dolor. son ejemplo de ello: se pertenece a un sexo o a otro. En realidad. la edad (tiempo). se tiene o no un síntoma. Las variables cualitativas. y lo mismo daría si se invirtiera el orden o si se asignara cualquier otro número. a la calidad de algo. Por ejemplo. son aquéllas que se refieren a una cualidad. en contraste con la definición de variable que se dio anteriormente. esto es arbitrario. el lugar de nacimiento. producto de una pésima traducción del inglés. Así. como su nombre lo indica. El sexo. . Estas escalas se utilizan para variables cualitativas. en diferentes escalas: . su variabilidad está en términos de la presencia o ausencia de una característica. Como se ve. es esta distinción la que más nos interesa para el análisis estadístico. la cantidad de valores que puede haber entre estos dos puntos es infinita.

1. Se puede ver la diferencia entre una y otra si tomamos en cuenta. Por ejemplo. Por ejemplo. simplemente indica que el primero es más duro que el segundo. sí se puede decir que un cuerpo a 40º K contiene el doble de calor que otro a 20º K. no necesariamente es el doble de la de otro colocado en el punto 2. . . es la misma que hay entre los 30º y los 35º. pues el cero en esta escala no es absoluto (no indica ausencia de calor). pero esta tiene un cero absoluto. . lo más común es emplear la terminología que aquí presentamos. en la escala de Mohs. Debe señalarse que algunos autores utilizan la clasificación de las escalas para referirse a las variables. por ejemplo. la distancia que hay entre los 10º y los 15º centígrados. además de ser la más clara. la dureza de un mineral colocado en el punto 4. algunos otros usan denominaciones distintas a las de arriba.escalas de intervalos: estas tienen la característica de que la distancia entre dos puntos de una escala expresa una magnitud dada.3 ca de estas escalas es que la magnitud entre un intervalo y el siguiente de la escala no es por necesidad la misma. Gráfica 1. Sin embargo. Estas escalas se utilizan preferentemente para variables cualitativas. mientras que si se mide la temperatura en grados Kelvin.escalas de razones: es similar a la de intervalos. Escalas ordinales para identificar el nivel de dolor. Estas dos últimas escalas se utilizan para las variables cuantitativas. que el contenido de calor de un cuerpo a 40º centígrados no es el doble del de un cuerpo a 20º centígrados.

o bien en programas especiales para análisis estadístico como SPSS ©. se concentran ya sea sobre papel o. Paradox ©. normotensa o hipertensa (variable cualitativa). Esto no representa mayor problema. La ventaja que supone el primer tipo de programas es que. si medimos en repetidas ocasiones y bajo las mismas condiciones. estos variarán de una ocasión a otra sin un orden predeterminado).utilizando programas especiales para la "captura" (según la terminología más común) de los datos.2. de tal forma que sirva de partida para su inspección y análisis. de la captura. Asimismo. podemos clasificarla como hipotensa. esto es. . por ejemplo. . Esta se refiere a que existen magnitudes variables cuyos cambios están dados al azar (por ejemplo. pero sus cambios no están sujetos al azar. Bases de Datos.en hojas (o "cuadernos") de cálculo como Excel © o Quattro Pro ©. en una historia clínica o en algún otro tipo de registro. las cuales pertenecen a la categoría de las aleatorias. con diferencias entre ellos. permiten un mayor control o "validación". Por lo regular. Una vez que los datos de una investigación se han recolectado. podrán encontrarse en distintos libros otras categorías de variables. en medios electrónicos. Una base de datos consiste en una colección organizada de observaciones (casos) y de variables (información sobre cada caso). Por otro lado. tabulares o gráficos. en ocasiones ciertos niveles de una variable pueden ser asociados a atributos o cualidades. Existen también las variables conocidas como dependientes e independientes (ver capítulo 9). Para esta última opción existen diferentes formas de hacerlo: . ya sean numéricos. la posición de las manecillas de un reloj es variable.4 Adicionalmente. hay otras magnitudes que pueden variar pero con un orden preestablecido. es conveniente señalar que las variables cuantitativas pueden ser tratadas como si fueran cualitativas. Una muy común es la de variable aleatoria. más comúnmente en la actualidad. pues prácticamente todos los distintos formatos de archivos son intercambiables. como dBase ©. los otros permiten realizar análisis directos de la información. si tomamos la presión arterial sistólica (variable continua) de una persona. Por ejemplo. por ejemplo. . FoxPro © o Access © entre otros. 1. Esto último depende de las versiones de los programas en que hayan sido creados y de otras limitaciones particulares que no cabe describir aquí. los niveles de hemoglobina de un individuo sano. las bases creadas en los dos primeros tipos de programas deben ser "exportadas" a los especializados en estadística para llevar a cabo dichos análisis o al menos hacerlos con mayor facilidad. en un cuestionario. lo que reduce las oportunidades de errores.

pero aún se pueden encontrar en algunos libros de estadística. En otras palabras. pues este se lleva a cabo con cada una de las observaciones tomadas individualmente. primero con las calculadoras que incluyeron funciones estadísticas y luego con las computadoras personales. TÍTULO.1) lo que se desea es examinarla para descubrir las características que posee en términos de la magnitud que alcanzan las distintas variables o de sus tendencias.3. pues contiene pocas observaciones (28) y la totalidad de la información podría apreciarse en una sola ojeada.1). la construcción idónea de una distribución de frecuencias era un asunto de la mayor importancia. Distribuciones de Frecuencias y Construcción de Cuadros.5 Lo más importante es saber que el diseño acertado de la base de datos es fundamental para su utilización fácil y ágil y que dependerá en buena parte del programa que se piense utilizar (véase el ejemplo 1. año). Para cumplir con este objetivo es conveniente considerar las siguientes ideas: 1. Es nuestra la obligación librar al lector de la necesidad de recurrir al cuerpo del texto para conocer esta . a no ser que uno se encuentre en la miseria tecnológica. Una vez que se ha creado la base de datos (como en el ejemplo 1. pero son esenciales en los trabajos de campo. Para contender con estos obstáculos se idearon técnicas que. la cual se dio sobre todo durante los últimos 30 años del siglo XX. institución. En dicho ejemplo. el "dónde" (país. En nuestros días la importancia de una distribución de frecuencias radica más en la presentación de los resultados que en el análisis mismo. no habiendo otros recursos más sofisticados para el común de los investigadores que la regla de cálculo o el ábaco. siempre será conveniente que los datos se presenten en forma resumida para facilitar la exposición de los hallazgos y de las ideas que resulten de ellos. Esta importancia radicaba en el hecho de que. 1. Actualmente. cuando se vaya realizar el análisis y la discusión de los resultados. a qué tema se refiere). Todo cuadro debe tener un título que diga el "qué" (de qué se trata. permitían llevar a cabo los análisis requeridos. Aún así. la distribución de frecuencias se realiza con la finalidad de construir un cuadro que ayude a comunicar los hallazgos del estudio realizado y que facilite el entendimiento de los argumentos expuestos. Estas técnicas se basaban en la construcción de distribuciones de frecuencias con un determinado número de intervalos de valores y una amplitud conveniente de tales intervalos. Este manual no los abordará. esto se vuelve más imperioso conforme el número de observaciones crece. aún los análisis más sencillos podían entrañar una gran dificultad y una enorme paciencia. trabajando con datos resumidos (el término técnico es "agregados"). esta inspección no sería difícil. comunidad en donde se obtuvo la información) y el "cuándo" (fecha. los dos últimos aspectos son menos importantes cuando se presentan resultados de experimentos realizados en un laboratorio. especialmente cuando el número de observaciones era grande y las variables eran continuas. estas técnicas han dejado de tener utilidad. Previamente a la popularización de los recursos electrónicos con que ahora contamos. por si acaso.

6. este total es. Debe sospecharse siempre de la importancia de los porcentajes de un cuadro en el que no se muestran las frecuencias absolutas. 5. donde sí lo sean debe presentarse los totales de filas y de columnas. FRECUENCIAS ABSOLUTAS Y RELATIVAS. el lector experimentado lo primero que ve (después del resumen. 7. si lo hay. deben ir suficientemente explicadas al pie del cuadro. no tiene ninguna obligación de saber qué significa IMSS (Instituto Mexicano del Seguro Social) por más que en el país resulte obvio. Todas deben tener sus propios títulos. para no interrumpir nuestro discurso y a la vez permitir que quien tenga interés pueda analizar nuestros hallazgos más a fondo. CLAVES y ABREVIATURAS. Al pie del cuadro y cuando los datos no son originales de quien escribe el trabajo en cuestión. el lector no tiene ningún compromiso para hacer esfuerzos adicionales sólo para enterarse de lo que queremos decir (a menos que seamos personas realmente importantes) y. un lector fuera de México. El uso de siglas debe seguir la misma regla que el de claves y abreviaturas. con muchas filas y columnas. 100 por ciento). por lo que se debe recurrir a claves o a abreviaturas. establecer rápidamente comparaciones con los resultados de otros estudios. Aunque no siempre son pertinentes. pues resulta más que evidente lo que se está mostrando. debe ponerse la fuente (referencia bibliográfica. Siempre debe presentarse las frecuencias absolutas (el conteo de las observaciones que pertenecen a cada categoría o a cada intervalo de valores) y las relativas (los porcentajes que estos conteos constituyen sobre el total de las categorías o de los intervalos. aunque sea hispanohablante. 3. las frecuencias absolutas deben aparecer para ponderar la importancia de las relativas ya que.6 información pues. por ejemplo. 4. por una parte lo que queremos es facilitar la comunicación y si el cuadro no lo hace. y de las conclusiones) son los cuadros. resulta mejor colocar el cuadro en un anexo o apéndice. FUENTE. mejor no escribamos. pero si juzgamos necesario hacerlo. Si no nos importa lo que el lector pueda pensar o sentir respecto a lo que escribimos. Cuando el cuadro es resultado del estudio y se está presentando en el apartado o capítulo de "resultados" no debe colocarse ninguna "fuente". electrónica o en internet) de donde se obtuvieron. TOTALES. El mostrar las frecuencias relativas facilita al lector apreciar la contribución de cada categoría o intervalo y le permite. Por su parte. dado el caso. ya sean los datos crudos o el cuadro mismo. No es conveniente presentar cuadros demasiado complejos. por supuesto. por ejemplo. . Es muy frecuente que en los títulos de filas y de columnas no se cuente con el espacio suficiente para colocar todo el texto necesario. es decir. por otra parte. COLUMNAS y FILAS. no es igual considerar un valor de 10 por ciento basado en 10 observaciones que uno basado en 500 observaciones. como cualquiera otra aclaración que sea necesaria o conveniente. Todas ellas. pues ello no propicia la comunicación. no son reconocidas o pueden ser confundidas. fuera de ese círculo. En ocasiones los autores piensan en términos de su círculo profesional más estrecho y utilizan siglas que. SIGLAS. de manera que cuando se ponen cosas como "Fuente: el propio estudio" estamos mostrando que tenemos una idea muy tosca de lo que es la 2. sin obligarlo a realizar operaciones tediosas.

Debemos tomar en cuenta que si bien una presentación gráfica de nuestros datos puede ayudar a comunicar sus características generales. siempre recordamos el refrán que afirma que "una imagen dice más que mil palabras" lo cual. aún cuando ésta sea bien hecha y atractiva. de las representaciones incorrectas. por lo que siempre será preferible examinar un cuadro. los cuadros cuyos datos no son producto del estudio que se está presentando. 1. nunca van en "resultados" sino en los apartados de antecedentes. los análisis definitivos son numéricos y no pueden ser sustituidos por una figura. especialmente cuando se ejercen comparaciones. Construcción de Gráficas. pues con excesiva frecuencia se ignoran los principios fundamentales de su construcción idónea. como todo en la sabiduría popular. formando un ángulo recto en un punto llamado origen. discusión o conclusiones.4. mientras que los valores de y son positivos hacia arriba del origen y negativos hacia abajo (gráfica 1. Sólo en ocasiones muy particulares las gráficas son insustituibles para guiar el análisis numérico (véase el capítulo 9). Cuando deseamos comunicar nuestros resultados y los fundamentos de nuestras conclusiones. los recursos electrónicos actuales han conducido al manoseo de las representaciones gráficas y. una horizontal y otra vertical que se cruzan. llamadas ejes. Debemos recordar que una gráfica está basada en lo que se conoce como sistema rectangular cartesiano el cual consiste en un marco de referencia con dos líneas rectas. . Por otro lado. muchas veces no es cierto.2). al origen se le asocia el valor 0 (cero) y los valores de x son positivos a la derecha del origen y negativos a la izquierda. Usualmente. lo que es peor. Al eje horizontal se le conoce como eje de las abscisas o eje de las x y al vertical como eje de las ordenadas o eje de las y.7 comunicación de hallazgos. indispensables para dar una impresión correcta de los hallazgos de un estudio y para orientar los análisis y las conclusiones. Por otro lado.

y que el eje de las y deberá iniciar siempre en cero. así como hay dos categorías básicas de variables existen dos clases de gráficas que se les asocian. Lo más común. las gráficas de barras y. es decir. se invierten respecto a lo dicho arriba. los histogramas o bien su equivalente. el tercero. Existen excepciones a lo anterior. en todo caso podrán ser iguales (1 a 1). por ejemplo. Para las variables cualitativas. en donde x es positiva y y es negativa. el primer cuadrante. Por otro lado. cualquier par de valores (x. es decir. puede ser ubicado en el sistema cartesiano. donde los valores de x son negativos y los de y positivos (se numeran en sentido contrario a las manecillas del reloj). en donde x y y tienen valores negativos. positivos o negativos. Los ejes dividen el espacio en cuatro cuadrantes: el primero. Cuando no se cumplen estas dos condiciones. De esta forma. pero no siempre. los polígonos de frecuencias.8 Gráfica 1. y el cuarto. es que se representen únicamente los valores positivos de ambos ejes.2). conocidos como coordenadas. el segundo. hay que tomar en cuenta dos principios básicos: que los ejes deben ser proporcionales en tamaño. por cada 3 cm del eje de las x el de las y medirá 2 cm o. el sistema oblicuo cartesiano en el que los ejes no se cruzan en ángulo recto o aquéllas en que los valores de y. para las cuantitativas. siendo el de las x ligeramente mayor que el de las y en una relación de 3 a 2. pero su uso es muy poco frecuente.2. Para una correcta representación gráfica.y). Sistema rectangular cartesiano. . donde los valores de x y de y son positivos. la impresión visual que se ofrezca será engañosa (véase el ejemplo 1.

su representación visual no corresponde a lo dicho respecto al sistema cartesiano ya que no existe ningún eje de las x y únicamente se habrán de representar las frecuencias (absolutas o relativas) de cada categoría. en consecuencia. correctamente.1: Nótese que las categorías. Aquí lo único importante es la altura que alcanzan las barras. pues son cualitativas y que bien se podría invertir el orden en que se presentan sin que por ello se alterara la representación visual correcta.9 Cuando se desea hacer una representación gráfica de una variable cualitativa. no corresponden a ningún eje cartesiano. en sentido horizontal: Las barras pueden estar alejadas unas de las otras. hay que tomar en cuenta que sus categorías no son numéricas y que. estos mismos datos se pueden representar. pues ello nos indica su frecuencia. como arriba. Estas son las gráficas de barras una muestra de las cuales se presenta enseguida con los datos del ejemplo 1. de otras formas. o juntas: . por ejemplo. no tenemos preocupaciones por la proporción de los ejes (no existen). Debido a lo anterior. Por lo tanto. representadas en sentido horizontal.

10 El ancho de las barras no importa. sólo su longitud: Lo que se debe buscar en estos casos es obtener una representación agradable a la vista. por ejemplo: .

11 Otra forma de representar este tipo de información es por medio de las gráficas de pastel (también llamadas de sectores) que. pueden resultar muy demostrativas: Lo que resulta por completo inaceptable es la utilización de las llamadas gráficas en tercera dimensión: . aunque comúnmente no se consideran apropiadas para un trabajo científico o académico.

Los rectángulos deben estar contiguos unos a los otros. se puede dar cuenta de que: a. de esta forma el área total definida por todos los rectángulos representa la función de la frecuencia y del valor de la variable. aunque es muy popular en folletos o en diarios. únicamente una persona inexperta y mal entrenada utiliza este tipo de gráficas. particularmente en las variables continuas (pero también se acostumbra representar así a las discontinuas): . no aportan más información. Finalmente. Aquí. otra manera informal de presentar las frecuencias de variables cualitativas es por medio de pictogramas en los cuales las barras son sustituidas por figuras alusivas al tema que. ilustran las frecuencias o valores: Esta forma de representación no es propia de un escrito científico o académico. En resumen. obstaculizando su lectura. A esto se le conoce técnicamente como tinta sin datos. apiladas o de distinto tamaño. se debe prescindir de ellas siempre pues si uno las examina con cuidado. no son en tercera dimensión (es sólo apariencia). c. que algunas personas confunden con las barras. En un trabajo científico o académico. confunden. Los histogramas son una representación por medio de rectángulos.2).12 Estas gráficas han alcanzado gran popularidad por la facilidad con que se pueden construir y por lo atractivas que parecen ser. la diferencia está en que la base del rectángulo corresponde exactamente a la amplitud de los intervalos que se hayan definido para la variable en cuestión y su altura a la frecuencia. b. Por su parte. las gráficas de las variables cuantitativas deben cumplir con los requisitos del eje de las y con inicio en 0 y de la proporcionalidad de los ejes (véase el ejemplo 1. o en cualquier trabajo medianamente serio.

a una escala logarítmica lo que puede tener ventajas para el análisis visual de ciertos fenómenos. es la gráfica semilogarítmica.13 Los mismos datos pueden representarse como un polígono de frecuencias en donde los puntos medios de los rectángulos (que corresponden a los puntos medios de los intervalos) se unen con líneas rectas: Una forma de representación gráfica muy común. Por ejemplo. podemos tener la siguiente serie de datos: 10000 5000 1000 500 100 . usualmente en escala aritmética. aunque poco utilizada por los novatos. Esta consiste en transformar el eje de las y.

que en realidad se mantiene constante. proporcionalmente hablando. Una gráfica con escala aritmética resultaría en lo siguiente: Puede advertirse que los valores menores (a partir de 100) no se observan ya. cualquiera que este sea. De hecho. Sin embargo el fenómeno. Si el eje de las y es transformado a escala logarítmica. desde el valor 500 estos cambios son imperceptibles. continúa modificándose.5).5 En este cuadro observamos que las magnitudes van desde muy grandes (10. cuando los cambios van de 10.000 a 5.14 50 10 5 1 0. se observa que las modificaciones son tan importantes. pareciera que a partir del valor 5000 el fenómeno cambia pero que sus cambios son muy pequeños y que. la gráfica resultante sería la siguiente: En ésta vemos que la representación de los datos del cuadro anterior es completa.000) hasta muy pequeñas (0.000 . desde los mayores hasta el menor y que el fenómeno sigue modificándose con la misma tendencia independientemente de las magnitudes.

Actualmente resulta fácil obtener otros muchos tipos de gráficas haciendo uso correcto de los recursos electrónicos. como cuando van de 1 a 0. en las que los dos ejes se transforman o. excepto por las gráficas de correlación que se tratarán en el capítulo 9. En el eje horizontal se encuentran los nombres abreviados de los estados: . La escala logarítmica aparecería como sigue: También podrán encontrarse gráficas logarítmicas.5 (también una disminución del 50 por ciento).15 (disminución de 50 por ciento). gráficas semilogarítmicas en el eje de las x. Ahora observe la siguiente gráfica que representa los valores de la tasa de mortalidad infantil para cada estado de la República Mexicana en 1999. Estos otros tipos no se verán aquí. más raramente.

. en todo caso.16 Ahora diga: .si la información es clara.si esta es la forma adecuada de presentar la información. .y si. debería presentarse de otra manera. .

1 13.41 4.0 13.9 15.92 5.85 5.76 4.42 5.25 4.6 13.2 15.0 15.5 14.49 4.84 5.49 4.9 16.11 4.18 5.79 4. La siguiente es una base de datos en papel.1 13.1 15. 263 236 194 235 214 .40 5.8 14. CO LESTERO L TO TAL en m g/dl. .17 Ejemplo 1.75 5.7 17.83 H EM O G LO BIN A 14. G LUCO SA en m g/dl. H EMO G LO BINA en g/dl. 88 83 81 83 86 91 CO LESTERO L TO TA L 155 196 155 192 136 207 211 138 147 173 134 179 180 70 214 166 227 183 120 151 .66 5.1 14.8 16.44 4.8 13.2 15.2 13.05 4.58 4.65 4.2 PLA Q UETA S 297 263 297 245 272 .4 15.8 15.48 4.0 14.9 12.7 17.8 13. .10 4.8 14. 308 312 227 278 278 312 183 308 209 332 254 343 175 179 G LU CO SA 82 87 84 80 80 89 77 84 81 79 71 103 90 72 68 84 78 88 73 91 .99 4.3 13. ED AD en años cum plidos. con 28 observaciones (adultos sanos): ID 8 10 23 34 41 53 54 60 70 74 78 103 105 106 107 110 113 114 115 118 30 86 87 130 133 153 155 ED AD 31 35 24 30 23 29 22 23 24 22 29 31 23 16 31 34 27 . ER ITR O CITO S por 10 6 .15 4.2 16. PLA Q UETAS por 10 3 .86 4. 129 129 112 177 176 128 ID es la clave de identificación.1: Una Base de Datos. 24 28 24 26 21 31 22 22 24 SEXO fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino fem enino m asculino m asculino m asculino m asculino m asculino m asculino m asculino ERITRO CITO S 4.33 5.24 4.

INFORMACIÓN Se desea construir una gráfica a partir de los siguientes datos: Tasas ajustadas de mortalidad masculina (15 años de edad y más) por causas directamente atribuibles al consumo de alcohol (México. creando una hoja de cálculo a partir de la cual se hace la gráfica. 2. : Proporción de los ejes. el procedimiento por omisión daría por resultado la siguiente gráfica: . PROCEDIMIENTO 1.1993). : Uso de programas de cómputo. Lo más común es recurrir a programas como Excel ©.18 Ejemplo 1. En este programa (como en la gran mayoría de ellos). 1979 .2: Errores en la Construcción de Gráficas.

. tal vez. la proporción se perdería por completo. por lo tanto.19 En una primera inspección de la gráfica se podría decir que la proporción de los ejes está bien guardada y que. obtener algunas conclusiones. la impresión visual que nos da esta representación es correcta. A partir de lo anterior. sino en 40. se puede hacer una serie de consideraciones y. quedando algo como lo siguiente: Sería difícil afirmar que una gráfica así está bien proporcionada. Debe observarse que en la gráfica anterior el eje de las y no se inicia en 0 (cero). Una gráfica igual se puede obtener al utilizar un paquete de cómputo especializado en análisis estadístico como SPSS ©. Valores por omisión. Esto implica que si llevásemos el eje hasta cero. 4. : Eje de las y. 3.

. es necesario instruir al programa que se esté utilizando (en este caso.20 Para una representación idónea de esta serie de valores. que el eje de las y se inicie en 0) para que nos construya una gráfica correcta. y las consideraciones y conclusiones que se pueden hacer a partir de ella también lo serán. que sería la siguiente: La impresión visual resultante es muy distinta.

Estos principios establecen que todas las entidades existentes. corresponde a lo que la palabra significa en el lenguaje común: lo que predomina o se usa de manera más generalizada. inicialmente de una manera muy simple. conocidas como medidas de tendencia central. Por el otro lado. a la indagación del principio de la unidad. es la misma. nunca esté completa si no se habla de estas dos clases de medidas: tendencia central y dispersión. La moda es una medida de tendencia central que se define como el valor o la característica de una distribución que ocurre con más frecuencia. desde el punto de vista estadístico. es decir. De ahí que la descripción de un fenómeno. cada entidad tiene sus propias y muy características particularidades que la hacen diferente a todas las demás. Para tales fines están las llamadas medidas de resumen cuya utilidad es precisamente reducir la información y presentarla en una sola expresión numérica. y las que muestran el grado en que esos datos se diferencian unos de otros o en relación con algún punto de referencia. su estructura fundamental. Estas medidas pueden ser de dos clases: aquellas que muestran el valor alrededor del cual los datos tienden a agruparse.1. conocidas como medidas de dispersión. en todos los casos. 2. que si bien la materia puede expresarse de distintas maneras. sólo del valor más frecuente. Aunque los datos se hayan organizado en cuadros y gráficas. es decir. Las medidas de resumen corresponden a lo que en la ciencia se conoce como los principios de unidad y de diversidad. MEDIDAS DE TENDENCIA CENTRAL . generalmente se desea tener alguna medida única que describa el conjunto. si bien todo lo existente es parte de un mismo proceso. Moda. Con las medidas de tendencia central pretendemos acercarnos. sin tener que recurrir al análisis de cada una de sus categorías o de sus intervalos por separado y que además permita la comparación rápida entre distintas colecciones de datos. al final forman parte de un mismo proceso. Con las medidas de dispersión se intenta el estudio de este principio. .21 CAPÍTULO 2: MEDIDAS DE RESUMEN GENERALIDADES . Como puede advertirse. aunque distintas entre sí. si acaso se le puede representar por Mo. se trata de una medida descriptiva muy simple que no se utiliza en análisis estadísticos más avanzados pues no permite conocer nada acerca de los datos no contenidos en ella. No existe un símbolo universalmente aceptado para la moda.

Mediana. por ejemplo. aunque de acuerdo a la terminología técnica.1). Si n es número par. Existen otras medias: la armónica y la geométrica. por eso. también la moda y la mediana son promedios. por lo que también se le conoce como percentil 50. particularmente en caso de distribuciones asimétricas y para escalas ordinales.22 Cuando en una distribución dos valores o características son igualmente los más frecuentes. igual que la moda. sólo la central o las dos centrales. Se le utiliza para variables cuantitativas. cuando simplemente se habla de la "media" se entiende que se hace referencia a la media aritmética. La mediana se obtiene aplicando la siguiente fórmula: L Mediana = valor que toma la ½ (n +1)ésima observación NÓTESE que el valor de la mediana no es el resultante de aplicar la fórmula ½ (n+1). el 50 por ciento de las observaciones tendrá un valor menor que la mediana y el otro 50 por ciento un valor mayor. 2. por lo que es impropio que en un escrito técnico se utilice la palabra "promedio" para referirse a la media aritmética. Los símbolos utilizados para representar a la media aritmética son la letra µ (my o mu minúscula del alfabeto griego) para los datos que corresponden a una población completa y . De la misma forma. se dice que es una distribución bimodal. el valor que tiene esta observación es el de la mediana (véase el ejemplo 2. puede hablarse de distribuciones multimodales. pues esta nos da sólo el número de la observación que queda a la mitad de la distribución. la mediana se define como la media aritmética (el "promedio") de las dos observaciones centrales. Puede ser útil también para variables discontinuas (véase el ejemplo 2. La moda se utiliza preferentemente para la descripción de observaciones correspondientes a escalas cardinales. La media aritmética es lo que en el lenguaje común se conoce como "promedio". No existe un símbolo universalmente aceptado pero puede utilizarse Md.1). Media aritmética (µ.2. 0).3. 2. Su gran desventaja. La mediana es el valor que toma la observación central en una serie ordenada de datos (de mayor a menor o viceversa) y que deja el mismo número de casos a cada lado de ella. es decir. es que no toma en cuenta la información del resto de las observaciones. las cuales son de uso menos frecuente. los números de identificación o clasificación de personas por categorías.

que indica una suma. Exi es la suma de los valores de las observaciones. desde la primera (i = 1) hasta la última (i = n).2). En lo sucesivo. esto puede suceder cuando no se cuenta con los datos originales. La única excepción la constituye la letra E (sigma mayúscula). habrá que sustituir el valor de µ por el de 0: L La media es la medida de tendencia central más utilizada porque toma en cuenta la información de todas y cada una de las observaciones (xi). Media Ponderada.4. dividida por el número total de observaciones. es decir. Por supuesto que en el caso de una muestra. media ponderada. media de medias o gran media). Sin embargo. Muchas veces se piensa que sumando las medias (E0 i) y dividiéndolas entre el número total de ellas (n0 ). En ocasiones se desea obtener la media de varias medias (0 p. n es el número total de observaciones. La fórmula se lee: la suma de los valores de las xi desde la x1 hasta la última (n). mientras que las letras latinas corresponderán a los de una muestra. 2. y en escalas de intervalos y de razones (véase el ejemplo 2.23 con el símbolo 0 (se pronuncia "equis barra") para los datos de una muestra (véase el capítulo 4). Es la medida de tendencia central preferida para describir las distribuciones simétricas. desagregados. este procedimiento . La media aritmética se obtiene de acuerdo a la siguiente fórmula: Donde µ es la media aritmética para los valores de la variable x. bastaría para obtener la media ponderada (0 p). todos los símbolos que utilicen letras griegas se referirán a los valores de toda la población.

24 puede seguirse únicamente cuando el número de observaciones (ni) en que está basada cada una de las medias parciales es igual. una media de elevada magnitud. En es la suma de las observaciones de todos los grupos. incrementará su valor relativo (véase el ejemplo 2. Si este número ni es distinto para las medias parciales. Así. . E0 ini es la suma de los productos de cada media por su correspondiente número de observaciones. De igual manera.3). una media pequeña obtenida de un gran número de datos. pero obtenida con pocas observaciones. verá disminuido su valor relativo. entonces se necesita ponderar: L0 E0 ini ______ = P En donde 0 P es la media ponderada.

y que para saber cuál es esa observación se utiliza la fórmula: ½ (n + 1)ésima .6 3. entonces Mo = 0 partos porque cero es el valor que se presenta con mayor frecuencia.7 3. 2. Los resultados son los siguientes: Número de Partos 0 1 2 3 4 5 Total Número de Mujeres 29 17 3 2 2 1 54 por ciento 53.25 Ejemplo 2. se obtuvieron los antecedentes sobre la edad y la paridad de 54 mujeres embarazadas. INFORMACIÓN En un estudio realizado en una clínica prenatal.8 100 Obtenga la moda y la mediana de esta distribución.7 por ciento del total).7 31. o 53. PROCEDIMIENTO 1.7 1. Obtenga la Moda: como la mayor cantidad de mujeres tiene una paridad igual a cero (29 mujeres. Obtenga la Mediana: se dijo que la mediana es el valor que toma la observación que deja la mitad de los casos por encima de ella y la mitad por debajo.1: Obtención de la Moda (Mo) y de la Mediana (Md).5 5.

entonces: Md = 0 partos . Como en el ejemplo ambas observaciones tienen valor igual a cero partos.5). por lo cual se encontrarán dos observaciones centrales. en estos casos se debe tomar el valor "promedio" de las dos observaciones centrales. en este caso n = 54 que es par.26 donde n es el total de observaciones. la número 27 y la número 28 (al aplicar la fórmula tendríamos 27.

5 Obtenga el valor de 0 para estos datos.7 15.9 14. Obtenga los Datos Básicos: como la fórmula para calcular la media aritmética es 0 = Exi / n lo que se requiere es el número total de observaciones y la suma de todos los valores observados de hemoglobina: n = 19 voluntarios Ex= 279 mg/100ml 2.9 14.4 14. Obtenga el Valor de la Media: simplemente se sustituyen los valores de la fórmula referida: 0 = Exi / n = 279/19 .7 15.2 16.4 17.27 Ejemplo 2. se midieron los niveles de hemoglobina (mg/100 ml) en 19 voluntarios. INFORMACIÓN En un estudio acerca de la absorción de hierro.7 CASO 11 12 13 14 15 16 17 18 19 Hb (mg/100 ml) 13.4 13.1 13.7 13. los resultados son los siguientes: CASO 1 2 3 4 5 6 7 8 9 10 Hb (mg/100 ml) 14.9 13.2: Obtención de una Media Aritmética (0).5 14.5 16.8 12.4 15.0 15. PROCEDIMIENTO 1.3 13.

28 = 14.68 mg de Hb /100 ml por persona

29 Ejemplo 2.3: Media Ponderada.
INFORMACIÓN

En este ejemplo se muestra cómo la ponderación de una media de medias, obtenida a partir de diferentes medias parciales arroja resultados totalmente distintos a los que se obtienen cuando no se sigue el procedimiento correcto. El autor del artículo no ponderó las medias y finalmente llegó a conclusiones erróneas. El cuadro se reproduce parcialmente: Estudio de índices de caries en piezas temporales antes de la vacunación y 10 meses después (Datos para el grupo vacunado) Edad en Años Cumplidos 3 4 5 6 Total Media Ponderada ceo: cariadas, extraídas, obturadas. D: pieza dentaria. S: superficie dentaria. Número de Niños 7 55 74 37 173 Noviembre de 1969 ceoD 0 3.5 4.71 4 3.05 3.98 ceoS 0 6.1 5.99 6.9 4.74 5.98 Septiembre de 1970 ceoD 0 4.56 5.34 4.32 3.55 4.66 ceoS 0 7.87 7.19 7.85 5.72 7.26

PROCEDIMIENTO

1. El autor cometió un error: simplemente sumó las medias parciales correspondientes a cada grupo de edad, por ejemplo (véase la columna de noviembre 1969, promedio de ceoD): 0 + 3.5 + 4.71 + 4 = 12.21

30 y luego dividió entre 4, que es el número de las medias parciales, sin tomar en consideración que cada una de estas estaba basada en un distinto número de observaciones: 12.21 / 4 = 3.05 obteniendo una media de medias incorrecta. Lo mismo puede observarse en las otras columnas. 2. El procedimiento correcto debió haber sido: primero multiplicar cada media parcial por su frecuencia (por el número de niños estudiados en cada grupo de edad) y luego dividir entre el total de niños, por ejemplo: [(7*0) + (55*3.5) + (74*4.71) + (37*4)] / 173 = 3.98 Obsérvese cómo los resultados correctos (medias ponderadas) difieren sustancialmente de los que el autor obtuvo.

n-1 el número total de las observaciones. . menos una (lo que se conoce en estadística como grados de libertad). La varianza es una medida de dispersión que toma en cuenta los valores de todas y cada una de las observaciones (xi). se pierde información. RANGO . se puede decir que los valores tienden a ser homogéneos. por el contrario. es común que estos valores extremos sean los menos estables. esto es. además. Por este motivo es la medida de dispersión de más amplio uso en la estadística. 2. s2) Y DESVIACIÓN ESTÁNDAR (F. Es una medida de dispersión que consiste en obtener la diferencia entre los valores de las dos observaciones extremas de una distribución. cercanos entre sí. que se modifiquen fácilmente.3. la forma más común de expresarla es: L donde s² es la varianza. E(x-0)2 es la suma de todas las diferencias entre cada observación y la media. se puede decir entonces que se trata de un conjunto de valores heterogéneos. s).31 MEDIDAS DE DISPERSIÓN . cada diferencia se eleva al cuadrado y luego se hace la suma. La varianza se obtiene de acuerdo a la siguiente fórmula: Ya que generalmente se trabaja con muestras. es decir. VARIANZA (F 2. 2. Una varianza grande significa simplemente una variabilidad mayor entre los valores de las observaciones. cuando una varianza es pequeña. pues el rango tiende a aumentar conforme aumenta el número de observaciones.4. porque no toma en cuenta la variabilidad que puede haber en las observaciones dentro de los dos extremos.xmín y es una medida poco utilizada. es decir la de mayor valor con respecto a la de menor valor: L Rango = x máx .

lo que dificulta su interpretación en términos del problema real estudiado.32 El que cada diferencia de las observaciones con respecto a la media se eleve al cuadrado. La desviación estándar se puede interpretar de la siguiente manera: a) se trata en realidad de un promedio de las desviaciones de las observaciones con respecto a su media. E(x-0). Por lo tanto. se cancelan los signos negativos y puede hacerse la suma. Los grados de libertad (n-1) se utilizan particularmente para el caso de muestras pequeñas (donde el total de las observaciones. es menor que 30). Si la principal ventaja de la varianza es que toma en cuenta la información provista por todas y cada una de las observaciones y que claramente puede entenderse como un "promedio" (la media aritmética) de las desviaciones respecto a la media. Existe una fórmula equivalente para obtener la varianza o la desviación estándar. 0 ± 3s incluye al 99% de las observaciones. su desventaja es que las unidades en que se expresa son las unidades originales elevadas al cuadrado (por ejemplo kg²). casi siempre es esta expresión la que se usa. se observan con mayor exactitud en muestras grandes y se discutirán en próximos temas. la cual puede utilizarse en caso de no contar con ningún instrumento electrónico (al menos con una . responde al hecho de que habrá observaciones mayores que la media (la diferencia será de signo positivo) y habrá otras menores que ella (la diferencia será de signo negativo). si se hace la suma de ellas. Estos valores corresponden a la "distribución normal" (ver el capítulo 3). c) el intervalo definido por: 0 ± 1s incluye al 68% de las observaciones. cm. pero como pueden ser utilizados también en muestras grandes (n > 30) sin afectar mayormente el resultado. n. ésta será siempre igual a cero. m² o lo que sea). 0 ± 2s incluye al 95% de las observaciones. b) su magnitud está en términos de las unidades en que se mide la variable (kg. son aproximados. la cual nos permite interpretar fácilmente la magnitud de la variabilidad en términos de las unidades originales (por ejemplo kg). al elevarlas al cuadrado. Esta cuestión puede resolverse sencillamente obteniendo la raíz cuadrada de la varianza: L Esto es la desviación estándar.

No se presentan aquí. además de otra para datos agrupados.33 calculadora con funciones estadísticas). . pues cada día pierden más su utilidad.

2 16.31 = 1.8 12.3 13.2: CASO 1 2 3 4 5 6 7 8 9 10 Hb (mg/100 ml) 14.14 mg de Hb /100 ml 3.7 13. Obtenga la desviación estándar: s =/[E(x .4 17. Identifique y obtenga los datos necesarios: n = 19 (total de individuos observados).56 2.4: Obtención e Interpretación de la Desviación Estándar (s).9 14.9 14. entonces se tendría que: 14.7 CASO 11 12 13 14 15 16 17 18 19 Hb (mg/100 ml) 13.5 PROCEDIMIENTO 1.56 / 18] = /1.0 15.68 ± 1. 0 = 14.7 15.0)i2 / (n-1)] = /[23.1 13.4 15. INFORMACIÓN Se utilizarán los mismos datos del ejemplo 2.34 Ejemplo 2.7 15.5 14. Obtenga el intervalo: si el intervalo medido por 0 ± 1s incluye al 68% de las observaciones.9 13.5 16.68 mg/100 ml (del ejemplo 2.4 14.0)i2 =23.14 .4 13.2) E(x .

caigan dentro del intervalo y siete fuera de él. Al revisar los datos se puede verificar que el resultado es el predicho. se puede esperar que trece observaciones (68%).35 define un intervalo que está entre 13.54 mg/100 ml (como límite inferior. que resulta de sumar una desviación estándar a la media).82 mg/100 ml (límite superior. . que resulta de restar una desviación estándar a la media) y 15. Con esto. de un total de diecinueve.

lo que se obtiene es simplemente un porcentaje. lo que interesa es conocer la frecuencia con que se presenta cierta característica en relación con el total de observaciones (n). esto es la proporción (B.36 RAZONES Y PROPORCIONES . VARIABLES CUALITATIVAS. Para el caso de estas variables. 2. Cuando se trata de las cualitativas. Las medidas descritas anteriormente son aplicables sólo a variables cuantitativas. Nótese que si se multiplica p por 100.5. el valor de la varianza se obtiene por: y el de la desviación estándar por: L Por supuesto que las fórmulas correspondientes para p son: y L . p): Lp=r/n En donde n es el número total de observaciones y r es el número de observaciones con la característica de interés.

por lo que p nunca podrá ser mayor que 1 ni menor que 0. la cual se denomina q. no todos los porcentajes son proporciones. entonces r no puede ser mayor que n. ejemplo 2. es decir.5). y que representa la proporción de observaciones que no tienen la característica buscada y entonces p + q = 1 (la proporción de las observaciones que tienen la característica buscada. aunque todas las proporciones pueden representarse como porcentajes. más la proporción de las que no la tienen es igual al 100 por ciento.37 Puede verse que si r es el número de observaciones con la característica buscada y n es el total de observaciones. Existe una proporción complementaria de p. . Por esto mismo. no puede haber más del 100 por ciento de observaciones ni menos que el 0 por ciento con la característica buscada.

3148 ó 31.0. INFORMACIÓN Los datos corresponden al ejemplo 2. la proporción de mujeres con paridad igual a 1.38 Ejemplo 2.6852 ó 68.1. r = 17 mujeres con paridad igual a 1.52% Nótese que p+q=1 esto es 0.5: Obtención de una Proporción. por ejemplo.6852 = 1 ó 100% . entonces: 1.3148 + 0.48% Proporción de mujeres con paridad distinta a 1: q=1-p = 1 . Obtenga p y q: Proporción de mujeres con paridad igual a 1: p = r/n = 17/54 = 0. 2. PROCEDIMIENTO Si se desea obtener. Identifique los datos necesarios: n = 54 mujeres (el total estudiado).3148 = 0.

como el concepto de probabilidad se refiere a una larga serie de observaciones. como tal. del estudio de la estadística.1. sobre todo si se intenta establecer una base filosófica y matemática para los enunciados de la probabilidad.. Bioestadística. .. México. "El estudio de la teoría de la probabilidad puede convertirse en una de las experiencias más desesperantes. no puede tomar valores menores que 0 ni mayores que 1 (véase el capítulo 2. Hay muchas razones para ello.1 Este problema es el que. igual a 1 (o 100%. En nuestro caso.". Axioma 2 de Kolmogorov): p+q=1 Si descomponemos la probabilidad total (1) en las probabilidades de cada resultado posible (y si estos son mutuamente excluyentes). pero que proporcione los elementos indispensables para entender las bases estadísticas.. Una definición sencilla de probabilidad puede ser: la proporción de veces que un suceso (o un resultado) ocurre en una larga serie de observaciones. Siendo la probabilidad de que un resultado no ocurra (q): q = (1 . para distinguirlo del análisis formal) y muy elemental. estamos hablando de una distribución de probabilidades (por ejemplo. (1980).p) La suma de todos los resultados posibles es la probabilidad total. la probabilidad de que en un grupo de individuos encontremos algunos con presión sistólica mayor que 140 mmHg. más la probabilidad de que encontremos individuos con presión sistólica entre 90 mmHg y 140 mmHg. particularmente a quienes no buscan ser especialistas en el campo. Finalmente.39 CAPÍTULO 3: DISTRIBUCIONES DE PROBABILIDAD (BINOMIAL Y NORMAL) 3. más la probabilidad de encontrar individuos con presión menor que 90 mmHg es igual a 1. El primer elemento de esta definición plantea a la probabilidad como una proporción (p) que. Axioma 3 de Kolmogorov). la veremos de manera intuitiva (como se dice en la jerga matemática. con mucha frecuencia aleja. Ed. aunque este sea un error en el que se incurre 1 Duncan RC et al.. CONCEPTO DE PROBABILIDAD . Interamericana. a esto se le conoce como el Axioma 1 de Kolmogorov). no puede definirse para un caso particular.

por lo que se les conoce como "simulaciones Monte Carlo". la probabilidad de que el primero escogido sea hombre es de 7/27 o 0. Por ejemplo. ya que las reglas para su cálculo y su importancia para el análisis estadístico son distintas en cada caso. pero si recordamos que este último puede atribuirse a un individuo. Por ejemplo. . un mayor riesgo de que su hijo resulte con síndrome de Down que una mujer de 25 años de edad que se embaraza. de tener un hijo con el síndrome. tenemos dos tipos: las condicionales y las independientes. pues esta sólo se aplica a un conjunto de mujeres con las mismas características. Este es el tipo de probabilidad con el que se trabajará en este manual. se recurre a las facilidades que brindan los actuales recursos electrónicos. Dentro de las probabilidades. si en una muestra de 27 pacientes. pero no podemos decir que tiene una probabilidad dada. se desarrollaron distintos modelos matemáticos para estimar la probabilidad. También se confunde con el concepto de riesgo. tanto en la vida diaria como en asuntos especializados (por ejemplo.40 comúnmente. Por ejemplo. de los cuales 7 son hombres (ejemplo 1. Cuando la probabilidad no puede ser derivada de modelos matemáticos. llevando a cabo experimentos simulados. basado en esta idea de la observación de frecuencias. La probabilidad condicional es aquella en la que se define la probabilidad de que ocurra un resultado B dado que un resultado A ya ha ocurrido. Estas simulaciones producen resultados aleatorios. en el consejo genético o en el pronóstico de una enfermedad para un paciente). no siempre es posible o deseable dado que requiere de pruebas repetidas de un mismo fenómeno. pero la probabilidad de que el segundo también sea hombre es de 6/26 o 0. Su distinción es importante. dado que el primero fue hombre? Por su parte. Pero al incrementase el número de series (de pruebas o de experimentos) la probabilidad tiende a estabilizarse. entonces se puede hacer la distinción. ella como individuo. la probabilidad de padecer psoriasis es independiente del sexo de los pacientes.1). los cuales pueden repetirse en múltiples ocasiones.23 siendo la pregunta: ¿cuál es la probabilidad de que en esta muestra el segundo seleccionado sea hombre. Por ello. podemos decir que una mujer de 45 años de edad que se embaraza tiene. en su forma más simple está ejemplificada por el uso de los números aleatorios. como se verá en el capítulo 4. como dentro de una misma serie conforme aumenta el número de las observaciones. ella como individuo. El cálculo de la probabilidad. en la probabilidad independiente. nombre tomado del famoso casino en Mónaco. al igual que a una pluralidad de individuos.26. tanto con cada serie de observaciones (de una serie a otra). la distribución de probabilidades de una variable es la misma para todos los valores de otra variable. Debe considerarse que la frecuencia con que se presente un resultado tiende a variar. Esta simulación.

y . la probabilidad total): 1er Hijo m m f f Total 2º Hijo m f m f ¼ ¼ ¼ ¼ 1 Probabilidad ¼ ½ ¼ 1 0. existen familias en las que predominan los hijos hombres y otras en . en una razón aproximada de 103 a 105 hombres por cada 100 mujeres y que mueren más hombres que mujeres.5).de que ambas sean mujeres es también de ¼ (o 0. estudiáramos la probabilidad de que esos hijos fueran de uno u otro sexo. pero se tomará así con fines de ilustración del tema).la probabilidad de que los dos hijos sean varones es de ¼ (1 de los 4 posibles resultados).41 3.5.25.de que sean de distinto sexo. . la probabilidad de que sea del sexo femenino es p(f) = 0. De esa distribución se puede construir una distribución de probabilidades en la que: . DISTRIBUCIÓN BINOMIAL . podríamos encontrar los siguientes casos posibles: 1er Hijo m m f f m: masculino f: femenino 2º Hijo m f m f donde la probabilidad de que un hijo cualquiera sea del sexo masculino es p(m) = 0.25 1 Nótese que dentro de una familia en particular. es decir. el sexo de los hijos no necesariamente es independiente. y en consecuencia.5 (aunque esto no es totalmente cierto. pues se sabe que nacen más hombres que mujeres. Si en una población de familias. cada una de ellas con dos hijos. es de ½ (o 0. Lo que hace un total de 1 (o 100 por ciento.5 0.2.25). o sea 0.25 0. sin importar el orden.

42 las que predominan las hijas mujeres.125 37470 0.375 Probabilidad 37468 0. La probabilidad de que ambos sean varones.125 .m) = p(m) * p(m) = 0. resulta de multiplicar la probabilidad de cada uno: p(m.375 37470 0.5 * 0.5 = 0. p(m.m). tendríamos la siguiente distribución: 1er Hijo m m m f m f f f 2º Hijo m m f m f m f f 3er Hijo m f m m f f m f 37468 37468 37468 37468 37468 37468 37468 37468 37468 0. por lo que la distribución de probabilidad sería: p(m)p(m) + p(m)p(f) + p(f)p(m) + p(f)p(f) es decir: p(m)² + 2p(m)p(f) + p(f)² = 1 y si representamos a p(m) como p y a p(f) como q entonces: p² + 2pq + q² = 1 lo que es igual a: (p + q)2 = 1 Si se tratase de familias cada una con tres hijos.25 y lo mismo cabe para los otros casos. Pero en la población de familias (en una larga serie de observaciones) se verá una tendencia al equilibrio.

encontremos familias en que 2 de ellos sean del sexo masculino (r = 2). Se debe notar que cualquier expresión del binomio (p + q) es siempre igual a 1. es: n! = 3! = 3*2*1 = 6 . sin importar el orden en que se presentan. por supuesto. En tales circunstancias se utiliza el siguiente modelo: L Donde p(r) es la probabilidad de que se presenten r resultados con la característica de interés.5). siendo que la probabilidad de que un hijo cualquiera sea del sexo masculino es de 0. por ejemplo. Cuando el valor de n crece. B es la probabilidad previamente definida.5 (B = 0. podríamos seguir definiendo las probabilidades de ocurrencia para cualquier fenómeno (variables cualitativas y variables discontinuas) de cualquier magnitud. Así.43 Total donde tendríamos: p(m)3 + 3p(m)²p(f) + 3p(m)p(f)² + p(f)3 = 1 es decir: p3 + 3p²q + 3pq² + q3 = 1 lo que es igual a: (p + q)3 = 1 De esta manera. inapropiada puesto que el número de resultados posibles es cada vez más grande. esta forma de cálculo resulta. la probabilidad de que en familias de 3 hijos (n = 3). n! es el factorial de n. esto es: ( P + Q) = 1 N 1 1 1 lo que representa la probabilidad total.

pero si lo observado es de alguna manera parecido a lo teórico. La distribución normal (originalmente desarrollada por Abraham de Moivre (1667 . En realidad.375 el mismo resultado que observamos en el cuadro arriba. Esta distribución de probabilidades.m.1). pero consideramos que con esto se puede tener una idea suficiente para los propósitos de este manual.44 r! = 2! = 2*1 = 2 (n-r)! = (3-2)! = 1! = 1 6 p(m. que generalmente se representa por la letra x. 3. resulta inútil señalar la probabilidad para un punto preciso de la escala (por ejemplo.m. sus fundamentos matemáticos son mucho más complejos que lo presentado aquí.f) = 3 * 0. originalmente fue ideada para dar cuenta de sucesos como eran las oportunidades de tener éxito en los juegos de azar.5 = 0. por lo que en la práctica no encontraremos nunca un grupo de observaciones que lo sigan exactamente.25 * 0.3. Como características generales de la distribución normal. de aquí viene la tan arraigada costumbre de que en muchos libros de estadística se le ilustre con ejemplos de ésa clase (juegos de dados. En la escala de medición de este tipo de variables. entonces se justifica su utilización (véase la gráfica 3. la probabilidad de . es entonces un modelo inductivo. p(m.f) = _____ 52 * 0.1754) y publicada por él mismo en 1733) es una distribución de probabilidades que se desarrolló con propósitos menos triviales que la binomial.53-2 2 * 1 0. DISTRIBUCIÓN NORMAL . En realidad. etc. constituye una representación idealizada de la realidad.1. de baraja. podemos señalar las siguientes: a) Es una distribución de probabilidades de una variable continua. propuesta alrededor del siglo XVII. Como todo modelo. es un modelo matemático de algunas distribuciones encontradas en la observación de distintos fenómenos.). Gráfica 3.

2). y µ ± 2.3).58F contiene al 0. la mediana y la moda tienen el mismo valor (véase la gráfica 3. más bien se habla de la probabilidad referida a un intervalo de esa escala (por ejemplo. d) Siendo una distribución de probabilidades. por lo que la media. el área total bajo la curva representa a la probabilidad total (la cual es igual a 1).96F contiene al 0. con altura máxima en el valor correspondiente a µ (véase la gráfica 3. la media aritmética la divide en dos partes iguales. Por esa misma razón. e) La probabilidad (área bajo la curva) entre los límites del intervalo definido por: µ ± 1F contiene al 0. . en la curva normal la media. b) La curva de la distribución normal tiene forma de campana.5 a cada lado de ella. µ ± 1. Sin embargo la curva es asintótica.2. c) La curva de la distribución normal es simétrica alrededor de µ y por lo tanto. ya que el número de valores posibles entre dos puntos de una escala continua es infinito).2). al dividir la distribución en dos partes iguales.68 (68 por ciento) del área bajo la curva.45 encontrar individuos con una talla de exactamente 172 cm en una población dada. la probabilidad de encontrar individuos con una talla entre 170 y 174 cm). Gráfica 3.2).95 (95 por ciento) del área bajo la curva.99 (99 por ciento) de área bajo la curva (véase la gráfica 3. es prácticamente nula. por lo cual nunca se puede determinar la probabilidad absoluta (véase la gráfica 3. deja dos áreas con valor de 0.

sin embargo. llamado curtosis. al modificarse la media se modifica la posición de la distribución en la escala.46 Gráfica 3.4. por ello también se le conoce como medida de posición. . Debe recordarse que en el capítulo anterior se dieron unos valores aproximados. que pueden ser utilizados en estimaciones rápidas. f) La curva de distribución normal está determinada por dos valores: µ y F (véase la gráfica 3. que tenga una distribución. Gráfica 3. La media define el lugar que ocupa una distribución en la escala. los que ahora mostramos son los que se usan para la presentación de resultados y su análisis. es decir. Estos valores han sido definidos a través de cálculo integral.4).3. mientras que la desviación estándar determina el grado de apuntamiento.

n: número de observaciones B: 3. aun cuando tienen la misma media.14159. se observa que las tres distribuciones son muy distintas unas de las otras. Se pensó entonces en construir una distribución modelo que pudiera ser aplicada en todos los casos: esta es la distribución normal estándar. exp: es el número e (2.71828. como se verá en capítulos posteriores. la curva se aplana y se vuelve platocúrtica. base de los logaritmos naturales (ln) elevado a la potencia señalada.).47 Aquí se puede ver que al variar la F.. alejados de la media). pero si los valores son muy distintos entre sí (heterogéneos. como con F 3. En la actualidad. En un inicio (siglo XVIII).. y si por acaso se modificaba. . por lo que podemos concluir que para la correcta descripción de una distribución siempre deberán referirse tanto las medidas de tendencia central como las de dispersión. este modelo debía ser aplicado para "normalizar" las observaciones y obtener los valores de la probabilidad (área bajo la curva) para la observación de un suceso. se necesita conocer la curtosis y el sesgo (grado de asimetría) de esta última. con los programas de computadora disponibles. Para saber si la aplicación de la distribución normal es adecuada para una distribución observada.. en la cual se trata de determinar la distribución de una variable imaginaria. Diferencias importantes impiden que se lleven a cabo análisis más avanzados. µ: media aritmética de la distribución. es decir. el tamaño de la muestra o alguno de los valores. pues para cada tamaño de muestra (n) y para cada valor de la variable (x) había que realizar las operaciones necesarias. como en F 1. F 2: varianza de la distribución. x: valor de una observación sobre el eje de las abscisas. aunque fuera un poco. leptocúrtica. En siglos anteriores. quiere decir que los valores de las observaciones tienden a parecerse entre sí (son homogéneos y están cerca de la media) y la curva se vuelve muy apuntada. esto resultaba ser un problema de considerable magnitud. lo hecho anteriormente ya no era útil (en la actualidad los medios electrónicos lo han resuelto por completo).. es fácil obtener estas mediciones y determinar si lo observado se aleja o no de manera considerable de una distribución normal. g) La distribución normal está descrita por: L Donde y es el valor que toma el eje de las ordenadas. Además. La curva normal (F 2) queda enmedio de las otras dos y se le conoce como mesocúrtica. el grado de apuntamiento o curtosis se modifica: si la F es pequeña.

f) Ahora que ya se tenía una distribución (distribución normal estándar. Por otro lado. pues si F = 1. cuyo valor es 0. sólo restaba aplicarla a cualquier distribución empírica. b) En el modelo de la distribución normal arriba descrito. de naturaleza teórica). entonces cuando z = 1= F. y la desviación estándar es igual a 1. se determinó el área bajo la curva para distintos intervalos de la distribución de esta variable imaginaria z (véase la tabla 1 del Apéndice). c) Pero como los valores de n podían cambiar. la diferencia con respecto a µ en unidades de desviación estándar. d) Pero como ya no se trataba de la distribución de una variable observada. Con esto se simplificó considerablemente el modelo anterior. sino de una distribución imaginaria. 1. una desviación estándar igual a 1 simplificaría cualquier operación. la media estaría en el origen de los ejes. cuyas áreas bajo la curva (probabilidades). el problema persistía. habiendo valores de la variable mayores que ella. El razonamiento de lo anterior consiste en lo siguiente: a) Se imaginaron una distribución normal en la cual la media (µ) siempre es igual a 0. así. en lugar de la variable observada x. la probabilidad total. ya no se estaba hablando de la variable x. L e) Una vez hecho lo anterior. también se omitió). para distintos intervalos. por lo que no tenía caso conservarla en la ecuación. Pero la pregunta es ¿cómo se puede lograr esto? g) Hay que tomar en cuenta que la variable z está expresada en unidades de desviación estándar. Por . Este valor era el área total bajo la curva.48 identificada como z. y que siempre tiene una µ = 0 y una F = 1. hicieron las sustituciones correspondientes (como F = 1. mientras que las diferencias de los valores menores que la media serían negativas. eran conocidas. entonces también F 2 = 1. En otras palabras. La media sería 0 porque. por lo que le dieron otro nombre: z. y se pudo definir la probabilidad bajo la curva para cada valor de z (véase la tabla 1 del Apéndice). z expresa el alejamiento. como la µ = 0. por lo que pensaron en algún valor que pudiera ser de aplicación general. las diferencias de aquéllos con respecto a ésta resultarían positivas. observada. es decir.

y si esta diferencia la relacionamos con F podremos ver qué distancia hay de x respecto a µ en unidades de F . donde p(m=r) es la probabilidad de tener r hijos del sexo masculino: n=2 p=0.125 0. APROXIMACIÓN DE LA DISTRIBUCIÓN BINOMIAL A LA NORMAL .25 1 p 0. se obtuvieron los siguientes resultados (inciso 3.4. es decir. el área total contenida en ellos es la misma: 1.5 p(m=0) p(m=1) p(m=2) Total n=3 p=0. Sin embargo.125 1 Si esto se representa en histogramas.25 0. 3. si tomamos la diferencia de alguna observación x con respecto a µ.5 p(m=0) p(m=1) p(m=2) p(m=3) Total p 0. o sea la probabilidad total: .375 0.2).375 0.1). L Así. en la primera situación se observarían tres rectángulos y en la segunda cuatro. se hizo el trabajo una única vez y para siempre: la probabilidad entre dos valores observados (x1. x2) puede encontrarse por la probabilidad entre z1 y z2 (véase el ejemplo 3.5 0. En el caso de la distribución de probabilidades en cuanto al sexo de los hijos en familias de dos o tres.49 consiguiente. en valores de z. No es extraño que se desconozcan los valores de µ y de F por lo que en su lugar deberán usarse los de la muestra.

3125 0.50 Si tomásemos familias con cinco hijos. al sumarlos. la misma probabilidad total: n=5 p=0.5 p(m=0) p(m=1) p(m=2) p(m=3) p(m=4) p(m=5) Total p 0.15625 0.0313 0.15625 0.3125 0.0313 1 . el número de rectángulos (de posibles resultados) será mayor (y cada vez mas estrechos) pero contienen.

pero nunca llegará a ser continua. pues la probabilidad total. podemos aplicar lo que sabemos de la normal a la binomial.10937 0. cada vez más estrechos. siempre igual a 1.27344 0.0313 0.004 1 En otros fenómenos el número de posibles sucesos (n) puede ser más grande.21875 0.10937 0. debe distribuírse en cada ocasión en una mayor cantidad de resultados posibles: n=8 p=0. Sin embargo. Si la cantidad de ocurrencias posibles es grande. .51 Con familias de 8.21875 0. la distribución binomial va tomando una forma parecida a la distribución normal.0313 0.004 0. la distribución de probabilidades tendría aún una mayor cantidad de rectángulos.5 p(m=0) p(m=1) p(m=2) p(m=3) p(m=4) p(m=5) p(m=6) p(m=7) p(m=8) Total p 0. entre mayor sea n más semejante será aquella a esta.

antes del uso generalizado de los instrumentos electrónicos.52 Las probabilidades extremas no se observan en la gráfica por ser muy pequeñas. Debido a esta característica de la distribución binomial. a través de la cual se obtiene la puntuación z para conocer la probabilidad de un suceso binomial. y nB las de la media. mientras que el denominador es la desviación estándar (véase el capítulo 2). o una discontinua. con un modelo para variables continuas pues. de no hacerlo. Sin embargo. dado que estamos tratando una variable cualitativa. . usando la tabla 1 del Apéndice podemos encontrar la probabilidad correspondiente. y para evitar el cálculo complejo de probabilidades que suponía. en lugar de B se utiliza el valor de p (cuando tratamos con muestras). donde: Nótese que r hace las veces de x. se ha utilizado lo que se conoce como aproximación de la distribución binomial a la normal. Después de lo cual. las estimaciones tendrán un considerable margen de error: L en ocasiones. es necesario echar mano de lo que se conoce como corrección por continuidad.

significa que el área bajo la curva por encima del valor de z = 1.15. este tipo de conversiones no son necesarias para el cálculo de probabilidades.5.00357 0. En la actualidad.5. .1260.06.5) = 1.3 p(7) p(6) p(5) p(4) p(3) p(2) p(1) p(0) Total p 0.22689 0.06 lo que de acuerdo a la tabla 1. de acuerdo a la distribución binomial. véase que si se utiliza la distribución binomial en el caso de las familias con 8 hijos. ya que de no ser así la distribución binomial deja de ser simétrica y se aleja de la normal.31765 0.08235 1 En este caso. pero es conveniente tenerlas en mente porque se utilizan para análisis que posteriormente se abordarán y que no permite hacer la distribución binomial.5*0.14452 (usando la distribución binomial).00022 0.53 Como ejemplo de la aproximación. que puede ser importante de acuerdo al problema de que se trate en la realidad. la probabilidad de que 6 o más sean varones es igual a 0. tendremos que z = 1.3: n=7 p=0. es igual a 0. entonces: Z = [(6-0.09724 0. Mientras que si utilizamos la aproximación. la probabilidad de que cuatro o más individuos tengan la característica buscada sería igual a 0. Dos requisitos son indispensables para aplicar esta aproximación: a) El número de observaciones (n) debe ser grande. y la probabilidad resultante es igual a 0.5) .025 0.5)] / /(8*0. Véase el caso cuando p = 0. pero que será mayor conforme p se aleja de 0.24706 0.1446. con un cierto margen de error. si obtenemos el valor de z. b) La proporción estudiada debe estar cercana a 0.(8*0. con los medios electrónicos disponibles.1251. debido a que la distribución pierde la simetría (está sesgada). lo que resulta prácticamente igual a lo obtenido con la distribución binomial.

0. Puede verse que cuando p = 0. si es mayor.9).5. las distribuciones empiezan a presentar un sesgo.54 En la gráfica siguiente se tienen cuatro distribuciones. . el cual es mayor conforme la probabilidad se aleja más de 0.1.5. 0.5. Las probabilidades extremas no se observan en la gráfica por ser demasiado pequeñas. pero al modificarse la probabilidad.5 (si la probabilidad es menor que 0. basadas en distintas probabilidades (0. el sesgo es negativo). la distribución es simétrica. el sesgo se hace positivo.7 y 0.

¿Qué proporción de estos pacientes esperaría encontrar con a) una presión sistólica menor que 120 mmHg? b) una presión sistólica mayor que 160 mmHg? c) una presión sistólica menor que 145 mmHg? d) una presión sistólica entre 100 y 110 mmHg? e) ¿Por encima de qué nivel de presión sistólica estaría el 2. que su presión sistólica media era de 136. Encuentre las áreas pedidas: para esto.0 mmHg s = 23.1: Determinación del área bajo la curva (probabilidad).68 b) En este caso x = 150. con una desviación estándar de 23. después de su recuperación y de un tratamiento especial seguido durante 3 años.6 = -0.6 = 24 / 23. INFORMACIÓN En un grupo de pacientes que habían sufrido infarto al miocardio se encontró.6 = 1.6 = -16 / 23.136) / 23. por lo que z = (120 .3% de pacientes con presión mas alta? PROCEDIMIENTO 1. por lo que z = (160 .136) / 23. Identifique los datos básicos: 0 = 136.02 .6 mmHg.55 Ejemplo 3. hay que convertir los valores de la variable observada (x) en valores de la variable z.0 mmHg.6 mmHg 2. a) En este caso x = 120.

si es positivo.B. se busca en la primera columna de la tabla el valor 0. las otras columnas (0 a 9) corresponden al segundo decimal de z (generalmente.2518 (o al 25. 3. a) si z = -0.18% del total del área bajo la curva). los valores enteros y el primer decimal. Encuentre el Área Bajo la Curva que está entre el Valor de y de z: en la primera columna de la tabla 1 del apéndice se muestran. es decir.6. Gráfica A Sin embargo. la proporción de los pacientes con una presión sistólica menor que 120 mmHg: Gráfica B . La tabla nos muestra que el área bajo la curva que está entre µ = 0 y z = 0. la tabla 1 del apéndice únicamente muestra los valores positivos.68. encabezados por la letra z .68 equivale a 0. z sólo para dos decimales. lo que interesa es el área que se encuentra por debajo de z = -0. en esa fila se busca el valor correspondiente a la columna encabezada por el número 8 (segundo decimal de z. el valor se encuentra a la izquierda de la media (el valor en cuestión es menor que la media). a la derecha (es mayor que la media).56 N. si es negativo. Como la curva es simétrica.: el signo negativo o positivo de z indica solamente el lado de la curva en el cual se está trabajando.68.

el procedimiento que se sigue es el mismo.02.02 es 0. es decir.5 .02.82%. si se sabe que el área a cada lado de la media es igual a 0. La tabla indica que el valor del área bajo la curva entre µ = 0 y z = 1.0 y luego el valor indicado en esa misma fila para la columna encabezada por el número 2. b) Si z = 1.2518 = 0. Se busca en la tabla la fila donde z = 1.2482 La respuesta es que la proporción de individuos que se espera encontrar con una presión sistólica menor que 120 mmHg es 0. la proporción de los pacientes con una presión sistólica mayor que 160 mmHg: .3461: Gráfica D Pero lo que interesa es el valor del área por encima de z = 1.57 Entonces.2482 o 24.5 (o al 50%): Gráfica C simplemente se resta a este último valor el área obtenida en la tabla: área buscada = 0.0.

39%.5 . Suponiendo que esta proporción pueda tomarse como referencia para otros casos.3461 = 0. que es la interrogante. note que se debe proceder en sentido inverso (primero. Ejemplo 3. Identifique la información básica: n = 100 pacientes tratados con warfarina y que sufren hemorragias graves . En 24 de ellos. c) Encuentre las respuestas a las otras preguntas. En la última. encontrar el valor de z y después el de x.2: Aproximación de la Distribución Binomial a la Normal. estas fueron gastrointestinales. sufran de hemorragia gastrointestinal? PROCEDIMIENTO 1.1539 o 15.1539 La respuesta es que la proporción de pacientes que se puede esperar encontrar con una presión sistólica mayor que 160 mmHg es 0. INFORMACIÓN En 65 pacientes tratados con warfarina (anticoagulante que se utiliza para prevenir tromboembolias). se produjeron hemorragias graves.0.58 Gráfica E y al igual que anteriormente: z = 0. ¿cuál es la probabilidad de que en una muestra de 100 pacientes con hemorragia grave debida al tratamiento con warfarina.

8259 = 0. . Obtenga el valor correspondiente de z: z = [(r-0.5) .3692*0. tenemos que el valor del área desde la media hasta z = 0. Busque la correspondiente área bajo la curva: En la tabla 1. Como el área que se pide es la que queda por encima de este valor. y que se toma como referencia 2.2019.3692.3692) / /[100*0. entonces: 1 .58 / 4.53 3.81 por ciento tengan hemorragia grave gastrointestinal. se puede esperar que 79.5)(100*0.289 = 2.0.(nB)] / /[nB (1-B)] por lo tanto z = (40-0.2019 = 0.7981. por lo que se concluye que de estos 100 pacientes. proporción obtenida en el estudio mencionado.59 r = 40 pacientes de los anteriores que sufren hemorragia gastrointestinal B = 24/65 = 0.6308] = 2.58 / /23.53 es: 0.

60

CAPÍTULO 4: MUESTREO Y DISTRIBUCIONES DE MUESTRAS
4.1. POBLACIÓN Y MUESTRA . En estadística, la población es un agregado o conjunto de observaciones que poseen ciertas características en común, definidas de acuerdo a los intereses de una investigación. Este concepto de población se diferencia del que se tiene en la epidemiología o en la demografía, en las cuales se habla de conjuntos de personas. En el lenguaje estadístico, la población puede ser referida a individuos, pero también a agregados de ellos (por ejemplo, una población de familias o una población de localidades), o a agregados de características (por ejemplo, una población de presiones arteriales o una población de retinas). Cuando la investigación incluye el estudio de toda la población se habla de un censo; si únicamente se escoge una parte (n) se hace referencia a una muestra. El objetivo de esta última no es, como en ocasiones se cree, conocer lo que sucede en la muestra misma, sino obtener información que posteriormente pueda ser generalizada a la población de la cual esa muestra procede. Esto se conoce como estadística inferencial. Debido a que al tomar una muestra se estudia sólo parte de la población, las conclusiones que de ella se obtengan siempre tendrán un grado de error; entonces, ¿por qué llevar a cabo un muestreo y no un censo?: a) porque con frecuencia se trabaja con poblaciones infinitas y por lo tanto no es posible llevar a cabo un censo, puesto que la población siempre estará cambiando y en consecuencia no se podrá determinar el número total de sus elementos. Ejemplo de ellas es el grupo de pacientes que requiere de un tratamiento particular, porque siempre habrá aquellos que dejen de necesitar el tratamiento (ya sea porque se curaron o porque fallecieron) y otros que ingresan al grupo porque han adquirido la enfermedad; b) porque al trabajar con una población finita (aquella en la cual el número de elementos puede ser definido) esta resulta demasiado grande o bien se desea ahorrar trabajo, tiempo y costos. c) o bien, aunque en ocasiones se está en capacidad para levantar un censo y se cuenta con los recursos suficientes, al tomar una muestra parte de esos recursos puede ser mejor aprovechada en la indagación de otros problemas o en ahondar en ciertos aspectos del asunto central. En cualquier caso, al tomar una muestra tenemos las siguientes: a) Ventajas: ahorro en trabajo, tiempo y costos; capacidad para entrenar a un número conveniente de observadores bien calificados que recaben los datos de manera más confiable. b) Desventajas: se pierde precisión. En realidad lo que hacemos es reemplazar una afirmación absoluta con respecto a la población por una aproximación (el término estadístico es estimación).

61 Al obtener una muestra, se desea conocer una de dos cosas: a) el valor medio (µ) de alguna medida, o b) la proporción (B) de la población con alguna característica. Pero, como se dijo arriba, ya que sólo se ha estudiado a una parte de la población y no a toda ella, las estimaciones tendrán un grado de error. En otras palabras, nunca se podrá esperar que las estimaciones muestrales sean iguales a los valores reales, o parámetros, en la población (0 = µ; p = B), si acaso serán aproximadamente / / iguales. De hecho, si los valores obtenidos a partir de una muestra fuesen los mismos que los de la población, no lo sabríamos, pues desconocemos estos últimos, lo cual es el motivo del estudio. Es importante reconocer que al tomar una muestra pueden existir dos tipos de errores: a) El error aleatorio (error de muestreo, error experimental) que surge debido al hecho mismo de que estamos observando precisamente a una parte de la población y no al total. Este tipo de error tiene dos importantes características: conforme aumenta el tamaño de la muestra (n), el error disminuye (en un censo no hay error de muestreo); y además puede ser medido. b) El error no aleatorio (error sistemático), que se debe a la introducción de sesgos en la selección de la muestra, el cual constituye un descuido o una tendencia por parte del observador, aunque también se puede deber al sujeto observado. Este tipo de error no disminuye al aumentar el tamaño de la muestra (no desaparece ni aun cuando se levanta un censo) y no puede ser medido. Dadas las características de ambos tipos de error, es importante reducir el primero y saber evitar el segundo. Ello dependerá de la forma en que las unidades muestrales sean seleccionadas. Aquí se tratarán únicamente los aspectos relacionados con el error de muestreo, los errores sistemáticos son motivo de estudio metodológico más que estadístico. Una de las preocupaciones más frecuentes cuando se toma una muestra, es que esta sea representativa de la población de la cual procede, esto es, que de alguna manera refleje adecuadamente las características de la población. Algunos autores prefieren no referirse a este término por las dificultades implícitas que plantea. En todo caso la única manera de "asegurar la representatividad" consiste en la toma de una muestra aleatoria. Es decir, lo importante en el muestreo es la forma en que se ha llevado a cabo. La selección aleatoria se basa en que cada una de las unidades muestrales tiene la misma oportunidad de ser elegida. Para ello, antiguamente se utilizaban las tablas de números aleatorios que aún contienen los libros de estadística (véase la tabla 2 del Apéndice); actualmente es fácil auxiliarse de distintos recursos electrónicos como son las calculadoras científicas de bolsillo o distintos programas de cómputo.

62 El uso de esta tabla es sencillo: en primer lugar se decide la cantidad de dígitos que han de formar los números que se seleccionarán; por ejemplo, si la población de la cual se ha de extraer la muestra está constituida por 500 elementos, se requiere de tres dígitos, por lo que se numerarán desde 001 hasta 500; se decide de antemano el sentido en el que se ha de leer la tabla (de izquierda a derecha, de derecha a izquierda, de abajo hacia arriba, o cualquier combinación que se desee); se escoge al azar el punto de inicio en la tabla y se procede a seleccionar los números. Con instrumentos del tipo de las calculadoras científicas de bolsillo se siguen los mismos principios. Por lo general, estas calculadoras tienen una tecla ("random" o algo similar) que produce números en el formato de tres decimales. Tales números son "semialeatorios" pues son producidos a partir de un número "semilla". De cualquier forma, es necesario definir de antemano cómo habrán de ser utilizados los resultados. Algunos programas de cómputo, como Excel ©, pueden producir números aleatorios con una amplia variedad de controles por parte del usuario. Como alternativa a la selección aleatoria existe la selección regulada, donde el investigador escoge unidades muestrales típicas del fenómeno estudiado. Este tipo de muestra, aunque en ocasiones proporciona resultados más precisos en el estudio de ciertos fenómenos (por ejemplo, alguna enfermedad) tiene la desventaja de que no permite medir el error de muestreo, no permite hacer estudios comparativos y está sujeta a la posibilidad de sesgos muy importantes. Otro tipo de selección es la sistemática, en donde se toman las unidades muestrales que se encuentran a cada determinado número de elementos que integran el universo (por ejemplo, cada tercer paciente). Esto puede hacerse únicamente si el número de elementos seleccionados es grande y la homogeneidad entre ellos no es importante para el estudio. Además, se puede "aleatorizar" al dejar al azar el número que resulte como punto de partida. En lo subsecuente se supone que se hablará siempre de muestras aleatorias las cuales, además, pueden ser de diferentes tipos: simples, estratificadas, proporcionales, etc. Aquí se supondrá que hablamos siempre de las muestras aleatorias simples. 4.2. DISTRIBUCIONES MUESTRALES . Cuando se toma una muestra aleatoria de tamaño n y calculamos su media 0, se sabe que debido al error de muestreo ésta será diferente de la verdadera media µ. Entonces, interesa saber qué tan diferente es; en otras palabras, interesa conocer cuál es la magnitud del error de estimación. Por supuesto nunca se podrá conocer exactamente dado que se ignora el valor de µ (pues si se conociese no tendría objeto hacer la investigación). Suponiendo que se toman muchas muestras (i muestras) todas del mismo tamaño n y de la misma población, se pueden obtener entonces sus respectivas medias 0 i. Si estas resultan ser similares entre sí, se puede decir que el error de muestreo es pequeño. Si las 0 i difieren

el error de muestreo será menor conforme el tamaño de la muestra aumente. gráfica 4. . d) La desviación estándar es la raíz cuadrada de la varianza. c) La varianza de la distribución de las 0 i es F 2/n. el error sería grande. De esta manera. b) La media de la distribución de las 0 i es la misma que la media de la variable original en la población. Una población heterogénea (con F 2 grande) dará un error de muestreo mayor que una población homogénea (con F 2 pequeña). b) Pero además. Si. en el primer caso. el error de muestreo será el resultado de la relación entre dos factores: el tamaño de la muestra y la variabilidad de las observaciones. ¿De qué depende entonces la magnitud del error? Fundamentalmente de dos aspectos: a) Como se vio anteriormente. se podrían advertir las siguientes características: a) La distribución de las 0 i tiende a ser normal aún cuando la distribución de la variable original que está bajo estudio no lo sea (teorema del límite central. de tal manera que en un censo completo no existe error de muestreo. y se le denomina error estándar de la media (EE0): o más comúnmente: L EE0 = el cual representa la magnitud del error de muestreo. esto es resultado de que.1). dependerá de la variabilidad (dispersión) de los valores en la población estudiada. de acuerdo a la suposición de párrafos anteriores. y esto se puede expresar como sigue: En esta relación se puede ver que el resultado aumenta si aumenta la varianza y disminuye si aumenta el tamaño de la muestra. o sea µ (gráfica 4. se obtuviesen diferentes medias 0 i (todas con el mismo tamaño) y se observase su distribución.63 ampliamente. los valores seleccionados para la muestra tenderán a estar más cercanos a µ.1).

96 F que incluye al 95% de las observaciones (véase el capítulo 3. gráfica 4. . Gráfica 4.2.1. Por lo general.2). entonces podemos aplicar las propiedades de ésta a la distribución de las medias muestrales. Nótese que si n aumenta el EE0 disminuye y si F aumenta el EE0 aumenta y viceversa. deberá ser substituido por el valor de la muestra (s): L EE0 = Por último. como el valor de F se desconoce. Esto significa que el intervalo definido por: µ ± 1.96 EE0 incluye al 95% de las medias muestrales similar al intervalo definido por: µ ± 1. si la distribución de las 0 i tiende a ser una distribución normal.64 Gráfica 4.

queda por responder a la pregunta sobre qué tan buen estimador resulta la media de la muestra 0. dicho en otras palabras. ya que por lo regular no tomamos muchas muestras de la misma población.65 Se puede definir el intervalo correspondiente para el 99 por ciento: µ ± 2. forme parte de ese conjunto de medias 0 i que tienen como media a µ y como medida de dispersión al EE0. un 5 por ciento de las medias 0 i caerá por fuera del intervalo 1. deberán ser sustituídos por el valor de la muestra (p): L 4. o el 99. existe el 95 por ciento de probabilidad de que el error de estimación no sea numéricamente mayor que 1. de la media de la población µ.3.96 EE0 es decir. o cualquier otro. Se pretende que.96 EE0. confiamos en que la única media observada 0. En la estimación o inferencia científicas se trabaja con este concepto probabilístico en el que siempre habrá un grado de incertidumbre pues. Podemos construir un intervalo dentro del cual caiga el 99 por ciento de las medias 0 i. Una vez conocida la magnitud del error de muestreo. INTERVALOS DE CONFIANZA . en nuestro ejemplo.9 por ciento.96 EE0 o. Anteriormente se vio que en una distribución de medias muestrales (0 i) el 95 por ciento de ellas caerían dentro del intervalo: µ ± 1. el problema usual no es el anterior. a través de una sola muestra. cuyo valor nos es desconocido. Sin embargo.58 EE0 incluye al 99% de las medias muestrales Para el caso de las variables binomiales tenemos que: o más comúnmente: L Por lo general. pero nunca podremos definir un intervalo tal en que la certeza de nuestras afirmaciones sea absoluta (recuérdese que la distribución normal es asintótica). podamos . como los valores de B se desconocen.

96 EEp Por supuesto. o confía. en otras palabras.96 EE0 tenga en realidad una probabilidad del 95 por ciento de contener el valor de µ.96 EE0). pero en sentido contrario: en la lotería. dicho en palabras coloquiales. que el número comprado salga premiado con el premio principal. Un intervalo muy amplio será de menor utilidad práctica que uno estrecho. la inferencia científica juega a la lotería. Entre más amplio resulte el intervalo al mismo nivel de confianza (por ejemplo 95 por ciento). con un mismo error estándar. el intervalo definido por: L 0 ± 1.96 EE0. se confía en que no se obtendrá el primer premio. el intervalo del 99 por ciento será más amplio que el del 95 por ciento. El mismo razonamiento se sigue para las variables binomiales. es decir. debido al simple hecho de que se abarca un área mayor bajo la curva (no a que sea menos exacto). y que por lo tanto. se pueden definir otros intervalos a distintos niveles de confianza: 0 ± 2. busca obtener. el resultado menos probable.58 EE0 p ± 2. del 95 por ciento (µ ± 1. donde el intervalo de confianza del 95 por ciento para la verdadera proporción de la población (B) es: L p ± 1. en la inferencia estadística se desea que la única media 0 forme parte del conjunto de medias 0 i que caen dentro del intervalo. Estos dos intervalos son los más usados en la investigación. Por supuesto. por medio del azar. menor será la precisión con que se está estimando el parámetro de la población y viceversa.66 estimar el valor que tiene µ. el jugador desea. Este intervalo es llamado intervalo de confianza al nivel del 95 por ciento para la verdadera media de la población y es una medida de la precisión con que 0 estima el valor de µ. Para lo anterior.58 EEp que son los intervalos correspondientes al nivel de confianza del 99 por ciento. en que el error de estimación no será mayor que 1. . Nótese que es el intervalo de confianza el que tiene una probabilidad dada de incluir el valor de µ y que no es µ la que tiene esa probabilidad de caer dentro del intervalo. por ejemplo. la cual permanece desconocida y que es el motivo de la investigación. pero ello es arbitrario y se puede utilizar cualquier otro.

¡hay quienes obtienen el primer premio de la lotería!. con una cierta probabilidad de equivocarse (que siempre existirá y que en ocasiones puede hacerse real.2).67 Es por medio de estos intervalos que se puede estimar el valor desconocido de un parámetro de la población (µ o B) por medio de una muestra.1 y 4. en consecuencia. con una cierta probabilidad de acertar y. . véanse los ejemplos 4. por pequeña que nos parezca.

29 mg/100 ml.68 Ejemplo 4. Los resultados arrojaron una media (0 ) igual a 250.41 es decir. INFORMACIÓN En un estudio realizado en una comunidad rural de México.29 mg/100 ml 2.16 mg/100 ml y una desviación estándar (S) igual a 48.96 * 4.96 EE0 250.75 mg/100ml a 258.269 = 4. Suponiendo que esta muestra fue correctamente tomada y que es representativa de la población de la cual se obtuvo.16 mg/100 ml por individuo s = 48. de 241.29/%127 = 48.29) 250.29 mg/100 ml 3. se tomó una muestra de 127 individuos.1: Obtención de un Intervalo de Confianza para la Verdadera Media en una Población. Defina los datos básicos: n = 127 individuos 0 = 250. ¿cuál sería el intervalo de confianza del 95 por ciento para estimar la verdadera media de la población? PROCEDIMIENTO 1. Obtenga el intervalo de confianza del 95 por ciento: 0 ± 1.29/11.57 mg/100ml INTERPRETACIÓN .16 ± 8. Obtenga el error estándar: EE0 = s/%n = 48. a quienes se les midió el nivel de colesterol sérico.16 ± (1.

en la población de la cual fue tomada esta muestra. .57 mg/100ml.75 y 258. se encuentra entre 241. se puede afirmar que el valor de la verdadera media de colesterol sérico.69 Con un 95 por ciento de probabilidades de acertar.

En un estudio realizado en Argentina. como son la hepatitis aguda. Defina los datos básicos: n = 276 pacientes con hepatitis crónica r = 174 pacientes con hepatitis crónica VHB positivos 2. de las cuales 34 resultaron positivas para el VHB. la hepatitis activa crónica.3696 / 276] . de las cuales 174 resultaron positivas al VHB. Obtenga el error estándar: EEp = %[p(1-p) / n] = %[0. PROCEDIMIENTO Para el problema (a): 1. determine: a) el intervalo de confianza del 95por ciento para la verdadera proporción (B) de pacientes con hepatitis crónica VHB positivos en Argentina.6304*0. Obtenga la proporción de la muestra: p=r/n = 174 / 276 = 0.6304 3. en otro estudio. fueron examinadas 276 personas con hepatitis crónica. INFORMACIÓN La infección por virus de hepatitis B (VHB) puede tener diferentes consecuencias. En los adultos esta infección es responsable de una gran parte de tales enfermedades. Suponiendo que estas fueron muestras seleccionadas al azar.70 Ejemplo 4. la cirrosis y el carcinoma hepatocelular primario. b) el intervalo de confianza del 95por ciento para la verdadera proporción (B) de pacientes con carcinoma hepatocelular VHB positivos en Chile. llevado a cabo en Chile fueron examinadas 48 personas con carcinoma hepatocelular.2: Obtención de un Intervalo de Confianza para la Verdadera Proporción en una Población.

0291 4. se puede afirmar que la verdadera proporción de pacientes con hepatitis crónica que son VHB positivos se encuentra entre 0. entre el 57. Obtenga los resultados para el problema (b).057 esto es.71 = 0. de 0.96 * 0.6304 ± 0.5734 y 0.6304 ± (1.5734 hasta 0.96 EEp 0.34 por ciento y el 68.0291) 0.6874. Esto será válido solamente para la población de la cual fue extraída la muestra y en el caso de que esta realmente haya sido obtenida por métodos aleatorios.74 por ciento. Obtenga el intervalo de confianza del 99 por ciento. Obtenga el Intervalo de Confianza del 95 por ciento: p ± 1. .6874. es decir. INTERPRETACIÓN Con un 95 por ciento de probabilidad de acertar (o de confianza).

en estricto sentido. si en algún caso no es así. Esta situación es común cuando tratamos de ver si. En primer lugar.05 o 5 por ciento. la Ho establece la nulidad de las diferencias entre las dos medias y esto es algo que requiere ser probado. Si se sabe que el intervalo definido por: µ ± 1. lo cual se expresa como: p < 0. véase el capítulo 4). . por ejemplo.05 donde p se interpreta siempre como la probabilidad de equivocarse al rechazar la hipótesis nula. UNA SOLA MEDIA . los enfermos de un padecimiento se diferencian de la población sana (de la cual se supone se conoce su verdadera media) en cuanto a. al tomar una sola muestra. interesa saber si los resultados obtenidos (0) proceden de una población de la que µ es conocida.05 o 5 por ciento. Es decir. siempre se pone a prueba una afirmación que se denomina hipótesis nula (Ho) la cual establece que la media 0 en realidad procede de la población con media µ. en este caso se rechazaría la Ho con una probabilidad de error menor que 0. es difícil decir que se conoce F. un resultado de laboratorio. se dice que se ha encontrado una diferencia significativa al nivel de significancia del 0. por lo que hay que utilizar el valor de la desviación estándar de la muestra (s). en este caso la hipótesis nula nos diría que la medición que estamos tomando en los enfermos tiene la misma media que la de la población sana). Por supuesto. En la realidad.72 CAPÍTULO 5: CONTRASTE DE HIPÓTESIS PARA UNA SOLA MUESTRA 5. Esto quiere decir que se ha encontrado evidencia de que existe una diferencia entre 0 y µ. En otras palabras. una población de este tipo sería infinita y en realidad no podríamos llegar a conocer su verdadera media. por ejemplo.95.1.96 incluirá al 95 por ciento de las medias 0 i (todas del mismo tamaño n. Una forma de abordar el problema es a través del establecimiento de intervalos de confianza. En ocasiones. y que toda diferencia observada se debe al error de muestreo y no a una verdadera diferencia (es decir. entonces la probabilidad de que la 0 observada caiga dentro de ese intervalo es igual a 0. A la prueba que se hace para verificar lo anterior se le llama contraste de hipótesis o prueba de hipótesis.

96 (sin importar el signo). Una manera más sencilla de hacer la prueba o contraste consiste en obtener la puntuación z para la diferencia de las medias. Al mismo tiempo.01 o bien como: p > 0. es decir. Sin embargo. y se expresa como: p > 0. respectivamente. se pueden construir los intervalos respectivos. el hecho de que no se observe una diferencia significativa no quiere decir que esta no exista. si resulta significativa al nivel de 0.05 y se desea ver si también lo es al nivel de 0. donde: L y si el resultado es numéricamente mayor que 1. pues un resultado negativo nunca es evidencia de nada.05). como por ejemplo: µ ± 2. Si se desean otros niveles de significancia.73 Si la 0 cae dentro de ese intervalo. como anteriormente.05 o que el 5 por ciento. y sin . Es decir. puesto que su valor está dentro del intervalo en el que caería la mayoría de las 0 i que tienen como verdadera media a µ. y los resultados se expresan como: p < 0. entonces no se puede rechazar la Ho a ese nivel de significancia. pues en cada caso se deberá construir el intervalo de confianza respectivo. este procedimiento puede resultar tedioso si hay que comparar la 0 con varios niveles de significancia (por ejemplo. entonces la diferencia entre 0 y µ es significativa (p < 0. Debe tenerse presente que una Ho nunca se acepta.01 o 1 por ciento. que no se ha encontrado evidencia de alguna diferencia significativa y que la observada entre 0 y µ se debe sólo al error de muestreo.58 para el nivel de significancia del 0.01).01 según sea el caso de que se trate de una diferencia significativa o no.05 lo que indica que la probabilidad de equivocarse al rechazar la Ho es mayor que 0.

01. En el caso de las proporciones.74 necesidad de hacer ninguna otra operación.038 que equivaldría a 0.58 entonces: p > 0. 5. UNA SOLA PROPORCIÓN .2.05. siempre contienen la posibilidad de resultar erróneas.96 o 2. es importante recordar siempre que una diferencia estadísticamente significativa no necesariamente implica una diferencia importante en términos del fenómeno real estudiado.1).96 pero menor que 2. debe tenerse en cuenta que "significativo" en estadística. basadas en principios probabilísticos.05 o p > 0. y que entonces debería ser explicada de otras maneras (por ejemplo. por el error de muestreo. o no rechazarla cuando sí la hay). y que existe la posibilidad de error en las conclusiones (rechazar una Ho cuando en realidad no hay diferencia.01 < p < 0.01 (p < 0.05 lo que quiere decir que se ha encontrado diferencia significativa al nivel del 5 por ciento pero no al nivel del 1 por ciento. es común encontrar la probabilidad exacta en expresiones como: p = 0.58 y si es así. indica que la diferencia no es fácilmente explicada por el azar. a través de la influencia de alguna variable que se esté estudiando). dependerá de criterios distintos a los puramente estadísticos (véase el ejemplo 5. Debemos insistir en que nuestras conclusiones.58. entonces: 0. esto es. Por otro lado. Además. La decisión final acerca de la importancia que puede tener una diferencia dada. 5 por ciento o cualquier otro son arbitrarios y dependerán del problema estudiado y de las preferencias del investigador establecidas de antemano en el protocolo de investigación. En la actualidad con los medios electrónicos al alcance. La interpretación que se puede hacer es igual a lo dicho con respecto a los intervalos de confianza.01). Es necesario aclarar que los niveles de significancia del 1 por ciento. En el caso de que z sea mayor que 1. la comparación que se hace es la siguiente: L . la diferencia también será significativa al nivel de 0. se puede ver si z es mayor que 2. cuando z es menor que 1.01 < p < 0.

. se interpretan de la misma manera que para el caso de las medias (véase el ejemplo 5.2).75 o su equivalente: L las dos fórmulas dan los mismos resultados los cuales. de acuerdo a la magnitud de z.

En un estudio en el que se analizaron estos niveles. se encontró una media de 231 mg/dl. la cual puede incluir alteraciones en el metabolismo intermedio.1: Contraste de Hipótesis para Una Sola Media INFORMACIÓN La infección por microorganismos provoca una compleja respuesta en el hospedero. a la vez que un incremento en la síntesis hepática de lípidos.23 / %32 = 7. Obtenga el valor de z: . con una desviación estándar de 41. Si en la población normal el nivel promedio es de 91 mg/dl. en 32 pacientes con SIDA.2885 4. Entre otras cosas.23 mg/dl. la Ho podría plantearse como: la diferencia observada entre la media de triglicéridos en los pacientes con SIDA. 3.23 mg/dl 0 = 231 mg/dl n = 32 pacientes 2. ¿existe evidencia de que la hipertrigliceridemia puede considerarse como una manifestación del SIDA? PROCEDIMIENTO 1. Identifique la información básica: µ = 91 mg/dl F = 41.76 Ejemplo 5. Se piensa que estas alteraciones son producidas por las citoquinas liberadas durante la respuesta inmune. se puede producir una disminución en los procesos de remoción de lipoproteínas circulantes. y la de la población sana se debe únicamente al error de muestreo y no al hecho de que aquéllos estén enfermos. Establezca la hipótesis nula: En este caso. Obtenga el error estándar: EE0 = F / %n = 41. se ha sugerido que puede existir una asociación entre el síndrome de inmunodeficiencia adquirida (SIDA) y los niveles elevados de triglicéridos en la sangre. Por estos motivos.

Esto quiere decir que los niveles de triglicéridos en sangre son significativamente más altos en los pacientes con SIDA.3 mg/dl. que los pacientes con SIDA pertenecen a una población cuyos niveles de triglicéridos son más altos que los de la población sana. p = 5. Pero muchas veces interesa saber si esta diferencia. se puede rechazar la hipótesis nula al nivel de significancia del 1 por ciento o inclusive de 0. o en otras palabras.77 z = (0 .µ) ± (1. . comparados con las personas sanas.1 por ciento: p < 0.21 INTERPRETACIÓN Ya que el valor de z es numéricamente mucho mayor que los niveles críticos de 1. el intervalo de confianza para la verdadera diferencia está entre 125.96 y de 2. estadísticamente significativa.58 *10-52). en al menos 125.3 mg/dl.2885 = 19.7 mg/dl y hasta 154. con un nivel de confianza del 95 por ciento. comparados con la población sana.96)(EE0) Para lo cual se sustituyen los correspondientes valores: (231 .µ) / EE0 = (231-91) / 7. Para ello se debe obtener el intervalo de confianza para la verdadera diferencia entre 0 y µ.96)(7. En otras palabras.7 y 154. es también importante en términos clínicos o biológicos. puesto que la diferencia observada está basada en los resultados obtenidos de una muestra y no puede considerarse como la verdadera: L (0 .91) ± (1.29 Es decir.58.001 (en realidad. podemos afirmar que los niveles de triglicñéridos en la sangre son más altos en los pacientes con SIDA.2885) 140 ± 14.

homocigotos resistentes (RR) fueron cruzados con homocigotos susceptibles (rr) para producir una población de heterocigotos (F1).5 / 465] = 0.78 Ejemplo 5. Los mosquitos F1 fueron nuevamente cruzados con una cepa de homocigotos susceptibles.B) / EEp . De acuerdo con la teoría de la determinación unigénica. la teoría de que la resistencia a la dieldrina se debe a un único gene dominante. 264 (56. 3. ¿Es este porcentaje significativamente diferente al porcentaje que predice el modelo genético? PROCEDIMIENTO 1. es decir.2: Contraste de Hipótesis para Una Sola Proporción.5*0. De 465 mosquitos de esta progenie. Obtenga el error estándar: EEp = %[B(1-B) / n] = %[0. es cierta. Obtenga el valor de z: z = (p .5677 (proporción observada) 2. se debe solamente al error de muestreo.5 (proporción predicha por la teoría) n = 465 (mosquitos estudiados) r = 264 (mosquitos muertos) p = 0.77 por ciento) murieron. el porcentaje de la progenie de este último entrecruzamiento que podría ser susceptible a la dieldrina es de 50 por ciento.0232 4. Establezca la hipótesis nula: La Ho podría plantearse de la siguiente manera: la diferencia en el porcentaje de mosquitos muertos entre el experimento realizado y lo predicho por la teoría. Identifique la información básica: B = 0. INFORMACIÓN En un estudio para verificar la teoría de que la resistencia a la dieldrina (0.4 por ciento con exposición de una hora) es debida a un solo gene dominante en Anopheles farauti.

96 se puede rechazar la hipótesis nula p < 0. Por este motivo se puede afirmar que existe evidencia para rechazar la hipótesis de que la resistencia a la dieldrina se debe a un único gene dominante.1332 o .B) ± 1.0455 lo que quiere decir que la magnitud de la verdadera diferencia entre las proporciones esperada y observada. resulta de interés estimar la verdadera magnitud de esa diferencia.919 o de acuerdo a la otra fórmula z = (r .5 / 10.96 EEp 0.0232) 0. Al haber encontrado una diferencia significativa entre la proporción esperada por la teoría y la observada. 99 por ciento o cualquier otro) para la verdadera diferencia. Para tal caso se puede construir un intervalo de confianza (95 por ciento.79 = (0.5677-0.05 e inclusive puede hacerse al nivel de significancia del 1 por ciento p < 0. El intervalo de confianza del 95 por ciento es: L (p .0035).01 (en realidad p = 0.nB) / %[nB(1-B)] = 264-232.5) / 0.78 = 2. debe buscarse alguna otra explicación al fenómeno. con un 95 por ciento de probabilidad de acertar.0677 ± (1.0222 y 0. está entre 0.92 INTERPRETACIÓN Ya que el valor de z es mayor que 1.0232 = 2. y que por lo tanto.0677 ± 0.96 * 0.

.32 puntos porcentuales.22 y 13.80 que el porcentaje de mosquitos muertos observado debe ser mayor que el esperado por la teoría entre 2.

F1 y la otra con µ2. EE(01-02): L EE(0 -0 ) = 1 2 En el caso de una sola muestra ponemos a prueba la Ho que afirma que la 0 procede en realidad de una población con media µ y que toda diferencia observada se debe al error de muestreo. En este capítulo se muestra el procedimiento que se sigue en casos donde se tienen dos muestras cuyo tamaño es grande. MEDIAS DE DOS MUESTRAS. Si se toman muestras de tamaño n1 y n2 de estas dos poblaciones (no se requiere que estas muestras sean del mismo tamaño). se puede determinar si los niveles medios de algún indicador se modifican de manera más favorable con uno de los tratamientos o si estos tienen efectos similares.02) y se repite el procedimiento i veces. la diferencia de las medias de las respectivas poblaciones).81 CAPÍTULO 6: CONTRASTE DE HIPÓTESIS PARA DOS MUESTRAS GRANDES Tal vez una de las técnicas estadísticas más comunes utilizadas en la investigación médica sea la comparación de los resultados de dos muestras. al comparar el efecto que dos tratamientos distintos pueden tener sobre sendos grupos de individuos con características similares. o bien si es mayor la proporción de individuos que presentan alguna mejoría. Al hacer esto. Supongamos que existen dos poblaciones. se puede encontrar que: a) la media de la distribución de las diferencias (01 . es decir: varianza (01 . o bien µ1 . o son curados.02) = varianza(01) + varianza(02) 2 2 = F1/n1 + F2/n2 Siendo el error estándar de la diferencia de las medias.µ 2). se calcula la diferencia de sus medias (01 .02)i es (µ1 . con un tratamiento en comparación con el otro. ya que se cuenta con dos muestras.1. una con µ1. b) la varianza de la distribución de las diferencias es la suma de las varianzas individuales. es decir. 6. F2. y lo que se desea es contrastar la hipótesis nula de que son iguales entre sí. la Ho establece que las medias 0 1 y 0 2 han sido tomadas de poblaciones cuyas medias µ1 y µ2 son iguales. es decir: µ1 = µ2. por ejemplo.µ 2 = 0 . La respuesta se obtuvo calculando (capítulo 5): En el presente caso.

y el error estándar de la media EE0 por el error estándar de la diferencia de las medias EE(0 1-0 2): lo cual. Esto se puede hacer construyendo un intervalo de confianza para la verdadera diferencia. de nuevo se calcula z. Debido a que F² generalmente permanece desconocida y a que se trata de muestras grandes (en donde s² tiende a parecerse a F²). 0 1 y 0 2. entonces se utilizan los valores muestrales s2 y s2 como 1 2 estimadores. ahora se calcula z para indagar la verdadera diferencia entre dos medias de las muestras. de acuerdo a la Ho queda como sigue: donde el valor cero expresa lo afirmado por la Ho. 6. por ejemplo: (0 1-0 2) ± 1.2.82 y que la diferencia observada entre 0 1 y 0 2 es debida únicamente al error de muestreo.1). resulta importante estimar la magnitud de la verdadera diferencia (si es que se ha encontrado una diferencia significativa) entre las dos muestras estudiadas. Para probar (contrastar) la hipótesis nula. quedando la fórmula que se utilizará como: L El valor de z que se obtenga se interpreta de la misma manera que en el caso de una sola media.µ2). generalmente a los niveles críticos del 5 por ciento y del 1 por ciento. pero ahora se sustituyen los valores de 0 por (0 1 . PROPORCIONES DE DOS MUESTRAS.0 2) y de µ por (µ1 . . Finalmente.96 EE(0 1-0 2) o cualquier intervalo a otros niveles de confianza (véase el ejemplo 6. Debe tenerse presente que si primero se obtuvo el valor de z con una sola media muestral para estimar el valor de la verdadera media de la población (capítulo 4) y luego se obtuvo para el valor de z para ver la verdadera diferencia entre 0 y µ (capítulo 5).

o bien B1 .83 En el caso de las variables binomiales. B 1 y B 2. frecuentemente interesa saber si la proporción de individuos con una característica dada difiere en dos grupos que se comparan. son iguales: B 1 = B 2. esto es. de las poblaciones de las cuales proceden las muestras. donde: L Con la cual se puede calcular el error estándar de la diferencia de las proporciones EE(p1-p2). una proporción combinada (pc).B 2 = 0 Por ello. La Ho dice que las proporciones. de las dos muestras se pretende obtener la mejor estimación de B que sea posible. se puede obtener el intervalo de confianza para la verdadera diferencia de las proporciones: . que originalmente sería: pero que al sustituir B por la estimación pc. se tiene: y ya simplificado: L EE(p -p ) = 1 2 Con cuyo valor se puede proceder a obtener el valor de z para la diferencia de las proporciones: L Y de la misma manera que para la diferencia de medias.

84 (p1-p2) ± 1.2).96 EE(p1-p2) (véase el ejemplo 6. .

Identifique y obtenga los datos básicos: n1 = 66 mujeres de 31-40 años n2 = 78 mujeres de 21-31 años 0 1 = 13.88 años de edad a la menarquia 0 2 = 12. INFORMACIÓN En un estudio de la edad a la menarquia en mujeres de EUA. Obtenga el error estándar de la diferencia de las medias: 2 EE(0 1-0 2) = %[s2/n1 + s2/n2] 1 = %[1.17 2.93 s2 = 1.17/78] = %0.1: Contraste de Hipótesis para las Medias de Dos Muestras.85 Ejemplo 6. Se pretende probar la hipótesis de que no hay diferencia en la edad promedio a la menarquia entre ambos grupos de mujeres.42 años de edad a la menarquia 2 2 s1 = 1.0442 . Edad a la Menarquia 10 11 12 13 14 15 16 17 18 TOTAL Mujeres de 31-40 años 21-30 años 0 2 8 14 27 5 8 1 1 16 3 11 28 23 12 1 0 0 0 78 PROCEDIMIENTO 1.93/66 + 1. una con edades entre 21 y 30 años y la otra con edades entre 31 y 40 años en el momento del estudio. se obtuvo la siguiente distribución por edades en una muestra de dos generaciones de mujeres.

Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las medias: Ya que se encontró una diferencia altamente significativa entre las dos medias de las muestras.87 años en promedio para las mujeres de la generación más joven. Obtenga el valor de z para la diferencia de las medias: z = (0 1-0 2) / EE(0 1-0 2) = (13. p = 0.96.05 y 1. de acuerdo a las medias muestrales) significativamente entre una y otra generación. INTERPRETACIÓN: con un 95 por ciento de probabilidades de acertar. 4. la diferencia entre las medias resulta altamente significativa: p < 0.42) / 0. .42) ± (1.88-12.86 = 0.2103) 1. y aún mucho mayor que 2.2103 = 6.46 ± 0. se puede afirmar que la edad a la menarquia se ha reducido entre 1.58.4122 lo que da un intervalo que se encuentra entre 1.1099 * 10 ). Esto quiere decir que existe evidencia de que la edad promedio a la menarquia ha variado (ha disminuido.05 y 1.96 EE(0 1-0 2) (13.2103 3. interesa saber cuál puede es la magnitud del cambio: (0 1-0 2) ± 1.88-12.87 años de diferencia en la edad a la menarquía.94 INTERPRETACIÓN Como z es mayor que el valor crítico de 1.001 -6 (en realidad.96 * 0.

b) obtenga el porcentaje de mujeres que lograron un embarazo a término en uno y otro casos. 2. En un estudio se vio que de 299 mujeres recanalizadas después de la esterilización por medio de la ligadura de Pomeroy. Obtenga los porcentajes de embarazos: GRUPO A (LIGADURA DE POMEROY) GRUPO B (ELECTROCOAGULACION) n1 = 299 mujeres recanalizadas n2 = 258 r1 = 176 mujeres con embarazo a término r2 = 111 . entre otras cosas. de 258 mujeres recanalizadas después de la esterilización con electrocoagulación. El porcentaje de éxitos varía entre el 50 por ciento y el 70 por ciento.2: Contraste de Hipótesis para las Proporciones de Dos Muestras. aunque complejos y costosos. dependiendo. 176 lograron tener un embarazo a término. PROCEDIMIENTO 1. respecto al porcentaje que logra tener un embarazo a término después de la recanalización: a) establezca la hipótesis nula. cualquier diferencia observada se debe al error de muestreo. en comparación. del método de esterilización que se haya seguido. No obstante. Establezca la hipótesis nula: Una forma de plantear la hipótesis nula podría ser: los resultados de la recanalización quirúrgica en mujeres que han sido esterilizadas por la ligadura de Pomeroy y en las que lo han sido por electrocoagulación. 111 lograron tener un embarazo a término. en realidad son iguales. lo cual se puede lograr con métodos modernos. entre el 1 por ciento y el 3 por ciento solicitan más tarde la recanalización quirúrgica de las trompas. c) realice el contraste de hipótesis para ver si existe una diferencia entre ambos porcentajes. Para ver si existe una diferencia significativa entre ambos grupos de mujeres. en caso de que esta sea significativa. d) obtenga el intervalo de confianza para la verdadera diferencia. INFORMACIÓN La mayoría de las mujeres que voluntariamente se someten a esterilización quirúrgica dicen no arrepentirse de su elección.87 Ejemplo 6.

88 p1 = 176/299 = 0.5886 o 58.5153(1-0.5886-0. se puede afirmar que existe una diferencia significativa entre ambos grupos de pacientes en cuanto al éxito de la recanalización. Obtenga el error estándar de la diferencia de las proporciones: p2 = 111/258 = 0. Obtenga el valor de z para la diferencia de las proporciones: z = (p1-p2) / EE(p1-p2) = (0. P = 0.0425 = 3. Obtenga la Proporción Combinada: pc = (r1+r2) / (n1+n2) = (176+111) / (299+258) = 0.4302)/0.02% EE(p1-p2) = /[pc(1-pc)(1/n1 + 1/n2) = /[0.001 (en realidad. el cual es mayor para las mujeres que siguieron la esterilización por medio de la ligadura de Pomeroy: p < 0. 6.4302 o 43. Obtenga el intervalo de confianza del 95 por ciento para la verdadera diferencia entre las proporciones: .00019).0425 5.73 INTERPRETACIÓN Como z es numéricamente mayor que el valor crítico de 2.58.86% 3.5153)(1/299 + 1/258) = 0.5153 4.

0833 es decir. comparadas con las que se sometieron a la electrocoagulación.51 y 24.96 EE(p1-p2) (0. con el objetivo de determinar cuál puede ser la magnitud de la verdadera diferencia: (p1-p2) ± 1. . INTERPRETACIÓN: con un 95 por ciento de probabilidad de acertar.0751 y 0.17 puntos porcentuales para las pacientes que fueron esterilizadas por medio de la ligadura de Pomeroy.4302) ± (1. la verdadera diferencia se encuentra entre 0. se puede afirmar que la verdadera proporción de éxitos en la recanalización es mayor entre 7.1584 ± 0.5886-0.0425) 0.2417.96 * 0. es conveniente obtener este intervalo.89 Debido a que se encontró una diferencia significativa.

Los valores con los que se compare t no son fijos. . y dependerán de qué tan buen estimador sea s de F. al utilizarlos. Debido a esto. con los grados de libertad (n-1).96 o de 2. el valor observado de t deberá compararse con valores críticos más estrictos y ya no con los valores de z (que son 1.96 al nivel de significancia de 0. se deben hacer modificaciones apropiadas introduciendo lo que se conoce como Teoría de Muestras Pequeñas. al introducir el valor s basado en una muestra pequeña.90 CAPÍTULO 7: DISTRIBUCIÓN t DE STUDENT El contraste de hipótesis para la media de una sola muestra implica el cálculo de: cuyo resultado se compara con los niveles críticos de 1.01) pues estos incluirán una área menor bajo la curva y. F generalmente permanece desconocida. o más apropiadamente Teoría Exacta de Muestreo. Sin embargo. es decir. b) Las muestras han sido tomadas de poblaciones que se distribuyen normalmente.05 o 2.58 (o alguno otro que se desee). Para poder aplicar esta distribución se deben cubrir los siguientes supuestos básicos: a) Las observaciones son independientes. será mayor. lo que está en relación con el tamaño de la muestra. c) Las varianzas son iguales. por lo que se subestima el error de muestreo por lo que la probabilidad de equivocarse al decir que se ha encontrado una diferencia significativa es mayor que lo dicho en los capítulos anteriores.58 al nivel de significancia de 0. por lo que se utiliza s como su estimador. por lo tanto. Si el tamaño de la muestra es grande (n > 30) entonces s se aproxima al valor de F. se obtiene una nueva estimación: L que es por completo análoga a z. la probabilidad de errar. ya que sus resultados son válidos también para muestras grandes. Esta es la Distribución t de Student. En este caso. Sin embargo. Para esto se recurre a algunas pruebas como la F de Snedecor para el contraste de las varianzas. pero si el tamaño de la muestra es pequeño (n < 30) se introduce una fuente adicional de error en los cálculos pues en estas circunstancias s tiende a ser menor que F.

el observador se ve obligado a trabajar con muestras pequeñas (esto es particularmente cierto en estudios de casos y testigos sobre enfermedades de baja frecuencia). x32 . 7.91 En el caso de que de que no se cumplan estos requisitos se deberá utilizar las pruebas conocidas como no paramétricas. como ya se dijo. En tal situación: y la Ho que utilizamos será que la diferencia de las medias de las poblaciones (µ1-µ2) de donde proceden las muestras. observación 1 del grupo 2) x21. En muchas ocasiones. al efectuar un estudio médico se desea establecer una comparación entre dos grupos de individuos (comparar dos tratamientos. es cero: µ1 = µ 2 µ1 . varían de acuerdo al tamaño de la muestra. aunque los valores críticos con los que se le compara. pues están organizados por pares: x11. . x22 x31. y por lo tanto. x12 (observación 1 del grupo 1. etcétera) y se recurre al pareamiento de los casos de uno y otro grupo. Nótese que en estos estudios a cada caso del primer grupo le corresponde un caso en particular del segundo grupo. La prueba de t es muy útil en los estudios clínicos pues con frecuencia no es posible tener un grupo grande de pacientes para realizar las investigaciones. La interpretación de los niveles de significancia para la prueba de t es igual que en el caso de z. comparar casos y testigos. MUESTRAS PAREADAS .µ 2 = 0 De tal manera que: L donde n es el número de pares de observaciones y sd es la desviación estándar de las diferencias entre cada par.1. Tampoco se utiliza la prueba de t para contrastar proporciones obtenidas con muestras pequeñas. .

será conveniente obtener el intervalo de confianza para estimar la magnitud de la verdadera diferencia.xi2). xn2 por lo que se puede obtener la diferencia para cada uno de los pares de observaciones (di = xi1 . etc. El resultado se compara con el valor de t en la tabla de la distribución teórica de acuerdo al nivel de significancia elegido y a los grados de libertad (tabla 3 del Apéndice. G .). es mayor que el de la tabla. a partir de las cuales se calcula la media de las diferencias. de manera análoga a como se haría con z.µ 2 = 0 F2 = F2 1 2 Esto quiere decir que se puede hablar de una sola varianza verdadera. no se puede rechazar la Ho (se dice que no se observó diferencia significativa). Esto se hace obteniendo el intervalo de confianza respectivo: L (0 -0 ) ± t 1 2 ".2. si. particularmente si se trata de muestras pequeñas. obtener una sola estimación. Si el valor absoluto (sin tomar en cuenta el signo) de t observada es menor que el de la tabla. " es cierto nivel de significancia (0.01. la cual se puede llamar varianza ponderada: . en las que sus tamaños pueden ser iguales o distintos entre sí. por el contrario. al nivel de significancia elegido. se rechaza la Ho. Entonces s2 y s2 son 1 2 estimaciones separadas de una misma varianza F 2 resultaría mejor. 7. es decir. xn1. sd. 0. se establece la Ho siguiente: las dos muestras han sido tomadas de poblaciones distribuidas normalmente.gl EE(0 1-0 2) donde t es el valor de t en la distribución teórica. cada par es tratado como d si fuera una única observación.1).92 . gl son los grados de libertad (n pares .1). véase el ejemplo 7. Cuando las muestras no son pareadas (se les llama independientes). cuyas µ1 y µ2 son en realidad iguales y cuyas varianzas también son iguales: µ1 = µ 2 µ1 . MUESTRAS NO PAREADAS . y su desviación estándar.05. Cuando llega a encontrarse una diferencia significativa.

2).93 o más comúnmente: L Con este valor de la varianza ponderada se puede calcular el error estándar de la diferencia de las medias: o más comúnmente: L Finalmente. .gl EE(0 1-0 2) donde t es el valor de t en la distribución teórica. gl son los grados de libertad (en este caso [n1 + n2 . se puede obtener el intervalo de confianza para estimar la verdadera diferencia de las medias: (0 1-0 2) ± t". véase el ejemplo 7. se obtiene el valor de t: L En caso de que se haya encontrado una diferencia significativa. " es cierto nivel de significancia.2].

A través de electrocardiografía ambulatoria.5 0. 12 pacientes fueron estudiados.08 episodios 0 2 = 1.12 episodios s1 = 7.5 0 0.5 0 Propanolol 6.5 0 8 0 0 2.5 3. Obtenga la desviación estándar de las diferencias: . se detectaron los episodios de aplanamiento del segmento S-T.94 Ejemplo 7.5 1 0 0 0. Obtenga los datos básicos: 0 1 = 4. Los resultados son los siguientes: Paciente 1 2 3 4 5 6 7 8 9 10 11 12 Nifedipina 26 3. INFORMACIÓN En un estudio para evaluar la eficacia de dos drogas en el tratamiento de la angina de pecho. Durante un período se les administró nifedipina (20 mg cuatro veces al día) y posteriormente propanolol (80 mg cuatro veces al día).48 s2 = 2.1: Contraste de Hipótesis para Dos Medias de Muestras Pequeñas Pareadas. indicativo de episodios de angina de pecho.5 0 ¿Existe evidencia de que los tratamientos difieren significativamente en la prevención de episodios de angina de pecho? PROCEDIMIENTO 1.5 4 1 0.08 n = 12 pacientes 2.5 0 0 4.

96 / 3.05 en la tabla 3 (es decir.5 0 0.72 = 1.12) / 1.20.95 Esto se logra simplemente restando los valores de la segunda columna de los datos a los de la primera. al nivel de significancia del 5%).5 1 0 0 0.0. Compare el valor de t observada (1. y obteniendo la desviación estándar de estas diferencias por los procedimientos comunes: PACIENTE 1 2 3 4 5 6 7 8 9 10 11 12 NIFEDIPINA 26 3.5 0 8 0 0 2. .96 3.5 0.08 .5 0 0 En este caso: sd es igual a 5.5 3.72) con el valor de t11.5 4 1 0.72 5. Obtenga el error estándar para la diferencia de las medias: EE(0 1-0 2) = sd / /n = 5. el valor de t en la distribución teórica con 11 grados de libertad.1.5 0 8 -0. Obtenga el valor de t para la diferencia de las medias: t = [(0 1-0 2) .5 2.5 0 2 3.5 0 PROPANOLOL 6. el cual es igual a 2.96 / /12 = 5.5 0 DIFERENCIA 19.72 4.46 = 1.0] / (sd//n) = (4.5 0 0 4.5 4 -3.

96 INTERPRETACIÓN Dado que el valor de t observada es menor que el de la distribución teórica. no se hace necesario buscar el intervalo de confianza para la verdadera diferencia. . Por este motivo. no se ha encontrado evidencia de que los medicamentos difieran entre sí por lo que se refiere a la prevención de episodios de angina de pecho.

97 Ejemplo 7.2: Contraste de Hipótesis para Dos Medias de Muestras No Pareadas.
INFORMACIÓN

En un estudio se midió la dosis diaria descargada (µg) cuando se implantaban 2 o 3 gránulos biodegradables de noretindrona (NET), pues ello es importante para correlacionarlo con la eficacia anticonceptiva. En un grupo de 8 mujeres a quienes se les implantaron 2 gránulos, la liberación media diaria de NET fue de 111 µg, con una desviación estándar de 20 µg; en otro grupo de 12 mujeres a quienes se les implantaron 3 gránulos, la liberación media diaria fue de 150 µg y la desviación estándar de 7 µg. ¿Sugieren estos datos que la descarga media diaria difiere entre los dos grupos de mujeres?

PROCEDIMIENTO

1. Obtenga los datos básicos: Grupo A (2 gránulos) Grupo B (3 gránulos) n1 = 8 mujeres n2 = 12 mujeres 0 1 = 111 µg 0 2 = 150 µg s1 = 20 µg s2 = 7 µg 2 s1 = 400 s2 = 49 2 2. Obtenga la varianza ponderada: s2 = [(n1-1) s21 + (n2-1)s2] / (n1+n2-2) p 1 2 = [8*400 + 12*49] / 18 = 210.44 por lo que la desviación estándar ponderada es sp = 14.51 µg 3. Obtenga el error estándar para la diferencia de las medias: EE(0 1-0 2) = sp /[1/n1 + 1/n2]

98 = 14.51 * /[1/8 + 1/12] = 6.6229 4. Obtenga el Valor de t para la Diferencia de las Medias t = (0 1-0 2) / EE(0 1-0 2) = (111-150) / 6.6229 = -5.889 5. Compare el valor de la t observada (-5.889) con el valor de t18,0.001 en la tabla 3 (es decir, el valor de t en la distribución teórica con 18 grados de libertad, al nivel de significancia del 0.1%), el cual es igual a 3.922.
INTERPRETACIÓN

Dado que el valor de t observada es muy grande, se puede concluir que existe evidencia de que la liberación media diaria de NET difiere significativamente entre los dos grupos de mujeres (p < 0.001). 6. Obtenga el Intervalo de confianza del 95 por ciento para la verdadera diferencia: (0 1-0 2) ±

99

CAPÍTULO 8: PRUEBA DE P2 (JI AL CUADRADO)
En las pruebas de contraste de hipótesis de la distribución t de Student con muestras pequeñas, los supuestos básicos consisten en que las variables estudiadas pertenecen a poblaciones cuyos valores se distribuyen normalmente y en las que sus varianzas son iguales. En otros casos, tal vez se necesite comparar dos proporciones, pero no se cumplen los requisitos necesarios para aplicar la aproximación de la distribución binomial a la normal (n grande y p no muy alejada de 0.5; véase el capítulo 3). Debido a que se establecen tales condiciones, las anteriores se conocen como pruebas paramétricas. Sin embargo, no siempre se tiene la información necesaria para sostener tales afirmaciones, o bien se sabe que en realidad no se cumple con ellas. En tales situaciones, es conveniente recurrir a otro tipo de pruebas que no requieren de estos supuestos. Estas son las que se conocen como pruebas no paramétricas entre las cuales tal vez la más utilizada sea la de P² (Ji al cuadrado). La característica de esta prueba es que se utiliza para frecuencias absolutas. Generalmente se aplica a variables cualitativas o a variables discontinuas, pero de igual manera puede utilizarse con variables continuas haciendo las conversiones necesarias a categorías o a intervalos. La prueba de P² se utiliza con distintos propósitos: a) Para comprobar si una distribución difiere de otra que es conocida de antemano. b) Para determinar si las respuestas de dos o más grupos difieren frente a un tratamiento. Es decir, se pretende ver si las variables son independientes entre sí (contraste de independencia). c) Para indagar si una distribución observada sigue una cierta distribución. Esta es lo que se conoce como la bondad del ajuste. Como se puede ver, el sentido general de la prueba es comparar dos frecuencias, comúnmente, una observada con una esperada. El cálculo e interpretación en todos los casos son iguales, en lo único que difieren es en la manera de obtener las frecuencias esperadas, así, las frecuencias esperadas en el primer caso, están dadas por una distribución, teórica o empírica, que se conoce previamente. En el segundo caso se podrán comparar las frecuencias de los distintos grupos. Lo más común, sin embargo, es que se recurra al tercer caso, en donde se ignora la distribución de frecuencias esperadas y debe recurrirse a un procedimiento, ya establecido, para obtenerlas. Una característica del análisis con P² consiste en que es posible comparar dos o más proporciones (aún cuando lo que se utilice sean las frecuencias absolutas, el efecto es el

La manera de llevar a cabo el análisis consiste en organizar los datos en una tabla de contingencia (en el sentido de eventualidad. Si se multiplican estas dos probabilidades. en donde sólo se pueden comparar dos proporciones. gt es el gran total.100 mismo). nos señala la probabilidad. La Ho en este caso establece que las diferencias que se encuentran entre las frecuencias observadas y las esperadas se deben al error de muestreo. de pertenecer a la categoría 1 de la variable 1. la frecuencia esperada para la casilla "a" (Ea) es: Ea = ((a+b) * (a+c)) / (a+b+c+d) Este procedimiento se repite para cada casilla. independientemente de los efectos de la variable 1. El sentido de este procedimiento consiste en lo siguiente: la relación (a+b)/gt. Por ejemplo. en una serie de observaciones. se debe obtener las frecuencias esperadas. por ejemplo. en la misma serie de observaciones. de pertenecer a la categoría 1 de la variable 2. en las cuales se ordenan las observaciones de acuerdo a las categorías de dos variables. la suma de todos los subtotales de las filas (o de las columnas). las frecuencias esperadas para cada casilla se obtienen de la siguiente manera: E = (tf*tc)/gt donde tf es el total de la fila correspondiente a la casilla tc es el total de la columna correspondiente a la misma casilla. entonces se obtendrá la probabilidad de que se dé el suceso de la casilla "a" si los efectos de las variables 1 y 2 fuesen . Esto es. La relación (a+c)/gt es la probabilidad. se han obtenido las probabilidades de dos sucesos independientes entre sí. Las tablas de contingencia más sencillas son aquellas que tienen dos filas y dos columnas: Variable 1 categoría 1 Variable 2 categoría 1 categoría 2 Total a c a+c categoría 2 b d b+d Total a+b c+d Gran Total = a+b+c+d Una vez que se ordenan las observaciones. este tipo de tablas son aquellas cuyos subtotales de las filas suman exactamente lo mismo que los subtotales de las columnas). lo que representa una gran ventaja sobre el análisis con la aproximación a la distribución normal. es decir. En general. independientemente de los efectos de la variable 2.

1) por lo que para tablas de contingencia de 2*2 los grados de libertad serán siempre 1. Entre menores sean las diferencias (entre más parecidas sean las frecuencias observadas respecto a las esperadas) menor es el valor de P 2. Como P² es una variable continua. se obtiene la frecuencia que se esperaría en la casilla "a" en el caso de que los efectos de ambas variables fueran independientes entre sí. E son las frecuencias esperadas. Si la diferencia entre las frecuencias observadas y las esperadas es grande. E(OE)= 0. Nótese que: Las diferencias entre las frecuencias observadas y las esperadas en cada casilla se elevan al cuadrado. este es el criterio que se toma en SPSS©). y viceversa.101 independientes y. de ahí que el nombre de la prueba sea P 2. El análisis no debe incluir casillas con frecuencias esperadas menores que 3 (algunos autores sugieren el valor de 5 como mínimo. entonces P² también será grande. si a su vez se multiplica esta probabilidad por el gran total. se utiliza la tabla 4 del Apéndice. si P² = 0. La fórmula general para el contraste de hipótesis es: L donde O son las frecuencias observadas.1)(número de filas . entonces la distribución observada y la esperada concuerdan exactamente. lo cual señalará una diferencia significativa. (O-E)2. al momento de usar esta distribución para variables discontinuas o cualitativas es conveniente hacer la corrección por continuidad necesaria (corrección de Yates): L . lo que implicaría que las variables no están asociadas (hipótesis nula). Los valores críticos con los que se compara el resultado dependerán de los grados de libertad: gl = (número de columnas . pues de otra manera. Para obtener los valores correspondientes de la distribución teórica de P².

el valor numérico independiente del signo (véase el ejemplo 8. es decir.102 donde |O-E| es el valor absoluto de la diferencia.1). .

Realice una prueba de P² para determinar si los niños con tratamiento evolucionaron mejor que los niños con placebo.103 Ejemplo 8. y que de los 32 con placebo 20 resultaron con CPS positivo para Ascaris. Al final se vió que de 22 niños bajo tratamiento. Identifique la información básica: Total de niños bajo tratamiento: 22 Niños bajo tratamiento que al final resultaron negativos: 15 Niños bajo tratamiento que al final resultaron positivos: 7 Total de niños con placebo: 32 Niños con placebo que al final resultaron negativos: 12 Niños con placebo que al final resultaron positivos: 20 Gran total: 54 2. INFORMACIÓN En un estudio realizado en una comunidad rural. PROCEDIMIENTO 1. Construya el cuadro de contingencia: Distribución de Niños con CPS Inicialmente Positivo de Acuerdo al Grupo Asignado Levamisol CPS Final Positivo Negativo Total 7 15 22 Placebo 20 12 32 Total 27 27 54 . a un grupo de niños que tenían coproparasitoscópico (CPS) positivo para Ascaris se le dividió en dos: uno sujeto a tratamiento trimestral con levamisol durante un año.1: Obtención de Ji al Cuadrado. y el otro con placebo. 15 permanecieron con CPS negativo.

22 .45 + 1+1 = 4.11 = 11) e) Casilla d: (32 * 27) / 54 = 864 / 54 = 16 5. son iguales a los observados. b) Casilla a: (27 * 22) / 54 = 594 / 54 = 11 c) Casilla b: (27 * 32) / 54 = 864 / 54 = 16 (o simplemente. en ambos grupos.104 3.11 = 16) d) Casilla c: (22 * 27) / 54 = 594 / 54 = 11 ( o simplemente. Obtenga el valor de P²: P² = E(O-E)2/E = (7-11)²/11 + (15-11)²/11 + (20-16)²/16 + (12-16)²/16 = 16/11 + 16/11 + 16/16 + 16/16 = 1. ya que se conocen los valores de la casilla "a" y del subtotal de la fila: 27 . Obtenga las frecuencias esperadas (E) para cada casilla: E = (total de la fila * total de la columna) / gran total Distribución de Niños con CPS Inicialmente Positivo de Acuerdo al Grupo Asignado Levamisol CPS Final Positivo Negativo Total a c 22 Placebo b d 32 Total 27 27 54 a) Nótese que los subtotales de las filas y de las columnas. toda diferencia observada se debe al error de muestreo. Compare el valor obtenido con el de la distribución teórica: . y el gran total. en realidad no difiere respecto al número que se podría esperar si el tratamiento y el placebo tuvieran el mismo efecto.45 + 1.9 6. 4. Establezca la hipótesis nula: Una manera de plantear la hipótesis nula puede ser: el número de niños que al final del estudio resultaron positivos para Ascaris.

p < 0. al nivel de significancia del 5 por ciento.105 En la tabla 4 del apéndice. INTERPRETACIÓN Como el valor de P² observada (4. es decir. Realice el análisis con la corrección de yates. Este valor es igual a 3.05. De hecho. y se puede afirmar que existe evidencia de que el grupo de niños sujeto a tratamiento evolucionó distinto al grupo sujeto a placebo.9) es mayor que el de la distribución teórica. ¿Cuál es su conclusión final? . se puede observar que el porcentaje de niños sujetos a tratamiento y que al final resultó negativo es mayor que el correspondiente en el grupo con placebo. pues se trata de una tabla de contingencia de 2*2.841. con un grado de libertad. 7. busque por ejemplo el valor de P²1. se rechaza la hipótesis nula al nivel del 5 por ciento de significancia.05. ¿Qué sucede al nivel de significancia del 1 por ciento? 8. 9.0.

106 CAPÍTULO 9: REGRESIÓN LINEAL Y CORRELACIÓN 9. a sufrir una regresión. reconocida como el efecto. el cual incluye relaciones no lineales y que no serán tratadas aquí. y cuando se utilizan dos o más variables independientes. y los padres con estatura promedio baja tenían hijos con estatura promedio mayor que ellos. Tal vez el procedimiento más utilizado para indagar la asociación entre dos sucesos (identificados por variables) es el modelo de regresión lineal. La estadística contribuye dando a conocer el grado y el sentido de la asociación entre sucesos. El modelo de regresión lineal fue desarrollado en el siglo XIX por F.efecto entre dos sucesos requiere de un conocimiento profundo de los mecanismos y de los procesos que intervienen. Un frecuente interés durante las investigaciones consiste en tratar de determinar si dos sucesos están relacionados entre sí. se habla de regresión lineal simple. La afirmación de la existencia de una relación causa .1. En ocasiones se entiende que la primera es la causa de los cambios en la segunda. pero esta es una interpretación errónea en tanto el análisis estadístico no se acompañe de un análisis teórico que soporte la existencia de tal relación. Este modelo de análisis. en su formulación más simple. De hecho. pretende determinar hasta qué punto los cambios en el valor de una variable (llamada independiente) influyen en los cambios observados en los valores de la otra variable (llamada dependiente). aunque son útiles para aproximarse a ella. los padres con estatura promedio alta tenían hijos con estatura promedio menor que ellos. por ejemplo el atribuir a un factor el desarrollo o aparición de una enfermedad. fundador de la eugenesia. por su propia naturaleza. no siempre requiere de algún modelo matemático. de tal manera que al conocer lo que sucede con el primero. y de una base teórica firme que los explique y sistematice. Ambos modelos pertenecen a un sistema más amplio de análisis matemático que se conoce como curvas de ajuste o de aproximación. INTRODUCCIÓN . la distribución de estaturas de una generación a otra no cambiaba. . Galton. se pueda prever o predecir lo que acontezca con el segundo. en las ciencias médicas el establecimiento de las relaciones causa . Galton explicó este fenómeno por la tendencia de la estatura promedio a desplazarse hacia la media poblacional. se habla de regresión lineal múltiple. no pueden dar respuesta a esta cuestión. Lo anterior se identifica generalmente con el estudio de la causalidad. Pudo ver que aunque los padres de estatura alta tendían a tener hijos altos y los de estatura baja hijos bajos. es decir. más bien necesita del conocimiento detallado de la fisiopatología. pero los procedimientos estadísticos. Así. pero no puede decir mucho acerca de su validez o de su veracidad. a partir de sus observaciones sobre un fenómeno hereditario: la relación de estaturas entre padres e hijos.efecto. Cuando solamente se toma el valor de una variable independiente para explicar los cambios en la variable dependiente.

• La ecuación de una linea recta es y = a+bx. entonces y se modifica el doble de lo que se modifica x. • Las propiedades comunes de todas las ecuaciones de lineas rectas son: contienen valores solamente de x y de y. Cuando b=0 tenemos el caso en que para cualquier valor de x. si x = 0 entonces y = 0. conocidas a y b. El objetivo es saber cómo la respuesta (variable dependiente) cambia con el estímulo (variable independiente).107 Con el término "lineal" nos estamos refiriendo a aquellas relaciones cuyo ajuste se hace por medio de una línea recta. si x = 1 entonces y = 1. no hay productos ni cocientes de x ni de y. yn) . Esto es. es decir. Las constantes (dentro de la ecuación) a y b son llamadas respectivamente "intersección" (es el valor que toma y cuando x = 0. se puede trazar la línea. como para cada caso existe un par de observaciones. • Dados dos puntos (dos coordenadas x. mayor será su inclinación). no hay potencias mayores de x ni de y (x = x1). es decir. para cualquier valor conocido de x y de y se puede obtener a = y-bx. si b = 2. Comúnmente en las investigaciones se mide más de una variable en el mismo caso. los cambios son proporcionales. la cual tiene las siguientes características: • Es el tipo más sencillo de linea de aproximación. . De aquí. (xn. • El cambio en los valores de y (y2-y1) está relacionado con el cambio en los valores de x (x2-x1) de la siguiente manera: (y2-y1) = b(x2-x1) por lo que De aquí se deduce que b representa la magnitud del cambio en y por cada unidad de cambio en x. REGRESIÓN LINEAL . entonces. Si la variable independiente es x y la dependiente es y. • 9. etcétera (esto se conoce como recta a través del origen puesto que cruza a éste en un ángulo de 45 grados). . ya que se encuentra o se sospecha que existe alguna relación entre ellas. y1) (x2. y2) .2. se tiene en total n coordenadas: (x1. o bien. y siempre tendrá el mismo valor (constante). entre más alejado esté su valor de cero. y) se pueden encontrar los valores de a y de b. La relación funcional más simple entre dos variables es la igualdad: y = x. ya sea positivo o negativo. por ejemplo. el punto del eje de las ordenadas en donde la línea recta cruza) y "pendiente" (la inclinación de la línea.

por lo que se le conoce también como recta de los mínimos cuadrados. esta forma de llevar a cabo el análisis es muy subjetiva. Sin embargo.. Gráfica 9. Se le denomina objetivo porque cualquier persona que realice el análisis siguiendo el procedimiento establecido. llegará a idénticos resultados.. es decir. Esta línea es una recta respecto de la cual la suma de los cuadrados de las diferencias entre ella y las coordenadas observadas es mínima. Aquí es cuando la representación gráfica se vuelve indispensable para el análisis estadístico. . siendo las d2i los valores de las diferencias al cuadrado entre las coordenadas observadas y la línea (véase la gráfica 9.1. lo cual significa que diferentes observadores podrían obtener diferentes líneas de ajuste. La regresión lineal es un método objetivo para ajustar esta línea recta a través de un conjunto de puntos. cuando 2 2 2 d1 +d2 + . y) caen cercanos a una línea recta. por cada par de valores x. Es decir.2). y utilizando los mismos datos. +dn es mínima con respecto a la línea de regresión. La línea recta resultante del análisis de regresión se conoce como línea de regresión o de ajuste óptimo. en particular por el hecho de que en la realidad las coordenadas prácticamente nunca coinciden todas sobre una sola línea.108 El primer paso para tratar de ver si existe relación entre las dos variables es construir una gráfica de correlación (de dispersión o de nube de puntos) y si los puntos (definidos por los valores de las coordenadas. se puede asumir que entre las variables existe una relación lineal (véase la gráfica 9.1) y se puede trazar a ojo una línea que siga la tendencia general de las coordenadas (método libre de ajuste).

por lo que se estiman con los valores muestrales a y b. x es la variable independiente. por lo que se le llama intersección. continua. a $ se le conoce como la pendiente. y $ será igual a cero. permanecen por lo general desconocidos. El trazado de la línea recta puede lograrse a través de la siguiente ecuación: donde " y $ son las dos constantes de la ecuación (ver arriba). y es la variable dependiente. En una muestra. la línea de regresión se acercará más a la horizontal. los valores de " y de $. mientras que entre más cercano sea a cero. Para calcular estas estimaciones se tiene que (las siguientes ecuaciones se han obtenido por cálculo diferencial y no de la manera simple relatada arriba para la línea recta): . continua. Por su parte.2. para cualquier valor de x. se puede ver que cuando x = 0. que se ubica en el eje de las ordenadas. Por este motivo. lo que quiere decir que " es el punto en que la línea cruza el eje de las y. y toma siempre el mismo valor. entonces " = 0. si x = y. De la misma manera que arriba se refirió. entonces y = ". Cuando. $ representa la magnitud del cambio promedio en el valor de y por cada unidad de x. que se ubica en el eje de las abscisas. que son los valores poblacionales.109 Gráfica 9. Por supuesto. Entre más alejado de cero esté el valor de $ (positivo o negativo) mayor será la inclinación de la línea de regresión. se dice que es una relación constante.

E(x-x )2 es simplemente el denominador de la varianza de la variable x. c) Se verifica que la línea trazada cruce la coordenada correspondiente a las medias (x . En la actualidad. de las coordenadas observadas con respecto a la recta es mínima. todos estos procedimientos se realizan de manera fácil y rápida. llevar a cabo un análisis de regresión lineal podía constituir toda una hazaña. a esto se le conoce como covarianza. Con este procedimiento. para los cuales se obtienen los valores correspondientes de y (y1 y y2). pues al multiplicarse entre ellas su suma no necesariamente es igual a cero (podría llegar a serlo. G G x es la media de los valores de la variable x. También se G representa como Sxx. G G y ). es posible trazar la recta de ajuste óptimo: a) Se escogen dos puntos.110 L y que L o lo que es lo mismo: donde y es la media de los valores de la variable y. en este caso. las diferencias de x y de y con respecto a sus medias no se elevan al cuadrado. Una vez conocidas estas constantes. elevadas al cuadrado. G G Nótese que. También se representa como Sxy. pero ello no impide el análisis). Estas ecuaciones son las que permiten obtener la línea recta en la que la suma de las distancias. particularmente si el número de observaciones era grande. En décadas anteriores. además se puede "predecir" el valor que tomará y para cualquier valor de x: yp = a + bx donde yp es la y predicha por el modelo. cada uno con un valor determinado de x (x1 y x2). b) Se marcan las coordenadas de los puntos anteriores en la gráfica y se unen. y además puede tener un resultado con signo positivo o negativo. E(x-x )(y-y ) es la varianza conjunta de x y de y. . con los recursos electrónicos disponibles.

estimar la magnitud del error de muestreo. vale la pena estimar cuál puede ser el valor de este parámetro en la población ($). pues b es un valor obtenido a partir de una muestra. no podríamos afirmar que existe una asociación entre las dos variables que estamos analizando. Estos intervalos se calculan utilizando la distribución t de Student: Como se observa en la gráfica anterior. haciéndose mayor conforme x se aleja de su media y viceversa. en particular. pues tal y predicha. Interesa. y será necesario. como siempre. es únicamente el valor medio de todas las y que se podría esperar observar para el valor de x particular dado en la ecuación: L donde EEy. al calcular los intervalos a partir de todos los valores de x. lo que se obtiene es una franja de confianza. Para ello. Con dicho error de muestreo se puede calcular un intervalo de confianza (95 por ciento.111 Sin embargo. siendo la constante b de gran importancia para el modelo obtenido (no en vano se le conoce también como coeficiente de regresión). 99 por ciento o cualquier otro que se desee) para estimar los valores de y que se podrían observar para un determinado valor de x. debemos obtener el error estándar de b: . Por otro lado. Se puede advertir de la ecuación del error estándar que éste varía para cada valor de x.x se conoce como el error estándar de la regresión de y sobre x. por caer sobre la línea. sy. estimar si $ = 0 (hipótesis nula) pues. de ser así.x es la desviación estándar de la regresión de y sobre x: . hay que tomar en cuenta que se trabaja con una muestra.

Dado que para calcular estos errores y sus respectivas franjas de confianza se requiere de cálculos muy tediosos (hay que repetir los cálculos para cada valor de x que se desee). entonces se rechaza la hipótesis nula y se puede afirmar que la pendiente es significativa (que y cambia significativamente conforme cambia x).5.01 o el que se desee) y con gl grados de libertad (n-2). se utiliza la distribución t de Student: Gráfica 9. se . t es el valor en la distribución t de Student al nivel " de significancia (0. o algún otro que se desee).4. Así. Con este mismo error estándar se puede hacer el contraste de hipótesis para determinar si b es significativamente diferente de cero: donde b es el valor estimado de $ a partir de la muestra. aunque siempre debe advertirse que puede haber otro tipo de asociación.x excepto por la unidad dentro de la raíz cuadrada. Si el intervalo no incluye el valor cero. Con ello se puede obtener también una franja de confianza para la verdadera línea de regresión a cualquier nivel de confianza (95%. De igual manera.112 que es en todo similar a EEy. 0. la cual se puede sospechar al observar la gráfica de dispersión (de nuevo. no se puede rechazar la hipótesis nula de que $ = 0. 99%. es decir. la representación gráfica inicial es indispensable para este análisis). no se ha encontrado asociación lineal entre las variables. cuando el intervalo incluye el valor cero.

3. es decir. 9.6. todas las coordenadas llegaran a corresponder a la ecuación (si todas cayeran sobre la línea de regresión) se dice que existe una correlación perfecta positiva: Gráfica 9. Si la variable dependiente tiende a incrementar su valor conforme lo hace la independiente (si el coeficiente de regresión b es positivo). Si.113 asume que el estudiante tendrá acceso a programas de cómputo estadísticos que harán más feliz su vida. CORRELACIÓN .5. . Pero aún cuando b sea significativa y de gran magnitud. el grado de relación entre las dos variables estudiadas. entonces se habla de una correlación positiva (lo que en el lenguaje común se conoce como "directamente proporcional"): Gráfica 9. además de lo anterior. queda por medir la fuerza de la asociación.

se habla de una correlación perfecta negativa: Gráfica 9.8. Si el cambio en y cuando cambia x no muestra ninguna tendencia. entonces podemos decir que las variables no están correlacionadas: . se tratará de una correlación negativa (en el lenguaje común se le conoce como "inversamente proporcional"): Gráfica 9. si el valor de la variable dependiente tiende a disminuir cuando el de la independiente aumenta.7. si todas las coordenadas caen sobre la línea recta. De la misma manera que anteriormente.114 Por otro lado.

sin embargo.115 Gráfica 9. o en donde se acerquen mucho a ella.10. habrá ocasiones en donde las coordenadas se dispersen en mayor grado alrededor de la linea de regresión. relaciones no lineales: Gráfica 9.9. En el primer caso. diremos que la fuerza de asociación es menor que en el segundo: . Al hacer la representación gráfica. Pueden existir.

c) si r = 1 o r = -1. d) si r es igual o muy cercana a cero se puede decir que no hay correlación. Debe recordarse que la correlación es asociación estadística. pues puede haber correlaciones falsas. La manera de medir esta fuerza de asociación es por medio del coeficiente de correlación r de Pearson (no confundir con el coeficiente de regresión. entonces se habla de una correlación perfecta. El coeficiente r de Pearson es también un estimador del verdadero coeficiente de correlación de la población (D). Para ello. pero se debe estar pendiente siempre de la posibilidad de una correlación no lineal. b): cuyas propiedades son: a) el signo de r es el mismo signo que el de la pendiente (véase que el numerador es el mismo). por lo que se le somete a pruebas de hipótesis. en las que la hipótesis nula es que D = 0. se utiliza también la distribución t de Student: . e) una correlación alta (cercana a ±1) no necesariamente indica una relación de dependencia entre las variables. b) r sólo toma valores entre -1 y +1 y su valor no tiene ninguna magnitud en términos de las unidades de medida de x o de y. no necesariamente relación causal.116 Gráfica 9.11.

Finalmente. Como proporción sólo toma valores entre 0 y 1 (entre 0 y 100 por ciento). Es decir. es común recurrir a otro coeficiente que en ocasiones sirve como resumen de todo el análisis. Este se llama coeficiente de determinación y es simplemente r2 el cual se interpreta como la proporción o porcentaje en el que la variación de la variable dependiente puede ser atribuido a la variación en la variable independiente.117 El resultado se contrasta con la distribución t al nivel de significancia deseado y con n-2 grados de libertad.1). entre más alto es el valor de r2 podemos afirmar que la relación entre una y otra variables es más estrecha (ejemplo 9. .

siempre será mejor hacer este tipo de análisis en con computadora o. En este ejemplo sólo se ilustran los pasos generales. INFORMACIÓN En un estudio realizado por el Instituto para el Desarrollo de los Recursos (EUA). se midieron entre otras cosas el porcentaje de niños con diarrea tratados por medio de la terapia de rehidratación oral (TRO) y los niveles de mortalidad infantil (tasa por 1000 nacidos vivos: TMI) en diferentes países. al menos. 2 : tasa de mortalidad infantil (TMI) por 1000 nacidos vivos. determine si existe una relación entre el porcentaje de niños con diarrea tratados con TRO y el nivel de la tasa de mortalidad infantil. Dominicana El Salvador Perú 1 TRO (%)1 30 7 2 2 15 29 37 20 9 42 38 26 4 TMI (x1000)2 75 144 108 86 73 25 35 50 76 33 68 71 76 Trinidad y Tobago 53 26 : por ciento de niños con diarrea tratados con terapia de rehidratación oral (TRO). Por supuesto. . con una calculadora científica con funciones para regresión lineal. Esto formó parte del Programa de Encuestas Demográficas y de Salud. Utilizando el análisis de regresión lineal.118 Ejemplo 9. Algunos resultados se presentan enseguida: País Burundi Liberia Mali Senegal Marruecos Sri Lanka Tailandia Túnez Brasil Colombia Rep.1: Regresión Lineal y Correlación.

b) variable dependiente (y): tasa de mortalidad infantil por 1000 nacidos vivos.49 a = 67. Obtenga los valores de a y de b: b = -5274.99 + (-1.y1) y (x2. Construya la gráfica de dispersión: Vea si los puntos presentan alguna tendencia. entonces y1 = a+bx = 100.43 = -1.5714 E(x-x )2 = 3539.y2) que no se encuentren muy cercanas entre sí y compare esta linea con la que trazó a ojo.4286 G 4.49)(10) = 86.99 + (-1.99 5.43)(14159.43 / (3539. Distinga la variable dependiente de la independiente: a) variable independiente (x): porcentaje de niños con diarrea tratados con TRO.5552 INTERPRETACIÓN .57 . GG 6. Obtenga el valor del coeficiente de correlación: r = E(x-x )(y-y ) / (E(x-x )2 E(y-y )2) = -5274.y ).49) 22. Por ejemplo: si x1 = 10 por ciento de ninños con diarrea tratados con TRO. Obtenga los datos básicos: G x = 22.43 / 3539.49)(60) = 11.09 (TMI predicha por el modelo para el valor de x).7451)2 = 0.4286 G G E(y-y )2 = 14159.119 PROCEDIMIENTO 1. Obtenga el valor del coeficiente de determinación: r2 = (-0. trace una línea a ojo. 3.4286 G y = 67. Trace la linea de regresión: Primero.7451 G G G G 7. Con fines de comparación posterior.4286 G E(x-x )(y-y ) = -5274. entonces y2 = a+bx = 100.43) = -0. 2. obtenga los valores predichos de y en dos coordenadas (x1. y si x2 = 60.(-1.58 Compruebe que la línea de regresión trazada cruza por la coordenada (x .43 = 100.

5551 nos indica que el 55. es alto y negativo. otros muchos factores entran en juego para determinar el nivel de la mortalidad infantil. la tendencia es clara en el sentido de que conforme aumenta el porcentaje de niños con diarrea tratados con TRO. más aún cuando son pocas las observaciones. Además. disminuye la TMI. a través de la explicación de cómo la TRO puede modificar la TMI y hasta qué punto. pero estos no se verán en el manual).120 a) Si bien el gráfico de correlación no muestra uniformidad total en la tendencia de los puntos. c) El valor del coeficiente de correlación r = -0. sin embargo. harían falta otros análisis para afirmar esto con mayor certeza. esto es algo que cabe esperar en todos los casos. esta debería establecerse. lo que indica una fuerte asociación entre las dos variables.5 por ciento de la variación (de los cambios) en la TMI pueden ser atribuidos a la variación en el porcentaje de niños con diarrea tratados con TRO. .99 indica que la TMI en promedio.49 indica que por cada punto porcentual de aumento en los niños con diarrea tratados con TRO. pareciera ser que el modelo de regresión lineal es aplicable en este caso (en realidad. que necesariamente exista una relación de causalidad. El valor de b = -1. A pesar de todo.7451. Ello no significa. como en este ejemplo. en todo caso.5 defunciones por cada 1000 nacidos vivos. tendría este nivel si el porcentaje de niños con diarrea tratados con TRO fuera igual a 0. por lo tanto. b) El valor de a = 100. la TMI se reduciría en promedio en 1. d) El coeficiente de determinación r2 = 0.