Universidad de las Regiones Autónomas de la Costa Caribe Nicaragüense. Uraccan las Minas.

BIOESTADÍSTICA

Carrera: Ingeniería En Zootecnia Modalidad: Regular. Documento Recopilado Y Adecuado Por: Oscar Flores Pérez. Autorizado por: Secretaria académica, las minas. Actualizado Siuna, 2007.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Presentación
Comenzar a entender la Estadística requiere un cambio de mentalidad, no difícil, pero sí fundamental. Has de pasar de una mentalidad determinista a una mentalidad probabilista. Normalmente, tendrás la idea (bastante natural, por cierto), de que existe una relación de causa a efecto entre las cosas. Si tiras al suelo agua (causa), el suelo se moja (efecto). Esto es algo determinista; si lo haces un millón de veces, observarás una y otra vez el mismo resultado. No se trata de algo probable, que unas veces ocurre y otras no. La Estadística, en cambio, se basa precisamente en lo contrario; analiza cosas que unas veces ocurren y otras no, es decir, fenómenos que implican cierta incertidumbre, cierta probabilidad. En principio, parece que tales hechos deben ser raros o, al menos, que en la vida cotidiana no te los vas a encontrar. Pero resulta que la incertidumbre es algo tan común que casi pasa inadvertida. Por ejemplo, si coges una regla y mandas a medir la longitud de una mesa a 10 amigos, probablemente se obtengan varias medidas diferentes. ¿Cómo es posible, si se trata de la misma mesa y de la misma regla? Simplemente las diferencias entre personas en la forma de coger la regla, en cómo consideran el ajuste entre el borde de la mesa y la escala de la regla, en su tendencia a redondear si la medida de la mesa no se ajusta exactamente a una marca en la regla, etc., introducen variación. Esto se conoce por error de medida. Pero hay otras fuentes de variación que no dependen de la meticulosidad de una medida ni de lo sofisticado del aparato utilizado. Imagínate que no se trata de medir una mesa sino de determinar el peso de una especie cualquiera de ave, recogida durante una sesión de anillamiento. Probablemente, si tus 10 amigos realizan ese ejercicio se obtendran 10 pesos diferentes. A las diferencias entre personas, en este caso, hay que añadir que, probablemente, cada uno ha capturado y pesado individuos diferentes, que difieren en edad, sexo y condición física, por no hablar de la constitución genética, etc. La variación es algo omnipresente en la naturaleza, y esa es la fuente de incertidumbre, o sea, de probabilidades. Uno puede tratar de describir esa variación con palabras (muchos, pocos, grandes, pequeños, azules, amarillos,...). En algunos casos, eso es suficiente. Pero no cuando uno pretende acercarse a los detalles de un fenómeno natural. La Estadística permite describir esa variación en forma de números, lo cual resulta mucho más conveniente. Por tanto, el primer paso a dar para comprender la utilidad de la Estadística es admitir que existe variación en la naturaleza e incertidumbre en cualquier conjunto de observaciones; en resumen, adquirir una mentalidad probabilista. No es casualidad que en Estadística se use el término "variable". Las tres aplicaciones de la Estadística que se discuten en este documento tienen como objetivo, en el fondo, tratar con esa variación.

2

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Bioestadística
PRESENTACIÓN.
El presente documento esta dirigido a estudiantes universitarios y profesionales de las ciencias pecuarias y biológicas para que sirva de consulta acerca de la metodología estadística aplicada a las ciencias biológicas. Este documento requiere de una destreza razonable en álgebra para comprender los conceptos y métodos que fundamentan los cálculos. Asimismo se debe hacer énfasis en el aprendizaje basado en la comprensión intuitiva de los principios, y no en la comprensión de conceptos matemáticos complejos. En estos días de comunicación masiva y almacenamiento de información que se han hecho posibles gracias a los adelantos técnicos, la habilidad para entender y usar adecuadamente la información ha adquirido importancia creciente en todos los campos de las ciencias. No solo es importante saber usar apropiadamente la información disponible, también es esencial saber como recopilar la información adecuada para tomar decisiones si no se cuenta con tal información. A pesar de la extensa gama de campos de aplicación y la diversidad de problemas que se tratan, es posible analizar la naturaleza fundamental de los métodos estadísticos. La estadística en su forma más sencilla, como se aplica a problemas no sofisticados, trata con datos obtenidos al tomar muestras de alguna fuente y con el uso que ha de darse a tal información para sacar ciertas conclusiones acerca de dicha fuente. Los métodos estadísticos se aplican generalmente a diverso campos, tales como la agricultura, negocio, educación, ingeniería, gobierno, medicina, etc.; debe existir, por tanto, una parte central de la teoría y métodos que sea aplicable a todos esos campos. Los objetivos de este documento son: ⇒ Enseñar al estudiante a organizar y procesar datos (estadística descriptiva), ⇒ Enseñarle como tomar decisiones a partir de un gran volumen de datos al examinar solo una pequeña parte de ellos (Estadística inferencial). Nota: el estudiante debe ser capaz de inferir los modelos ejemplificados en este documento a ejercicios prácticos de su carrera o de su profesión. La inferencia de los modelos es lo más importante y no copiarlos al pie de letras.

3

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

I. INTRODUCCIÓN A LA BIOESTADÍSTICA.
Objetivos de la unidad. 1. Conocer la importancia de la Estadística y su campo de aplicación. 2. Valorar desde el punto de vista histórico el surgimiento y la importancia de la estadística. 3. Definir los conceptos básicos de Estadística. 4. Diferenciar los distintos tipos de variables según su naturaleza. 5. Comprender las técnicas de muestreos. 6. Establecer los criterios y normas mínimas que deben verificarse para construir y presentar adecuadamente los gráficos en el ámbito de la Estadística descriptiva. ¿Para qué sirve la estadística? La Ciencia se ocupa en general de fenómenos observables 1. ¿Resumir y describir la información? Estadística descriptiva Te permite organizar, resumir y describir la información recogida de modo que sea fácilmente comprensible para tí y para los demás, mediante el uso de: a) b) c) d) medidas de tendencia central: Media, Mediana, Moda, medidas de dispersión: Desviación Típica, Rango, Coeficiente de Variación, tablas, representación gráfica.

2. ¿Comparar valores medios entre grupos de datos? Contraste de hipótesis Te permite decidir si la variación entre grupos de datos es sistemática (debida a un fenómeno biológico) o meramente “ruido” debido a la variación natural existente en todo grupo de organismos, como se comentó al hablar de la mentalidad probabilista. Esto se logra mediante el uso de test estadísticos. La elección del test adecuado depende de: a) el tipo de variables, b) el número de muestras o tratamientos que se desea comparar, c) el cumplimiento de los requisitos necesarios para cada test (tests paramétricos y tests no paramétricos). 3. ¿Descubrir si hay relación entre dos variables? Medidas de asociación Te permite descubrir la existencia, dirección y fuerza de la relación entre dos variables, mediante:

4

tomar decisiones u obtener conclusiones. Definición. con objeto de Probabilidad: deducir las leyes que rigen esos fenómenos. recolección.. Aquí simplemente he introducido el tipo de preguntas que la Estadística ayuda a resolver. pero si sigues leyendo verás que tiene bastante sentido. Bioestadística Reconozco que ahora mismo todo esto parece misterioso. organización y procesamiento de datos. formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes. Inferencial: y poder de esa forma hacer previsiones sobre los mismos. ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico.Elaborado por: Ing. La Estadística es la Ciencia de la Descriptiva: Sistematización. La Ciencia se desarrolla observando hechos.1 Conceptos básicos. Voy a ello. Pero antes es conveniente dar una serie de definiciones. Óscar Flores Pérez a) correlación.. El resto del documento trata con más detalle cada una de estas tres utilidades e intenta dejar claro por qué son interesantes e incluso necesarias cuando tienes que analizar tus datos. Resumiendo lo anterior se puede decir que la Estadística es la disciplina que se ocupa de 1) recolección. c) tablas de contingencia. 5 .] enseña y ayuda a investigar en todas las áreas de las Ciencias de la Vida donde la variabilidad no es la excepción sino la regla” Carrasco de la Peña (1982) 1. Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico) La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza “La Bioestadística [. b) regresión. y 2) la obtención de inferencias a partir de un volumen de datos cuando se observa solo una parte.

¿Sexo? ¿Sector laboral? ¿Otros factores? Recoger los datos (muestreo) ¿Estratificado? ¿Sistemáticamente? Describir (resumir) los datos obtenidos Tiempo medio de baja en fumadores y no fumadores (estadísticos) % de bajas por fumadores y sexo (frecuencias).2 Pasos en un estudio estadístico Plantear hipótesis sobre una población.. Los fumadores tienen “más bajas” laborales que los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? Decidir qué datos recoger (diseño de experimentos) Qué individuos pertenecerán al estudio (muestras) Fumadores y no fumadores en edad laboral. 1.. Cuantificar la confianza en la inferencia Nivel de confianza del 95% Significación del contraste: p =2% No tenéis que tenerlo aun 6 . Realizar una inferencia sobre la población Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.Elaborado por: Ing. gráficos.. Óscar Flores Pérez Bioestadística Bioestadística. Tiempo de duración de cada baja. Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? Qué datos recoger de los mismos (variables) Número de bajas. Cuando los datos que se analizan proceden de las ciencias biológicas se prefiere el termino bioestadística para distinguir las herramientas y conceptos de la estadística general.

o grupo de clase. etc.Elaborado por: Ing. se tiene una muestra 7 . Población y muestra Población es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). es una parte de la población Debería ser “representativo”. Es decir. Si. Si se estudian. Al suponer que una población de los pesos de todos los terneros menores de un año de un sistema semi estabulado de la Hacienda La Esperanza y se escoge para el análisis solo cierto número de los pesos. si se tiene interés en conocer el peso de los niños inscritos en el sistema de educación primaria de la escuela Rafaela Herrera. se tiene prácticamente una parte de la población (de pesos). Si una población de valores consiste en un número fijo de esos valores. unidades experimentales). Óscar Flores Pérez Bioestadística Unidad de estudio. Ejemplo. Lo más normal es que se trate de individuos. Es cada elemento que va a ser estudiado. que son grupos de individuos. Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). También se denomina unidad de muestreo. colonias. se dice que la población es finita. Normalmente es demasiado grande para poder abarcarlo. la población esta formada por todos esos pesos. es decir. entonces. Esta formado por miembros “seleccionados” de la población (individuos. Por ejemplo. Los terneros de repastos de la finca las Azucenas. conjunto de individuos o cosas que tienen unas características comunes y a los que va referida toda investigación estadística. Siuna. las unidades de estudio son partes de un individuo. pero no tiene por qué ser así. una población consiste de una sucesión infinita de valores. Las poblaciones pueden ser finitas o infinitas. Por ejemplo. las longitudes de los picos de las gaviotas. por otra parte. el número de alumnos de un centro de enseñanza. entonces es una población infinita. por ejemplo. Ejemplo. Así que en Estadística puede hablarse de una "población de picos de gaviota" o una "población de bandos" sin estar loco. nidadas. es decir. Hay tantos y de tantas calidades que esa población podría considerarse infinita. si se realizase un estudio sobre los productos que hay en el mercado. El estudio también puede centrarse en bandos.

8 . calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Estadístico: Es una cantidad numérica calculada sobre una muestra ⇒ La producción media en litros de las vacas Holstin de la Hacienda El vaquero. carácter destructivo (algunos casos).Elaborado por: Ing. Somos una muestra (¿representativa?) de la población. validez. El objetivo final de la estadística no es otro que el de encontrar formas simples mediante las cuales se pueda hacer descripciones o informaciones cuantitativas o cuantitativas sobre una serie de datos. pero por la dificultad que conlleva estudiar a *TODA* la población. tiempo. ¿Por qué se estudia generalmente solo una parte de la población y no toda la población? Razones: costo económico. La confianza dependerá del grado de precisión con que se haya construido la muestra de que los métodos utilizados sean los adecuados y de que se hayan aplicados correctamente. entre otras. accesibilidad (vida marina). Bioestadística Existen muchas clases de muestras que pueden escogerse de entre una población y lo abordaremos mas adelante. Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. ¿Qué grado de confianza podremos otorgar a estas deducciones? La muestra debe ser representativa de la población. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño. Pero por lo general. los datos se obtienen solo de un grupo de población al que se denomina muestra y a partir de la cual se generalizan los resultados. Parámetro: Es una cantidad numérica calculada sobre una población • La producción media en litros de leche de vaca de un país La idea es resumir toda la información que hay en la Población en unos pocos números (parámetros). Normalmente nos interesa conocer un parámetro. Óscar Flores Pérez Las vacas de razas Holstin del Municipio de Siuna. la confiabilidad.

. medida).. votos.. {Deprimido. Ejemplo de variable son la presión sanguínea diastólica. número de potreros. para cada una de las unidades de estudio incluidas en la muestra. Es cada uno de los registros o valores individuales que toma la variable que se ha medido. Variable: Género Modalidades: H = macho M = hembra En los individuos de la población nicaragüense. peso de marranos. B. raza. número de huevos. sexo de las animales. temperatura. regiones. animales. macho (sexo de las aves). personas. Ni fu ni fa. Reales: Abstractos: Naturales: Artificiales: número de cuarterones. color del pelaje. intervalos de tiempo. Variable es cualquier característica que ha sido medida. Óscar Flores Pérez Elementos: individuos o cosas que integran la población Bioestadística Caracteres: rasgos. Hirundo rustica (especie).Elaborado por: Ing. AB. Cualitativa Var. Ejemplos: 5 ºC (temperatura). edad. parcelas de tierra. frecuencia cardiaca. propiedades o cualidades que poseen los elementos de la población sobre la que realizamos el estudio. La información que disponemos de cada individuo es resumida en variables. personas.. registrada o cuantificada durante el estudio realizado.. Muy Feliz} Var. de uno a otro es variable: El grupo sanguíneo {A. Variables Si una variable es una característica observable que varía entre los diferentes individuos de una población. Puede recibir otros nombres (caso. Ej. observación. especie. Ejemplos: temperatura. Dato. peso de erales. Ordinal 9 . bosque (hábitat).. hábitat utilizado. O} Su nivel de felicidad “declarado”.: peso. 3 (número de huevos). altura.

. Presión intraocular. 48. perdida o caída de dientes en niños en la escuela primaria.. numero de cabezas de ganado. {0. 3.1. Cualquier variable no expresable en forma de números.. nunca podrá ser 3. mediciones de alzada de la cruz de terneros machos. 2. peso. Estatura. etc. etc. teóricamente siempre es posible encontrar otro animal cuyo peso se encuentre entre las dos pesos de referencia. etc.} Producción en litros de leche.. Estas separaciones indican la ausencia de valores entre los distintos valores específicos que la variable puede asumir. Sin importar cuan cerca estén los pesos de dos animales. Las V. son aquella que pueden medirse en forma usual. Se caracteriza por interrupciones o separaciones en la escala de valores que puede tomar. Numérica discreta Var... 60. 32. Altura..625. Por ejemplo. puede ser 32 Kg. es decir toma valores enteros. pero que puede expresarse de un modo cualitativo en forma de categorías. Óscar Flores Pérez El número de cabezas de ganado..876 Kg. P. Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Variable aleatoria discreta. Bioestadística Var. {1’6. 2. Dosis de proteína suministrado en el concentrado. 10 . Número de becerros (puede ser 1.. etc. e. Continuas pueden tomar cualquier valor dentro de un intervalo. 40. 2. edad Ejemplo. a.45). Si entre dos valores. Variable aleatoria contínua una variable aleatoria continua puede tomar cualquier valor dentro de un intervalo especificado de valores es decir. Número de partos de una vaca. número de cabezas de ganado.Elaborado por: Ing. peso de marranos. Número de terneros. 3. e. el peso.} Tipos de variables. Variable cualitativa. 1’74.. “Numero de “Cabezas de bovino” P. pero por ejemplo. son posibles infinitos valores intermedios. aunque sin establecer ninguna relación de orden entre ellas.. Numérica contínua Variable cuantitativa o Numéricas.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Ejemplos: sexo, hábitat, color, diagnóstico medico, grupo étnico, etc. Cualitativos o Atributos: Miden una cualidad y se representan por palabras. Ej.: color de pelaje, sexo, razas, nacionalidad.... A cada uno de los posibles valores de un atributo se le denomina modalidad. Ej.: en el atributo color de ojos: negro, marrón, azul y verde, son las distintas modalidades. Nominales: Si sus valores no se pueden ordenar. Sexo, Grupo Sanguíneo, Raza, Nacionalidad, vaquilla (Sí/No), el color del pelo, origen de la raza, etc. Ordinales: Aquella que no puede ser expresada en forma de números, pero que puede ser ordenada o clasificada según su magnitud. Ejemplos: escalas de abundancia, probabilidades de cría, mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor, selección de especies, el nivel de pisoteo en el suelo, etc. Variable aleatoria. Se refiere a valores (observaciones o mediciones) que se originan de factores aleatorios. Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador. Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualitativas: Códigos arbitrarios) 1 = Macho 2 = Hembra Raza (Cualitativas: Códigos arbitrarios) 1 = Criolla 2 = Holstin,... Felicidad Ordinal: Respetar un orden al codificar. 1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz Se pueden asignar códigos a respuestas especiales como 0 = No sabe 99 = No contesta...

11

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’) Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico. No todo está permitido con cualquier tipo de variable. Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos) Partos: Ninguno, de 2 a 3, más de 3 partos. Hijos: Menos de 3 terneros, 3 o más. Las modalidades/clases deben forman un sistema exhaustivo y excluyente. Exhaustivo: No podemos olvidar ningún posible valor de la variable Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)? Bien: ¿Cuál es su grupo sanguíneo? Excluyente: Nadie puede presentar dos valores simultáneos de la variable Estudio sobre el ocio. Mal: De los siguientes, qué le gusta: (deporte, cine) Bien: Le gusta el deporte: (Sí, No) Bien: Le gusta el cine: (Sí, No) Mal: Cuántas vacas paridas tiene: (Ninguna, Menos de 5, Más de 2) Ejercicios. 1. 2. 3. 4. 5. Describa dos poblaciones finitas y dos infinitas. Definir dos poblaciones con sus respectivas muestras. Describa dos variables continuas y dos variables discretas. Describa dos variables ordinales y dos nominales. Clasifique las Variables siguientes, o como v. contínua, o discreta, o atributo u ordinal: 5 variables (longitud del pico, número de sondeos, número de presas, sexo, nivel de marea).

Cómo redondear decimales. Para redondear esos decimales de más que aparecen al usar la calculadora o el ordenador, sólo hay que seguir unas reglas muy sencillas:

12

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

(1) si el último número después de la última cifra a considerar es igual o mayor que 6, se suma 1 a la última cifra; por ejemplo 6,32654 se redondea a dos cifras decimales como 6,33; (2) si el último número después de la última cifra a considerar es menor que 5, se deja la última cifra como está; por ejemplo 6,32654 se redondea a una cifra decimal como 6,3; (3) si el último número después de la última cifra a considerar es igual a 5, se redondea la última cifra al número par más próximo; por ejemplo, 6,32654 se redondea a tres cifras decimales como 6,326. 1.3

Muestreo.

En términos generales existen dos tipos de muestreo probabilístico y no probabilístico. En este documento base abordaremos con mayor énfasis el muestreo probabilístico, debido a que existen procedimientos estadísticos seguros que permiten inferir a partir de la muestra extraída de la población de interés. Definición. Una muestra probabilística es una muestra extraída de una población de tal forma que cada elemento tiene una probabilidad conocida de estar incluido en la muestra. Definición. Una muestra de tamaño n, extraída de una población de tamaño N, se llama muestra aleatoria simple, si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada. Por ejemplo, hemos mencionado que las poblaciones están formadas por individuos, pero sería mejor denominarlas unidades de muestreo o unidades de estudio: por ejemplo. Personas, células, familias, hospitales, países… La población ideal que se pretende estudiar se denomina población objetivo. ⇒ No es fácil estudiarla por completo. Aproximamos mediante muestras que den idealmente la misma probabilidad a cada individuo de ser elegido. ⇒ Tampoco es fácil elegir muestras de la población objetivo: Si estudiamos las vacas paridas, excluimos a los que no lo están. Si elegimos animales a orillas de vías de acceso, olvidamos los que están en las vías de acceso...

13

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

El grupo que en realidad podemos estudiar (v.g. las vacas paridas) se denomina población de estudio. 1.4

Técnicas de muestreo

Cuando elegimos individuo de una población de estudio para formar muestras podemos encontrarnos en las siguientes situaciones: Muestreos probabilistas. • Conocemos la probabilidad de que un individuo sea elegido para la muestra. • Interesantes para usar estadística matemática con ellos. Muestreos no probabilistas. Muestreo no probabilísticos. ⇒ Dirigido o intencional. Consiste en seleccionar las unidades maestrales según el juicio de los investigadores, dado que las unidades gozan de representatividad. ⇒ Deliberado o convencional. Consiste en tomar una muestra por su cómoda accesibilidad. ⇒ Por cuotas. Es una técnica corriente en las encuesta de opinión publica. El investigador selecciona de acuerdo a si criterio un número determinado de individuos u objetos (cuota) de cada uno de los sectores de la población. P.e entrevistar a 25 señoras del mercado, 30 obreros, 20 estudiantes, etc. ⇒ Bola de nieve. Este es el nombre con que se describe la técnica de recoger información en cascada. Se entrevista a algunos informantes claves que a su vez sugieren a otros y así sucesivamente. En las muestras no probabilísticas: • No se conoce la probabilidad. • Son muestreos que seguramente esconden sesgos. • En principio no se pueden extrapolar los resultados a la población. A pesar de ello una buena parte de los estudios que se publican usan esta técnica. ¡Buff! En adelante vamos a tratar exclusivamente con muestreos con la menor posibilidad de sesgo (probabilistas): aleatorio simple, sistemático, estratificado y por grupos.

14

el encuestador no sabe si ha salido cara o cruz) Aunque no podamos saber cuál es la verdad en cada individuo.. se me verá el plumero…? ¿Cómo se hace? Pídele que lance una moneda antes de responder y… Si sale cara que diga la “opción comprometida” avergonzarse. Para evitar este tipo de sesgo se utilizan la técnica de respuesta aleatorizada. 15 .. Hay otras fuentes de error/sesgo.… ⇒ Mentir en las preguntas “delicadas”. ¿Si digo la verdad. Óscar Flores Pérez 1. viendo en cuánto se alejan las respuestas del 50%. Las poblaciones objetivo y de estudio pueden diferir en cuanto a las variables que estudiamos. ⇒ Los animales que se eligen a orillas de la vía pueden ser de mayor peso (mayor frecuencia de adultos. la culpa es de la moneda) (no tiene por qué Si sale cruz que diga la verdad (no tiene por qué avergonzarse. 1..)… En este caso. violencia doméstica. Consumo de drogas.Elaborado por: Ing. prácticas poco éticas. Al tipo de sesgo debido a diferencias sistemáticas entre población objetivo y población de estudio se denomina sesgo de selección.6 Técnicas de respuesta aleatorizada Reducen la motivación para mentir (o no responder) a las encuestas. e. ⇒ No respuesta a encuestas embarazosas. p. podemos hacernos una idea porcentual sobre la población.5 Bioestadística Fuentes de sesgo (parcialidad). ⇒ El nivel económico en la población de estudio es mayor que en la objetivo. diremos que las muestras que se elijan estarán sesgadas.

de manera que todos tienen la misma probabilidad de aparecer. 16 . hasta alcanzar el tamaño muestral deseado. la probabilidad de que sea elegido en el segundo intento es de 1/N−1. Muestreo aleatorio con reposición Sobre una población E de tamaño N podemos realizar extracciones de n elementos. pero de modo que cada vez el elemento extraído es repuesto al total de la población. Se eligen individuos de la población de estudio. Si observamos un elemento particular. cada observación es realizada sobre la misma población (que no disminuye con las extracciones sucesivas). y eligiendo individuos aleatoriamente con un ordenador.) Bioestadística Consideremos una población finita. Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra. denominamos al proceso de selección muestreo aleatorio. Muestreo aleatorio sin reposición Consideremos una población E formada por N elementos.6. ⇒ en el (i + 1) – ésimo intento.s. De este modo. Se puede realizar partiendo de listas de individuos de la población. y se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser elegido. ⇒ Con reposición. la población consta de N − i elementos. Normalmente tiene un coste bastante alto su aplicación. y las observaciones se realizan con reemplazamiento. la probabilidad de que lo sea en este momento es de 1/N−i . El muestreo aleatorio se puede plantear bajo dos puntos de vista: ⇒ Sin reposición de los elementos. El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple. Óscar Flores Pérez 1. en un muestreo aleatorio sin reposición se da la siguiente circunstancia: ⇒ La probabilidad de que e sea elegido en primer lugar es 1/N. de la que deseamos extraer una muestra. e ∈ E. con lo cual si e no ha sido seleccionado previamente. ⇒ Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de N−1/N.Elaborado por: Ing.1 Muestreo aleatorio simple (m.a. De esta forma un elemento puede ser extraído varias veces.

ya que recorre la población de un modo más uniforme. el muestreo sistemático suele ser más preciso que el aleatorio simple. donde el primero ha sido elegido al azar.. ⇒ Tomar como muestra los elementos de la lista: {em. ya que los últimos elementos de la lista nunca pueden ser escogidos. elegimos individuos igualmente espaciados de la lista.Elaborado por: Ing. Fórmula para estimar el tamaño de la muestra para un muestreo aleatorio simple. Por otro lado. una manera de muestrear consiste en Sea k = N/n. entre 1 y k. es a menudo más fácil no cometer errores con un muestreo sistemático que con este último. Un modo de 17 .05 (probabilidad de éxito y fracaso respetivamente y corresponde la máxima varianza). Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos mas parecidos tienden a estar más cercanos. las técnicas de inferencia estadística suponen que la muestra ha sido elegida usando m. ⇒ Elegir aleatoriamente un número m. El método tal como se ha definido anteriormente es sesgado si N/n no es entero. Z 2 pqN n= Ne 2 + Z 2 pq Donde Z = es el valor de la tabla de distribución normal según el nivel de significancia elegido. . p = q = 0. . .s.6. Óscar Flores Pérez Bioestadística En general. Cuando los elementos de la población están ordenados en fichas o en una lista. aunque en realidad se use alguna de las que veremos a continuación. fh = n = ksh N fh = Factor que define la proporción muestral por cada estrato 1. em+k.2 Muestreo sistemático Se tiene una lista de los individuos de la población de estudio.a. em+(n−1)k} Esto es lo que se denomina muestreo sistemático. e = limite del error de muestro y N = tamaño de la población o marco muestral. . Si queremos una muestra de un tamaño dado. em+2k.

67. a partir de m. obtendremos una muestra sesgada.… Caso 2. teniendo en cuenta que la lista es circular. k. en k sub poblaciones o estratos. el correspondiente al numero 7. 7+20+20+20. . . ⇒ Se selecciona un número al azar m. 107. 47.6. Se puede comprobar que con este método todos los elementos de la lista tienen la misma probabilidad de selección. 27. e. Suponga una población de la que se desea tomar una muestra del 5% por lo que tendremos que tomar a un animal de cada 20 para ello es suficiente con seleccionar solo un anima entre los 20 primeros. . Si al elegirlo sale. 87. . etc. es decir este muestreo es adecuado siempre y cuando en los elementos de la población no exista una periodicidad que coincida con la ordenación de la muestra. están mejor ventiladas. de tamaños respectivos N1. que reciben más sol.3 Muestreo estratificado Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos. 18 . . entonces la muestra la compondremos con todos los sujetos a quienes los corresponda los siguientes: 7. N = N1 + N2 + · · · + Nk y realizando en cada una de estas sub poblaciones muestreos aleatorios simples de tamaño ni i = 1. Nk.) 1. atendiendo a criterios que puedan ser importantes en el estudio. A continuación nos planteamos el problema de cuantos elementos de muestra se han de elegir de cada uno de los estratos. Para ello tenemos fundamentalmente dos técnicas: la asignación proporcional y la asignación óptima.Elaborado por: Ing. 7+20+20. Salieron con mucha frecuencia las de las esquinas. entre 1 y N. . ⇒ Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k. CUIDADO: Si en la lista existen periodicidades. . Óscar Flores Pérez Bioestadística evitar este problema consiste en considerar la lista como si fuese circular (el elemento N + 1 coincide con el primero) y: ⇒ Sea k el entero más cercano a N/n. p. etc. 7+20. (7. Un caso real 1: Se eligió una de cada cinco casas para un estudio de salud pública en una ciudad donde las casas se distribuyen en manzanas de cinco casas. .

Recién nacidos. Óscar Flores Pérez Asignación proporcional Bioestadística Sea n el número de individuos de la población total que forman parte de alguna muestra: n = n1 + n2 + · · · + nk Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total: ni = n ·Ni/N Asignación óptima Cuando se realiza un muestreo estratificado. los elige quien hace el muestreo. los tamaños muestrales en cada uno de los estratos. El estrato posee mayor variabilidad interna (varianza). minimizar el coste en la obtención de las muestras. Al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo del estrato con respecto al total de la población. El muestreo es más barato en ese estrato.s. para un coste especificado. ⇒ habiendo fijado la varianza que podemos admitir para el estimador.a. sub poblaciones o estratos) que pueden influir en el estudio y queremos asegurarnos de tener cierta cantidad mínima de individuos de cada tipo: Machos y Hembras. ni. o bien. se tiende a tomar una muestra más grande cuando: El estrato es más grande. Se aplica cuando sabemos que hay ciertos factores (variables. jóvenes y adultos… Se realiza entonces una m. En ocasiones puede ser conveniente e incluso necesario subdividir una población heterogénea en subgrupos homogéneos y escoger dentro de cada subgrupo un determinado número de casos elegidos al azar mediante un muestreo simple o sistemático. de los individuos de cada uno de los estratos. Así en un estrato dado.Elaborado por: Ing. 19 . y para ello puede basarse en alguno de los siguientes criterios: ⇒ Elegir los ni de tal modo que se minimice la varianza del estimador.

Supongamos que tenemos una población de N unidades dividida en L estratos. nivel de confiabilidad = 95%. N =total de elementos que componen el marco muestral. N = ∑ N h . Ni = número de elementos por estrato. n = tamaño de la muestra. Sea Nh el numero de unidades de a población en el estrato h. esta estimación es insesgada y tiene la varianza dada por 2 ⎛ N ⎞ ⎛σ h Vs (X ) = ∑ ⎜ h ⎟ ⎜ ⎜ h =1 ⎝ N ⎠ ⎝ n h L 2 ⎞ ⎟ ⎟ ⎠ Estratificación optima. 20 . n = muestra total y D = B2/4 y B es el límite del error de muestreo. Entonces. Óscar Flores Pérez Bioestadística El método es adecuado cuando los grupos a estudiar están en realidad verdaderamente estratificados. nh ⎛ ⎜ = n⎜ ⎜ ⎜ ⎝ N hσ h ∑ (N h =1 L h σ h ⎞ ⎟ ⎟ ⎟ )⎟ ⎠ Fórmula para estimar el tamaño de la muestra en un muestreo estratificado. Esto dará una muestra estrato – aleatoria de tamaño n = ∑ nh para la población entera. Una estimación ponderada de la media j =1 L de población µ basada en esta estratificación es X =∑ Nh xh h =1 N L Donde xh es la media de la muestra del estrato h.Elaborado por: Ing. Donde.5 y luego. p = q = 0. y sea µh la media de estrato y σ h su varianza. Se toma una muestra aleatoria 2 j =1 L de tamaño nh en el estrato h-ésimo.

Óscar Flores Pérez 1. Para componer una muestra por conglomerados se selección aleatoriamente cierto número de conglomerados y se investiga después a todos los elementos que los componen. que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad.4 Muestreo por grupos o conglomerados Bioestadística Si intentamos hacer un estudio sobre los habitantes de una ciudad. Es condición previa que en cada conglomerado existan elementos de la población de todas las clases (heterogéneo) y que los conglomerados sean entre si los mas parecidos posibles (homogéneos). Sea X la variable estudiada en esta población y µ y σ su media y desviación estándar. y ya elegidos algunos podemos estudiar a todos los individuos de los grupos elegidos o bien seguir aplicando dentro de ellos más muestreos por grupos. Si se toma una muestra aleatoria de n conglomerados dentro de la población de N conglomeraos se obtiene una estimación de µ dada la media global de todos los elementos obtenidos que es X = ∑ ∑ i =1 n Mo j =1 X ij nMo 21 . Podemos utilizar luego cada uno de estos conglomerados como una unidad muestra. En esta situación es más económico realizar el denominado muestreo por conglomerados. por estratos. denótese con Xij el valor observado de X para el j – ésimo elemento de i – ésimo conglomerado.6. Además. ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a n puntos distintos de la misma. para después elegir calles y edificios. Se aplica cuando es difícil tener una lista de todos los individuos que forman parte de la población de estudio. el muestreo aleatorio simple puede resultar muy costoso. se entrevista a todos los vecinos. de modo que en cada uno de ellos sólo se realiza una entrevista. aleatorios simples.… Supongamos que se divide una población de M unidades en N conglomerados de Mo unidades cada una. Se realiza eligiendo varios de esos grupos al azar.Elaborado por: Ing. Se denomina conglomerados a la agrupación de varios elementos de la población con arreglo o alguna condición o característica. pero sin embargo sabemos que se encuentran agrupados naturalmente en grupos. Una vez elegido el edificio.

el estado civil. podemos elegir a varias municipios de Nicaragua. etc. los beneficios. Objetivo: Obtener para cada posible observación de la variable o atributo un número o palabra que la identifique. medios. Escala de intervalo en la que se ha fijado un punto de origen que marque un cero absoluto. la 22 . y… Al igual que en el muestreo estratificado. erales. Formas de Obtener nuestro Objetivo: . raza. comarcas. Es una escala cuantitativa. etc. Por ejemplo. hospitales grandes frente a pequeños. Escala Ordinal: Escala en la cual la información sobre un determinado carácter se puede clasificar en categorías no numéricas mutuamente excluyentes. dentro de ellas varias comarcas. Escala de Proporción: Es la razón de una parte respecto al todo.Mediante un sistema de evaluación .Midiendo . recomiendo leer más sobre “Teorías de muestreo” Escalas de Medición de Caracteres. al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo de unos grupos con respecto a otros. la ideología política. y dentro de ellas varios centros de salud. Escala de Intervalos: Escala en que se establece de antemano algún tipo de unidad de medida.Mediante la asignación de un rango a cada elemento Tipos de Escala: Escala Nominal: Escala en la cual la información sobre un determinado carácter se puede clasificar en categorías no numéricas mutuamente excluyentes. novillos. Óscar Flores Pérez Bioestadística Por ejemplo. Municipios con diferente población pueden tener probabilidades diferentes de ser elegidas. Por ejemplo: los volúmenes de ventas. el sexo. entre las cuales no se puede establecer ninguna relación de orden. superiores y otros). Para conocer la opinión de los médicos del sistema nacional de salud.Elaborado por: Ing. Por ejemplo: los niveles de estudios (primarios. etc. entre las cuales sí que se puede establecer alguna relación de orden. pudiéndose cuantificar numéricamente la distancia existente entre dos observaciones cualesquiera. Terneros. Por ejemplo: las profesiones laborales.… Nota: para mayor ampliación sobre este apartado. producción de carne. Por ejemplo: en una manada de 50 animales bovinos hay 17 machos.

la edad. etc. Por ejemplo: el mandador que revisa a su hato y cuenta los machos y hembras. Si estudiamos de forma exhaustiva a la población decimos que estamos realizando un CENSO. De observación periódica: el inventario anual que realizan los comerciantes. deducimos datos relativos estadísticos relativos a otros. ganaderos. Observación parcial: Consiste en observar un subconjunto de la población que se está analizando. Se propone cumplir su objetivo extrayendo una muestra aleatoria de 200 casas de familia de los que aparecen en una lista de todas las casas del sector urbano y selecciona luego al azar un adulto de cada casa. ventas y operaciones que se registran a medida que se van produciendo. de un modo permanente. Por ejemplo: deducir el número de zapatos que fabrica una empresa a partir del número de clavos que utiliza para las suelas. Observación continua. Observación indirecta: Cuando de unos datos estadísticos ya conocidos sobre cierto hecho o fenómeno. Ej. Ej. Observación exhaustiva o parcial Observación exhaustiva: Consiste en observar a todos y cada uno de los elementos de la población que se pretende estudiar.  Ejercicios. 1. Una agencia desea obtener una muestra de 200 adultos de cierta zona residencial de la ciudad de Siuna. Formas de Observar la Población: Censos y Encuestas Observación directa o indirecta Observación directa: Implica observar el fenómeno y las condiciones que le acompañan. periódica o circunstancial Ejemplo de observación continua: las compras. el número de unidades físicas de un stock. lo mismo puede suceder con las variables. ¿Por qué se lograrán o no muestras aleatorias con este procedimiento? Respuesta: 23 .Elaborado por: Ing. De observación circunstancial: la obtención de censos de comercios. Óscar Flores Pérez Bioestadística proporción es 17/50 o lo que es lo mismo el 34%. unidad por unidad.

en un campo de maíz. ¿La varianza de muestreo seria en este caso igual a cero? Fundamente su respuesta. 3. ¿Cuál es la variable aleatoria? b. Respuesta: ¿? 7. El número de palabra de un libro se determina seleccionando una muestra de páginas y contando el número de palabras en esas paginas. Niños en una comunidad de menos de 5 años de edad y que hayan tenido sarampión. sea afirmativa o negativa. a. para obtener muestras de: Árboles de un bosque. ¿De que tipo de muestra se trata? 4. considere que resultaría mas económico o mas eficaz aplicar un muestreo estratificado en lugar de uno aleatorio. Óscar Flores Pérez Bioestadística 2. Respuesta: 5. De un ejemplo de una población en la que ud. Se quiere tener una muestra de huevos a efecto de determinar su calidad. ¿? 24 . Sugiera un plan para muestreo aleatorio. Respuesta: 6. si este campo es un cuadrado cuyo lado mide 1000 m y si cada muestra se toma eligiendo un punto al azar en el cuadrado y recogiendo el maíz que se encuentre dentro de un circulo de 5 m de diámetro cuyo centro se hala en el punto tomado al azar? Respuesta. La muestra se consigue mediante elección al azar de 10 cajas y la ulterior elección aleatoria de 2 huevos de cada caja de muestra.Elaborado por: Ing. Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la universidad Uraccan las minas. El embarque consiste en 100 cajas con 36 docenas de huevos cada una. ¿Cual es la población? Respuesta: ¿Cómo usaría ud números al azar par tomar muestras de maíz. En cada caso indica alguna variable a estudiar. Suponga que se examinaron los 36 huevos de las cajas de la muestra. Respuesta: variada.

⇒ Cuerpo. Distinguir los elementos principales de correlación y regresión. Conocer la utilidad de los estadísticos descriptivos. donde y cuando). ya que en ellos se pondrán las relaciones que se desean destacar. Una distribución de frecuencias proporciona mayor visualización de conjunto que un arreglo de datos. las columnas y la distribución de la información por orden de importancia que. Aplicar el análisis de correlación a problemas prácticos. también se indica en ellas la fuente de información. si se tiene la posibilidad de mantener los datos en “bruto” para el calculo de estadísticos de resumen. por lo general no es alfabéticamente. miles o millones. ⇒ Encabezado de columnas. 25 . la cual da solo aproximaciones de esos estadísticos. es aquella en que se anotan las categorías. No es fácil la elaboración de un cuadro: debe planearse cuidadosamente su tamaño. Es necesario ser cuidadoso en la elección de las columnas y sus encabezamientos. Otro aspecto importante es la elección de las unidades de medidas de las magnitudes. ⇒ Notas al pie. Calcular e interpretar estadísticos descriptivos. estos deben usarse y no una distribución de frecuencias. tienen por objeto aclarar ciertas operaciones o relaciones que se utilizan en el cuadro. En general un cuadro se compone de líneas y columnas y sus partes esenciales son: ⇒ Títulos en los que se destaca el objeto del cuadro (que. Organización de datos y medidas descriptivas. Objetivos de la unidad. Por esta razón.Elaborado por: Ing. Cuadros. en notas en el encabezamiento debe indicarse si se trabaja con cientos. 2. es la parte que contiene la información. 1. 4.1 Distribución de frecuencias. Conocer la importancia del análisis de correlación y regresión. ⇒ Columna principal. como. 2. 3. Aplicar el análisis de regresión a problemas reales. Óscar Flores Pérez Bioestadística II. si es necesario se agregan notas con explicaciones. pero pierde la posibilidad de mantener el Batlle de la información original. 6. 5. en el que se explica el objeto de cada una de ellas.

.... Siendo f el porcentaje que la repetición de cada valor supone sobre el total Veamos el ejemplo siguiente: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm.. Las dos exponen ordenadamente la información recogida en una muestra.. de forma que no se pierda nada de información (o poca).+fn-1 Σf Siendo X los distintos valores que puede tomar la variable.. estas deber ser mutuamente excluyentes y exhaustivas. Xn-1 Xn Frecuencias absolutas simple n1 n2 . variable (valor) X1 X2 . Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias relativas (porcentajes): Ídem. Óscar Flores Pérez Bioestadística Las clases a usarse en una distribución de frecuencia deben reunir las características mencionadas para aquellas en una clasificación de un atributo. fn-1 = nn-1 / n fn = nn / n acumulada f1 f1 + f2 . nn-1 nn acumulada n1 n1 + n2 . Siendo n el número de veces que se repite cada valor.. Tablas de frecuencia Exponen la información recogida en la muestra... en forma de tabla. Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información. n1 + n2 +... a saber.+ nn-1 Σn Frecuencias relativas simple f1 = n1 / n f2 = n2 / n .): 26 . f1 + f2 +.. de toda la información que se ha recogido sobre la variable que se estudia.. La distribución de frecuencia es la representación estructurada.Elaborado por: Ing. pero dividido por el total Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas Muy útiles para calcular cuantiles.

21 1.3% 3.23 1.30 Frecuencias absolutas simple acumulada 1 1 4 5 4 9 2 11 1 12 2 14 3 17 3 20 4 24 3 27 3 30 Frecuencias relativas simple acumulada 3.25 1.26 1.6% 46.0% 6.21 1.27 1.29 alumno 11 12 13 14 15 16 17 18 19 20 estatura 1.21 Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia: Cuadro 2.28 1.0% 100.0% 10. Altura en metros de 30 estudiantes de una clase.26 1. ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis.3% 30.0% 90.20 1.27 1.3% 80. fueron registrados al cm.26 1.6% 36. Estatura en metro de 30 estudiantes de una clase.6% 10.6% 13. variable (valor) 1.28 1.0% 10.0% 66. Ejemplo.29 1.29 1.0% Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces.3% 13.28 1.25 1. Óscar Flores Pérez Cuadro 1.20 1.24 1.Elaborado por: Ing.0% 56.25 1.29 1.22 1. entonces conviene agruparlos por intervalos. alumno 1 2 3 4 5 6 7 8 9 10 estatura 1.22 1. la parcela donde se encontraba: 27 .3% 40.30 1.23 1.26 1.22 1.6% 13.28 Bioestadística alumno 21 22 23 24 25 26 27 28 29 30 estatura 1. En el siguiente ejemplo detallaremos los aspectos más relevantes.3% 16. más próximo y según.24 1.0% 6.30 1.28 1.22 1.6% 10.27 1.21 1.23 1.30 1.22 1.21 1.27 1. Los diámetros a la altura del pecho (DAP) de 38 robles observados en las cercanías del volcán Poas.6% 3.

por lo tanto. c) El valor que mas se repite es 75 cm.9 cm. El tercer cuartel. Parcela 1 90 105 97 78 100 75 89 74 68 93 Parcela 2 66 83 97 70 69 75 58 75 212 84 Parcela 3 106 104 59 47 44 51 59 81 62 Parcela 4 84 82 95 95 80 109 72 71 91 I. Q3 = 29. Esto da una idea sobre la dispersión del 50% de las observaciones centrales. Diámetros (cm. Arreglo estadístico de todas las observaciones.) de 38 robles muestreados en el Volcán Poas. por lo tanto es por lo que la mediana estará entre el n/2 = 38/2 = 19 –ésimo y el (n/2)+1 = 19+1 = 20 –ésimo termino (promedio de ambos). por el 25*39 /100 = 9.5 cm. para valores centrales versus 168 cm. 44 47 51 58 59 59 62 66 68 69 70 71 72 74 75 75 75 78 80 81 82 83 84 84 89 90 91 93 95 95 97 97 100 104 105 106 109 212 De estos se puede apreciar lo siguiente: a) El valor menor = 44 cm. El recorrido intercuartil se puede comparar con el ámbito o recorrido del conjunto de datos. y la desviación estándar es igual a 27. Óscar Flores Pérez Bioestadística Cuadro 3.. b) Hay concentraciones de datos en los 70`s y 80`s cm. el recorrido intercuartil (Q3-Q1) es de 95-69 = 26 cm. cual es 69 cm. 80 y 81. viene definido por el P(n+1)/100 – ésimo elemento. 28 . interpretándose que cerca del 25% de los datos son menores de 69 y cerca del 75% mayores. 95 cm.25 = 30-ésimo. por lo que la moda = 75 cm. Md = (80+81)2 = 80. cual es 212-44 = 168 cm.8 = 10 – ésimo elemento del arreglo estadístico. Entonces.Elaborado por: Ing. para todo el conjunto) indica una posible presencia de valores extremos f) la media aritmética es igual a 82.3 cm.. Esta diferencia en la dispersión (26 cm. o sea. d) n = 38 observaciones. y el mayor = 212 cm. e) El percentil 25 (P25) que es igual al primer cuartel (Q1). o sea.

por lo tanto. II. b.115. y V min. y la desviación estándar de 17. 29 .). Construcción de una distribución de frecuencia de todas las observaciones. Amplitud o ámbito general (AG) = al valor máximo (V máx. por lo tanto. Así también. se desean que estos sean iguales a 5 cm.5.5 cm.5 = 69 cm. 44 puede ser cualquier observación entre 43.8 clases). a.) – valor mínimo (V min. h) Haciendo la corrección. Por lo tanto la amplitud general (AG) = 112.5 -43. Con respecto al intervalo de clase (IC). Si se sustituye la utilización de los cuarteles primero y tercero en la ecuación para Sk por los valores extremos (mínimo y máximo respectivamente) se tendría entonces una medida de asimetría total. se obtendrán aproximadamente 14 clases (numero de clases (NC) = AG/IC = 69/5 = 13. i) La moda es menor que la mediana.5 y 44.Elaborado por: Ing. Óscar Flores Pérez Bioestadística g) El ultimo valor reporta una magnitud fuera de lo común en este conjunto de datos (casi 5 desviaciones del promedio) por lo que se reviso la parcela 2 y se encontró que fue un error. = 44 cm. = 112 cm. siendo lo correcto 112 cm. sin embargo.6 cm. (seleccionado subjetivamente).5 y 112. el promedio corregido es igual a 80. indicando así que el conjunto de datos es ligeramente hacia la derecha. Esta medición de asimetría no es sensible a los valores extremos.3 cm. ni la moda ni la mediana no cambian. V máx. La Md es aproximadamente igual al promedio. o bien. 112-44 = 69. el conjunto de datos presenta una ligera asimetría positiva hacia la derecha (Mo < X ≈ Md) de la curva normal j) una medición practica de la asimetría viene dada por: Sk = (Q3 – Md) – (Md – Q1) Q3 – Q1 La distribución es: Simétrica Asimétrica positiva Asimétrica negativa si Sk = 0 si Sk > 0 si Sk < 0 ó as = 3(µ − Mn ) s En el ejemplo Sk = 0. entonces 112 puede ser cualquier observación entre 111. lo que podría constituirse en ventaja o desventaja según como se analice. Como los datos están redondeados al centímetro más próximo.

95 1.74 0.5 58.87 0.48. la clase de mayor frecuencia esta en la clase 73. No se observan valores fuera de lo razonable en la distribución f.5 // / / /// // //// ///// //// // //// //// / /// // fi 2 1 1 3 2 4 5 4 2 4 4 1 3 2 fr 0.05 0.08 0.5 – 113.) – fm-1(.5 103.Elaborado por: Ing.11 0.5 48.5 – 78.08 0. por lo tanto la moda es aproximadamente igual a: Mo = 73.11 0.5 88. d1 = 5 -4 = 1 y d2 = 5-4 = 1.00 d.5 – 53.59 0. 30 .05 0. g.11 0.5 – 103. lo que dice que la mediana se encuentra en la clase 78.5 – 108. por lo tanto.) I = intervalo de clase m = clase modal En el ejemplo.5 – 68.5 98.) d2= fm(.5 63.03 0.5 – 93.84 0. La distribución de frecuencias viene dada por: Cuadro 4.5 53.05 0.05 0.5 – 83. Se observa como efectivamente la distribución de los datos esta un poco inclinada hacia los valore mayores (los se vio en el punto h del anterior apartado). IC = 5 y Vmin = 43.5 – 78. e.5.63 0. La aproximación de la moda viene dada por: d1 Mo = Li + *I d1 + d 2 Donde Li = limite inferior de la clase con mayor frecuencia (fm (.24 0.34 0.11 0.) 43.5 68.47 0.11 0.5 .5.5 – 63.) – fm+1(.5 73. entonces.5.5 93.5 – 98.5 108.5 – 83.03 0.08 0.5 – 58.5 + ½(5) = 76 cm. La aproximación de la mediana viene dada por: n/2 = 38/2 = 19 – ésimo termino. Clases (cm. Resumen del proceso de tabulación de frecuencias.5 – 73.05 Fi 2 3 4 7 9 13 18 22 24 28 32 33 36 38 Fr 0.)) d1= fm(.5 83.5 78. NC = 14. Óscar Flores Pérez Bioestadística c.13 0.18 0.03 0.5 – 88.

cuartiles. la i ésima clase.75 cm. o sea.5 + ¼*5 = 94.5. donde fi y Mi son la frecuencia y el X = punto medio de respectivamente. h.75 cm. Por lo tanto el recorrido intercuartil es aproximadamente 94.. Primer cuartil = Percentil 25 = Cuantil 0. quintiles. Si el tamaño del conjunto de observaciones (n) es pequeño.5 ≈ 29 –ésimo observación.5. La aproximación del promedio viene dad por: = 80.. el supuesto anterior raramente se cumple.25 Segundo cuartil = Percentil 50 = Cuantil 0. Si n es grande es supuesto es prácticamente valido. entonces P25 = 68. 2.5 = mediana Tercer cuartil = Percentil 75 = cuantil 0.6 cm.5 + ¼*5 = 69.5 – 98.75 = 25 cm. indicando que el P25 se encuentra en la clase 68.5 ≈ 10 – ésimo termino.. Md = 78. por el 25*38/100 = 9.75 – 69. entonces P75 = 93. En el ejemplo.75 31 . El P75 = Q3 esta definido por el 75*38/100 = 28. deciles.5 – 73.5 + ¼(5) = 79.8 cm. k ∑ i =1 fiM n i La aproximaron del promedio con datos agrupados asume que el punto medio (Mi) de una clase dada e el promedio de los datos comprendidos en esta.. o sea.Elaborado por: Ing. La aproximación del P25 = Q1 viene dada por el (p)(n)/100 termino. Como Pp = Li + (n1/n2)*I. Óscar Flores Pérez Bioestadística Md = Li + (n1/n2)*I.2 Estadísticos de posición Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α Casos particulares son los percentiles. Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares. que se ubica en la clase 93.

D7 = (94 + 94) /2 = 94. 82. 96. 54. Obtener el primer cuartil Q1. 75. Respuestas. 43. 120. 91. 71. donde n tamaño de la muestra y k es el cuartil a buscar. 94. 88. Q1 = 71 • Q2 = 2*50/4 = 25. 106. 81. Encuentre D1. 97. D1 = (47+49)/2 = 48. 43. 63. 128. 123. 27. Fórmula: kn/10. 91. 84. 94. 47. 68. 71. D7 = 7*50/10 = 35. 80. 94. 120. 88. D9 = 9*50/10 = 45. 82. 44. 108. Óscar Flores Pérez Bioestadística Ejemplo Se tomó una muestra de 50 calificaciones de una población de resultados de un examen de Bioestadística.5 = 38. Respuestas. donde n tamaño de la muestra y k es el decil a buscar. D7. D4. Q3 = 97. • Q1 = 1*50/4 = 12. 43. 116. 125. 74. 49.Elaborado por: Ing. D4 = (77 + 79)/2 = 78. 108. D4 = 4*50/10 = 20. 58. 93. 103. D9 = (120 + 120) /2 = 120 32 . 73. • • • • D1 = 1*50/10 = 5. 50. Q2 = (82 + 84)/2 = 83 • Q3 = 3*50/4 = 37. 84. Estos puntajes son los siguientes en el orden en que fueron reunidos. 86. D9. 122. 71. el segundo cuartil Q2 y el tercer cuartil Q3. Fórmula: kn/4. 79.5 = 13. 107. 76. 77.

Se utiliza para representar frecuencias en variables discretas. discreta v. P10. líneas de fondo en la grafica. diagramas barras.3 Representaciones graficas. evitando que las barras resulten muy anchos o excesivamente altas. las siguientes recomendaciones son útiles para orientar nuestro trabajo. pictogramas diferencial (barras) Integral (escaleras) diferencial (histogramas. sectores. que no sea inferior a la mitad del ancho de ellas. ⇒ Si el grafico tiene muchas barras es preferible reemplazar por un diagrama lineal. ⇒ Dejemos siempre un espacio entre barras. cualitativo v. P35 = 35*50/100 = 17. ⇒ Dibujemos a buen criterio. P99 Formula: kn/100. P10 = 10*50/100 = 5. Óscar Flores Pérez Bioestadística Encuentre P1. ⇒ Confíe en su buena apreciación visual y buen sentido. para indicar el carácter discreto de las variables. donde n tamaño de la muestra y k es el percentil a buscar. 2. polígono de frecuencias Integral (diagramas acumulados).Elaborado por: Ing. P1 = 1*50/100 = 0. Principales diagramas según el tipo de variables.5 = 1. 33 . al tratar de expresar muchos productos en cada una de ellas. pues ellos facilitan la lectura de valores. Se diferencia de un histograma en que las barras están separadas entre sí. P35 = 75. P1 = 27. Aunque no hay normas estrictas para la elaboración de gráficos de barras. P35. P99 = 99*50/100 = 49.5 = 18. ordinales o atributos. ⇒ Cuidemos que el grafico quede balanceado. continua Diagrama de barras. ⇒ No recargar las barras. Tipo de variables v. P10 = (47+49) /2 = 48. P99 = 128.5 = 50.

Relacion número de árboles y volumen del Carapa guianensis 30000 25000 20000 15000 10000 5000 0 1 2 3 Añios Total árboles y volumen Total Arboles Volumen Aprovechado M3 4 5 34 . Óscar Flores Pérez Bioestadística Diagrama de barras.Elaborado por: Ing. 40% Asigna a cada posible valor de una variable discreta su probabilidad. 8 511 965km2. Canadá. 9 363 498km2. Se deja un hueco entre barras para indicar los valores que no son posibles Ejercicio. 2 776 889km2. Brasil. 1 958 201km2. 35% 30% 25% 20% 15% 10% 5% 0% 0 1 2 3 Elabore un grafico de barras en el que figuren los seis países americanos de mayor área: argentina. Recuerda los conceptos de frecuencia relativa y diagrama de barras. Perú. 9 976 137km2. México. Ejemplo Número de caras al lanzar 3 monedas. 1 285 215km2. estados unidos. Tendencia de la especie Carapa guianensis en el período 2000 a 2004. Alturas proporcionales a las frecuencias (absolutas o relativas). Nota.

90 Mediana 12. Aprovechamiento del Pinus caribea en el periodo 2000 a 2004. Observa cómo están de dispersos los individuos que ocupan la “parte central”. Se utiliza para representar frecuencias en variables continuas.00 25 12. Número de años de escolarización N Válidos 1508 Perdidos 0 Media 12. Diagramas integrales Se realizan a partir de las frecuencias acumuladas. Indican.00 90 16.00 20 11.00 Moda 12 Percentiles 10 9. para indicar el carácter continuo de la variable.Elaborado por: Ing. Óscar Flores Pérez Bioestadística Tendencia del aprovechamiento del Pinus caribaea 20000 Numero de arboles 15000 10000 5000 0 1 2 3 Años 4 5 Pinus caribaea Grafico de líneas. No los construiremos en clase.00 60 13.00 30 12. la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo. Se pasan de los diferenciales a los integrales por integración y a la inversa por derivación Histogramas para variables continuas.00 80 16.00 40 12.00 50 12.00 70 14.00 35 . para cada valor de la variable. El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en Estadísticos el intervalo. Las barras están pegadas unas a otras.00 75 15.

90 Mediana 12.0 100.5 3.9 3. . o de dispersión.4 73.6 98.deben resaltar los patrones de interés sin comprometer la integridad de los datos.. nunca a atributos.00 Moda 12 Percentiles 10 9.0 1.6 22. Recuerda que las representaciones gráficas: . Diagramas de puntos.1 1.5 8.00 40 12.no añaden nada a los datos que ya no estuviese allí.9 2. .00 50 12.00 80 16.9 3.0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total ≥20%? ≥ 90%? Gráficos con barras de error.8 12. Óscar Flores Pérez Bioestadística Estadísticos Número de años de escolarización N Válidos 1508 Perdidos 0 Media 12. su función es simplemente mostrarlos de modo más claro.3 .00 75 15.son una necesidad. indicados por medio de puntos o de barras.00 30 12. sombreados.0 Porcentaje acumulado .7 4. 4 D). una en el eje horizontal y la otra en el eje vertical.utilices gráficos de "torta" ni gráficos de barras apiladas (Fig. mensurables u ordinales.6 30.7 1. o con dos representaciones gráficas distintas.00 60 13.6 96. B.7 16.00 Número de años de escolarización Frecuencia 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1508 Porcentaje . no un lujo.repitas la misma información en un gráfico y una tabla.6 11. Se aplican a variables mensurables y a veces a las ordinales.Se utilizan para representar valores medios. no representan frecuencias o valores medios en el eje vertical.8 5.3 .2 52.4 .deben carecer de "chatarra gráfica" como colores.8 61.6 8. representan dos variables.6 4.00 25 12.00 20 11. no emplees más gráficos de los necesarios. a los que se añade un segmento o un semisegmento que indica una medida de dispersión Fig.8 1.5 2.. líneas y volumen innecesarios. ¡más que ayudar a ver los patrones.9 90.3 . los oscurecen! 36 .7 93.Elaborado por: Ing. .00 90 16.0 77.0 11.A diferencia de los tipos anteriores. . En su lugar. Nunca: .00 70 14.7 4.0 100.

Óscar Flores Pérez Bioestadística _________________________________ Fig.Elaborado por: Ing. C) gráfico de "tarta". _________________________ _________________ ______________________ ______________________ ___________ 37 . D) diagrama de barras apiladas. Varios tipos de representaciones gráficas: A) diagrama de barras.1. B) gráfico con barras de error.

4 Centralización Añaden unos cuantos casos particulares a las medidas de posición. Suma de los valores dividido por el tamaño muestral. Muy sensible a valores extremos. Si no ignorar la columna de intervalos.Elaborado por: Ing. 7 es (2+2+3+7)/4=3. Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable.90 22 x = ∑ k x n i=1 i f i media = 3x1 + 6x8 + 9x15 + 12x4 28 38 .35 f 1 8 15 4 28 En tablas de datos agrupados x marca f de clase 2a4 3 2 En este caso se 4 a 6 5 9 usa el punto 6a8 7 10 medio o marca 8 a 10 9 1 de clase total 22 media = 3x2 + 5x9 + 7x10 + 9x1 = 5. + xn X= 1 2 3 n = X = ∑x i =1 n i n Media de 2. Centro de gravedad de los datos Datos organizados en tabla Si está en intervalos usar Media Donde. En tablas de datos sin agrupar x 3 6 9 12 total = 8.. Óscar Flores Pérez Bioestadística 2. 2. En este caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Formula de la media aritmética para datos sin agrupar.5 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor. x + x + x + . 3. xi = las marcas de clase del i – ésimo intervalo de clase y fi = es la frecuencia del i – ésimo intervalo de clase.. Ejemplo.

Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie. 5. 2. 6. se elige la media de los dos datos centrales. 8. etc. n − fa Mn = Li + 2 *h f Li = limite inferior real del intervalo que contiene a la mediana.800 es 5. ¡La media es 117. perdiendo ésta representatividad.Elaborado por: Ing. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra). Si el número de valores (n) es impar. n = tamaño de la muestra 39 . 6. 8 es 5 Mediana de 1. La media geométrica se suele utilizar en series de datos como tipos de interés anuales. donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. 6. Óscar Flores Pérez Bioestadística Media geométrica: se eleva cada valor al número de veces que se ha repetido.7! La mediana para datos agrupados.6. 2. Sin embargo. En todo caso.. inflación. por lo que no se pierde ninguna información. Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica. 5. 5. Mn = n +1 2 Mediana de 1. presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos. Para datos no agrupados. 2. la mediana es el valor medio siempre y cuando todos las variables sean arregladas en magnitudes de mayor a menor. Si el número de datos es par. 4. No es sensible a valores extremos. 6. Ejemplos. 4. Estos valores anómalos podrían condicionar en gran medida el valor de la media. 4. 9 es (5+6)/2=5. 6.5 Es conveniente cuando los datos son asimétricos. la media aritmética es la medida de posición central más utilizada. Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). Mediana de 1. que se aparten en exceso del resto de la serie.

Se determina la clase que contiene la observación de orden (n+1)/2 que corresponde a la clase mediana (48+1)/2 = 24. Óscar Flores Pérez Bioestadística fa = frecuencia acumulada del intervalo de clase inmediatamente anterior a la clase mediana f = frecuencia de la clase mediana h = amplitud del intervalo de clase Ejemplo. Cuando los datos están sin agrupar: La moda se determina por la simple inspección de la lista ordenada x 10 10 11 12 12 12 12 16 La moda es 12 40 . es decir es el valor o valores que ocurren con mayor frecuencia.5 (la mediana está entre los valores de las observaciones 24º y 25º) La mediana se calcula de acuerdo a la fórmula Donde: li: límite inferior de la clase mediana (en este caso li = 14) Fa: frecuencia acumulada de la clase anterior a la clase mediana (16) f: frecuencia absoluta de la clase mediana (15) h: amplitud o extensión del intervalo de clase (6) MEDIANA Es útil sobretodo cuando: Datos ordinales o numéricos La distribución de la variable es asimétrica y hay pocas observaciones Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo.Elaborado por: Ing.

Elaborado por: Ing.12 = 9 Mo = 15 + 4 x 5 = 16.) d2= fm(.) I = intervalo de clase m = clase modal d1: 21 .) – fm+1(. el intervalo donde se halla Pk existe Li-1 – Li. se calcula buscando el que deja debajo de si al k % de las observaciones. Pk se obtiene según la relación: n⋅ Pk = L i −1 + Donde k − N i −1 100 *I ni 41 .17 = 4 d2: 21 .)) d1= fm(. Dentro de él. Bioestadística d1 *I d1 + d 2 Mo = Li + Donde Li = limite inferior de la clase con mayor frecuencia (fm (. Óscar Flores Pérez Para datos agrupados.) – fm-1(. como la observación PKK que deja por debajo de si el k % de la población En el caso de una variable continua.54 4+9 x 0a5 5a10 f 1 13 10a15 17 15a20 21 20a25 12 25a30 7 Algunas fórmulas Cuantil de orden α i es el menor intervalo que tiene frecuencia acumulada superior a α ·n α=0.5 es mediana Para una variable discreta se define el percentil de orden K.

5 72. En general.5 + (175-123) * (71. se usan las siguientes formulas: Q1 = n +1 . acumulada 3 23 61 123 186 236 248 250 Por su naturaleza el percentil puede estar situado en cualquier lugar de la distribución.ésima observación ordenada. Medidas de la alzada de cruz en pulgadas de 250 erales.5) =71. Q3 = 42 .15 63 El resultado indica que el 70 % de los erales miden menos que 71.15 pulgadas.5 -69.5 66.5 frecuencia 3 20 38 62 63 50 12 2 Frec. clases 62 – 63 64 – 65 66 -67 68 – 69 70 -71 72 – 73 74 – 75 76 – 77 Marca de clase 62.5 64. por lo que puede considerársele como una medida de tendencia central P70 = 69.5 70.5 74.5 68. la localización de k – ésimo percentil Pk esta dado por Pk = k n 100 Cuando se pretende calcular los cuartiles de datos no agrupados.ésima observación ordenada 4 Q2 = 2(n + 1) n + 1 = ésima observación ordenada 4 2 3(n + 1) 4 .Elaborado por: Ing.5 76. Óscar Flores Pérez Bioestadística li-1 = limite inferior de la clase que contiene el percentil P n = tamaño de la muestra I = ancho de clase Cuadro 5.

43 . ¿A qué puede deberse? Diferencias individuales en el conocimiento de la materia. ¿Las notas serían las mismas en todos? Seguramente No.. Peso 40 – 50 50 – 60 60 – 70 70 .90 90 .5 Variabilidad o dispersión Los estudiantes de Bioestadística reciben diferentes calificaciones en la asignatura (variabilidad). el becerro estaba envenenado. Clase 45 55 65 75 85 95 115 frec Fr.Elaborado por: Ing.80 80 . Ejemplo con variables continuas.. 5 10 21 11 5 3 3 5 15 36 47 52 55 58 2. acum. Diferencias individuales en la habilidad para hacer un examen. Dormir poco el día del examen. Óscar Flores Pérez Bioestadística Cuadro 6.100 100 – 130 M. ¿Podría haber otras razones (fuentes de variabilidad)? Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento.

Óscar Flores Pérez Bioestadística El examen no es una medida perfecta del conocimiento. 4. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media. aleatoriedad. El rango es 8-1=7 Es muy sensible a los valores extremos. multiplicadas por el número de veces que se ha repetido cada valor. Amplitud o Rango (‘range’): La diferencia entre las observaciones extremas. Rango intercuartílico (‘interquartile range’): Es la distancia entre el primer y tercer cuartil. Variabilidad por azar. Rango intercuartílico = P75 . más concentrados están los valores de la serie alrededor de la media. La varianza siempre será mayor que cero.Elaborado por: Ing. 1. se duda entre varias opciones. mide la distancia existente entre los valores de la serie y la media. 8. Medidas de dispersión Miden el grado de dispersión (variabilidad) de los datos. Mientras más se aproxima a cero. No es tan sensible a valores extremos. mientras mayor sea la varianza. Por el contrario. y al azar se elige la mala. Es decir. pero eliminando las observaciones más extremas inferiores y superiores. Variabilidad por error de medida. independientemente de su causa. n n n S2 = ∑ ( x1 − x ) 2 i =1 n −1 = n ∑ xi 2 − ( ∑ xi ) 2 i =1 i =1 n ( n − 1) Es sensible a valores extremos (alejados de la media). En alguna pregunta difícil. 2.P25 Parecida al rango. 3. 4. El sumatoria obtenido se divide por el tamaño de la muestra. más dispersos están 44 . Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. Sus unidades son el cuadrado de las de la variable.

) 45 . puede que os suene el ‘coeficiente de inercia’ Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza Para datos sin agrupar. S = ∑ n ( xi − µ ) 2 n −1 i =1 Tiene las misma dimensionalidad (unidades) que la variable. A una distancia de dos desviación típica de la media tendremos 95% observaciones.Elaborado por: Ing. Si habéis oído hablar en física de porqué un patinador gira a diferente velocidad cuando tiene los brazos recogidos (menor dispersión). Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica. Óscar Flores Pérez Bioestadística Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su media la dispersión es menor que cuando están esparcidos. A una distancia de una desviación típica de la media tendremos 68% observaciones. Centrado en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izq.) A dos desviaciones típicas las tenemos a casi todas (dcha.

No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente. Si la media es 80 y la desviación típica 20 entonces CV =20/80=0. s2 = n(n −1) ( ) 2 Donde. El numerador en ambos ecuaciones recibe el nombre de suma de cuadrados y el denominador recibe el nombre de grados de libertad.Elaborado por: Ing. Óscar Flores Pérez Bioestadística n∑i=1 Mi2 fi − ∑i=1 Mifi k k Para datos agrupados. 2.25=25% (variabilidad relativa) Es una cantidad adimensional. CV = σ µ También se la Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” Es frecuente mostrarla en porcentajes Ejemplo. Si el peso tiene CV = 30% y la altura tiene CV = 10%. los individuos presentan más dispersión en peso que en altura. denomina variabilidad relativa.5.1 Coeficiente de variación Sirve para comparar distribuciones numéricas medidas en escalas o medidas diferentes.ésima Mi = punto medio de la clase i – ésima x = promedio aproximado de de la distribución de frecuencias n = total de observaciones. S= ∑ i =1 k fi ( Mi − x ) 2 n −1 k = numero de clases fi = frecuencia de la clase i . Es la razón entre la desviación típica y la media. Por ejemplo 0 ºC ≠ 0 ºF 46 . Interesante para comparar la variabilidad de diferentes variables.

CV = 10/145(100) = 6. Óscar Flores Pérez Muestra 1 25 años 154 libras 10 libras Bioestadística Muestra 2 11 años 80 libras 10 libras Edad Peso Desv. 6. 2. 5. En cambio. 8. a) b) c) d) 9. 5. Por ejemplo. 3. 9.). estándar Una compasión de las desviaciones estándares puede conducir a la conclusión de que las dos muestras tienen igual variabilidad. 11. para comparar el nivel de dispersión de una serie de datos de la alzada de la cruz de los marranos de una unidad de producción y otra serie con el peso de dichos marranos. por lo que sí se pueden comparar. 7. 3. 11. Sin embargo. Ejercicio. Encuentre la moda para el conjunto de datos del ejercicio 3: 47 . clase 1 2 3 4 5 6 7 Limites de clase 30 – 39 40 – 49 50 – 59 60 – 69 70 – 79 80 – 89 90 . sus coeficientes de variación son ambos porcentajes. 3. y la otra en Kg. si se calculan los coeficientes de variabilidad. 2. 5.9 Para los 11 años de edad CV = 10/80(100) = 12.7. 6. 8. 8. Hallar la media del conjunto de mediciones 2. 2. 7. 6. ya que viene expresada en las mismas unidas que los datos de la serie. 7. Esto no ocurre con la desviación típica.5 El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. 9. 14. no se puede utilizar las desviaciones típicas (una viene expresada en cm. 3. se obtiene para los 25 años de edad. 7. Halle la media para datos agrupados. 2.Elaborado por: Ing. 6. 4.99 frecuencia 3 5 7 11 15 7 2 Halle la mediana para los siguientes conjuntos de datos.

Varianza y desviación estándar. 2.Elaborado por: Ing. * Francis Galton • Primo de Darwin • Estadístico y aventurero 48 . aunque tienen tendencia a acercarse (regresar) a la media. mediana. Lo mismo puede decirse de los padres muy bajos. Edad 05 .) Conclusión: Los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura.” Regresión a la media Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable).14 15 – 24 25 – 34 35 – 44 45 – 54 55 – 64 Total número de casos 5 10 20 22 13 5 75 Calcule la media. Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo: Altura del hijo = 85cm + 0. pero en media. Óscar Flores Pérez Bioestadística Encuentre la variación y la desviación estándar para los datos del ejercicio 3.5 altura del padre (aprox. en un grado menor. humana o vegetal es compartida por sus descendientes.6 Relaciones entre variables y regresión El término regresión fue introducido por Galton* en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: “Cada peculiaridad en una especie animal. Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra. La siguiente tabla de distribución de edades de casos de una cierta enfermedad informados durante un año en un estado.

Haremos mención de pasada a otros casos: Alguna de las variables es ordinal. El coeficiente de correlación de la muestra r. Óscar Flores Pérez Bioestadística • Fundador (con otros) de la estadística moderna para explicar las teorías de Darwin. ¿Hay relación entre fumar y padecer enfermedad de pulmón? Estudio conjunto de dos variables Altura en cm. Peso en Kg. 162 154 180 158 171 169 166 176 163 .. se conoce como coeficiente de correlación de la población y mide la intensidad de la relación lineal entre x e y. En este apartado vamos a tratar diferentes formas de describir la relación entre dos variables cuando estas son numéricas. Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal) Hay más de dos variables relacionadas.. 61 60 78 62 66 60 54 84 68 . El parámetro (ρ)... Estudiar si hay relación entre la altura y el peso. las dos variables no están correlacionadas. El coeficiente de correlación de la población puede tomar valores cualesquiera entre -1 y +1. ¿Conocer el peso de una persona (o animal o vegetal) conociendo su altura y contorno de cintura? El estudio conjunto de dos variables cualitativas lo aplazamos hasta que veamos contrastes de hipótesis (X2). 2.1 Coeficiente de correlación. describe la relación entre las observaciones de la muestra en dos variables de la misma forma que ρ describe la relación en la población. Si ρ = 0. A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra. En cada fila tenemos los datos de un individuo 49 . Si ρ = 1.Elaborado por: Ing.6. mientras que si ρ = -1indica una correlación lineal inversa perfecta. existe una correlación lineal directa perfecta entre las dos variables.

Los individuos no se muestran en ningún orden particular. Mide 187 cm. 50 . Tenemos las alturas y los pesos de 30 individuos. En ellos. Óscar Flores Pérez Bioestadística Cada columna representa los valores que toma una variable sobre los mismos. Pesa 76 kg. y si es posible predecir el valor de una de ellas en función de la otra. Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables. Figura 1. Diagrama de dispersión. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 Pesa 50 kg. 2. Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). de qué tipo.Elaborado por: Ing.2 Diagrama de dispersión o nube de puntos. cada individuo es un punto cuyas coordenadas son los valores de las variables.6. Mide 161 cm.

el peso aumenta en una unidad por cada unidad de altura. 100 90 80 70 60 50 40 30 140 150 160 10 cm. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 P ar q ec e ue e es lp o aum en t on ac l lt u aa ra Figura 2. 2. Predicción de una variable en función de la otra.6. 51 . o sea. de altura….Elaborado por: Ing.3 Relación entre las variables Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. 10 kg. Relación entre variables. por cada 10 cm.4 Predicción de una variable en función de la otra. Óscar Flores Pérez Bioestadística 2. Aparentemente el peso aumenta 10 Kg. 170 180 190 200 Figura 3.6.

En la figura de arriba se observa que para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Óscar Flores Pérez Bioestadística 2. Relación directa e inversa. Peso de las relaciones. Incorrelación. Para la figura de arriba se observa que para los valores de X mayores que la media le corresponden valores de Y mayores también o para los valores de X menores que la media le corresponden valores de Y menores también.6. 52 . 33 28 23 18 13 8 3 14 15 16 17 18 19 20 Incorrelación Figura 4.5 Como reconocer la relación directa e inversa.Elaborado por: Ing. Figura 5. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 Fuerte relación directa. Esto se llama relación directa o creciente entre X e Y.

es decir. Óscar Flores Pérez 80 70 60 50 40 30 20 10 0 140 150 160 170 180 Bioestadística Cierta relación inversa 190 200 Figura 6.Elaborado por: Ing. Tipo de relación. las observaciones Y tienen tendencia a disminuir cuando las de X aumentan. En la figura se observa que para los valores de X mayores que la media le corresponden valores de Y menores. ⇒ Si la mayoría de puntos están repartidos entre el segundo y cuarto cuadrante entonces SXY ≤ 0. nos indica si la posible relación entre dos variables es directa o inversa. ocurrirá que SXY ≥ 0. 53 . ⇒ Si los puntos se reparten con igual intensidad alrededor de (x. y). La covarianza SXY . Sxy. Directa: Sxy >0 Inversa: Sxy <0 Incorreladas: Sxy =0 S xy = 1 ∑ ( xi − x )( yi − y ) n i El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no. La covarianza entre dos variables. La covarianza. es una medida que nos hablará de la variabilidad conjunta de dos variables numéricas (cuantitativas). lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo hace X. Esto es relación inversa o decreciente. pero no nos dice nada sobre el grado de relación entre las variables. Covarianza de dos variables X e Y. Se define como: ⇒ Si hay mayoría de puntos en el tercer y primer cuadrante. entonces se tendría que SXY = 0.

.Elaborado por: Ing.. Siempre que no existan observaciones anómalas. p q Relación inversa perfecta Variables incorreladas Relación directa casi perfecta -1 0 T 3 E t dí ti +1 54 ..6 Coeficiente de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables. r.) r = Fórmula para calcular r. logarítmica. S xy S xS y r= n ∑ x 2 − (∑ x ) * n ∑ y 2 − (∑ y ) 2 n ∑ xy − ((∑ x )(∑ y )) 2 Prueba estadística. r es útil para determinar si hay relación lineal entre dos variables.6. Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa. nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). pero no servirá para otro tipo de relaciones (cuadrática. n−2 distribución de t – student con n-2 grados de 1− r2 2. ⇒ Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal. t = r libertad.6.1] Las variables son incorrelacionadas r=0 Relación lineal perfecta entre dos variables r =+1 o r =-1 Excluimos los casos de puntos alineados horizontal o verticalmente.7 Propiedades de r ⇒ ⇒ ⇒ ⇒ Es adimensional Sólo toma valores en [-1. Óscar Flores Pérez Bioestadística 2. Además.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Entrenando el ojo: correlaciones positivas
330 280 230 180 130 80 30 140 110 100 90 80 70 60 50 40 30 140 150 160 170 180 130 120 110 100 90 80 70 60 50 40 30 140 100 90 80 70 60 50

r=0,1
150 160 170 180 190 200

r=0,4
150 160 170 180 190 200

r=0,6
190 200

40 30 140 150 160 170 180

r=0,8
190 200

100 90 80 70 60 50 40 30 140 100 90 80 70 60 50 40 30 140 150 160 170 180 150 160 170 180

100 90 80 70 60 50

r=0,9
190 200

40 30 140 150 160 170 180

r=0,99
190 200

r=1
190 200

55

Elaborado por: Ing. Óscar Flores Pérez
90 80 70 60 50 40 30 20 10 0 140

Bioestadística

80 70 60 50 40 30 20

r=-0,5
150 160 170 180 190 200

10 0 140 80 70 60 50 40 30 20

r=-0,7
150 160 170 180 190 200

80 70 60 50 40 30 20 10 0 140

r=-0,95
150 160 170 180 190 200

10

r=-0,999
150 160 170 180 190 200

0 140

Ejercicio. Cuadro 8. Relación entre el peso y la concentración de glucosa en personas aparentemente. peso (x) glucosa (y) xy x2 64 108 6912 4096 75,3 109 8207,7 5670,09 73 104 7592 5329 82,1 102 8374,2 6740,41 76,2 105 8001 5806,44 95,7 121 11579,7 9158,49 59,4 79 4692,6 3528,36 93,4 107 9993,8 8723,56 619,1 835 65353 49052,35 y2 11664 11881 10816 10404 11025 14641 6241 11449 88121

r=

n∑ x 2 − (∑ x ) * n∑ y 2 − (∑ y )
2

n∑ xy − ((∑ x )(∑ y ))

2

r = ___ 8*65353-619.1*835_________ √ (8*49052.35)-(619.1)2*√8*88121-(835)2 R = 0.69865

56

Elaborado por: Ing. Óscar Flores Pérez Preguntas frecuentes ¿Si r = 0 eso quiere decir que no las variables son independientes? En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos los casos. Lo contrario si es cierto: Independencia implica incorrelación.
Las dos variables Son independientes

Bioestadística

Hay dependencia entre las variables aunque la sea covarianza

nula Me ha salido r = 1’2 ¿la relación es “súper lineal”? ¿Súper qué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1. ¿A partir de qué valores se considera que hay “buena relación lineal”? Es difícil dar un valor concreto (mirad los gráficos anteriores). Para este curso digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay cierta relación (por decir algo... la cosa es un poco más complicada: observaciones anómalas,...)

2.6.8 Otros coeficientes de correlación
Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si hay algún tipo de correlación entre ellas. Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase: ρ (‘ro’) de Spearman τ (‘tau’) de Kendall No tenéis que estudiar nada sobre ellos en este curso. Recordad sólo que son estadísticos análogos a r y que los encontrareis en publicaciones donde las variables no puedan considerarse numéricas.

57

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Resuelva el siguiente ejercicio. Cuadro 9. Relación de la especie Swietenia macrophylla, las minas y Prinzapolka. Año 2000 2001 2002 2003 2004 Total Árboles Volumen aprov. m3 603 2467,42 1864 4556,895 1022 7195,922 1257 3233,657 227 549,975

Halle el coeficiente de correlación. R = 0.5831

2.7

Regresión lineal.

Calculo e interpretación del intercepto y pendiente de la recta de regresión Al analizar los datos en las disciplinas que conforman las ciencias biológicas con frecuencias es conveniente obtener algún conocimiento acerca de la relación entre las dos variables. Por ejemplo, estatura y peso, intensidad de un estimulo y tiempo de reacción, ingreso familiar y gastos médicos. La naturaleza e intensidad de relaciones entre variables como las antes escritas son examinadas por medio de los análisis de la regresión y correlación, que son dos técnicas estadísticas que, aunque están relacionadas, sirven para propósitos diferentes. El análisis de regresión es útil para averiguar la forma probable de las relaciones entre las variables, es decir, sirve para predecir una medida en función de otra medida (o varias). Y = Variable dependiente Predicha Explicada X = Variable independiente Predictora Explicativa ¿Es posible descubrir una relación? Y = f(X) + error

58

5x200=185 cm. Alto. Es decir. pequeño.5 X) Si el padre mide 200cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0. Altura del hijo = 85cm + 0. Cantidad con la cual “y” cambia por cada unidad de cambio en “x”. (No interpretar como altura de un hijo cuyo padre mide 0 cm. pero no tanto como el padre.1 Modelo de regresión lineal simple En el modelo de regresión lineal simple. Regresa a la media. En el ejemplo de Pearson y las alturas. dado dos variables Y (dependiente) X (independiente.Elaborado por: Ing. Óscar Flores Pérez Bioestadística f es una función de un tipo determinado El error es aleatorio. Bajo.5x120=145 cm. él encontró: Ŷ = b0 + b1X b0=85 cm. constante). A la cantidad e = Y-Ŷ se le denomina residuo o error residual. Si el padre mide 120cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0. Regresa a la media. b = b1 (pendiente de la recta).5 altura del padre (Y = 85 + 0. explicativa) Buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante Ŷ = b0 + b1X ó a+bx a = b0 (ordenada en el origen. pero no tanto como el padre.7. nos interesaremos por modelos de regresión lineal simple. Es el punto donde la recta cruza el eje vertical. 2. y no depende de X El ejemplo del estudio de la altura en grupos familiares es del tipo que desarrollaremos en el resto del tema. Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. ¡Extrapolación salvaje! 59 .

si es de tipo lineal. será peor por presentar mayor variabilidad con respecto al error medio (que es cero).5 b0=85 cm Figura 7.Elaborado por: Ing. del padre. 60 . Traducido: En término medio no nos equivocamos.5 (En media el hijo gana 0. Es natural preguntarse entonces: ⇒ Cuál es la mejor recta que sirve para predecir los valores de Y en función de los de X ⇒ Qué error cometemos con dicha aproximación (residual). Modelo lineal. por cada cm. 180 150 120 90 60 30 0 0 20 10 40 30 50 70 60 90 80 1 00 1 20 1 10 1 40 1 30 1 60 1 50 1 70 1 90 1 80 2 10 2 00 2 20 b1=0. Óscar Flores Pérez Bioestadística b1=0. Cualquier otra estimación que no cometa error en término medio.5 cm.) La relación entre las variables no es exacta. El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo cuadrática: Buscar b0. b1 de tal manera que se minimice la cantidad Σi ei2 Se comprueba que para lograr dicho resultado basta con elegir: b1 = r SY SX b0 = y − b1 x Se obtiene además unas ventajas “de regalo” El error residual medio es nulo La varianza del error residual es mínima para dicha estimación.

2 ¿Cómo medir la bondad de una regresión? Imaginemos un diagrama de dispersión. 61 . Se necesitan los valores numéricos de las constantes b0 y b1 Ecuaciones normales para un conjunto de datos. y de ahí.Elaborado por: Ing. 2. n ∑ xy − (∑ x )(∑ y ) n ∑ x 2 − (∑ x ) 2 ∑ y = nb + b ∑ x ⎫ ⎪ ⎬ xy = b ∑ x + b ∑ x ⎪ ∑ ⎭ 0 1 2 0 1 b1 = Ó b0 = ∑ y − b1 ∑ x n Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la predicción) No importa. su relación con la varianza de Y.7. cómo medir la bondad de un ajuste. En término medio el error es cero. Óscar Flores Pérez Bioestadística Que el error medio de las predicciones sea nulo no quiere decir que las predicciones sean buenas. y vamos a tratar de comprender en primer lugar que es el error residual. Cometió un error de -30 en su última predicción Para trazar una recta con base en la ecuación Ŷ = b0 + b1X. Con los dos últimos clientes me equivoqué en +10 y +20.

están menos dispersos que la variable Y original. Y La franja sombreada indica la zona donde varían los valores de Y. Veamos cuál es la variabilidad en el eje Y.3 Interpretación de la variabilidad en Y En primer lugar olvidemos que existe la variable X. Proyección sobre el eje Y = olvidar X 2.7. Se observa que los errores de predicción.Elaborado por: Ing.7. mejor será la bondad del ajuste.4 Interpretación del residuo p Fijémonos ahora en los errores de predicción (líneas verticales). residuos. Y 62 . Óscar Flores Pérez Bioestadística 2. Los proyectamos sobre el eje Y. Cuanto menos dispersos sean los residuos.

¿Por qué? Difícil. R2 será cercano a uno. 1] Para el alumno astuto: ¿por qué? Cuando un ajuste es bueno. Eso hace que definamos como medida de bondad de un ajuste de regresión. la expresión es de lo más sencilla: R2 = r2 ¿Es coherente lo dicho entonces sobre los valores de R2? 63 . Óscar Flores Pérez Bioestadística 2. o coeficiente de determinación a: Y S e2 R = 1− 2 SY 2 Bioestadística U Málaga S e2 < SY2 Tema 3: Estadística bivariante 28 La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2 ⎡ (∑ x )2 ⎤ 2 ⎢∑ x − n ⎥ = SCR r 2 = b2 ⎢ (∑ y )2 ⎥ SCT 2 ⎥ ⎢ ⎢∑ y − n ⎥ ⎦ ⎣ El coeficiente de determinación (r2) de la muestra mide la proximidad del ajuste de la ecuación de regresión de la muestra a los valores observados de y.Elaborado por: Ing. pero en el modelo lineal simple.7. R2 puede ser pesado de calcular en modelos de regresión general. ¿Por qué? A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.5 Bondad de un ajuste Resumiendo: • La dispersión del error residual será una fracción de la dispersión original de Y •Cuanto menor sea la dispersión del error residual mejor será el ajuste de regresión. ¿Por qué? Cuando un ajuste es malo R2 será cercano a cero. R2 es una cantidad adimensional que sólo puede tomar valores en [0.

864 55003027.011465708 -0. Óscar Flores Pérez Bioestadística Tabla ANOVA de regresión lineal simple.7 Promedio Valor crítico cuadrados F de F 1913890.4026 5 Total Volumen Vol.358 4. ese termino es una medida de la variación total en los valores observados de y. Año Posición Nombre Científico 2000 2 Carapa guianensis 2001 1 Carapa guianensis 2002 1 Carapa guianensis 2003 1 Carapa guianensis 2004 2 Carapa guianensis Estadísticas de la regresión Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones ANÁLISIS DE VARIANZA.039 2.5 0. Árboles Aprov. Prom. Nivel de aprovechamiento de la especie Carapa guianensis en el distrito II. 64 . Fuentes de Grados de Suma de variación libertad cuadrados Regresión 1 1913890.82 6590 26761.318045722 7416.Elaborado por: Ing.13 0.06 4380 12760. es decir.594 3.6 Total 4 166922972.13 Residuos 3 165009082.82 4424 16881.035 0.91 5242 14194. e M3 m3/Árbol 2607 9946.879 271 La suma total de cuadrados (SCT) es una medida de la dispersión de los valores observados de “y” en torno a la su media “Ÿ”.7 3. Cuadro 10. Fuente de Grados de Suma de Promedio Razón de Valor variación libertad cuadrados cuadrados(CM) variación crítico de F Regresión 1 SCR SCR/1 CMR/CME Residuos n-2 SCE SCE/n-2 Total n-1 SCT Ejemplo. (las minas y Prinzapolka).

conocida también como suma de error de cuadrados (SCE). Se pueden considerar otros tipos de modelos. Óscar Flores Pérez Bioestadística La suma de cuadrados explicadas mide la cantidad de la variabilidad total en los valores observados de y que se toma en cuenta mediante la relación lineal entre los valores observados de y e x. 140 ¿recta o parábola? 150 160 170 180 190 200 ¿recta o cúbica? 140 150 160 170 180 190 200 65 . Es la cantidad que se minimiza cuando se obtiene la recta de mínimos cuadrados. esta es la suma de cuadrados debido a la regresión lineal (SCR) La suma de cuadrado inexplicada es una medida de dispersión de los valores observados de y en torno a la recta de regresión. SCT = SCR + SCE (∑ y ) SCT = ∑ ( y − Υ ) = ∑ y − n 2 i 2 i i 2 ⎛ SCR = b ⎜ ∑ x 2 − ⎜ ⎝ 2 (∑ x ) n 2 ⎞ ⎟ ⎟ ⎠ Otros modelos de regresión. en función del aspecto que presente el diagrama de dispersión (regresión no lineal) Incluso se puede considerar el que una variable dependa de varias (regresión múltiple).Elaborado por: Ing.

Una variable explicativa Más de 2 variables explicativas Modelos de regresión Simple Múltiple Lineal No lineal Lineal No lineal 66 .6 Modelos de análisis de regresión.Elaborado por: Ing. Óscar Flores Pérez Bioestadística 2.7.

Elaborado por: Ing. Aplicarlo a algunos conceptos nuevos de interés en CC. Subjetiva (Bayesiana): Grado de certeza que se posee sobre un suceso. Desatacar la importancia de las probabilidades. Salud. 3. Salud. 67 . Probabilidades. 2. Objetivos de la unidad. Aplicar los conceptos de esperanza matemática a problemas reales. Hay dos maneras principales de entender la probabilidad: Frecuentista (objetiva): Probabilidad de un suceso es la frecuencia relativa (%) de veces que ocurriría el suceso al realizar un experimento repetidas veces. Recordar algunas reglas de cálculo. Suministrar las reglas para el estudio de los experimentos aleatorios o de azar. 3. tenéis una idea intuitiva lo suficientemente correcta para lo que necesitamos de ella en este curso.1 Nociones de probabilidad. ¿Cuál es la probabilidad de aprobar Bioestadística? ¿Cuál es la probabilidad de no encontrarme un atasco en la calle cuando voy a clase? Todos los días nos hacemos preguntas sobre probabilidad e incluso los que hayáis visto poco de la materia en cursos anteriores. 4. En este tema vamos a: Recordar qué entendemos por probabilidad. Ver cómo aparecen las probabilidades en CC. Pruebas diagnósticas. constituyendo la base para la estadística inductiva o inferencial. Interpretar la teoría elemental de las probabilidades. Vamos a recordar qué son y algunas operaciones que se pueden realizar con sucesos. 1. En ambos tipos de definiciones aparece el concepto de suceso. Es personal. Óscar Flores Pérez Bioestadística III.

P. Cuando se realiza un experimento aleatorio diversos resultados son posibles. Óscar Flores Pérez Bioestadística Sucesos. al formado por los resultados experimentales que están simultáneamente en A y B simultáneamente en A y B E espacio muestral A B Bioestadística U Málaga E espacio muestral A B UNIÓN E espacio muestral A B INTERSEC. al formado por los elementos que no están en A E espacio muestral E espacio muestral A A’ Se llama suceso unión de A y B. El conjunto de todos los resultados posibles se llama espacio muestral (E).Elaborado por: Ing. 3. Condicionada Se llama probabilidad a cualquier función. verificando las siguientes reglas (axiomas) 0≤P(A) ≤1 P (E)=1 P (AUB)=P(A)+P (B) si AB = Ø Ø es el conjunto vacío. E espacio muestral 100% E espacio muestral A B 68 . A∩B o simplemente AB. A’. que asigna a cada suceso A un valor numérico P(A). AUB. al formado por los resultados experimentales que están en A o en B (incluyendo los que están en ambos. Se llama suceso contrario (complementario) de un suceso A. Se llama suceso a un subconjunto de dichos resultados.2 Definición de probabilidad y prob. Se llama suceso intersección de A y B.

o p oba espacio muestral P( A | B) = P ( AB ) P( B) “tam año ” de uno res pec to a l otro A B Tem Bioestadística.24 69 .76=76% Si elegimos a un individuo de la población. ¿Qué porcentaje de mujeres hay en la muestra? 760/1000=0. Frecuentista de probabilidad nos permite aproximarlo a P (Mujer)=0’76 ¿Cuál es la probabilidad de que elegido un individuo de la población sea hombre?: P (Hombre)=P (Mujer’)=1-0. Dos sucesos son independientes si la el que ocurra uno no añade información sobre el otro. Málaga. es más cómodo conocer algunas reglas de cálculo: P (A’) = 1 – P (A) P (AUB) = P (A) + P (B) – P (AB) P (AB) = P (A) P (B|A) = P (B) P (A|B) Probabilidad de que pasen A y B es la probabilidad de A y que también pase B sabiendo que pasó A. Óscar Flores Pérez Bioestadística Se llama probabilidad de A condicionada a B. Cualquier problema de probabilidad puede resolverse en teoría mediante aplicación de los axiomas. o probabilidad de A sabiendo que pasa B: Se a a p obab dad de sabiendo que pasa B: co d c o ada a E . En lenguaje probabilístico: A independiente B Dicho de otra forma: A independiente B P (A|B) = P (A) P (AB) = P (A) P (B) EJEMPLO: En una muestra de 1000 individuos elegidos al azar. U.Elaborado por: Ing.76=0. qué probabilidad hay de que sea mujer: La noción. Sin embargo. entre una población de enfermos de osteoporosis 760 eran mujeres.

A1 A2 Son una colección de sucesos A1.3 Sistema exhaustivo y excluyente de sucesos. A4… Tales que la unión de todos ellos forman el espacio muestral. 70 . A3. Funciona. Elegimos a un individuo al azar de la población de enfermos. B = (B∩A1) U (B∩A2) U (B∩A3) U (B∩A4) B A1 A2 Nos permite descomponer el problema B en sub Problemas más simples. Creedme. y sus interseccione son disjuntas. A4 A3 3. aprox. la cuarta parte de las mujeres fuman y la tercera parte de los hombres. ¿Qué probabilidad hay de que sea mujer fumadora? P (Mujer ∩ Fumar) = P (Mujer) P (Fumar | mujer) = 0.76 x ¼ = 0. puede ser descompuesto en componentes de dicho sistema. Todo suceso B. A3 A4 Divide y vencerás.4 Teorema de la probabilidad total. A2. Óscar Flores Pérez Bioestadística Se sabe de otros estudios que entre los individuos con osteoporosis.24 x 1/3 = 0.19 ¿Qué probabilidad hay de que sea un hombre fumador? P (Hombre ∩ Fumar) = P (Hombre) P (Fumar | hombre) = 0.08 3.Elaborado por: Ing.

13 = 0.3 / 0. ¿Cuál es la probabilidad de que sea un hombre? P (H|F) = P (F ∩ H)/P (F) = P (F|H) P (H) / P (F) Teorema = 0. De ellas el 10% son fumadoras. ¿Qué porcentaje de fumadores hay en total? P (F) = P (F∩H) + P (F∩M) = P (F|H) P (H) + P (F|M) P (M) = 0.46 = 46% de Bayes 71 . Hombres y mujeres forman un Sistema Exhaustivo y Excluyentes de sucesos Se elige a un individuo al azar y resulta fumador.3 + 0. De los varones.Elaborado por: Ing.13 =13% Teorema Probabilidad Total. Óscar Flores Pérez Bioestadística Si conocemos la probabilidad de B en cada uno de los componentes de un sistema exhaustivo y excluyente de sucesos. entonces… … podemos calcular la probabilidad de B. son fumadores el 20%.2 x 0.2 x 0.1 x 0. A1 A2 B A3 A4 P(B) = P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4 ) =P(B|A1) P(A1) + P(B|A2) P(A2) + … Ejemplo: En esta aula el 70% de los alumnos son mujeres.7 = 0.

Donde P (B) se puede calcular usando el teorema de la probabilidad total: de cada Ai. A2 A1 entonces… … si ocurre B. podemos calcular la probabilidad (a posterior) de ocurrencia de cada A. Fuma P(F) = 0.9 No fuma P(H | F) = 0.7 Estudiante 0.2/P(F) •Los caminos a través de nodos representan intersecciones.1 + 0.1 0. Si conocemos la probabilidad de B en cada uno de los componentes de un sistema exhaustivo y excluyente de sucesos.8 0. B A3 A4 P(Ai | B) = P(B Ai) P(B) P(B)=P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4 ) =P(B|A1) P(A1) + P(B|A2) P(A2) + … 72 . •Las bifurcaciones representan uniones disjuntas. Fuma No fuma •Podéis resolver los problemas usando la técnica de vuestra preferencia.3 Hombre 0.2 Mujer 0.3x0.7 x 0.3x0. Óscar Flores Pérez Bioestadística Expresión del problema en forma del árbol.Elaborado por: Ing.5 Teorema de Bayes. 3.2 0.

6 Pruebas diagnosticas. La misma ha sido evaluada con anterioridad sobre dos grupos de individuos: sanos y enfermos. a priori de enfermedad: incid. Porcentaje de nuevos casos de la enfermedad en la población. En principio tenemos una idea subjetiva de P (Enfermo). Óscar Flores Pérez Bioestadística 3. intuición. Especificidad (verdaderos -) = Tasa de acierto sobre sanos. verdaderos + P. P (Enfermo | Test +) = Índice predictivo positivo P (Sano | Test -) = Índice predictivo negativo Pruebas diagnosticas: aplicación T. para confirmar.… Porcentaje de la población que presenta una enfermedad.Elaborado por: Ing. Nos ayudamos de… Incidencia.. usamos una prueba diagnóstica. podemos calcular las probabilidades a posteriori (en función de los resultados del test): Índices predictivos. Bayes. Prevalencia. Por otra parte. A partir de lo anterior y usando el teorema de Bayes. preval. Verdaderos - T- 73 . Sensibilidad.. Una prueba diagnóstica sirve para ayudar a mejorar una estimación de la probabilidad de que un individuo presente una enfermedad. Así de modo frecuentista se ha estimado: Sensibilidad (verdaderos +) = Tasa de acierto sobre enfermos.… Enfermo Falsos Individuo Falsos + Sano T+ T- T+ Especificidad.

2 ⋅ 0. Relaciónalo con el método científico.8 P ( Sano | T −) = = 0.2 Individuo Enfermo T+ TT+ T- P ( Enf | T + ) = = P( Enf Ι T +) + P ( SanoΙ T +) P ( Enf Ι T +) 0. Bayes Bioestadística La diabetes afecta al 20% de los individuos que acuden a una consulta.8 ⋅ 0.2 ⋅ 0. Nuestra opinión a priori ha sido modificada por el resultado de un experimento.3 = 0.99. La presencia de glucosuria se usa como indicador de diabetes. La probabilidad ahora es del 88%.01 P( SanoΙ T −) + P( Enf Ι T −) P( SanoΙ T −) 0. A continuación se le pasa una prueba diagnóstica que nos aportará nueva información: Presenta glucosuria o no.2 ⋅ 0. -¿Qué probabilidad tengo de estar enfermo? .3 0.99 0. Óscar Flores Pérez Ejemplo: Pruebas diagnóstica y T.99 = 0.3 + 0. Le haremos unas pruebas.7 0.Elaborado por: Ing. al llegar un individuo a la consulta tenemos una idea a priori sobre la probabilidad de que tenga una enfermedad.99 + 0.7 Observaciones En el ejemplo anterior. En función del resultado tenemos una nueva idea (a posteriori) sobre la probabilidad de que esté enfermo. Calcular los índices predictivos 0.01 Sano 0.88 0.En principio un 20%.8 ⋅ 0. Su sensibilidad es de 0. .Presenta glucosuria.85 0.3 y la especificidad de 0. 74 .8 ⋅ 0.

y T− tienen el sentido que es obvio. ¿Cuál es la probabilidad de que haya estado expuesto al alergeno? El valor esperado y la varianza de esta variable son: E[X] = np Var [X] = npq Ejemplo de uso de la distribución binomial Un médico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya incidencia sobre una población de niños es del 10%. la probabilidad de que un individuo.Elaborado por: Ing. 1 P[T+|E] = 0. Solución: Los datos de que disponemos son: P[E] = 0. Bioestadística En una población. La sensibilidad del test es del 80% y la especificidad del 75 %. 8 P[T−|E] = 0. Si queremos saber a cuantas personas el test le dará un resultado positivo. La probabilidad de que un individuo expuesto al alergeno experimente una reacción es de 0. Óscar Flores Pérez Ejercicio. T+. ¿Cual es la probabilidad de que exactamente a cuatro personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el test le da positivo. para lo que podemos usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una colección exhaustiva y excluyente de sucesos): = 0. elegido aleatoriamente haya sido expuesto a un alergeno y tenga una reacción frente al mismo es de 0. tendremos que calcular P[T+]. 75 prevalencia de la enfermedad en la población Probabilidad a priori de estar enfermo sensibilidad (verdaderos positivos) especificidad (verdaderos negativos) donde E. ¿cuál es la probabilidad de que entre estas.60.80. exactamente dos estén sanas? Calcular la probabilidad de que el test suministre un resultado incorrecto para dos personas. 25 × 0. 8 × 0. 9 = 0. Si un individuo es elegido aleatoriamente de esta población. 305 75 . 1 + 0. Calcular la probabilidad de que el resultado sea correcto para más de 7 personas.

que es: = 0. pero que están sanas en realidad. 9 + 0. o sea. en realidad tiene una probabilidad aproximadamente del 74% de estar sana. hemos de calcular previamente P[E|T+]. 245 76 . 2 × 0. Antes de hacer los cálculos no era previsible que si a una persona el test le da positivo. Sea X2 la variable aleatoria que contabiliza al número de personas al que el test le da positivo. se tiene que X sigue una distribución binomial Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es: Si queremos calcular a cuantas personas les dará el test un resultado positivo aunque en realidad estén sanas. 1 = 0. el índice predictivo de falsos positivos: Es importante observar este resultado. que contabiliza el número de resultados positivos. Es claro que llamando p1 = P[T+]. Óscar Flores Pérez Bioestadística Sea X1 la v. 25 × 0.a. Entonces y Por ´ultimo vamos a calcular la probabilidad p3 de que el test de un resultado err´oneo.Elaborado por: Ing.

Elaborado por: Ing. se tiene = 0. es la de que sea incorrecto para menos de 3. Óscar Flores Pérez Bioestadística La variable aleatoria que contabiliza el n´umero de resultados err´oneos del test es Como la probabilidad de que el test sea correcto para m´as de siete personas. 5407 77 .

Preg. c. Para conocer los índices predictivos en un test diagnóstico para una enfermedad que tiene un 1% de afectados en la población. e.Falsos positivos y verdaderos positivos. ¿Cómo se calcula la sensibilidad de un test diagnóstico? a.Existe una probabilidad del 75% de que esté enferma. Preg. d.Cero b.PROB[E]= 1 cuando E es el suceso seguro.Verdaderos positivos y especificidad.PROB[A]< 1 para todo A.Esta sana.5% e. b. d.PROB[B] . Cierto tests diagnóstico acierta sobre el 100% de los individuos enfermos y el 50% de los sanos.Existe una probabilidad del 75% de que esté sana.PROB[A unionB] = PROB[A] . Si la probabilidad de tener la enfermedad A es del 5%.Sensibilidad y verdaderos positivos b. 78 .Contabilizando el número de tests positivos en una muestra aleatoria de individuos. ¿cúal es la probabilidad de tener las dos? a.Existe una probabilidad del 50% de que esté sana.Esta enferma. 2. 1.Elaborado por: Ing. d. Preg.2% d. Cierta persona pasa el test con resultado negativo. 3.PROB[A]> 0 para todo A. c. Cuál de los siguientes es uno de los axiomas de probabilidad: a. la de tener la enfermedad B es del 10% y la de tener al menos una de las dos es del 13%. Preg.PROB[ A interseccion B] para todos A y B. e.Especificidad y verdaderos negativos e.Prevalencia. 4.1% c. b. Entonces: a.PROB[ no A] = 1-PROB[A] para todo A. será necesario conocer: a.8% Preg. c. 5. Óscar Flores Pérez Bioestadística Ejercicios de Probabilidades.

Todos los sucesos elementales son independientes entre si. Elegida una persona al azar: a. Dado un sistema exhaustivo y excluyente de sucesos. c.25 e.0. b.Todo suceso elemental pertenece a algún suceso del sistema.Elaborado por: Ing.Hay un 40% de fumadores en la población. hay tantos hombres como mujeres.Fuman tantos hombres como mujeres.0. el 20% son varones y fumadores y el 20% de las mujeres fuman. Preg. 7. d. c. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos y el 0% de los individuos enfermos. al 50% hombres y mujeres. e.Hay una probabilidad del 50% de que esté enferma. b.Nada de lo anterior es cierto.10 b. de los cuales 50 son mujeres.Hay una probabilidad del 100% de que esté enferma. e. Entonces: a.Todos los sucesos elementales tienen la misma probabilidad de ocurrir.20 d. 79 . Preg.0.Sólo (a) y (b) son ciertas.Ningún suceso elemental pertenece a dos sucesos de dicho sistema.15 c.Hay una probabilidad del 0% de que esté enferma. d. e.Contabilizando el número de tests negativos en una muestra aleatoria de individuos. c.Por cada mujer fumadora hay dos hombres fumadores. b.Contabilizando el número de tests positivos en una muestra aleatoria de enfermos. La probabilidad de que un paciente escogido al azar sea mujer con denutrición es: a. d.0.Contabilizando el número de tests negativos en una muestra aleatoria de sanos. 8. señale la afirmación correcta: a. e.Ninguna de las anteriores es cierta.Por cada hombre fumador hay dos mujeres fumadoras. Preg. 9. De una población de 500 pacientes.Ninguna de las anteriores es cierta.El test será negativo.30 Preg. Óscar Flores Pérez Bioestadística b. 6. d. c. 300 tienen alteración de la nutrición.0. En una población.

Condicionada. c. c.Dándose uno de ellos. puede darse el otro.De un suceso intersección b. El porcentaje de individuos con bronquitis que además son fumadores se puede interpretar como una probabilidad: a. se verifica el otro. c.Nada de lo anterior es cierto. y se observan los resultados.La sensibilidad y especificidad del test.De un suceso intersección b. Preg. d. 10.Condicionada.La incidencia de la enfermedad en la población. d. e. 11. d.Son correctas (a) y (c).A posteriori. b. Para estudiar la efectividad de un test diagnóstico ante una enfermedad se toma un grupo de 200 personas enfermas y 200 que no la padecen. Preg. b.Todo lo anterior. 14.De un suceso unión.Elaborado por: Ing.De un suceso unión. 12.De un suceso unión. c. Si dos sucesos son incompatibles.Siempre que uno de ellos no se verifica.De un suceso complementario.A posteriori.De un suceso complementario. e. 80 . Preg. e.El índice predictivo de verdaderos positivos. El porcentaje de individuos con bronquitis entre los fumadores se puede interpretar como una probabilidad: a.De un suceso intersección b. sucede el otro. ¿Qué podemos estimar directamente de ellos? a.Siempre que sucede el uno. d. entonces: a. c. Óscar Flores Pérez Bioestadística Preg. d.Condicionada.No pueden ocurrir simultáneamente.A posteriori. El porcentaje de individuos fumadores o con bronquitis se puede interpretar como una probabilidad: a. Preg. e. e. 13.De un suceso complementario.

12% e.15% d.50% 81 . 16.La tasa de verdaderos positivos se obtiene directamente de la noción frecuentista de probabilidad.25% Preg. la cual padece el 10% de la población.2% b. el 30% no está diagnósticado. el 5% son enfermos diagnosticados de una enfermedad.De un suceso intersección b. 17.5% c. El 2% de la población padece diabetes. Óscar Flores Pérez Bioestadística Preg.6% c. d. b.A posteriori.Condicionada. EL 25% de ellos lo sabe.nada de lo anterior es cierto.12% Preg. La probabilidad de estar diagnósticado para un individuo enfermo es: a.8% d.2% b. Si de ellos.9% d. ¿Qué tasa de individuos tiene osteoporosis y lo desconoce? a. En una población.5% c.De un suceso complementario. La osteoporosis afecta 4 veces más a mujeres que a hombres.3% b. a. Elija la afirmación correcta relativa a pruebas diagnósticas: a. ¿Cuál es la prevalencia de la osteoporosis en la población? a. e..La prevalencia de la enfermedad se obtiene a partir del teorema de Bayes. c. Preg.El índice predictivo positivo se obtiene directamente de la noción frecuentista de probabilidad. Preg.. e. El 12% de los individuos de una población padece osteoporosis. esta cantidad puede entenderse como una probabilidad. c. 19. 18.10% e. d.La sensibilidad se obtiene usando la noción subjetiva de probabilidad.De un suceso unión. 15.Elaborado por: Ing. El 8% de las mujeres padece osteoporosis en una población donde hay tantos hombres como mujeres.

e. e. la probabilidad de que realmente esté enferma es: a. 22.50% c.Si pasa uno. d.La probabilidad de la intersección es cero.La intersección es el conjunto vacío.20% b. Una enfermedad tiene una incidencia del 50% en la población.90% e.100% Preg.La probabilidad de la unión es la suma de las probabilidades.Siempre ocurre al menos uno de los dos. 20.45% b. el otro no puede ocurrir. Una prueba diagnóstica de cierta enfermedad.Ninguna de las anteriores.75% d. la probabilidad de que esté enfermo es: a. b.No puede calcularse con esos datos. Bioestadística Preg.40% c. Se define la sensibilidad de un test como: a.80% Preg.Elaborado por: Ing. Si se pasa el test a una persona y sale positivo. c. 82 . 23. d.Todo lo anterior es falso. tiene una tasa de aciertos del 90% tanto sobre enfermos como sanos. Si dos sucesos son independientes: a.La probabilidad de que si el test da negativo el sujeto esté sano.50% d. Si un individuo resulta ser positivo.Sólo dos de las anteriores son ciertas. Preg. La incidencia de la enfermedad en la población es del 50%. c.60% e. Si dos sucesos A y B son incompatibles (excluyentes): a. 24. Un test para detectarla posee una tasa de verdaderos positivos del 80%. 21. c. Preg. e. d. b. Óscar Flores Pérez e.La probabilidad de que si el sujeto está sano el test de negativo. y de falsos positivos del 20%.Todo lo anterior es cierto.La probabilidad de que si el sujeto está enfermo el test de positivo.Siempe ocurre uno o otro. pero no ambos a la vez.No pueden ocurrir a la vez. b.La probabilidad de que si el test da positivo el sujeto esté enfermo.

frente al 25% de las mujeres. 25.235 b. 83 .60 c.0.No puede calcularse con esos datos. Óscar Flores Pérez Bioestadística Preg.25 e.0.74 d. Escogida una persona al azar es deportista.0. La probabilidad de que sea mujer es (aproximadamente): a.0.Elaborado por: Ing. En una población el 30% son hombres de los cuales son deportistas el 20%.

Conocer la importancia de la aplicación de la distribución t de student. Principales leyes de distribución de variables aleatorias. 8.a. 5. Aplicar los métodos abreviados para calcular variaciones. Experimentos dicotómicos. que aparece con frecuencia en las Ciencias de la Salud. con probabilidad q =1-p) Lanzar una moneda y que salga cara. 4. Hay v. en experimentos donde el resultado es dicotómico. Bernoulli Contar éxitos en experimentos dicotómicos repetidos: Binomial Poisson (sucesos raros) Y en otras muchas ocasiones… Distribución normal (gaussiana. P =1/2 Elegir una persona de la población y que esté enfermo. 7. Conocer las propiedades para distribución F. Tenemos un experimento de Bernoulli si al realizar un experimento sólo son posibles dos resultados: X =1 (éxito.1 Distribución de Bernoulli. Óscar Flores Pérez Bioestadística IV.…) El resto del tema está dedicado a estudiar estas distribuciones especiales. campana. la variable queda perfectamente determinada conociendo el parámetro p 84 . Distinguir las características del experimento de dos factores. Distinguir las particularidades de los experimentos de factor único. probabilidad de que el individuo se cure Como se aprecia. Conocer la relación existente entre las frecuencias observadas y teóricas a través de la prueba ji-cuadrada. Destacar la importancia de la curva normal 2. P =1/1000 = prevalencia de la enfermedad Aplicar un tratamiento a un enfermo y que éste se cure. 4. P =95%. con probabilidad p) X =0 (fracaso. 1. Objetivos de la unidad.Elaborado por: Ing. Conocer la importancia del análisis de varianza. 3. 6.

que 10 individuos quedaron con secuelas.85 Ejemplo 2. Óscar Flores Pérez Ejemplo 1. Describa el experimento usando conceptos de variable aleatoria.005 X =0 tiene probabilidad q ≈ 0.15 X =0 tiene probabilidad q ≈ 0. En los dos ejemplos anteriores hemos visto cómo enunciar los resultados de un experimento en forma de estimación de parámetros en distribuciones de Bernoulli.995 Observaciones. Solución.5% X =“tener secuelas tras accidente usando cinturón” es variable de Bernoulli X =1 tiene probabilidad p ≈ 0.5% En realidad no sabemos en este punto si ambas cantidades son muy diferentes o aproximadamente iguales. Esperemos a las pruebas de X2. las cantidades de individuos con secuelas hubieran sido con seguridad diferentes. Describa el experimento usando conceptos de variable aleatoria. Sin cinturón: p ≈ 15% Con cinturón: p ≈ 0. La noción frecuentista de probabilidad nos permite aproximar la probabilidad de tener secuelas mediante 300/2000=0. Solución. pues en otros estudios sobre accidentes.15=15% X =“tener secuelas tras accidente sin cinturón” es variable de Bernoulli X =1 tiene probabilidad p ≈ 0.005=0. Para decidir si entre ambas cantidades existen diferencias estadísticamente significativas necesitamos introducir conceptos de estadística inferencial (extrapolar resultados de una muestra a toda la población).Elaborado por: Ing. Es muy pronto para resolver esta cuestión ahora. que 300 individuos quedaron con secuelas. Bioestadística Se ha observado estudiando 2000 accidentes de tráfico con impacto frontal y cuyos conductores no tenían cinturón de seguridad. La noción frecuentista de probabilidad nos permite aproximar la probabilidad de quedar con secuelas por 10/2000=0. 85 . Se ha observado estudiando 2000 accidentes de tráfico con impacto frontal y cuyos conductores sí tenían cinturón de seguridad.

el modelo binomial es adecuado. f (4) = 0. Si se escoge una muestra aleatoria de 10 elementos de entre esta población. Óscar Flores Pérez 4. es igual a n P( X = x) = Cx π x (1 − π ) n− x Donde. La conveniencia del uso de esta distribución depende de que tan drástico es el efecto de esas condicionas en las circunstancia de p de un ensayo a otro. Suponga que se conoce que en cierta población el 10% de la misma es daltoniana. respectivamente.Elaborado por: Ing. se podrá clasificar los n elementos en dos categorías. 1-π = probabilidad de no pertenecer a esa categoría. ¿Cuál es la probabilidad de que dicha muestra contenga exactamente cuatro personas inmunes? R//. 86 . la probabilidad π de que x individuos estén en una categoría (por lo tanto. en situaciones donde el muestreo se realiza a partir de una población infinita o a partir de una poblaron finita con restitución. Suponga que se sabe que el 80% de cierta población es inmune a alguna enfermedad. Cuando se obtiene la muestra. La media y la varianza son µ = np y σ2 = np (1-p).2 Bioestadística Distribución binomial. use la tabla A del apéndice II del libro de bioestadística para calcular la probabilidad de que: a. Normalmente se considera que cuando n es pequeña en relación con N.2001 2. 1. Cuando una muestra aleatoria de tamaño n se toma de una población binomial. b. Cinco o menos sean daltonianos. π = probabilidad de pertenecer a una categoría. Seis o más daltonianos c. Ejercicio. son parámetros en el sentido de que son suficiente para especificar una distribución binomial. La distribución binomial es aplicable. probabilidad 1-π de que lo n-x individuos restantes estén en la otra categoría. La distribución binomial tiene dos parámetros n y p. Entre seis y nueve inclusive. los que poseen el atributo de interés y los que no. Si se extrae una muestra aleatoria de 25 gente de entre la población.

para tamaños de n grandes (n>30). p). 4. ni de Poisson. n. p =1/2) Lanzar una moneda 100 veces y contar las caras.). 87 .000 personas) de una enfermedad que desarrolla una de cada 2000 personas. p =1/2) Difícil hacer cálculos con esas cantidades. El modelo normal será más adecuado.3 Bioestadística Función de probabilidad Problemas de cálculo si n es grande y/o p cercano a 0 ó 1. Aún no conocéis la distribución normal. Parecidos razonables. k = 0 .4 Distribución de Poisson También se denomina de sucesos raros. Bin(n =100. Se obtiene como aproximación de una distribución binomial con la misma media. Queda caracterizada por un único parámetro µ (que es a su vez su media y varianza. el número de éxitos sigue una distribución binomial de parámetros (n. Cuando p es muy pequeño es mejor usar la aproximación del modelo de Poisson. Media: µ =n p Varianza: σ2 = n *p* q Si se repite un número fijo de veces. Bin(n =10. p =1/2000) Difícil hacer cálculos con esas cantidades. para ‘n grande’ (n>30) y ‘p pequeño’ (p<0.Elaborado por: Ing. es decir la media la varianza son iguales..000. El número de personas que enfermará (en una población de 500. El modelo de Poisson será más adecuado. Óscar Flores Pérez 4.1. 2 . De cualquier forma ahí tenéis la comparación entre valores de p no muy extremos y una normal de misma media y desviación típica.. Bin(n =500.1). Lanzar una moneda 10 veces y contar las caras.. Función de probabilidad: P[ X = k ] = e − µ µk k! . un experimento de Bernoulli con parámetro p.

000.000. Supongamos que es 1/10. El administrador de un hospital analiza los casos diarios de urgencia durante un periodo de varios años y concluyó que se distribuyen de acuerdo a la distribución de Poisson. pero creemos que aún demasiados.…) Tenemos en cada hospital n. Óscar Flores Pérez Ejemplo 1. pero no nula. Bioestadística El número de individuos que será atendido un día cualquiera en el servicio de urgencias del hospital clínico universitario. Si x es el numero de ocurrencia de algún evento aleatorio en un intervalo de espacio o tiempo (o algún volumen de materia) la probabilidad de que x ocurra es dada por −λ x f ( x) = e λ x! λ es el parámetro de la distribución y es el número promedio de ocurrencia del evento aleatorio dentro del intervalo (o volumen). p =1/10. o el tamaño de la población. enfermos con secuelas tras la intervención). Ejercicios.… Se puede modelar mediante Poisson (µ=np) La distribución de Poisson se emplea cuando se cuentan los eventos o cantidades. Tenemos p pequeño calculado como frecuencia relativa de secuelas con respecto al total de pacientes que trata el hospital. nº de pacientes atendidos o nº individuos de la población que cubre el hospital. distribuidas al azar en tiempo o espacio.000) ≈ Poisson (µ=np=500) Sospechamos que diferentes hospitales pueden tener servicios de traumatología de diferente “calidad” (algunos presentan pocos. pueblos. Los registros del hospital revelan que los casos de urgencia promedian tres días durante ese periodo.Elaborado por: Ing. “e” es la constante 2.7183.000 habitantes (n grande) La probabilidad de que cualquier persona tenga un accidente es pequeña. En Nicaragua hay 5000. calcule la probabilidad de que: 88 . Es difícil compararlos pues cada hospital atiende poblaciones de tamaños diferentes (ciudades. Si el administrador tiene razón respecto a la distribución de Poisson. Bin (n =5000.

225 b.39 La distribución de Poisson es útil para solucionar problemas cuando n es grande. P(x =2) = 0. a) λ = 3 y x es la variable aleatoria que denota el numero de casos diarios de urgencia. 2! 2 *1 b) no ocurra un solo caso de urgencia en un día particular. Ocurren exactamente dos casos de urgencia en un día dado.Elaborado por: Ing.05. Puesto que los dos eventos son mutuamente excluyentes se usa la regla de adición. peso. y la desviación típica.050 * 9 P(x = 2) = f(x) = = = 0. Solución.5 Distribución normal o de Gauss Aparece de manera natural: Errores de medida. Es útil en problemas de colas. Distancia de frenado. b. “p” es tan pequeña. µ.050 *1 = = 0. c. f(0) = 0. propensión al crimen… Distribuciones binomiales con n grande (n>30) y ‘p ni pequeño’ (np>5) ‘ni grande’ (nq>5). pero. Está caracterizada por dos parámetros: La media.225+0. Altura. f (3) + f (4) = e −3 33 e −3 34 + = 0. Ocurren tres o cuatro casos de emergencia en un día en particular.225.16875 = 0. 0! 1 c) ocurran tres o cuatro casos de urgencia en un día en particular.225 + 0. f(x) = e −3 30 0. f(3) + f(4) = 0.16875 = 0.05 c. σ. No ocurre un solo caso de emergencia en un día particular. 89 .39 3! 4! Respuesta: a. 4. Óscar Flores Pérez Bioestadística a. e −3 32 0.

Justifica la técnica de tipificación. ya que no tiene primitiva expresable en términos de funciones ‘comunes’. Óscar Flores Pérez Su función de densidad es: N (µ. Y la desviación típica como un factor de escala. σ): Interpretación probabilista Entre la media y una desviación típica tenemos siempre la misma probabilidad: aprox. y un cambio de escala σ. Si tomamos intervalos centrados en µ. Todas las distribuciones normales N (µ. Media. cuando intentamos comparar individuos diferentes obtenidos de sendas poblaciones normales. como N (0. pueden ponerse mediante una traslación µ. 95% Algunas características. a distancia 2’5 σ tenemos probabilidad 68% tenemos probabilidad 95% tenemos probabilidad 99% No es posible calcular la probabilidad de un intervalo simplemente usando la primitiva de la función de densidad. 90 .… N (µ. mesocúrtica y unimodal. y cuyos extremos están… a distancia σ. grado de dispersión. La función de densidad es simétrica. 68% Entre la media y dos desviaciones típicas aprox. Los puntos de inflexión de la función de densidad están a distancia σ de µ. σ). a distancia 2 σ. Esta distribución especial se llama normal tipificada. mediana y moda coinciden. σ): Interpretación geométrica Bioestadística f (x) ? = 1 e σ 2π −1⎛ χ −µ ⎞ ⎜ ⎟ 2⎝ σ ⎠ 2 Podéis interpretar la media como un factor de traslación.1).Elaborado por: Ing.

6179 0.8365 0.8315 0. como ya hemos indicado.8508 0.0 1.7813 0.9015 0.98870 0.7939 0.99461 0.9649 0.07 0.3 1. Óscar Flores Pérez 4.6736 0.99413 0.1) que deja exactamente la misma probabilidad por debajo.98461 0.5239 0. z.4 0.8289 0.99609 0.9573 0.7324 0.8133 0.99036 0.99379 0.7054 0.6480 0. a la distancia (con signo) Z = χ − µ con respecto a la media.9332 0.6443 0.9251 0.8212 0.6026 0.8665 0.98214 0. X 0.9591 0.8416 0.6331 0.9732 0.99111 0.98778 0.8729 0.02 0.7881 0.8708 0.9463 0.9726 0.9678 0.98956 0.5 1.9495 0.9699 0.6664 0.9441 0.5 2.1 0.1 2.03 0.99202 0.5987 0.99585 0.99361 0.5438 0.9382 0.97982 0.08 0.5000 0.97725 0.9049 0.7794 0.7910 0.98645 0.8790 0.9484 0.98809 0.5398 0.9625 0.9099 0.6628 0.01 0.98899 0.6293 0.9265 0.6141 0.99305 0.5596 0.98341 0.7157 0.8621 0.98257 0.7673 0.7580 0.7389 0.5636 0.9767 0.8869 0.9599 0.5910 0.98574 0.99492 0.9719 0.7517 0.99343 0.2 1.98840 0.8051 0.9474 0.7995 0.6 1.06 0.9505 0.5871 0.9535 0.8264 0.7088 0.8599 0.9429 0.8907 0.5478 0.6879 0.9761 0.8461 0.9 2.3 0.99245 0.5 0.98077 0.9279 0.5199 0.9082 0.6950 0.0 0.1 1.5557 0.8554 0.99506 0.99180 0.9207 0.7 0.6808 0.Elaborado por: Ing.99286 0.9633 0.8944 0.9131 0.3 2.9357 0. La distribución normal tipificada tiene la ventaja.8577 0.9671 0.7642 0.5675 0.6368 0.98030 0.7422 0.99560 0.8531 0. se denomina valor tipificado.8238 0.8389 0.9236 0.98500 0.9756 0.6064 0. de una observación x.98610 0.8980 0.5080 0.8 0.9713 0.9306 0.05 0.9706 0.99547 0.9 1. es decir σ En el caso de variable X normal.9032 0.5160 0.9452 0.9292 0.7224 0.98169 0.5517 0.7704 0.7454 0.9370 0.9564 0.9515 0.9115 0.5714 0.8 1.9394 0.8438 0.8749 0.6103 0.9525 0.9744 0.6554 0.6591 0.99134 0.99061 0.7486 0.9192 0.8888 0.6 0.99598 0.99396 0.6844 0.9066 0.5319 0.99573 0.6772 0.09 0.2 2.98537 0.6517 0.9418 0.6 Bioestadística Tipificación Dada una variable de media µ y desviación típica σ.7257 0.7967 0. para saber cuál de los dos es más extremo.8830 0.6915 0.99324 0.6255 0.9222 0.5120 0.8810 0.8962 0.5832 0.00 0.5793 0.8106 0.8159 0.99477 0.9406 0.9545 0.04 0.99520 0.9554 0.5948 0.98300 0.99224 0.5279 0.8023 0. σ).98745 0.8186 0.5040 0. de que las probabilidades para cada valor de la curva se encuentran recogidas en una tabla.0 2.2 0.99086 0.8849 0.8340 0.99446 0.97882 0. Nos permite así comparar entre dos valores de dos distribuciones normales diferentes.98928 0.98679 0. la interpretación es clara: Asigna a todo valor de N (µ.9750 0.4 2.8078 0.5359 0.99158 0.99266 0.8643 0.9345 0.99643 91 .9686 0.8997 0.7852 0.8485 0.9641 0.7 1.5723 0.7291 0.6217 0.7123 0.97778 0.8686 0.97831 0.9616 0.9582 0.9738 0. un valor de N (0.98713 0.98124 0.99534 0.9693 0.9319 0.7357 0. medido en desviaciones típicas.6406 0.8770 0.9162 0.9664 0.9147 0.6 0.6985 0.97932 0.9177 0.7090 0.99010 0.4 1.7734 0.9656 0.6700 0.7764 0.8925 0.99621 0.98983 0.7611 0.7019 0.99430 0.99632 0.7549 0.98422 0.9608 0.98382 0.

1.05.99831 0.99653 0.1). Se asignará al que tenga mejor expediente académico. ya que podría tomar infinitos valores: por ejemplo: 1.9998.99767 0.9967.99674 0.99819 0. es decir 99.99807 2.7 y en la primera fila el valor 0.99744 0. 1.99795 0.99683 0.99801 0. Atención: La tabla nos da la probabilidad acumulada. No nos da la probabilidad concreta en ese punto.99728 0.67: la respuesta es 0.99781 0. Ejemplo: Imaginemos que una variable continua puede tomar valores entre 0 y 5. Veamos otros ejemplos: Probabilidad acumulada en el valor 0.99.99788 0.99856 0.99774 0.99851 0. La probabilidad de que tome exactamente el valor 2 es despreciable.99760 0.99664 0.99736 2.9 0.98574 Ejemplo 1. La primera fila nos indica el segundo decimal del valor que estamos consultando. Se quiere dar una beca a uno de dos estudiantes de sistemas educativos diferentes.9115 Probabilidad acumulada en el valor 2. Óscar Flores Pérez Bioestadística 2. Ejemplo: queremos conocer la probabilidad acumulada en el valor 2.99813 0.Entonces buscamos en la columna de la izquierda el valor 2.99836 0. La casilla en la que se interceptan es su probabilidad acumulada (0. En una distribución continua en el que la variable puede tomar infinitos valores.99841 0.99720 0.99752 0. 1.99846 0. El estudiante B tiene una calificación de 80 en un sistema donde la calificación de los alumnos se comporta como N (70.8 0. la probabilidad en un punto concreto es prácticamente despreciable. es decir.19: la respuesta es 0. 1999791. El estudiante A tiene una calificación de 8 en un sistema donde la calificación de los alumnos se comporta como N (6.7 0.99711 0.99825 0. 92 . etc.99861 ¿Cómo se lee esta tabla? La columna de la izquierda indica el valor cuya probabilidad acumulada queremos conocer.7486 Probabilidad acumulada en el valor 1.7%).99702.10).99702 0.994.35: la respuesta es 0.Elaborado por: Ing. la que va desde el inicio de la curva por la izquierda hasta dicho valor.99693 0.75.

Elaborado por: Ing.08% de la población (808 habitantes) vivirán más de 75 años. ciertos estadísticos/estimadores calculados sobre muestras elegidas al azar sí que poseen una distribución normal. pero todavía no hemos hablado de por qué es una distribución especialmente importante. tengan la distribución que tengan nuestros datos.1) zA = σA x − µ B 80 − 70 = =1 zB = B σB 10 xA − µ A = 8−6 =2 1 Como ZA>ZB.000 habitantes: a) ¿Cuántas personas superarán previsiblemente los 75 años? b) ¿Cuántos vivirán menos de 60 años? Respuesta. La razón es que aunque una v. el 8. Se hace un estudio en una pequeña ciudad de 10. los ‘objetos’ que resumen la información de una muestra. podemos tipificar y observar las puntuaciones sobre una distribución de referencia N (0. La vida media de los habitantes de un país es de 68 años. Óscar Flores Pérez Solución Bioestadística No podemos comparar directamente 8 puntos de A frente a los 80 de B. a) Personas que vivirán (previsiblemente) más de 75 años Luego. podemos decir que el porcentaje de compañeros del mismo sistema de estudios que ha superado en calificación el estudiante A es mayor que el que ha superado B. Ejercicio 1. no posea distribución normal. posiblemente tengan distribución normal (o asociada).a. pero como ambas poblaciones se comportan de modo normal. Podríamos pensar en principio que A es mejor candidato para la beca. ¿Por qué es importante la distribución normal? Las propiedades que tiene la distribución normal son interesantes. con una varianza de 25. 93 . Es decir.

el 5. el ingreso por hogar tiene una distribución aproximadamente normal y que puede aceptarse que la desviación estándar es igual a $2000. Dado que la SC = -1.48% de la población (548 habitantes) no llegarán probablemente a esta edad. A partir de una muestra aleatoria de n = 15 hogares. el argumento del representante de la comunidad no puede rechazarse al nivel significancia de 5%. Un líder comunitario le informa al posible desarrollador de un centro comercial que el ingreso promedio por hogar en la zona es de $ 45000. Se supone que se distribuye según una distribución normal. La distribución exponencial se ha comprobado que representa la distribución de variables aleatorias como el lapso de tiempo de permanencia de un cliente en una tienda. y si tiene una distribución exponencial.Elaborado por: Ing. Ejemplo. con base en un estudio anterior. para el tipo de la zona que se trata. El consumo medio anual de cerveza de los habitantes de un país es de 59 litros. −x f ( x) = e β β . entonces la distribución de probabilidad de x esta dada por f (x) = ½ e-x/2 94 . la duración de la firma de negocios y la demanda de un producto a varios niveles de precios. que puede asumirse que. x > 0 El parámetro β es la media de la distribución. el tiempo que dura una maquina antes de volver a descomponerse. Suponga que un fabricante de bulbo de televisión ha descubierto por medio de la experiencia que un bulbo estándar dura un periodo de dos años. Suponga. Distribución exponencial. Si garantiza sus bulbos por un año. 2. Respuesta: Z = -1. se determina que el ingreso domestico medio es de $44500. con una varianza de 36.93. Óscar Flores Pérez Bioestadística b) Personas que vivirán (previsiblemente) menos de 60 años Luego. ¿Qué proporción de sus clientes necesitaran algún ajuste porque sus bulbos hallan fallado antes del termino de un año? Si x denota la duración de un bulbo en años. Pruebe la Ho de que µ = $45000 con un nivel de significancia de 5%.93 se halla en la región de aceptación de Ho.

Dada una v. Si para plena seguridad. Fotografías tomadas desde un helicóptero mostraron que en promedio había 80 autos circulando en el carril de alta velocidad sobre un tramo de una milla de una vía rápida urbana. La media de los promedios muestrales es la misma que la de la variable original. entonces: Dichos promedios tienen distribución aproximadamente normal.7 Teorema central del límite.e-x/2 Aquí A(x) = denota el área bajo f(x) desde 0 hasta x. cualquiera. y calculamos los promedios muestrales. Este teorema justifica la importancia de la distribución normal.Elaborado por: Ing. es calcular P (x≤1). La desviación típica de los promedios disminuye en un factor “raíz de n” (error estándar). Óscar Flores Pérez Bioestadística El problema por tanto. Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito. si extraemos muestras de tamaño n.e-1/2 = 0. debería ser de cuando menos 30 pies. En meses recientes habían ocurrida ciertos número de accidentes en ese tramo atribuidos al manejo a corta distancia del auto delantero.a. Esto esta dada por el área bajo la grafica de f(x) desde x = 0 hasta x =1. la distancia entre coches en ese tramo y sobre ese carril. 4. Tales áreas se obtienen fácilmente por medio del cálculo y para la grafica de f(x) cuya ecuación es dada por: f (x) = 1 . 95 . P(x ≤1) = A (1) = 1 . ¿Qué porcentaje de los coches corren a una distancia demasiada corta del delantero? Repuesta: Alrededor del 37 % de los conductores viaja demasiada cerca del auto de adelante.39 Ejercicio.

7. Tiene un sólo parámetro denominado grados de libertad. Dependiendo del problema. p-valores. Sobre todo nos interesa saber qué valores de dichas distribuciones son “atípicos”.… 4. 4.student F-Snedecor Estas distribuciones resultan directamente de operar con distribuciones normales. Veamos algunas propiedades que tienen (superficialmente). podemos encontrar otras (asociadas): X2 (chi cuadrado) t. Significación. cuando se promedie sobre una muestra grande (n>30) nos va a aparecer de manera natural la distribución normal. Óscar Flores Pérez Bioestadística Sea lo que sea lo que midamos.1 Distribuciones asociadas a la normal. 96 . Para más detalles consultad el manual. Cuando queramos hacer inferencia estadística hemos visto que la distribución normal aparece de forma casi inevitable.Elaborado por: Ing.2 Chi cuadrado. Típicamente aparecen como distribuciones de ciertos estadísticos.7.

La función de densidad se hace más simétrica incluso casi gausiana cuando aumenta el número de grados de libertad. 97 . Sólo tienen densidad los valores positivos.Elaborado por: Ing. Óscar Flores Pérez Bioestadística La función de densidad es asimétrica positiva. Normalmente consideraremos anómalos aquellos valores de la variable de la “cola de la derecha”.

se debe utilizar otro tipo de pruebas no paramétricas. corresponderá un valor de significación estadística determinado. no tiene diferencias para cada grupo de la variable categórica “x”.9 correspondiendo a una p < 0. En caso de tener que analizar variables numéricas de distribución anormal. t = [(x . Bioestadística Cuando aumentan los grados de libertad. La prueba t Student. La prueba de t Student. o las medias de dos grupos diferentes. o sea que la hipertensión 98 . Es simétrica con respecto al cero. Esto implica que la diferencia de edad entre ambos grupos de hipertensos no es aleatoria.µ)/ŝ] * √N En definitiva la prueba de t Student contrasta la HP Nula de que la media de la variable numérica “y”. Es una prueba paramétrica.3 T de student Tiene un parámetro denominado grados de libertad. Por ejemplo.7.1).µ)/s] * √ (N – 1) ó t = [(X . Los resultados arrojan que los pacientes del grupo de hipertensión esencial presentan una edad media de 55 12 años. o sea que solo sirve para comparar variables numéricas de distribución normal. Según sea el valor de t. que compara las medias de dos categorías dentro de una variable dependiente.Elaborado por: Ing. mientras que los hipertensos secundarios 26 8 años. Óscar Flores Pérez 4. más se acerca a N (0. Supongamos la comparación de la edad en 566 pacientes con Hipertensión esencial y 214 con Hipertensión secundaria. es un método de análisis estadístico. arroja el valor del estadístico t.0001. como la prueba U de Mann – Whitney. El valor de la prueba t se establece mediante el estadístico t que en este caso es de 38. Se consideran valores anómalos los que se alejan de cero (positivos o negativos). La prueba t para muestras independientes se utiliza para comparar la media de dos grupos o dos categorías dentro de una misma variable dependiente.

527 636.707 3.656 9.341 1.025) Valores críticos para la distribución Student's t alfa = área a la derecha de t (df.345 1.372 1.681 2.821 6. Por ejemplo.624 2.898 2.306 2.977 2.965 4.812 1.110 2.106 3.131 2.930 3.041 4.214 7.646 3.600 12.567 2.578 31.132 2.850 3.262 2.0100 0.328 1.602 2.686 3.998 2.721 12.638 1.f) P(T > t(df.539 2.221 4.753 1.397 1.860 1. para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de libertad la t crítica es 2.297 4.587 4.785 4.250 3.055 3.796 1.025 3.921 2.140 4.365 3.353 2.145 2.501 4.182 2.120 2.528 2.552 2.583 2.144 4.499 3.922 3.0005 3.383 1.869 5.819 99 .032 3.132.924 8.896 2.337 1.0010 0.447 2. alfa) T~ t(d.718 2. para una prueba t con nivel alfa 0'05 bidireccional y 18 grados de libertad la t crítica es 2.852 3.733 3.610 6.086 2.437 4.729 1.610 3.101 2.073 4. (Se rechaza la HP Nula HP alterna) Por ejemplo.173 5.821 2.080 31.761 1.943 1.518 63.333 1.408 5.747 3.746 1.143 2.725 1.776 2.895 1.740 1.781 4.208 4.771 1.201 2.883 3.160 2.552 3. Óscar Flores Pérez Bioestadística secundaria se observa en grupos etarios más jóvenes.1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 alfa 0.959 5. alfa)) grados de libertad 0.228 2.579 3.Elaborado por: Ing.325 1.363 1.350 1.861 2.355 3.015 1.440 1.318 4.947 2.365 2.078 1.328 10.706 4.0050 0.015 3.012 2.833 1.533 1.787 3.886 1.831 318.571 2.093 2.782 1.734 1.289 22.101 (obtenido en la fila gl =18 y en la columna encabezada por 0.169 3.415 1.476 1.894 5.330 1.920 2.0250 0. Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a ese cociente.650 2.965 3.303 3.878 2.925 5.764 2.179 2.604 4.356 1.0500 0.541 3.841 4.323 6.314 2.845 2.

714 1.311 1.319 22 − 24 1.048 2.040 2.715 2.611 3.423 2.232 3.319 1.441 2.733 2.304 1.467 2.431 2.692 1.319 3.390 2.750 2.660 2.026 2.385 3.045 2.069 2.453 2.645 2.307 3. Óscar Flores Pérez 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 60 120 Inf.485 3.333 3.160 3.701 1.030 2.421 3.321 − 1.763 2.438 2.708 1.091 3.686 1.Elaborado por: Ing.467 3.744 2.500 2.684 1.460 3.305 1.042 2.711 1.309 1.313 3.327 2.558 3.674 3.687 1.462 2.035 2.340 3.064 2.768 3.717 1.060 2.689 3.309 1.492 2.434 2.574 3.307 1.457 2. 100 .688 1.000 1.373 3.617 2.508 2.807 2.321 − x = = x = 1.980 1.479 2.318 4.321 1.314 1.696 1.787 2.708 2.348 3.426 2.289 1. Bioestadística 2.429 2.056 2.745 3.591 3.306 1.797 2.445 2.485 2.032 2.707 3.326 3.582 3.551 3.690 1.052 2.601 3.315 1.691 1.792 3.704 2.719 2.706 1.779 2.306 1.375 3.633 3.505 3.308 1. 22 − 23 1.658 1.024 2.7.074 2.473 2.819 2.712 2.960 Ejemplo de Interpolación.435 3.450 3.660 3.694 1.566 3.296 1.310 1.622 3.728 2.699 1.725 3.365 3.356 3.291 1.449 2.771 2.021 2.703 1.396 3.304 1.724 2.316 1.358 2.408 3.738 2.685 1.318 1.671 1.023 2.697 1.282 1.037 2.4 F de Snedecor Tiene dos parámetros denominados grados de libertad.646 3.313 1.028 2.303 1.756 2.576 3.

Un estimador es una cantidad numérica calculada sobre una muestra y que esperamos que sea una buena aproximación de cierta cantidad con el mismo significado en la población (parámetro). Ilustrémoslo con un ejemplo que ya tratamos en el tema anterior (teorema del límite central). En realidad ya en algún momento hemos trabajado con estimadores cada vez que hacemos una práctica con muestras extraídas de una población y suponemos que las medias. 5. 101 . Realizar estimación del tamaño muestral. Estimar intervalos para la media (caso general) y para dos poblaciones.Elaborado por: Ing. Objetivos de la unidad. Ver libro bioestadistica. Para la media de una población: “El mejor” es la media de la muestra. Óscar Flores Pérez Bioestadística Sólo toma valores positivos. Normalmente se consideran valores anómalos los de la cola de la derecha V. Habría que precisar que se entiende por “el mejor estimador” pero eso nos haría extendernos demasiado. 2. Estimar los intervalos de confianza para la distribución ji-cuadrada. Es asimétrica. ¿Es útil conocer la distribución de un estimador? Es la clave para hacer inferencia. 1. 4. etc. Estimación confidencial. 3. Para la frecuencia relativa de una modalidad de una variable: “El mejor” es la frecuencia relativa en la muestra. Calcular los intervalos de confianza en la distribución normal. Calcular los intervalos de confianza en la distribución t student.… eran próximas de las de la población.

En el ejemplo anterior la situación no era muy realista.Elaborado por: Ing. Sin embargo también hay estimadores para σ y puedo usarlo como aproximación. Ojo: He hecho un poco de trampa. y obtenemos muestras de tamaño n =100. el 95% de los estudios con muestras ofrecerían estimaciones entre 60±1 Dicho de otra manera. y desviación 5kg.5 como la media muestral es aproximadamente normal. Además podemos asignarle una probabilidad aproximada que mida nuestra confianza en la respuesta: Hay una confianza del 68% de que µ esté en 60±0. sabemos que para muestras “grandes”. típica de la media muestral (error estándar) es EE = 5/√(100)=0.5 Hay una confianza del 95% de que µ esté en 60±1. con la misma media y. Nos servirá como introducción a la estimación puntual y por intervalos de confianza. Óscar Flores Pérez Bioestadística Si de una variable conocemos µ y σ. analicemos el siguiente ejemplo. pues como de todas maneras no conozco σ desconoceré el intervalo exacto para µ. al hacer un estudio tenemos una confianza del 95% de que la verdadera media esté a una distancia de ±1. ¿La ves? 102 . desviación típica mucho menor (error estándar) Es decir si por ejemplo µ=60 y σ=5.5 estima el error estándar (típico) EE Estas son las llamadas estimaciones puntuales: un número concreto calculado sobre una muestra es aproximación de un parámetro. Una estimación por intervalo de confianza es una que ofrece un intervalo como respuesta. Dichas cantidades pueden considerarse como aproximaciones (estimaciones puntuales) 60 kg estima a µ 5 kg estima a σ 5/√(n)= 0. La desv. Para tener una idea intuitiva. Ejemplo: Una muestra de n =100 individuos de una población tiene media de peso 60 Kg. la media muestral es: σ EE = n aproximadamente normal.

Óscar Flores Pérez Bioestadística 5. ⇒ Obsérvese que la probabilidad de error (no contener al parámetro) es α.coeficiente de confiabilidad * error estándar.10 . puede usarse otro estadístico de prueba como por ejemplo la distribución t-student.Elaborado por: Ing. Se calcula con la fórmula La formula para estimar intervalos de confianza es: Es decir.01 ⇒ En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α. t ha-1) caerá dentro de cierto rango por encima y por debajo de la media. Intervalo de confianza Es la probabilidad de que el criterio de evaluación seleccionado (por ejemplo. X ± t (1− α ) * 2 s n 103 . Esta interpretación se basa en la probabilidad de ocurrencia de diferentes valores de X (media). ¿Cómo se interpreta esto? Al repetir el muestreo aproximadamente el ¿?% de los intervalos construidos mediante la formula antes descrita incluyen la media de la población. Se denomina estimación confidencial o intervalo de confianza para un nivel de confianza 1-α dado. La mala: no sabemos si ha acertado en nuestro caso. La formula puede ser cambiada según la distribución de los datos observados. Valores típicos: α=0.1 Estimación puntual y por intervalos Se denomina estimación puntual de un parámetro al ofrecido por el estimador sobre una muestra. En el siguiente tema se llamará probabilidad de error de tipo I o nivel de significación. si no cumple con distribución normal. X ± Z (1−α ) *σ X 2 Estimador +/. ⇒ En todo intervalo de confianza hay una noticia buena y otra mala: La buena: hemos usado una técnica que en % alto de casos acierta.05 . 0. a un intervalo que ha sido construido de tal manera que con frecuencia 1-α realmente contiene al parámetro. 0.

Por ejemplo. Supongamos el grupo de 566 Hipertensos sometidos a tratamiento durante un mes. La suma de rangos para los 2 grupos puede compararse por la obtención de la cifra estadística U) La prueba de Suma de Rangos de Wilcoxon es semejante a la prueba U. Además se sabe que la variable de interés sigue una distribución aproximadamente normal con una varianza de 45. que descendieron a 88 10 mm (Hg.025) Ejemplo. Los valores de tensión arterial media (TAM) pre tratamiento fueron de 125 15 mm (Hg).9 correspondiendo a una p < 0. Por ejemplo. Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a ese cociente. asignando rangos a cada grupo.132.) postratamiento. determina el nivel de la enzima en cada una de ellos y calcula la media muestral = 22. Estime el valor de µ. como por ejemplo pre y post tratamiento. pero se utiliza para muestras de grupos dependientes o apareados. Un intervalo de confianza de aproximadamente el 95% para µ esta dado por: X ± Z (1 − α ) * σ 2 X 104 . Prueba U de Mann – Whitney La U de Mann – Whitney es una prueba no paramétrica para grupos independientes.Elaborado por: Ing. Comparando ambas medias observamos un valor de t de 78. X +/.101 (obtenido en la fila gl =18 y en la columna encabezada por 0. Óscar Flores Pérez Bioestadística Intervalos de confianza.tc (ŝ /√N-1) La prueba t para muestras dependientes se utiliza para comparar las medias de un mismo grupo en diferentes etapas. para una prueba t con nivel alfa 0'05 bidireccional y 18 grados de libertad la t crítica es 2. para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de libertad la t crítica es 2. Esto implica que el descenso de la TAM con el tratamiento no se produjo al azar. El investigador toma una muestra de 10 individuos. Solución. que mide las diferencias entre medias.0001. Un investigador esta interesado en obtener una estimación del nivel promedio de alguna enzima en cierta población de seres humanos.

1.1. 86.12 17.3+/.84. un intervalo de confianza para el promedio de un 95% viene dado por.1) En otras palabras. Se determino para cada uno de ellos el tiempo de hospitalización. (74.) contenga al DAP promedio real (poblacional) de los robles de esa zona. calcular.96√ (45/10) 22+/.96*2.5. Ejercicios Resolver los ejercicios de la página 182 y 187 del libro de Bioestadística.4 cm.94 2) En un estudio acerca de la duración de hospitalización dirigido por varios hospitales en cooperación. se encontró que el número promedio de latidos por minuto para 49 personas era de 90. es decir. con una desviación estándar de 10. se extrajo una muestra aleatoria de 64 individuos con úlcera péptica de la lista de todos los pacientes con esa enfermedad internados alguna vez en los hospitales participantes. 86.16 Ejemplo.81. 1) En un experimento diseñado para estimar el número promedio de latidos del corazón por minuto para cierta población. 26. Para los mismos datos de los 38 robles descritos anteriormente. Se 105 .92 c) 87.93 d) 86.Elaborado por: Ing. n − 1 ) * S X 2 = 80. se tiene un 95% de confianza de que el intervalo (74.1 cm. X ± t (α .4. Óscar Flores Pérez Bioestadística 22+/. a) El intervalo de confianza (IC) del 90 % para µ b) El intervalo de confianza (IC) del 95 % para µ c) El intervalo de confianza (IC) del 99 % para µ Respuesta: b) 88. Si resulta lógico suponer que esos 49 pacientes constituyen una muestra aleatoria y que la población sigue una distribución normal.

24 4) Una muestra de 25 niños de 10 años de edad proporciono un peso medio y una desviación estándar de 73 y 10 libras respectivamente. encontrar los intervalos de confianza del 90.9.76.99 c) 7.8.24 b) 5.22 3) A nueve pacientes que sufren la misma incapacidad física.25 días. 95 y 99 % para el tiempo medio real para que este tipo de paciente realice la tarea. a) 5.9. se les pidió que llevaran a cabo cierta tarea como parte de un experimento. Suponiendo que la distribución de los datos es normal.012 106 .63. Óscar Flores Pérez Bioestadística encontró que la duración media de hospitalización fue de 8.58.8.41.78. y por lo tanto son comparables. a) 69.46. Si la población sigue una distribución normal. Respuesta.Elaborado por: Ing.77. Si se sabe que la desviación estándar de la población es de 3 días.76.8. calcular: a) El intervalo de confianza (IC) del 90 % para µ b) El intervalo de confianza (IC) del 95 % para µ c) El intervalo de confianza (IC) del 99 % para µ Respuesta. Respuesta.42 b) 68.51. a) 7.87 b) 7.54 c) 4.007 sujeto 9 valor 0. construir intervalos de confianza del 90.59 5) Una muestra aleatoria simple de 16 individuos aparentemente normales proporcionan los siguientes niveles de arsénico expulsado en la orina (miligramos por día) sujeto valor 1 0. El tiempo promedio necesario para realizar la tarea fue de 7 minutos con una desviación estándar de 2 minutos.13 c) 67. 95 y 99 % para la media de la población.76.8.87.28.

007 0. Mínimo Máximo Rango Amplitud intercuartil 2. .005 10 11 12 13 14 15 16 0. 0. 1? Media recortada al 5% 1.045 Al final del tema dejamos sin interpretar parte de los resultados que obtenidos con el programa estadístico SPSS.00 3.126 Muestreo. Óscar Flores Pérez 2 3 4 5 6 7 8 0. Preg.032 0.011 Bioestadística Construir un intervalo de confianza de 95 % para la media de la población.009 0.038 0. típ.006 0.02160 Ejercicios de Aplicación.90 Límite inferior Límite superior 1.Elaborado por: Ing.99 Error típ.114 1.00964. la que ocupa la vigésima posición detrás de la anterior.030 0.014 0.75 Mediana Varianza Desv.006 0. Respuesta.060 .034 1.010 0.008 0. Este procedimiento de muestreo se denomina: 107 . Se realiza una auditoría de historias clínicas tomando una primera historia al azar y después sucesivamente.025 0.030 0.81 1. ¿Sabrías interpretar lo que falta por sombrear? ¿Puedes dar un intervalo de confianza para la media al 68% de confianza? Observa la asimetría.00 Asimetría Curtosis 1. 1. ¿Crees probable que la asimetría en la población pueda ser cero ya que la obtenida en la muestra es aprox. Descriptivos para Número de hijos Media Intervalo de confianza para la media al 95% Estadístico 1.063 .765 0 8 8 3. 0.

Entonces: a. e.Aumentar la confianza. c. Existe una probabilidad del 95% de que la verdadera media de la población esté entre 30 y 70 años. d. Preg. Correlativo. Se desea estimar confidencialmente el número medio de veces que asiste a un servicio de salud los individuos de una población. Sistemático. Estratificado. En un intervalo de confianza para una media. Existe una probabilidad del 95% de que la verdadera media de la población esté entre 45 y 55 años. Bioestadística Preg. Se extrae aleatoriamente una muestra de 300 pacientes cuya media es de 50 años. d. Equidistante. Aleatorio. Esta técnica de muestreo es: a. 5. 4. 108 . Cuál de las siguientes posibilidades nos permite realizarlo: a. La edad de los individuos de una población sigue una distribución normal. Aproximadamente el 95% de los pacientes tienen edades entre 40 y 60 años.Aumentar el tamaño muestral y disminuir la confianza. c. b. atendiendo al tipo de cáncer: El muestreo realizado es: a. Preg. y la desviación típica es 10 años. se selecciona aleatoriamente uno de ellos. Se realiza un estudio con objeto de determinar el tiempo de supervivencia en pacientes con cáncer. muestreo aleatorio estratificado. Incorrecta. Preg.Elaborado por: Ing. Un muestreo aleatorio por conglomerados. d. Para ello de los dos hospitales existentes en una ciudad. Sistemático. e. Por conglomerados. e. Para ello se toman muestras aleatorias entre los individuos que asisten regularmente a los mismos. Consecutivo. buscamos disminuir el margen de error. 3. d. Por conglomerados. c. c. 2. b. Aproximadamente el 95% de los pacientes tienen edades entre 30 y 70 años. y se elige una muestra aleatoria de pacientes. b. b. Óscar Flores Pérez a. Existe una probabilidad del 95% de que la verdadera media de la población esté entre 40 y 60 años. Por conglomerados y estratificado. b. Ninguna de las anteriores.Aumentar el tamaño muestral y la confianza. e. c. Un muestreo aleatorio simple.

e. Una estimación confidencial para un nivel de confianza fijado.Estratificado. El perímetro torácico en un grupo de militares presenta distribución gaussiana con 95 cm de media y 5 cm de desviación típica.Sistemático.No probabilístico. 7.No pueden selec cionarse unidades de muestreo.La población objetivo es la de los abonados a telefónica. b. d. 10. 9.Elaborado por: Ing.Una aproximación de una proporción. c.Un nivel de significación. b.Debe usarse el método de respuestas aleatorizadas.Nada de lo anterior es cierto.Pueden existir sesgos.Un intervalo. e. Se quiere hacer un estudio sobre el tabaquismo en el municipio de Siuna. c. Preg. c. Preg. Deseamos conocer la opinión de los ciudadanos de Siuna sobre el sistema de salud pública. e.Aumentar la varianza muestral. e. comunidades a orillas de carreteras todo tiempo y del área urbana. d. 6. Queremos asegurarnos tener cierto número de individuos de las comunidades lejanas.La población de estudio es la de los abonados a telefónica. Elija la afirmación correcta: 109 . Cuando la población objetivo y de estudio en un muestreo difieren mucho. Preg. Preg. b. e.Por grupos. d. entonces: a.Aleatorio simple.Disminuir la varianza muestral. pues creemos que en cada una de esas zonas la incidencia es diferente. Haremos un muestreo: a.La población de estudio es la de los ciudadanos de Siuna. c. Óscar Flores Pérez d. Bioestadística Preg. Entonces: a. da por respuesta: a. 8.Se debe usar un muestreo no probabilístico. b.Una aproximación de la media.Una probabilidad. Para ello elegimos una muestra aleatoria de entre los abonados a telefónica.Nada de lo anterior es correcto.El conjunto de abonados a telefónica son la muestra. d. Elegimos a una muestra de 100 individuos y calculamos la media de la misma.

El mejor tipo de muestreo es el sistemático.Sólo dos de las anteriores son ciertas.Todo lo anterior es falso. b. con media 2500 y desviación típica 100. d. Un intervalo de confianza será más amplio cuando: a. d. c. d. 13. Entre 2300 y 2700. Entre 2480 y 2520. Elija la afirmación correcta sobre teoría de muestreo: a.El tamaño de muestra sea mayor. e. Preg.El nivel de confianza sea mayor. c. La población de estudio es aquella de la que finalmente extraeremos una muestra aleatoria. El consumo diario de Calorías se distribuye en una población de forma normal.La varianza sea mayor b.Elaborado por: Ing. 11. e.Todas las anteriores son correctas e. El muestreo aleatorio simple es normalmente el más económico en la práctica. 12. d. Preg. b. 110 . Entre 2498 y 2502.La media de la muestra será un valor comprendido entre 90 y 100 cm con confianza del 68%. entre qué valores espero encontrar el resultado (con una probabilidad del 95% de acertar): a. Entre 2490 y 2510.La media de la muestra será un valor comprendido entre 94 y 96 cm con confianza del 95%. Cuando se pueda.La media de la muestra valdrá 95cm. c. e. se prefieren los muestreos no probabilísticos. c. b. Óscar Flores Pérez Bioestadística a. Si elijo una muestra de tamaño 100. Preg. Entre 2400 y 2600. El sesgo de selección es la diferencia existente entre la población de estudio y la muestra.La media de la muestra será un valor comprendido entre 95 y 100 cm con confianza del 95%.

En general las hipótesis se refieren a los parámetros de la población para los cuales se hace la proposición. Hipótesis. En términos sencillos podemos definir hipótesis como una creencia sobre la población. 4. Es una suposición acerca de una o más poblaciones. 3. Objetivos de la unidad. El primer paso a tomar al comenzar una investigación es pensar en la pregunta que a uno le interesa. 2. Contrastes de hipótesis. Comprender los errores tipo I y tipo II. Interpretar las pruebas de hipótesis y sus contrastes. principalmente sus parámetros: • • • Media Varianza Proporción/Tasa OJO: Si queremos contrastarla. es decir que el rechazarla es justo lo que uno está tratando de hacer.Elaborado por: Ing. 1. debe establecerse antes del análisis. Usar las pruebas de hipótesis como una herramienta base en las tomas de decisiones. Si es rechazada la hipótesis nula. la hipótesis alternativa es apoyada. no te quedara más remedio que continuar leyendo este documento. Esta pregunta debe estar basada en la teoría existente o algunas observaciones previas. La hipótesis nula (H0) es la hipótesis de “ningún efecto” y generalmente es formulada con el propósito expreso de desecharla. El siguiente paso es plantear la hipótesis nula. Para mas detalles. Conocer los conceptos y planteamientos generales de las hipótesis. Contrastar hipótesis para os parámetros mas usuales: media y varianza. para una o dos poblaciones. ¡Creo que el porcentaje de enfermos será el 5%! 111 . 5. Óscar Flores Pérez Bioestadística VI. Pasos a seguir en el contraste de hipótesis.

Una pregunta posible es ¿Promueven la diversidad vegetal los herbívoros o predadores de semillas? De acuerdo a las posibilidades logísticas del lugar se deciden qué parámetros pueden ser medidos y por lo tanto cuáles Ho son posibles. 2) H0 = No hay diferencia estadística entre el número de parcelas con especies dominantes (entendiéndose por especies dominantes las que tienen mayor o igual 112 .Elaborado por: Ing. basadas en teorías de equilibrio del mantenimiento de la diversidad en bosques tropicales. por ejemplo: 1) H0 = No hay diferencia estadística entre el promedio del número de especies por parcela (del mismo tamaño) entre zonas con herbívoros o sin herbívoros. Óscar Flores Pérez Bioestadística Ejemplo: Parcelas de exclusión de herbívoros o predación de semillas.

Identificación de hipótesis. el diseño del estudio y el análisis estadístico. debemos intentar mantener la objetividad y para esto las definiciones son fundamentales. Hipótesis nula Ho La que contrastamos Los datos pueden refutarla No debería ser rechazada sin una buena razón. Luego espera para detectar cuál prefiere. las medidas que uno va a tomar. especialmente. cuando se trata de observaciones de comportamiento animal. una críptica y otra no.Elaborado por: Ing. Es importante definir cada medida. todas aquellas mayores a 10cm de diámetro ó 20m de altura? El definir medidas puede ser muy fácil cuando se trata de medidas exactas como altura y peso. Después de este paso pensamos en los métodos. Alternativa H1 Niega a H0 Los datos pueden mostrar evidencia a favor No debería ser aceptada sin una gran evidencia a favor. ≥ ≠ . Sin embargo. ≤. es muy probable que aquellos pequeños cambios direccionales hacia la presa críptica sean ignorados mientras que aquellos hacia la presa no-críptica sean anotados. 113 . ¿Cómo se determina la preferencia? Si sólo se nota un ligero cambio de dirección en el desplazamiento por parte del predador. El nivel de significancia (o "alfa") nos indica la probabilidad de equivocarnos al rechazar la H0 en favor de HA. en el caso anterior ¿qué vamos a llamar una especie dominante? ¿Que plantas vamos a medir. Es importante recordar que el investigador/a siempre tiene una idea previa sobre el resultado que desea obtener. > Por ejemplo: Un experimento realizado en el laboratorio sobre la preferencia de un predador hacia presas crípticas o no-crípticas. Esto crearía un sesgo hacia la detección/preferencia de especies no-crípticas y por lo tanto podría ocasionar el rechazo de la hipótesis nula falsamente. <. Óscar Flores Pérez Bioestadística número de tallos que el número de tallos/ número total de especies) entre zonas con o sin herbívoros. El investigador le presenta a cada predador un par de presas a la vez. o sea de cometer el error de Tipo I. En realidad esto es casi inevitable porque estas ideas provienen usualmente de las observaciones o las hipótesis existentes que han formado la visión del investigador/a. ⎧H0 : ⎨ 1 ⎩H : p=50 % p≠50 % =. o más complicado. Hip.

Elaborado por: Ing. queda probado que es cierta? µ = 40 X = 38 …el resultado del experimento es coherente. ¡Rechazo que Ho sea cierta! ¿Si una teoría hace predicciones con éxito. Óscar Flores Pérez ¿Quién es Ho? Bioestadística Problema: ¿La osteoporosis está relacionada con el género? Solución: Traducir a lenguaje estadístico: Establecer su opuesto: Seleccionar la hipótesis nula Razonamiento básico. Si supongo que Ho es cierta… ¿qué hace un científico cuando su teoría no coincide con sus predicciones? p=50 % p≠50 % p=50 % µ = 40 X = 20 …. 114 .el resultado del experimento seria improbable. Sin embargo ocurrió.

La posición de la región crítica depende de la hipótesis alternativa. No se rechaza Ho. No rechazo H0 Η0: µ=40 Contrastes: unilateral y bilateral. Fijado de antemano por el investigador Es la probabilidad de rechazar H0 cuando es cierta α=5% Reg. El contraste no es significativo. Región crítica y nivel de significación Región crítica Bioestadística Valores ‘improbables’ si.. Reg. Crit. Es conocida antes de realizar el experimento: resultados experimentales que refutarían H0 Nivel de significación: α Número pequeño: 1%. Óscar Flores Pérez No hay evidencia contra Ho. 5%.. Crit. 115 .Elaborado por: Ing. El experimento no es concluyente.

• • • Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del estadístico obtenido de la muestra. preelegido al diseñar el experimento Conocido a sabemos todo sobre la región crítica.Elaborado por: Ing. p es conocido después de realizar el experimento aleatorio El contraste es no significativo cuando p>α X = 43 No se rechaza H0: µ=40 P P α α Sobre α Es número pequeño. Sobre p Es conocido tras realizar el experimento Conocido p sabemos todo sobre el resultado del experimento 116 . Óscar Flores Pérez Bilateral H1: µ≠40 Bioestadística Unilateral Unilateral H1: µ<40 H1: µ>40 Significación de p. Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H0. Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que la obtenida.

Error tipo II (β): Aceptar la Hipótesis Nula cuando es falsa (has dejado libre a un culpable) H. En el caso de impactos sería afirmar la existencia de un impacto cuando realmente no lo hay. realidad No rechazo Ho Rechazo Ho Acepto Ha Bioestadística Ho cierta Ho falsa Correcto Error de tipo II El tratamiento no tiene El tratamiento si tiene efecto. que si. 117 . pero no efecto lo percibimos Probabilidad β Correcto Error tipo I El tratamiento no tiene El tratamiento tiene efecto y el efecto.01. En el caso de impactos sería la incapacidad de encontrar un impacto cuando realmente hay.05 o 0. la potencia de la prueba (o la probabilidad de rechazar H0 cuando de hecho es falsa) es mayor a medida que N (tamaño de muestra) es mayor. nula: No existen diferencias (No culpable) H. por el hecho de que beta disminuye. errores tipo II son menos probables a medida que N (el tamaño de la muestra) es mayor. La probabilidad alfa es lo que llamamos significancia. Beta o la Probabilidad de Cometer ERROR TIPO II Se comete error de Tipo II cuando se acepta una hipótesis nula que es falsa. Alfa o la Probabilidad de Cometer ERROR TIPO I. pero se decide experimento lo confirma. sin embargo. En diferentes clases de pruebas estadísticas. Error tipo I (α): Se rechaza la Hipótesis nula cuando era cierta (has condenado a un inocente) B. Se comete error de Tipo I cuando se rechaza la hipótesis nula falsamente o sea cuando la hipótesis nula es verdadera. Probabilidad α A.Elaborado por: Ing. elegida arbitrariamente casi siempre a un nivel de P = 0. Alternativa: Existen diferencias (Culpable) Los errores tipo I son independientes del número de muestras. Óscar Flores Pérez Sobre el criterio de rechazo Contraste significativo = p menor que α Tipos de error al contrastar hipótesis.

α debe ser pequeño Rechazar una hipótesis consiste en observar si p<α Rechazar una hipótesis no prueba que sea falsa. Como evitarlos: Aumentar el tamaño de la muestra. Ejemplo. Podemos cometer error de tipo I No rechazar una hipótesis no prueba que sea cierta. Consecuencias financieras en lo natural. Estos daños generalmente toman gran tiempo repararlos si se piensa reparar el daño practico. Un error tipo I significa que tenemos que requerir de una planta que tome la acción correctiva cuando no es necesario hacerlo. implica aumentar la probabilidad de cometer el error tipo II. Conclusiones. En ciencia. Un error tipo I puede llevarnos a concluir que el agua que esta siendo vertida de una planta industrial tiene una temperatura media que excede los 150 °F cuando en realidad la temperatura media no es mayor que los 150 °F. H1: El peso de la prueba recae en ella. Óscar Flores Pérez Bioestadística Disminuir la probabilidad de cometer el error tipo I para una n dada. Podemos cometer error de tipo II Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos. Un error tipo II es concluir que la temperatura media del agua que esta siendo vertida es 150 °F o menos cuando en la realidad la temperatura media excede los 150 °F. Análisis. Las hipótesis no se plantean después de observar los datos. las hipótesis nula y alternativa no tienen el mismo papel: H0: Hipótesis científicamente más simple. Cometer un error tipo II puede ser muy serio.Elaborado por: Ing. Causamos daño al ecosistema del río. 118 .

Los investigadores se interesan en dos tipos de hipótesis: de investigación y estadísticas. Óscar Flores Pérez Bioestadística 6. Estadística relevante – parámetro supuesto Error estándar de la estadística relevante. es decir. La regla de decisión se señala que se debe rechazar la Ho si el valor de la estadística de prueba que se calcula a partir de la muestra es uno de los valores de la región de rechazo. se rechaza o no se rechaza la H. Regla de decisión. Suposiciones. nula: No existen diferencias (No culpable) H. Estas se establecen de tal forma que pueden ser evaluadas por medio de técnicas estadísticas adecuadas. Nula es falsa pero no puede rechazarse.Elaborado por: Ing. Comprende la naturaleza de los datos. Hipótesis que debe probarse (Ho) Hipótesis alternativa. Al especificar una hipótesis nula y una hipótesis alternativa debe cuidar que se cumpla lo siguiente. Nota. Una vez calculada la prueba estadística se dicta la sentencia. Alternativa: Existen diferencias (Culpable Estadística de prueba. Nula. Datos. La decisión en cuanto a que valores van hacia la región de rechazo y cuales a la región de aceptación se toma con base en el nivel de significancia deseado (α) 119 . Distribución de la estadística de prueba. La hipótesis de investigación es la de conjetura o suposición que motiva la investigación Las hipótesis de investigación conducen directamente a la hipótesis estadística. Las pruebas de hipótesis se presentan como un procedimiento de prueba. La H. Hipótesis.1 Hipótesis. Parámetros respecto a la normalidad de la distribución. Excluyente Con base real H.

4. raíz cuadrada o inversa). comprueba que si datos se vuelven normales y en caso afirmativo utiliza un ANOVA. (a) utiliza una transformación de los datos (logarítmica. (b) utiliza el test de la t aproximado de Welch. el procedimiento a seguir es el siguiente. que no asume igualdad de variancias. comprueba si los datos siguen una distribución normal. (a) utiliza una transformación de los datos (logarítmica. pero si los datos no son normales conviene usar otro test. (b) utiliza un test de la U de Mann-Whitney. Si se cumplen los requisitos de normalidad e igualdad de variancias. Comprueba la igualdad de variancias entre ambos grupos. (c) utiliza un test de la U de Mann-Whitney. como ya se ha dicho en los puntos previos. pues los grupos de datos a comparar se han obtenido por el muestreo de individuos distintos. Si los datos no son normales.Elaborado por: Ing. puedes comparar las medias mediante uno de estos dos tests: (a) un test de la t. Si los datos son normales. En este caso los datos son independientes. que no es paramétrico. pero las variancias son heterogéneas. El ANOVA es robusto ante la falta de normalidad. que no es paramétrico. 5. 120 . 1. 2. (b) utiliza un test de la U de Mann-Whitney. raíz cuadrada o inversa). Para cada grupo por separado. de idéntico resultado pero más potente. que no es paramétrico. por ejemplo el valor medio de la longitud del pico en machos y hembras de X especie. por medio de un test de Kolmogorov-Smirnov. Si los datos no son normales ni las variancias son homogéneas. pero las variancias son homogéneas. (a) intenta una transformación de los datos. comprueba si las variancias se vuelven homogéneas y en caso afirmativo utiliza un ANOVA. De modo indicativo. 3. Óscar Flores Pérez Bioestadística Contraste de Hipótesis: Elección de la prueba apropiada Supongamos que quieres comparar dos grupos de datos. (b) un análisis de variancia o ANOVA. 6. por medio de un test de Bartlett.

Cuando se trata de comparar más dos grupos de datos. (b) transforma los datos en forma de rangos y realiza el ANOVA sobre los mismos. Comprueba la igualdad de variancias entre grupos. ej. 3. utiliza un test a posteriori (hay muchos) para descubrir qué grupo o grupos son los responsables de dichas diferencias. 1. Si no se cumplen los requisitos paramétricos. El procedimiento indicativo a seguir es el siguiente. por medio de un test de Kolmogorov-Smirnov. la tasa de ceba). en el ejemplo. se procede del siguiente modo. Hay otros tests no paramétricos para comparar dos grupos de datos no independientes. (a) utiliza una transformación de los datos (logarítmica. 121 . el tamaño de puesta entre dos puestas sucesivas de una misma hembra). comprueba si las variancias se vuelven homogéneas y en caso afirmativo utiliza un ANOVA. usa un test de Wilcoxon de rangos con signo. Si se cumplen los requisitos de normalidad e igualdad de variancias compara las medias mediante un ANOVA (el test de la t no es aplicable a más de dos grupos). 3. (a) Si las diferencias entre grupos son significativas. los grupos a comparar provienen del muestreo de los mismos individuos (p. Óscar Flores Pérez Bioestadística Si los datos no son independientes. como el crecimiento de pollos a tres tasas de ceba diferentes. para datos independientes y una clasificación sencilla de los grupos (es decir. los grupos se constituyen en base a un sólo factor. Si los datos son normales y las variancias homogéneas. es decir. pero son menos potentes. puedes utilizar un ANOVA de medidas repetidas. la cantidad de posibilidades de análisis aumenta. 2. Si la diferencia entre cada par de valores sigue una distribución normal. comprueba si los datos siguen una distribución normal. En los restantes casos. Para cada grupo por separado. 4. y como con el uso de la Estadística en general. raíz cuadrada o inversa). Si los datos son normales. por medio de un test de Bartlett. es necesario consultar los libros más especializados. 2. pero las variancias son heterogéneas. Este test requiere comprobar menos requisitos que el anterior.Elaborado por: Ing. 1. puedes utilizar un test de la t de medidas repetidas. Aquí trataré sólo las más simples.

raíz cuadrada o inversa). pocos DAP`s pequeños y DAP`s grandes. Número de muestras a comparar Ejemplo. pero si los datos no son normales conviene usar otro test. Si los datos no son normales.Elaborado por: Ing. Parcela 1 Parcela 2 Parcela 3 Parcela 4 90 66 106 84 105 83 104 82 97 97 59 95 78 70 47 95 100 69 44 80 75 75 51 109 89 58 59 72 74 75 81 71 68 212 62 91 93 84 Si se asume que la distribución de DAP`s sigue la forma de una campana. El ANOVA es robusto ante la falta de normalidad. comprueba si los datos son normales y en caso afirmativo utiliza un ANOVA. Utilizando los datos del ejemplo en la unidad 2. entonces se puede utilizar la prueba t para probar la conjetura hecha anteriormente. utiliza un test a posteriori de Dunn-Sidák para descubrir qué grupo o grupos son los responsables de dichas diferencias. concentrándose la mayoría en el medio. como ya se ha dicho en los puntos previos. (i) Si las diferencias entre grupos son significativas. por lo que no es aplicable al caso (4) ni al (6) (aunque al parecer es bastante robusto ante la heterogeneidad de variancias). discretas. Tipo de test Variables continuas. Este test requiere igualdad de variancias. Óscar Flores Pérez Bioestadística 5. rangos o atributos. (b) transforma los datos en forma de rangos y realiza el ANOVA sobre los mismos. (a) intenta una transformación de los datos. Si los datos no son normales ni las variancias son homogéneas. se quiere saber si el diámetro a la altura de pecho (DAP) promedio de un roble en las cercanías del Volcán Poas es de 50 cm. (b) utiliza un test de Kruskal-Wallis. 6. 122 . (a) utiliza una transformación de los datos (logarítmica. que no es paramétrico. pero las variancias son homogéneas.

usa prueba paramétrica 123 .2 Pruebas Paramétricas y No Paramétricas Supuestos sobre los datos: 1 Los datos corresponden a una variable 2 Variable sigue distribución normal continua 3 Varianza de los subgrupos son similares 4 Los datos son independientes Si se cumple: Test paramétrico (mas potente) Si no se cumple: Test no paramétrico 6. Óscar Flores Pérez Primero se establecen las hipótesis: Ho: µ = 50 cm.001 (p<0. t` es 10. no paramétrica.025 . Se dice por lo tanto. Como se asume normalidad y los datos provienen de un muestreo al azar.001). En otras palabras existe suficiente evidencia para rechazar la conjetura de que el DAP promedio es de 50 cm. se debe rechazar Ho. Debido a que la t calculada. X −µ t `= Sx t´ = 80. t.2.61 y que la t tabular.001.3-50 = 10. que la prueba es altamente significativa. n −1 ) = t(0.37 ) = 2. tiene una valor de 2.Smirmov b) Homogeneidad → Prueba F de similitud de varianzas 3 Si se cumple. 6. El nivel de significancia de esta prueba es menor a 0. Bioestadística Ahora se selecciona el estadístico de prueba. ya que el valor t calculado es menor que el valor tabular.1 Como escoger entre una prueba paramétrica y no paramétrica 1 Si el tamaño de la muestra es ‹ 10. para 37 grados de libertad. Ha: µ ≠50 cm. se selecciona la prueba t – student. correspondiente a la probabilidad de 0.6/√38 t `(α 2 .61 17.Elaborado por: Ing.026. 2 Comprueba a) Normalidad → Test Kolmogorov . Por ultimo se toma una decisión según la evidencia suministrada.03.

si no que se utilizan los rangos de las mediciones.Elaborado por: Ing. Los datos pueden ser ranqueados tanto del mayor al menor como del menor al mayor. ¿es significativo o un error de muestreo? Muestras proceden: • • Ho: De poblaciones con promedios idénticos.3 Pruebas No Paramétricas Prueba de U de Mann Whitney para datos no pareados Prueba de Wilcoxon para datos pareados • • Rangos Comparan medianas Para esta prueba (Mann – Whitney).2. 6. Óscar Flores Pérez Comparando promedios Bioestadística Diferencias observadas entre 2 promedios. 124 .2 Pruebas Paramétricas Prueba de t para datos no pareados Prueba de t para datos pareados • • • • Observaciones reales Comparan medias Datos deben tomarse en escalas de intervalos Medias y varianzas similares 6.2. así como para otros métodos no parametritos. y las diferencias son error de muestreo Ha: De poblaciones con promedios distintos. El estadístico que se calcula se U y se obtiene de la expresión: U = n1 * n2 + n1 (n1 +1) − R1 2 Donde n1 y n2 son los números de las observaciones en las muestras 1 y 2 respectivamente y R1 es la suma de los rangos de las observaciones en la muestra 1. las mediciones originales no son utilizadas. y las diferencias no se deben a un error de muestreo.

5 Ho: las longitudes de las alas son iguales en machos y hembras. (Fowler y Cohen) = 8 Conclusión: Como el valor calculado es menor que el tabular se rechaza Ho.3 75 75.Elaborado por: Ing.5 8. Machos 73 74.5 74.5 6.8 n1= 6 R 5 8.5 = 6.4 73. Óscar Flores Pérez Bioestadística Ejemplo. Se han ordenado por conveniencia de menor a mayor.5 2 Por ejemplo.5 75.5.5 = 41.5 11 R2 = 42.3 75.5 73. Los datos se refieren a las longitudes de ala (mm) de seis machos y ocho hembras del pájaro Carbonero común Parus major. (Sigarroa) = 40 U tab.3 75. en ese caso concreto se selecciona el menor de los dos valores de U y se compara con el valor tabular: Uc = 6. (Fowler y Cohen) = 8 6(6 + 1) − 62 .5 10 12 13 10 R1 = 62. U tab.5 72 72.2 n2 = 8 R 1 2 3 4 6. Formula de trabajo: U = n1 * n2 + Donde Ú = n1n2 – U y sustituyendo: n1 (n1 + 1) − R1 2 U = 6 *8 + Ú = 6*8 – 6. 125 . Ha: las longitudes de las alas son diferentes en machos y hembras.5 U tab.5 Hembras 71 71.

se tratará aquí de modo muy preliminar y sin dar todas las explicaciones necesarias.5 5. 173.5 7 8 9 10 11 12 13. R1 = H = 75 R2 = M = 178 U1 = 11 * 11 + 11(11+1)1/2 – 178 = 121 + 66 – 178 = 9 U2 = 11 * 11 + 11(11+1)1/2 – 75 = 121 + 66 . debe ser mencionado para no dar una falsa impresión de que los tests pueden usarse en cualquier circunstancia. n 2 (n 2 + 1) − R2 2 n (n + 1) U 2 = n1 * n 2 + 1 1 − R1 2 U 1 = n1 * n 2 + U 1 + U 2 = n1 * n 2 Seleccione el menor valor. 179. Prueba para comparar promedios. el uso de la correlación y la regresión depende del cumplimiento de una serie de requisitos. 170. Hembra y macho. el ajuste a los requisitos es una parte fundamental en la elección del test adecuado. 155. 178. Si U< valor critico. 160. No obstante. U de Mann – Whitney para datos no pareados. 162. 160. 172. 1 2 3 4 5. 165. Óscar Flores Pérez Ejercicio. 180. 163. Al contrario. 164.75 = 122.5 15 16 153. 161. 176. se rechaza la hipótesis nula Ho. 167. que serían demasiado largas y técnicas. Al ser un aspecto más complejo del estudio de la asociación entre variables. cuyas violaciones tienen consecuencias diversas. 17 18 19 20 21 22 174. 126 .5 13. M 185 – 165 = 20 Valor de la prueba de U de Mann – Whitney es 30. 170.Elaborado por: Ing. Como en los tests de hipótesis. Para comparar el promedio de dos muestras pequeñas. además del tipo de variables y de datos. 159. 185. Bioestadística Prueba de t para datos no pareados. 157.

Violaciones del resto de los supuestos hacen imposible el análisis. no curvilinea. a diferencia de la correlación de Spearman. como se explicó para los tests de hipótesis. Los requisitos (a) y (c) se cumplirán si la toma de datos en el campo ha sido planificada de modo correcto. c) los valores de la variable independiente son fijados por el observador. pero no proporciona ninguna ecuación para predecir los valores de la variable dependiente. es posible transformar los datos para hacer que la relación se convierta en linear.Elaborado por: Ing. puede utilizarse un modelo II de regresión. Este método simplemente evalúa si los valores de la variable dependiente aumentan o disminuyen con cambios en la variable independiente. la diferencia entre los valores observados de la variable dependiente y los predichos de acuerdo con la recta de regresión. Puede recurrirse a la transformación de las variables. Asegúrate de que lo que te interesa es la asociación entre variables y no un test de hipótesis. Los requisitos necesarios para poder realizar un análisis de correlación paramétrico son: a) la relación entre las variables es linear. el método robusto de Kendall de ajuste de rectas. Si las condiciones (c). Puede utilizarse para examinar la asociación entre dos variables. Las condiciones (b) y (e) pueden contrastarse examinando los residuos de la regresión. d) la variable independiente se mide sin error y e) la variación en la variable dependiente es similar en todo el rango de valores de la variable independiente. es decir. pero no es muy utilizado. La correlación de Kendall es también un método no paramétrico de correlación. A continuación se resumen los pasos a seguir para el estudio de la asociación entre variables. El método de correlación no paramétrico más habitual es el coeficiente de correlación de Spearman (rs). b) la relación entre las variables es linear. permite el examen no paramétrico de la correlación entre más de dos variables. y b) ambas variables siguen una distribución normal. Existe un método no paramétrico de regresión. Puede usarse no sólo para variables mensurables sino también para variables ordinales. Si la condición (b) no se cumple. La normalidad de las variables se comprueba mediante un test de Kolmogorov-Smirnov. Óscar Flores Pérez Bioestadística Los requisitos necesarios para poder realizar un análisis de regresión paramétrico son: a) las medidas son independientes. mensurables u ordinales. Pero. En el resto de los casos. (d) y (e) no se cumplen. 127 . lo mejor es recurrir a un test no paramétrico. Puede usarse como sustituto del análisis de regresión paramétrica. si se viola el supuesto (a). 1.

◊ más de 200 datos. (c) decide el test a utilizar en función del número de variables y del cumplimiento de los supuestos. Método robusto de Kendall de ajuste de rectas. Óscar Flores Pérez Bioestadística 2. agrupa niveles hasta evitarlo. ordinales o una combinación de estos tipos: (a) decide si te interesa la asociación (correlación) o la relación funcional (regresión). (b) comprueba los supuestos necesarios (independencia. ♦ entre 25 y 200 datos. test de la G. o emplea un test exacto de Fisher para tablas 2 x 2). no es necesaria la corrección para continuidad. Correlación parcial de No existe ningún test Kendall. emplea la corrección para continuidad. (c) si tienes dos variables y es una tabla 2 X 2. preferentemente. (b) tienes dos variables y es una tabla 2 X m o n X m: test χ2 o. (i) tienes al menos 25 datos: utiliza un test X2 o. Regresión modelo II. Si las variables son mensurables. Utiliza correlación no paramétricas Mas de dos variables o Regresión múltiple. (ii) tienes menos de 25 datos: utiliza un test exacto de Fisher.Elaborado por: Ing. linealidad de la relación y variación homogénea de la variable Y en todos los valores de la variable X: examen de los residuos). Parámetros Se cumplen No se cumplen Correlación Dos variables Coeficiente de correlación de Pearson Coeficiente de correlación de Spearman Correlación de Kendall Regresión Dos variables Coeficiente de determinación Se cumplen No se cumplen Mas de dos variables Correlación múltiple parcial. Si las variables son atributos o una combinación de atributos y variables ordinales: (a) No deben existir casillas vacías (si existen. 3. 128 . preferentemente. (b) no deben existir frecuencias esperadas menores que 5 en más del 20% de las casillas. un test de la G. Supuestos. normalidad: test de Kolmogorov-Smirnov.

Si el histograma no parece alejarse mucho de la forma de una campana. Si se llama a la proporción de observaciones que quedaron fuera del intervalo como p` y lo comparamos con la proporción esperada (1/3. interesa no solo hacer referencia sobreµ. Se sabe que intervalos formados por µ+/-σ. sino también conocer la distribución completa de la población para una característica especifica. la distribución que más se utiliza en los supuestos de la prueba estadística es la distribución normal. la proporción de observaciones que quedan fuera de esos intervalos son en forma aproximada 1/3.3.4 ¿Son nuestros datos normales? En muchas situaciones en la investigación biológica o ciencias naturales. Óscar Flores Pérez Bioestadística (c) utiliza modelos loglineares para el caso de más de dos variables. la cual es garantizada por el teorema del límite central. para verificar las colas de la distribución observada. 1/300. 1/300). se usa X y s para contar las frecuencias respectivas a los intervalos X +/. 2. 1/20. sea p.7 de las observaciones respectivas.ks donde k = 1. respectivamente. por lo que es conveniente tener alguna forma de confrontar este supuesto una vez que se obtiene las observaciones por medio de la muestra. Ho = S21 / S22 = F = 1 F= Varianza Mayor (muestra 1) Varianza Menor (muestra 2) Grados de libertad (g. se podría utilizar la siguiente formula para cuantificar la discrepancia. lp `− pl p (1 − p ) n 129 . No hay que confundir que se trata de la distribución de una característica determinada y no de la distribución normal del promedio.) = (n1-1) y (n2-1 6. 95.Elaborado por: Ing.3 Prueba F de Similitud de Varianzas Sirve para determinar si nuestras muestras tienen varianzas similares. Como no se conoce µ y σ. µ+/-3σ en una distribución normal contienen el 68. 3. µ+/-2σ. Tal vez. y luego dividirlas entre n para obtener la proporción de frecuencias que caen dentro y fuera del intervalo respectivo. l. 6. 1/20. por lo tanto. se puede efectuar una prueba por medio del conteo de las frecuencias correspondientes a intervalos simétricos con respecto al promedio.4 y el 99.

se puede calcular. lp`− pl l1 / 38 − 1 / 20l = = 0.2s proporciona el intervalo (45. indicaría un alojamiento de normalidad en las colas de la distribución (es precisamente en las colas donde se determina el grado de significancia en los procesos de inferencia). Comparamos las frecuencias observadas con las esperadas en función de la Hipótesis Nula. a partir de un cruzamiento en el cual se plantea como hipótesis una proporción fenotípica de 3:1. por lo p (1 − p ) 1 / 20(19 / 20) n 38 tanto.8). 130 . p. Ejemplo. que es el siguiente. Si alrededor del 70% de las observaciones están dentro del intervalo X±S X = Media S = Desviación típica 6.5 • • Análisis de Frecuencias Prueba del Chi cuadrado (homogeneidad. a pesar de lo que establece la hipótesis. un genetista obtiene una progenie de 100 F2. Óscar Flores Pérez Bioestadística Si la cantidad anterior es mayor que 3. o sea p`= 1/38.= n -1 Ejemplo: n = No. independencia y bondad de ajuste).l. lo cual deja por fuera a solo una observación de las 38 realizadas.e. se tiene que X +/. de frecuencias El caso mas sencillo es el de X2 para dos categorías. asociación. Se obtienen 84 plantas de flores amarillas y 16 verdes. mientras que lo esperado.3. no existen desviaciones serias de supuestos de normalidad. que es de 75 amarillas y 25 verdes. χ 2 = (O i − E E j j ) 2 g. Realizando el cálculo respectivo. Así entonces.00084 lo cual es obviamente menor que 3. aleatoriedad. 115.Elaborado por: Ing. según una distribución normal es de p = 1/20.

l.. La expresión para el cálculo es la siguiente: Donde χ = 2 ∑ i =1 k (O − E )2 E E: es la frecuencia esperada de los conteos de i – esima clase. luego Ha es cierta. Estadísticamente esto se refiere como Hipótesis Nula (Ho).84. Óscar Flores Pérez Bioestadística Nos podríamos formular la siguiente pregunta ¿se desvían significativamente las frecuencias observadas (84 Y 16) de las esperadas (75 y 25)? El procedimiento estadístico para atacar este problema involucra primeramente el planteamiento de la hipótesis que se quiere probar. Entonces Χ2 calc > Χ2 tab. se rechaza la Ho. en este caso que tenemos dos categorías de frecuencias seria 2 – 1 =1. El procedimiento mas cómodo consiste en la tabulación de los datos de la manera siguiente: Fenotipos o clases Amarilla verdes Frecuencias observadas (O) 84 16 Frecuencias esperadas (E) 75 25 (O − E E )2 (84-75)²/75 (16-25)²/25 Χ2 = 1. por lo tanto. es decir que tiene una proporción diferente de 3:1.24 = 4. sin embargo la distribución teórica Χ2 es una distribución continua.Elaborado por: Ing. que los datos observados son estadísticamente diferentes de la proporción esperada. es posible cualquier valor de Χ2 por lo que los resultados de los análisis de Χ2 son solo aproximaciones a la distribución teórica y nuestras conclusiones no estrictamente son reales para un nivel de significancia establecido. e. g.l. Esto quiere decir. Corrección para continuidad. p. = 2. O: frecuencia observada de los conteos de la i – esima clase.05 y un grado de libertad = 3. La hipótesis en este caso es que la población que ha sido muestreada tiene una proporción de 3:1 de plantas amarillas y plantas verdes. es decir que para un valor dado de g. porque plantea la no diferencia. Se concluye entonces que si Ho es falsa. Los grados de libertad están dados por el número de categorías de frecuencias menos uno. Los valores de Χ2 obtenidos pertenecen a una distribución discreta o discontinua en los que pueden tomar solo algunos valores.08 + 3.32 Χ2 tab para α = 0. 131 .

Dicho de otra forma.5 ) + (16 − 25 2 − 0 .890 = 3.5 ) 2 25 χ2c = 0. y recesivo. en que se resta 0.853. Óscar Flores Pérez Bioestadística Esta situación se presenta enfatizada en el caso de que exista 1(un) g. 125. aplicar la continuidad en estos casos puede provocar que se cometa el error tipo I. heterocigoto. Se piensa que cierto rasgo humano es heredado de acuerdo a la razón de 1:2:1 para homocigoto dominante. Las tablas de contingencia se utilizan para medir la asociación entre dos atributos. l.l. y para ella se recomienda la corrección de Yates para continuidad. este no siempre es el caso. El rasgo no se distribuye de acuerdo a la razón 1:2:1.963 + 2. 43. Se desea saber si lo datos proporcionan suficiente evidencia para cancelar dudas sobre la distribución del rasgo..597.5 unidades al valor absoluto de O – E. El examen de una muestra aleatoria simple de 200 individuos proporciono la siguiente distribución del rasgo: dominante. De esta forma. Respuesta. es decir: χ c = 2 ∑ k (O − E E − 0 . Ejercicio. retomando el ejemplo anterior donde existe un g.Elaborado por: Ing. 132 . Dado que 13.71> 10. χ c= 2 ∑ i =1 k (84 − 75 75 − 0 . al no aplicar la corrección y por ende. 32. lo cual no ocurre con el uso de corrección. heterocigoto y homocigoto decisivo. aceptar la hipótesis Ha (hipótesis alternativa) siendo Ho cierta. el valor p para la prueba es p<0. Tablas de contingencia. Cumplen un papel análogo a las otras medidas de asociación entre variables (correlación y regresión) pero también sirven como contraste de hipótesis. Aunque en este caso se llega a la misma conclusión que sin la aplicación de la corrección. dado que en las variables medidas como atributos ambos tipos de análisis no se diferencian claramente.005.5 ) 2 i =1 Donde χ2c representa el valor χ2 calculado con la corrección para continuidad. es decir. Sin el uso de corrección para continuidad el χ2c se incrementa y puede causar el rechazo de Ho.

Óscar Flores Pérez Bioestadística El nombre de "tablas" deriva del tipo de representación que suele hacerse para el análisis. pero eso no es obligatorio. Como en la correlación y la regresión. Supóngase que se seleccionan n artículos y se clasifican según a dos criterios diferentes. Se construye una tabla con tantas filas como niveles tiene una de las variables y tantas columnas como niveles toma la otra variable. También es posible calcular la "fuerza" de la misma. y lo mismo sucede con los b). es posible examinar la asociación entre más de dos variables simultáneamente. mediante el uso de tablas multidimensionales y el uso de modelos loglineares. de tablas n X m. de tablas 2 X 4 si una tiene dos niveles y la otra cuatro o. si en realidad. El análisis consiste en averiguar si el reparto de los individuos en las diferentes casillas sigue algún patrón o es simplemente debido al azar (Fig. En el ejemplo de la Fig. Habrá una asociación entre variables si determinadas combinaciones de las mismas aparecen con una frecuencia estadísticamente mayor que otras.Elaborado por: Ing. 7 A y B). 7. Fig. en general. 7 cada variable tiene sólo dos niveles. se habla de tablas 2 X 2 si cada variable tiene dos niveles. En cada casilla de la tabla se escribe la frecuencia observada de individuos dentro de cada combinación de niveles. las variables fueran independientes. Estos coeficientes varían entre 0 (ninguna asociación) y 1 (asociación perfecta). Se obtiene un valor de significación para la asociación por medio de un test Chi cuadrado (χ2) o un test de la G. B) asociación inexistente (los a son 1 ó 2 con idéntica frecuencia. y la celda correspondiente a la i – ésima fila y j – ésima columna tendrá Oij observaciones. mediante el coeficiente de Cramér (C) o el coeficiente Phi de asociación (rφ) (sólo en tablas 2 X 2). 133 . La prueba de hipótesis (independencia entre las variables) es bastante sencilla y es básicamente una comparación de los valores observados con aquellas que se esperarían teóricamente. Coeficiente de contingencia. La tabla a cuadro resultante tendrá r filas y c columnas. Ejemplo de asociación entre dos atributos para los que se han medido 20 valores: A) asociación perfecta (todos los a son 2 y todos los b son 1).

Óscar Flores Pérez Bioestadística Si χ2 →0 indica que las variables son estadísticamente independientes.T. Para un nivel de significancia dado. la muestra es grande.i como el total de la fila i –ésima.T 2 . Si la tabla tiene r filas y c columnas. el valor χ2 es cero). si χ2 ≤χ2 (1-α). χ2 C= N + χ2 El estadístico C no alcanza el valor 1. se rechaza. Considerando el inconveniente señalado con la prueba Chi cuadrado. Si se denota T. El valor máximo posible varía según el número de filas y columnas. Una población es multinomial si cada elemento de la población es asignada a uno (y solo uno) de dos o mas clases de atributos o categorías. entonces tendrá k = r *c celdas.. así entonces.. ningún valor esperado es mayor que 1. bajo el supuesto de independencia. entonces el valor esperado en la celda ij. (r-1) (c-1) no se rechaza el supuesto de independencia. provienen de una población multinomial. φ2 = O 11 O 22 − O 12 O 21 T. Hay dos supuestos que se utilizan en esta prueba: ⇒ La muestra se seleccionó.1T.j/T. Si χ2 →∞ indica que las variables no son estrictamente. pero aquí se señalara solo aquel que reúne la propiedad de su variar entre -1 y +1. ⇒ La muestra es razonablemente grande. χ 2 = ∑ ∑ i =1 r c (Oij j =1 − Eij Eij )2 Si las variables son estadísticamente independientes. donde T. un estadístico alternativo para medir asociación en una tabla de contingencia de 2 x 2 podría se el coeficiente de Crámer o phi φ. sino también su dirección.. de lo contrario. dos valores de C no son directamente comparables al menor que sean calculadas a partir de tablas del mismo tamaño. entonces el estadístico Chi cuadrado tiene una distribución teórica Chi cuadrado con (r-1) (c-1) grados de libertad. será Eij = Ti. o sea φ2. este no solo señala el grado de la asociación. aun cuando la asociación sea perfecta (cuando no hay asociación entre las variables. 134 .2 T1 .Elaborado por: Ing. es el gran total.j como el total de la columna j – ésima y T. por medio de un método aleatorio de una población infinita o sumamente grande multinomial divariada. Existen varias modalidades del mismo. la mayoría (mas del 20 % de los valores esperados) son al menos 5.

Los resultados finales son: Presencia de la enfermedad presente ausente 6 4 1 3 7 7 Insecto Presente Ausente total total 10 4 14 φ2 = ((6) (3)-(4) (1) / √ (7) (7) (10) (4) =0.7 Ln 7 – 7 Ln 7 + 14 Ln 14) = 1.j . la razón de máxima verosimilitud (G). esto significa que todos los valores en la tabla de contingencia esta en las celdas superior izquierda e inferior (i.Elaborado por: Ing. No existe evidencia para rechazar la hipótesis de independencia. El estadístico G se distribuye aproximadamente como la distribución Chi cuadrado con (r-1) (c-1) grados de libertad. − ∑T LnT + nLnn ij ij . La relación muestral entre las dos variables tiene una intensidad de φ2 = 0. podría utilizarse en aquellas situaciones cuando los supuestos para Chi cuadrado no se cumplieran. o sea.32 G = 2(6Ln 6 + 4Ln 4 + 1 Ln 1 + 3 Ln 3 – 10 Ln 10 – 4 Ln 4 . no hay evidencia estadística para asumir que existe relación entre la presencia de la enfermedad y la presencia de insecto.841 > 1.05.j j i j ⎤ ⎦ El estadístico puede utilizarse para realizar la prueba de hipótesis sobre independencia entre las variables. Ejemplo: Se recolectó para determinar si existía o no asociación entre la presencia de una enfermedad en una planta y la presencia de un cierto vector (insecto). 135 . Un método alternativo general.44.44 χ2 (0. especialmente aquellas que se refieren a las frecuencias mínimas esperadas. 1) = 3. Óscar Flores Pérez Bioestadística Si φ2 = 1..e. ⎡ G = 2⎢∑ ⎣i ⎥ ∑O LnO − ∑Ti.32. O12 =O21).

a un grado dependiente de la magnitud de la heterogeneidad. 136 . donde k es el numero de grupos experimentales. Usaremos un ejemplo para explicar este método. El análisis de varianza se basa en la partición de la suma de cuadrados y grados de libertad asociados a la variable respuesta. La asignación de las técnicas de preparación de sitio a cada parcela es totalmente al azar. El andeva es también robusto con respecto al supuesto de normalidad de las poblaciones subyacentes. Establecen 25 parcelas y cada técnica de preparación es aplicada a 5 parcelas seleccionadas al azar. El análisis de varianza es utilizado para probar la hipótesis Ho: µ2=µ2= µ3… = µk. Alguna notación. Se quiere determinar los efectos de cinco técnicas de preparación de sitio sobre el crecimiento juvenil de plántulas de Jacaranda copaia (gallinazo) cuando se planta en monocultivo. altura del arbolito. Óscar Flores Pérez Bioestadística 6. esta prueba es muy sensible a la no normalidad por lo que no vale la pena usarlo en el andeva.6 Análisis de varianza. Para probar hipótesis Ho: µ2=µ2= µ3… = µk.Elaborado por: Ing. solo se probara el efecto de un factor la técnica de preparación de sitio sobre la variable repuesta. Sin embargo. cada observación será representada por Xij donde i se refiere a la observación realizada en el j-ésimo grupo o tratamiento. pero su validez si es afectada por una desviación considerable de este supuesto de normalidad (en caso de asimetría y/o curtosis). Además el andeva es suficientemente robusto para operar bien aun en situaciones que presentan heterogeneidad de varianzas. Si los n`s son muy diferentes. En este caso el camino apropiado es un análisis de un solo factor. Cada experimento se realiza bajo las mismas condiciones. En este caso. la probabilidad del error tipo I se alejara marcadamente de α. El supuesto de homocedasticidad se puede probar con la prueba de Bartlett. siempre y cuando todos los n`s sean iguales o casi iguales. Para ejecutar esta prueba se asume que σ21= σ22 = σ23 =……= σ2k (propiedad de homocedasticidad) y que todas las k muestras provienen de poblaciones normales. o muestras. obedeciendo a lo que se conoce con el nombre de diseño experimental completamente aleatorizado. Las parcelas se plantan a mano y el final del tercer año se mide la altura de todos los arbolitos y se calcula el promedio de altura para cada parcela.

Óscar Flores Pérez Bioestadística El promedio del grupo j-ésimo se llamara Xj y el promedio general de todas las k observaciones X. En el caso de k k 2 muestras X ij − X j viene dada por cuadrados dentro de grupos ∑ ∑( j =1 i =1 ) y tiene ∑ (n k j =1 j − 1) grados de libertad asociados. A la suma de cuadrados dentro de grupos se le llama suma de cuadrados debidos al error (SCE) y a los grados de libertad dentro de grupos. Se puede señalar que el modelo general implícito en el andeva es aquel que divide cada desviación de una observación con respecto al promedio general en dos partes: Una desviación de esa observación con respecto al promedio del grupo a la cual pertenece. además. La suma de cuadrados entre grupos (SCG). se obtiene como sigue: ∑n (X k j =1 j j − X) 2 Que tiene k -1 grados de libertad.Elaborado por: Ing. se obtiene al dividir la SCE entre los grados de libertad gle y se le llama el cuadrado medio del error (CME). La magnitud de la variación entre los k grupos también es importante para la prueba de hipótesis. También se considera la variabilidad presente entre todas las n observaciones. varianza común para los k grupos. se les llama grados de libertad del error (gle). j =1 El supuesto de homocedasticidad (homogeneidad de varianzas entre grupos) lleva el cálculo de una varianza común para todo el experimento que será el estimador nj la suma de de σ2. El mejor estimador de varianza σ2. 137 . y la desviación del promedio del grupo con respecto al promedio general. n = ∑ nj suma que se realiza sobre los k grupos. la suma d cuadrados total (SCT) viene dada por: ∑ ∑(X k nj j =1 i =1 ij − X) 2 Y tiene n-1 grados de libertad. o sea. nj = tamaño de la muestra en el grupo j .

515873 3.547619 3 104. Óscar Flores Pérez Bioestadística SCT = SCG + SCE Gltotal = glentre grupos + glerror Fórmulas más sencillas para aplicar con calculadoras son: SCT = ∑ k j =1 i =1 ∑Xij − C 2 nj . implantados con Stil Bestrol II 52 54 53 65 III 56 54 74 IV 51 57 50 Y. 3.Elaborado por: Ing.0166667 Total 653. Yi.166667 10 34. 150 160 221 251 782 Cuadro de concentración de datos.70826569 Dentro de los grupos 340. De Valor crítico variaciones cuadrados libertad cuadrados F Probabilidad para F Entre grupos 313.07757187 3. 4.072 0. cordero castrado entero implantados con Sinovex S.. Donde (∑ ∑ X ) C = ij 2 n y se le llama factor de corrección. I T1 47 T2 50 T3 57 T4 62 Origen de Suma de Grados Prom.714286 13 138 . SCG = ∑ k ⎛ ⎜ ⎜ ⎝ ∑ nj X n j i =1 ij ⎞ ⎟ ⎟ ⎠ 2 − C 2 j =1 SCE = ∑ j =1 k ∑X i =1 nj 2 ij −∑ j =1 k ⎛ nj ⎞ ⎜ ∑ X ij ⎟ ⎜ ⎟ ⎝ i =1 ⎠ nj Ejemplo 1. Los tratamientos fueron definidos de la siguiente manera: Tratamiento 1 2. Los datos siguientes se refieren a los pesos finales de corderos alimentados durante 90 días con una ración que contenía 14 % de proteínas.

68** 0.916 SC total = 242+232+…+232 – 16052/48 = 12765.07 2. 2 Yij. I 24 23 21 68 25 28 30 83 56 65 58 179 24 19 23 66 II 19 21 24 64 31 24 32 87 62 60 59 181 21 22 24 67 III 18 19 22 59 28 32 36 96 61 60 64 185 23 18 22 63 IV 23 22 20 65 34 33 29 96 62 60 61 183 19 21 23 63 Y.895 = 67. Dosis (ton/ha) 0 Yij.812 – (12469..895 + 67.63 5.01 3. = 1/12(2562+3622+7282+2592) – 16052/48 = 12469.Elaborado por: Ing.05 Ft 0.812 SCEM = 12765. Origen de las variaciones tratam Error experim.65 7. Error de muestreo Total Suma de cuadrados 12469.49 5..916 228 12765.895 SCEE = 1/3 (682+642+…+632) – 16052/48 – 12469.812 Grados libertad 3 12 32 47 Prom. Bioestadística Los datos siguientes se refieren a producciones parciales de forraje de maíz en verde. tomadas como muestras ante la imposibilidad de medir la producción total de cada unidad experimental.916) = 228. Yi.792 NS Ft 0. 4 Yij.95 2. Óscar Flores Pérez Ejemplo 2.. 6 Yij. 256 362 728 259 1605 SCtrat. De cuadrados 4156. pero 139 . Los tratamientos consisten en cantidades diferentes de estiércol incorporado al suelo como mejorador. y debido a que Fc de tratamientos es mayor que Ft.125 F 735.80 Con base en lo anterior.895 67. podemos decir que rechazamos la hipótesis de igualdad de tratamientos.

0 Y.9 17. como fuente proteica en raciones para novillos.0 78.7 47.99 Peso I 18.05 Ft 0.634 Ejercicio.0 66.1 9.4 66.822 10. Respuestas: Origen de las Suma de variaciones cuadrados Tratamiento 191.5 17. Por otra parte el ANDEVA solo indica una diferencia entre tratamientos.6 70. debido al peso inicial de los novillos. en el cual.86 6.01 3.0 12.j.265 Total 223.07** 73. I II III 140 .2 18. C) para medir su efecto en la producción de leche. 274.4 16.1405 F 454. Niveles de pollinaza 0 10 20 30 Y. Óscar Flores Pérez Bioestadística será necesario aplicar otro tipo de pruebas a fin de establecer conclusiones especificas acerca de este trabajo en particular. 83. Los resultados son los siguientes: 1 A: 608 B: 715 C: 884 2207 vacas 2 B: 885 C: 1087 A: 711 2683 3 C: 940 A: 766 B: 832 2538 Hk 2433 2568 2427 7428 Y… Grados libertad 3 3 9 15 Prom.2 Peso III 21.467 Bloques 30.9 15.9 Peso IV 22. pero no especifica entre cual.7 periodo Cj Solución.9 21.4 13. En un experimento se probaron tres dietas diferentes (A. se llevo a cabo un estudio. Ejercicios.4 19. Con el fin de probar cuatro niveles diferentes de pollinaza.8 61. Realice los procedimientos necesarios para obtener los datos del ANDEVA.28** Ft 0.3 0. De cuadrados 63. B.8 18..3 Peso II 20.Elaborado por: Ing.3 Yi. Las dietas se aplicaron a tres vacas en tres periodos de lactancia diferentes. fue necesario efectuar un control (bloques).2 76.902 Error experimental 1.2 11.

Preg. c. d. Preg. b.Todo lo anterior es cierto. Preg. Ejercicios.Al disminuir hace aumentar la probabilidad del error de tipo II.Fijada antes de realizar el contraste. Preg. e.Una muestra aleatoria es coherente con la hipótesis nula.Una muestra aleatoria no es coherente con la hipótesis nula. cuando esto es falso. b. e.Todo lo anterior es falso. c.La probabilidad de error al rechazar la hipótesis alternativa. Preg. 2. c. b.Da la probabilidad de declarar significativo el resultado de un test. En un contraste de hipótesis la cantidad p es: a. existe menos del 5% de probabilidad de observar unas muestras tan contrarias a dicha hipótesis como las obtenidas.Se rechaza la hipótesis de menor probabilidad.La hipótesis alternativa es más probable que la nula.El tratamiento es un 95% más efectivo que el placebo. 141 .Se acepta la hipótesis de mayor probabilidad. b. Un contraste de hipótesis se considera significativo si: a.Si el tratamiento no fuese efectivo.Es necesario contrastar la normalidad de los datos. el tratamiento es mejor que el placebo.La probabilidad de que el placebo sea mejor que el nuevo fármaco es menor de 5%.Con toda seguridad.La probabilidad de rechazar la hipótesis nula. d.Todo lo anterior es cierto.La hipótesis nula se elige según el principio de simplicidad científica. b. c. e. Un estudio sobre la efectividad de un fármaco llega a la conclusión de que éste es mejor que el placebo con p<0. 1.Un número pequeño. El nivel de significación de un test de hipótesis: Bioestadística a. 5.05 ¿Cuál es la interpretación correcta de este resultado? a. En todo contraste de hipótesis: a.Suele ser pequeño y lo fija el investigador o un convenio generalmente aceptado. 4.La probabilidad de que el nuevo tratamiento sea mejor que el placebo es superior al 95%. d. c.Conocida al extraer la muestra y calcular el estadístico experimental.Elaborado por: Ing. Óscar Flores Pérez Hipótesis. d. e. 3.

e. e. b.Son ciertas (b) y (c).Una muestra aleatoria es coherente con la hipótesis nula. 7.Se acepta la hipótesis alternativa. c. Preg.Son ciertas(a) y (c). Preg.Aceptar que un tratamiento ineficaz produce efectos útiles. d. Un contraste de hipótesis se considera no significativo si: a.Se rechaza la hipótesis alternativa. d. si la hipótesis alternativa fuese cierta. d.El nivel de significación es demasiado alto.Todo lo anterior es cierto.Todo lo anterior es cierto. e. b. d.Los tratamientos ofrecen tiempos de supervivencia muy diferentes.El experimento no es concluyente. Preg. si la hipótesis nula fuese cierta.Una muestra aleatoria no es coherente con la hipótesis nula. De las siguientes cuál no es un resultado posible de un contraste de hipótesis: a.Nada de lo anterior es cierto. b. si la hipótesis nula fuese cierta.Las muestras son demasiado numerosas. c. Óscar Flores Pérez d. 9. b. cuál se corresponde con un error de tipo II: a. e. d. De las siguientes. e. Se realiza un estudio para saber si dos tratamientos de quimioterapia presentan diferencias en cuanto a la supervivencia de los pacientes.Aceptar que un tratamiento eficaz produce efectos útiles. c. No se encontró diferencia estadísticamente significativa.Esta situada en la zona de mayor probabilidad.Tiene probabilidad pequeña. c. 10. si la hipótesis nula fuese cierta.Elaborado por: Ing. Se realiza un experimento donde nos basaremos en un contraste de hipótesis para tomar una decisión con un nivel de significación del 1%. b. ¿Cuál de las siguientes razones podrían ser causantes del resultado? a. 142 .Las muestras son demasiado pequeñas. típicamente.Rechazar que un tratamiento eficaz produce efectos útiles.Tiene probabilidad pequeña.La hipótesis nula es más probable que la alternativa. Preg.Se rechaza la hipótesis nula. la región crítica: a.Nada de lo anterior.El experimento permite obtener conclusiones. 6. Bioestadística Preg.Rechazar que un tratamiento ineficaz produce efectos útiles. En un contraste de hipótesis.Tiene probabilidad grande. c. 8.

e. e. los resultados no son concluyentes.El nivel de significación es normalmente un valor pequeño.La hipótesis alternativa se opone a la nula. Señale la respuesta falsa en lo que concierne a los contrastes de hipótesis: a.Si no se rechaza la hipótesis nula. c. c.La hipótesis nula puede ser rechazada. 13. e.No rechazar H0 cuando es falsa.Un contraste es declarado significativo si se obtiene una muestra que discrepa mucho de la hipótesis nula. d. 12.No rechazar H0 cuando es cierta.La hipótesis nula es aquella para la que buscamos evidencia a favor. Óscar Flores Pérez e. Elija la afirmación falsa: Bioestadística a. El error de tipo I consiste en: a. 143 . b. Preg.La probabilidad de rechazar H0 cuando es falsa. 11.Nada de lo anterior.El nivel de significación de un contraste debe ser fijado antes de analizar los datos.rechazar H0 cuando es cierta.rechazar H0 cuando es falsa.Elaborado por: Ing. b.La significación de un contraste es conocida tras analizar los datos. Preg. c. d. b. Preg.Un contraste debe ser declarado significativo antes de recoger los datos.La hipótesis alternativa puede ser aceptada. d.

Conocer los elementos principales de los estadísticos de la población. fertilidad y morbilidad. y tanto c como d se refieren a la frecuencia de ocurrencia de algún evento o articulo. Aun cuando hay excepciones. 3. 10000 o 100000. 144 . Por ejemplo. el contrario de la tasa. 4. a= la frecuencia con la cual se ha presentado un evento durante algún periodo especificado. El propósito del multiplicado. este término se utiliza por lo general para referirse a aquellos cálculos que implican la probabilidad de ocurrencia de algún evento. Óscar Flores Pérez Bioestadística VII. puede hablarse de la razón de personas camas en el hospital de cierta área geográfica. es evitar resultados que comprendan números muy pequeño que puedan surgir en el cálculo de la tasa y facilitar la comprensión de estas últimas. En el caso de una razón. El valor elegido para k dependo de la magnitud del numerador y del denominador. El numerador de una tasa es una parte componente del denominador. antes de proceder es necesario distinguir entre los términos tasa y razón. el numerador no es una parte del componente del denominador. k. ⎛ a ⎞ ⎜ ⎟k ⎝a+b⎠ Donde. K= algún numero como 10. Tasa. 2. Reconocer los elementos básicos de los estadísticos vitales. Los valores de k que se utilizan con mayor frecuencia en las razones son 1 y 100. ⎝ ⎠ como ya se ha definido. 1000. 100. Objetivos de la unidad. Realizar estimaciones de estadísticos vitales con casos reales de la zona. llamado base. Estadísticas vitales.Elaborado por: Ing. ⎛c⎞ Razón. 1. Una razón es una fracción de la forma ⎜ d ⎟k donde k es alguna base. 5. Aquí se presentan algunas tasas y razones más útiles y ampliamente utilizadas. Estimar los elementos básicos de tasa y razones de mortalidad. Interpretar adecuadamente los estadísticos vitales. a+b= el numero de personas expuestas al riesgos del evento durante el mismo periodo. Sin embargo.

1000 como valor de k. Las variables que entran en juego comprenden la edad. Por ejemplo. e. Tasa bruta de mortalidad anual. Cuando dos poblaciones deben compararse con base en la tasa de mortalidad. padecimientos cardiacos o accidentes. Numero de muertes en un subgrupo especifico durante un año *k Población total en el subgrupo especifico a julio 1. grupo racial. * k Población total al 1 de julio. La tasa bruta de mortalidad anual se define como. Pueden calcularse simultáneamente las tasas específicas para dos o más característica. cáncer.1 Tasas y razones de mortalidad. puede calcularse la tasa de mortalidad para los varones de raza blanca. P. se elige. El numerador representa solo aquellas muertes que ocurrieron en la población. k es igual a 1000. Compara las tasa brutas de mortalidad de dos comunidades es riesgoso. Deben tenerse las mismas precauciones el comparar las tasas de mortalidad anual para la misma comunidad en dos años distintos. Óscar Flores Pérez Bioestadística 7.Elaborado por: Ing. Tasas especificas de mortalidad anual. obteniendo así una tasa especifica de raza – sexo. la base k. especificada por el denominador. Donde por lo general. Debido a la pequeño fracción que resulta. esta es la tasa que se utiliza con mayor frecuencia para estimar la salud global de una comunidad. deben hacerse ajuste para conciliar las diferencias entre las poblaciones con respecto a esas variables. En general. Las tasas de mortalidad expresan la frecuencia relativa de ocurrencia de muerte en algún intervalo específico en una población particular. Las tasas y razones que se estudian en esta sección se refieren a la ocurrencia de muerte. sexo y condición socio económica. Pueden calcularse también las tasas especificas de mortalidad por causas especificas incluyendo en el numerador solo aquellas muertes debidas a una causa particular. a menos que se sepa que3 las comunidades son comparables con respecto a muchas características distintas de las condiciones de salud. Donde por lo general. es más importante e ilustrativo observar las tasas de mortalidad de subgrupos pequeños y bien definidos de la población total. que afectan a la tasa de mortalidad. El denominador de una tasa de mortalidad se conoce como población en riesgo. Numero total de muertes durante un año (1 de enero a 31 de diciembre). Los subgrupos para los que pueden calcularse las tasas específicas de mortalidad comprenden aquellos grupos que pueden distinguirse con base en el sexo. grupo racial y edad. 145 . para una tasa de causa especifica es por lo general de 100000 o 1000000.

multiplicando la columna 4 por la columna 5 y dividiendo entre 100000. Ya se indico que la utilidad de a tasa bruta de mortalidad se restringe por el hecho de que no refleja la composición de la población con respecto a ciertas características por las cuales es afectada. 146 . los valores de la columna 6 son las muertes que se esperarían en la población estándar si las personas de esta poblaciones hubieran expuestos al mismo riesgo de muerte experimentado por la población que se esta ajustando. En otras palabras se desea una tasa de mortalidad que pudiera haberse esperado en Georgia. 3. la población de iteres se lista (columna 2) de acuerdo con el grupo de edades (columna 1). Los datos necesarios para los cálculos se muestran en la tabla siguiente. Ejemplo. si la composición por edades de la población de Georgia hubiera sido la misma que la de los estados unidos. dividiendo la columna 3 entre la columna 2 y multiplicando por 100000.1 muertes por cada 1000 habitantes. Obtener la tasa de mortalidad ajustada por edades para Georgia mediante el uso de la población estándar en el censo de 1970 para los Estados Unidos. 2. 4. la población estándar se lista (columna 5) por grupo de edades. Óscar Flores Pérez Bioestadística Tasa de mortalidad ajustadas o estandarizadas. La tasa bruta para Georgia en 1970 fue de 9. Solución. se suman lo valores de la columna 6 para obtener el numero total de muertes esperados en la población estándar. 5. las muertes en la población se listan (columnas 3) se las edades. se calculan las tasas de mortalidad por edades (columna 4) para cada grupo. 6. se calcula el numero esperado de muertes en la población estándar para cada grupo (columna 6).Elaborado por: Ing. El procedimiento para calcular una tasa de mortalidad ajustada por edades comprende los siguientes pasos: 1.

3 2027.9 84416 200508 174406 122569 113614 114265 91480 61195 37547 1000000 494 94 277 274 503 1088 1854 2429 3402 10415 7.4 Se observa entonces que la tasa bruta de mortalidad se ha incrementado de una 9. mediante el método directo. refleja el hecho de que. la tasa de mortalidad ajustada por edades se calcula de la misma manera que una tasa bruta de mortalidad. Esta se define como Muertes por causas puerperales durante un año *k Total de nacimientos vivos durante el año.Elaborado por: Ing. 1 2 3 4 Tasa de mortalidad según la edad (por 100000) 5 Población estándar basada en la población de EEUU. Tasa de mortalidad materna. 1970.1 por 1000 a un 10. Óscar Flores Pérez Bioestadística Cuadro 12. Por ejemplo.6 442. mientras que el 10% de la población de los estados unidos estaba ese grupo de edades.1 3669.1 9060. solo el 8% de la población de Georgia tenía 65 años de edad o más. Número total de muertes esperadas * 1000 Población estándar total.8 47 158. En el ejemplo. 1970 6 Numero de muertes esperadas en la población estándar. la población de Georgia era un poco mas joven que la población de los estados unidos en general. Este incremento en la tasa de mortalidad.9 952. Es decir la tasa bruta de mortalidad ajustada por edades es igual a. Edad (años) Población Muertes 0 -4 05 a 14 15-24 25-34 35-44 45-54 55-64 65-74 75 y mas Total 424600 955000 863000 608100 518400 486400 384400 235900 132900 4608700 2483 449 1369 1360 2296 4632 7792 9363 12042 41786 584. Calculo de la tasa de mortalidad ajustada por edades para el estado de Georgia.6 223. después del ajuste. se tiene una tasa de mortalidad ajustada por edades es igual a 10415*1000 1000000 = 10. 147 .4 por 1000 ajustando la población de Georgia en 197 a la distribución de edades de la población estándar. en 1970.

esto no constituye un problema serio. Tasa de mortalidad neonatal. k = 1000 conduce a una tasa mas conveniente. El denominador preferido para la tasa es el número de mujeres embarazadas durante el año. ya que una madre puede morir de causa puerperal sin producir un nacimiento vivo. En un esfuerzo por comprender mejor la naturaleza de las muertes infantiles. muchos niños nacido vivos en un año dado morirán el siguiente año. en algunos países. Donde k se toma generalmente como 1000. Entre los aspectos que limitan la tasa de mortalidad materna se incluyen las siguientes: a) las muertes fetales no se incluyen en el denominador. De la misma forma. Una manera de hacer ajustes es asignar las muertes infantiles al año civil en el que nacieron los niños antes de calcular la tasa. se tiene una tasa demasiado pequeña. lo cual conduce a un denominador demasiado pequeño y hace que la tasa sea demasiado grande. 148 .Elaborado por: Ing. Aunque hay excepciones. Óscar Flores Pérez Bioestadística Donde k toma el valor de 1000 o 100000. aunque puede haber ocurrido un nacimiento de gemelos o un nacimiento múltiple mayor. suelen calcularse tasas de mortalidad para niños menores de un año. mas conveniente utilizar k = 100000. que son semejantes a las que caracterizan a la tasa de mortalidad materna. y en consecuencia. resulta. Número de muertes de niños menores de 1 año durante un año * k Número total de nacimientos vivos durante 1 año. c) Algunos nacimientos vivos no se registraron. b) La muerte de la madre solo puede contarse una vez. Sin embargo. a. Sin embargo. es imposible determinar este denominador. en periodos de cambios rápidos deben hacerse algunos ajustes. Sin embargo. Tasa de mortalidad infantil. Muchos de los infantiles que mueren durante un año dado nacieron el año anterior. El uso y la interpretación de esta tasa tiene que hacerse a la luz de sus limitaciones. Una muerte debida a una causa puerperal es aquella que puede atribuirse a alguna fase del parto. En poblaciones con una natalidad estable. Estos casos hacen que el denominador sea demasiado grande. Esto conduce a una tasa inflada. Debido a la disminución de la tasa de mortalidad materna en los estado unidos. d) La muerte de la madre puede ocurrir en un año posterior al cual ocurrió el nacimiento. en la mayoría de los casos la transferencia de muertes maternas se balanceara en un determinado año.

Razón de mortalidad fetal. Algunas regiones que dan a conocer todas las muertes fetales sin importar la duración de la gestación. La razón que se considera a continuación se propuesto para superar las objeciones c. La muerte fetal se define como un producto de la concepción que no muestra signo de vida al concluir el nacimiento. Una objeción a esta sugerencia se apoya e lo incompleto de los datos acerca de las muertes fetales. Número total de muertes fetales durante un año k Número total de alumbramiento durante el año. Número total de muertes fetales durante un año *k Número total de nacimientos de niños vivos durante el año Donde k se toma como 100 o 1000. Tasa de mortalidad fetal. toma por lo general. en tanto. el valor de 1000. Hay variaciones entre las diferentes regiones que informan con respecto a la duración de la gestación. Debido a que las muertes fetales que ocurren al final del embarazo y las muertes neonatales con frecuencia tienen las mismas causas fundamentales. Donde k. Algunos expertos sugieren que en el denominador se incluyan tanto el número de muertes fetales como los nacimientos de niños vivos en un intento por incluir toda preñez en el cálculo de la razón. (Número de muertes fetales de 28 semanas o más) + (Número de muertes infantiles de menos de 1 semana) (Número de muertes fetales de 28 semanas o más) + Número de nacimientos de niños vivos) 149 . que otras tienen un periodo de gestación mínimo que debe alcanzarse antes de que se requiera hacer el informe. se ha sugerido que se combinen ambas para obtener lo que se conoce como tasa de mortalidad perinatal. Tasa de mortalidad perinatal. Existen varios problemas asociados con el uso e interpretación de esta tasa. Donde k = 1000 b.Elaborado por: Ing. d. Óscar Flores Pérez Bioestadística Número de muertes de niños de 28 días de edad durante un año* k Número total de nacimientos de niños vivos durante el año. Otra objeción a la tasa de mortalidad fetal es que no toma en cuenta el grado al cual una comunidad pretende reproducirse.

Óscar Flores Pérez Bioestadística Donde k = 1000. como accidentes. Este índice se utiliza para estimar la importancia relativa de una causa determinada de defunción. por ejemplo. Conocer la tasa de alumbramientos en una comunidad es importante para quienes se dedican a la salud publica. Razón de causa de defunción. ya que de esa forma pueden planificar los servicios e instalaciones par las madres. Fertilidad se refiere al acto real de dar a luz. Tasa bruta de natalidad. fenómeno para el cual se utiliza el término fecundidad. Número total de nacimiento de niños vivos durante un año * k Población total a julio 1. Donde k = 100. un grupo de edades. f. Numero de muertes debida a una enfermedad especifica durante un año *k Numero total de muertes debidas a todas las causas durante un año. La clase especificada es por lo general. Donde k = 1000. Es la medida de fertilidad que se utiliza más ampliamente. Donde k = 100. Medidas de fertilidad. Debe utilizarse con precaución al comparar una comunidad con otra.Elaborado por: Ing. e. Número de muertes de personas de 50 años de edad y mayores * k Número total de muertes. Razón de mortalidad proporcional. Una razón de causa de defunción mayor en una comunidad que en otra puede deberse a que la primera comunidad tiene una baja mortalidad debida a otras causas. Se ha sugerido este índice como una medida única para compara las condicione sanitarias globales de diferentes comunidades. 150 . 50 años y mas. o bien una categoría de causas de muerte. bebes y niños. contrario a la capacidad de concebir.

Número de nacimientos en mujeres de una edad dad durante un año *k Número total de mujeres de la edad específica Donde k = 1000. nivel socio económico y diversas características demográficas.1 Tasa general de fertilidad.Elaborado por: Ing. Las que se calculan con más frecuencia son las tasas para grupos de edades de cinco años. Tasa de fertilidad. están expuestas al riesgo de dar a luz a un niño. la edad fértil se define como las edades entre 15 y 44 años. Número de nacimiento de niños vivos durante un año * k Número total de mujeres en edad fértil. Dado que la tasa de alumbramientos no es uniforme en toda la edad fértil. Óscar Flores Pérez Bioestadística 7. Donde k = 1000 y. La característica de interés de esa tasa. La tasa especificas por edades.7. o bien. es el hecho de que el denominador es una aproximación de número de personas que. de 15 a 49. por lo general. especifica por edades. Pueden calcularse para una solo edad o para cualquier intervalo de edades. cuando se compara con a tasa bruta de natalidad. 151 . Pueden calcularse también las tasas específicas de fertilidad para otros subgrupos de la población. resulta conveniente una tasa que permita el análisis de las tasa de fertilidad para intervalos de edad materna mas cortos. como los definidos por grupo racial. en realidad.

5 2500.5 Calculo de las seis tasas básicas: 1) tasa bruta de nacimientos = total de nacimientos entre la población total. Procedimientos para calcular seis medidas básicas de fertilidad.0 5 6 Población Nacimientos estándar en base esperados la población de EEUU.1 3) Tasa de mortalidad a edad especifica = entrada en la columna 3 entre las entradas de la columna 2 multiplicadas por 1000 para cada grupo.9 130.5)(5) +(27. El resultado aparece en la columna 4.= (95584/4608700)*1000 = 21 2) Tasa general de fertilidad = (95584/1135900)*1000 = 84.6)(5) +(4.0)(10) = 2540.0 176.0 2362. 1 Edad de la mujer (años) 15 a 19 20 a 24 25 a 29 30 a 34 35 a 39 40 a 49 2 Numero de mujeres en la población a 220 100 209 500 170 100 139 100 135 400 261 700 1 135 900 3 Numero de nacimientos para las mujeres de edad especifica a 21 790 37 051 22 135 9 246 3 739 1 044 95 005 4 Tasa de natalidad especifica por edades para cada 1000 mujeres 99.1 66.5 2030. 1970 c 193 762 19 182 173 583 30 707 140 764 18 313 119 804 7 967 116 925 3 227 255 162 1 021 1 000 000 80 417 7 Tasa acumulada de fertilidad. 495.5 27.6 4.0)(5) + (176.5 5) Tasa de fertilidad acumulada = tasa de natalidad especifica por edades multiplicada por el ancho del intervalo de edades acumuladas por edades ver la columna 7.9)(5) + (130. 4) Tasa total de fertilidad = la suma de cada tasa de edad especifica por edades multiplicada por el ancho del intervalo de la edad = (99.0 1379.5 2540.Tabla 13.1)(5) +(66. 6) Tasa general estandarizada de fertilidad = (80 417/1000000)(1000) = 80.4 .

Como regla general los datos para el estudio de la morbilidad de una comunidad no son tan completos ni se encuentran con tanta facilidad como los que se refieren a la natalidad y mortalidad. es útil para determinar la necesidad de medidas preventivas. pero puede calcularse también para las enfermedades agudas. 7. Número total de nuevos casos de una enfermedad especifica durante un año *k Población total a julio 1 Donde el valor de k depende de la magnitud del numerador utiliza una base de 1000 cuando resulta conveniente.7. 7. Tasa acumulada de fertilidad.3 Tasa de prevalencia. Es una medida muy importante tanto para las enfermedades crónicas como para agudas. Estudio de una comunidad con respecto a la enfermedad. que existen en un instante *k Población total en ese instante. Esta tasa que mide el grado con el cual ocurren nuevos casos en la comunidad. el resultado se conoce como fertilidad total. Donde el valor de k se elige mediante los mismos criterios que para la tasa de incidencia. pero puede utilizarse 100 para las enfermedades más comunes. debido a los incompletos de los informes y a las diferencias entre los estados e relación con las leyes que requiere el informe de las enfermedades. y 10000 o 100000 para aquellas que son menos comunes o más raras. se reprodujera según las tasas representadas por las tasas de edades específicas de fertilidad de la que se calcula la tasa total de fertilidad. Óscar Flores Pérez Bioestadística Tasa de fertilidad total. Medidas de morbilidad. El procedimiento es idéntico al que se analizo en el anteriormente en el ejemplo de tasa de mortalidad ajustada o estandarizada. Se calcula de la misma forma que la tasa total de fertilidad.Elaborado por: Ing. excepto que el proceso de sumar puede terminarse al final de cualquier grupo de edades deseado. Número total de casos. Esta tasa es esencialmente útil en el estudio de las enfermedades crónicas. nuevos o viejos. 153 . El valor resultante es una estimación del número de niños que tendría un grupo de 1000 mujeres. si durante sus años fértiles. Si se suman las tasas específicas de fertilidad por edades par todas las edades.2 Tasa de incidencia. y se multiplican por el intervalo en el cual se agruparon estas ultimas.7. Tasa estandarizada de fertilidad.

e) tasa de mortalidad neonatal. Esta tasa se utiliza para estimar la propagación de la infección y se aplica por lo general a grupos cerrados como casa habitación o salones de clase. Número total de muertes debidas a una enfermedad *k Número total de casos debidos a la enfermedad. 774 y 775 del libro de Bioestadística. Tasa de ataque secundario. Wayne W. 1. donde puede suponerse razonablemente que. Es útil para determinar que tanto éxito esta teniendo un programa de tratamiento para cierta enfermedad. Óscar Flores Pérez Bioestadística Razón de muertes – casos.4 Razón de inmadurez. Numero de casos adicionales entre personas expuestas A un caso primario dentro del periodo máximo de incubación. como tal. c) tasa de mortalidad materna. Resolver los ejercicios de la Pág. Donde k = 100.Elaborado por: Ing. Esta mide la ocurrencia de una enfermedad contagiosa entre personas susceptibles que se han expuesto a un caso primario. 771. Donde k = 100. Daniel. Es importante observar que esta razón puede interpretarse como la probabilidad de morir al contraer la enfermedad en cuestión y. b) tasas especificas de mortalidad por grupos raciales para blancos y no blancos. A partir de esos datos. El periodo abarcado es arbitrario. Se obtuvieron los siguientes datos anuales de cierta región geográfica. 154 . de hecho. f) razón de mortalidad fetal y g) razones de causa de defunción por neoplasmas malignos y enfermedad isquémica del corazón.7. calcular las siguientes tasa y razones: a) tasa bruta de mortalidad. *k Número total de personas susceptibles. todos los miembros estuvieron expuestos. revela la gravedad de la enfermedad. d) tasa de mortalidad infantil. 770. Ejercicios. depende de la naturaleza de la enfermedad y puede abarcar varios años para una enfermedad endémica. Número de nacimientos de niños vivos Con un peso inferior a los 2500 gramos durante un año *k Número total de nacimientos de niños vivos durante un año Donde k = 100. 7.

en 1971. La siguiente tabla muestra las muertes y la población estimada por edades en el estado de Georgia en 1971. Total en todas las edades. De 20 a 27 semanas de gestación. Muertes 2311 480 1390 1307 2137 4640 7429 9389 12411 41494a a 155 . De julio Total de nacimientos vivos.Elaborado por: Ing. Muertes. 2. Muertes por inmadurez Muertes de madres. Menos de 28 días. Óscar Flores Pérez Bioestadística Total 597500 12437 1243 592 355 103 123 11 11 267 210 16 2 948 1697 Número blancos No blancos 361700 235800 6400 6037 440 803 365 227 269 86 42 61 49 74 5 6 3636 2583 97 170 79 131 12 4 2 626 1138 322 559 Población estimada al 1º. Utilizar la misma población estándar que se utiliza en el ejemplo del cuadro 12. Neoplasmas malignos Corazón isquémico Respuestas. Causas de muertes. Nacimientos inmaduros Muertes fetales: Total Con menos de 20 semanas de gestación. Edad (años) Población estimada 0a4 423700 5 a 14 947900 15 a 24 891300 25 a 34 623700 35 a 44 520000 45 a 54 494200 55 a 64 388600 65 a 74 243000 75 y mas 136000 Total 4668400 excluidas 42 muertes de edad desconocida. Menos de un año. Utilizar estos datos para calcular la tasa de mortalidad ajustada por edades para Georgia.

Elaborado por: Ing. Los datos de la tabla pertenecen al estado de Georgia. Utilice la población estándar de la tabla 13. la población total estimada a julio 1º de 1971 fue de 4 668 400 y el numero de mujeres entre las edades de 15 a 49 años fue de 1 161 400. ¡Si la estadística no se practica y se estudia se termina olvidando! 156 . Hubo un total de 95 546 nacimientos de niños vivos en Georgia en 1971. c) Tasa acumulada de fertilidad para cada grupo de edades. calcular las siguientes tasas: a) tasas de fertilidad especificas por edades para cada grupo de edades. 15 a 19 225 200 21 834 20 a 24 217 600 35 997 25 a 29 173 400 21 670 30 a 34 143 300 8 935 35 a 39 134 100 3 464 40 a 49 267 800 625 a a Puede incluir algunos nacimientos en mujeres de mas de 49 años de edad. 4. A partir de los datos anteriores. d) Tasa general estandarizada de fertilidad por edades. Respuestas. Edad de la mujer Numero de Numero de nacimientos (años) mujeres en la en mujeres según la edad población especifica. Recomendación final. para el año de 1971. b) Tasa total de fertilidad. utilizar estos datos para calcular: a) La tasa bruta de natalidad. b) La tasa general de natalidad. Óscar Flores Pérez Bioestadística 3.

Triola. Wayne W. Bibliografía consultada 1. 6. Reimpresión de la 3ª. 1999. 7. Gutiérrez Espeleta. Bolivia 5. 2002. Pérez Antonio. Douglas C. 2001. Introducción a la medición de la biodiversidad. McGraw – Hill. 2000.com 13. Edt. Daniel. 1ª. Bioestadística. www. Mexico. 11. Edic. Mijail.R. TECNICAS DE INVESTIGACION PARA EL MANEJO DE FAUNA SILVESTRE.. Peter E. 878 p. 30 p. Edición. 2000. México. Heredia C. 10. 2001. métodos estadísticos para las ciencias biológicas. Pearson Educación. Montgomery y George C. 2ª. 1999. Métodos de investigación.. Edit. Análisis de adaptabilidad: Pasos a seguir para el análisis e interpretacion de datos de investigacion y extension a nivel de finca. Wendy Townsend. Lilian Painter.es 157 . edit. Daniel Guinart Robert Wallace. 175 p. 21cm 4. Mario f. PRINTICE HALL. Óscar Flores Pérez Bioestadística VIII. Edit. Mexico.uma. Antonio. Herramientas y manejo para el diseño y manejo de los recursos naturales y biodiversidad. Lincoyan Portus G. Bastidas.aulafacil. 8. Base para el análisis de las ciencias de la salud. Damián Rumiz. 9. Edgar.: EUNA. 8ª. Probabilidad y estadistica para ingenieria. 3. Mexico. México. Salkind J. Edit. Runger. 20002. Ed. México. Betty Flores. Probabilidad y estadistica aplicadas a la ingenieria. 2. McGraw – Hill. 12. 3ª. 2001. www. McGraw – Hill.Elaborado por: Ing. 7ª. Hildebrand y Elena P. Ed. Uraccan las minas. Montgomery. Estadística Elemental. Ed. Douglas C. 1999.. curso practico de estadistica.

.4 Interpretación del residuo ....................................... ........ 6 1.....7..............7................................1 Muestreo aleatorio simple (m...... .. 4 1.....................3 Muestreo. ..................................... Organización de datos y medidas descriptivas..... 48 2..... ..7....................5 Bondad de un ajuste ..........6....... ..1 Modelo de regresión lineal simple.....2 Muestreo sistemático .....................................6.... .....7 Propiedades de r..........2 Pasos en un estudio estadístico ..................................1 Coeficiente de correlación..........4 Técnicas de muestreo .............................................................................5 Variabilidad o dispersión .......................4 Muestreo por grupos o conglomerados ............................ 18 1..........................6.................................................... ..................... 84 4.8 Otros coeficientes de correlación ............................... 5 1......................................................................7.... 43 2.. ..........6 Modelos de análisis de regresión............................................ ................................. Probabilidades...........................) ..... 67 3................... 51 2................................................................ 68 3.......................................................... 70 3.........................................................................4 Teorema de la probabilidad total........ 25 2.........7.........6.....Elaborado por: Ing......... 72 3............. .................................................. 52 2......................................2 Definición de probabilidad y prob.................................................................................................... .................................................................2 Estadísticos de posición............................. 50 2......... 25 2....................................... 66 III.............. 59 2...................................................... 21 II......................6...6.. .............3 Representaciones graficas..... ........ 158 ........................... 15 1................................................. 61 2..... 16 1........................... 49 2.......... .... 17 1..................................................4 Predicción de una variable en función de la otra.......... 73 IV...........1 Distribución de Bernoulli... 33 2.......5 Como reconocer la relación directa e inversa.6 Técnicas de respuesta aleatorizada.. .. ..................1 Coeficiente de variación ............... 54 2...............................5 Teorema de Bayes................... Condicionada ............................................................................6 Pruebas diagnosticas.................6..... 46 2..............................................................................................3 Muestreo estratificado ....7... Principales leyes de distribución de variables aleatorias........... 70 3................................................ . 15 1................ 62 2..........1 Nociones de probabilidad.6......7 Regresión lineal. 84 I..6.................................... 38 2.. 57 2.6...............6......................................5 Fuentes de sesgo (parcialidad)............4 Centralización .....1 Distribución de frecuencias........2 ¿Cómo medir la bondad de una regresión? ................6................... 51 2.......5...................3 Sistema exhaustivo y excluyente de sucesos...............3 Interpretación de la variabilidad en Y ........3 Relación entre las variables .................................................................... 58 2.......6 Relaciones entre variables y regresión ....................... .............................................. Óscar Flores Pérez INDICE GENERAL Bioestadística INTRODUCCIÓN A LA BIOESTADÍSTICA........ 13 1...........a................... ....................................2 Diagrama de dispersión o nube de puntos............. 67 3........................ 14 1.................................... 31 2.................. 62 2.............6 Coeficiente de correlación lineal de Pearson ..1 Conceptos básicos............ 63 2........................................................ 54 2...s.........................

...........................................3 Pruebas No Paramétricas ............................................................7 Teorema central del límite. ................................. Razón de mortalidad fetal............................... 148 b............ ................................................................................. 98 4..................................................................................... 157 159 .. Tasa de mortalidad fetal........... 101 5..................... 153 7.............7........ 124 6.................7. 86 4.................................................. .4 F de Snedecor .............................. .................. ..........3 Función de probabilidad ................................................2 Chi cuadrado...................................5 Distribución normal o de Gauss ...................................................... 150 f..............................................................2................................. .... Bibliografía consultada ....................................... ............................................................................ ............... ... 91 4................................................................. ..............................3 Tasa de prevalencia.. 95 4......... 153 7.................... 150 7.................... ........................................................................................................... Tasa de mortalidad infantil.. 89 4................... 129 6............2 Distribución binomial.7...................................................... 87 4................................................................................................................................ Razón de causa de defunción............. ....... .....4 ¿Son nuestros datos normales? ....7.....7......Elaborado por: Ing................................. 129 6..2 Pruebas Paramétricas ..................................... Contrastes de hipótesis..................................4 Razón de inmadurez......... 154 VIII... 130 6............. Estadísticas vitales........... 136 VII....1 Como escoger entre una prueba paramétrica y no paramétrica ....1 Hipótesis... Medidas de fertilidad........................................................................................................ 149 d..................... 123 6....................................................................................4 Distribución de Poisson................ 145 a........2..2....7... 123 6........... 124 6...... Tasa de mortalidad perinatal.............. 104 VI............................. ......................... ......2 Pruebas Paramétricas y No Paramétricas ............... 96 4.................................. 149 e.......................... Óscar Flores Pérez Bioestadística 4.............. 144 7.........................................................................................................................3 T de student ....6 Análisis de varianza...............1 Tasa general de fertilidad.......................... ............................3 Prueba F de Similitud de Varianzas ................................................1 Tasas y razones de mortalidad.................. 103 Prueba U de Mann – Whitney .1 Distribuciones asociadas a la normal... 149 c...................... 151 7.... 87 4.................... 96 4.........6 Tipificación ..1 Estimación puntual y por intervalos.......................................... ..7.............................................5 Análisis de Frecuencias .......................... 119 6................................. 111 6..2 Tasa de incidencia.......... Estimación confidencial.................................................7........................... 100 V...............

27774 21.74518 44.56317 36.60237 49.70837 18.43384 8.54935 19.1 2.68987 2.68366 15.9 0.98232 11.12006 59.55851 46.98534 46.25602 41.19182 17.00875 5.72508 51.10259 0.20335 54.65977 51.88623 10.00004 0.81947 31.01704 13.33562 53.60322 3.81328 32.30713 23.31935 32.99146 7.13403 15.67196 55.64168 46.94030 4.86026 16.36408 40.99338 52.75685 28.19087 37.10563 22.06091 57.05 3.23189 49.66428 22.47557 66.84391 14.025 5.26214 6.07382 3.08627 16.23734 1.89186 6.78071 38.56057 61.28057 20.36157 14.96294 48.77554 56.14329 12.33714 42.07191 20.59078 10.15140 16.74960 18.59159 14.84535 30.04707 16.33600 160 .83250 14.57338 15.51258 50.05879 47.995 0.68825 29.58475 43.33801 13.89552 58.80531 36.60092 5.84146 5.89218 52.15645 38.19426 47.46134 13.09051 13.07050 12.31410 45.88673 18.11895 27.25139 7.37776 9.39988 48.66599 23.77944 9.21034 11.89250 61.01276 17.73264 3.81575 4.94851 54.13846 0.64647 41.79565 44.40866 34.88514 40.95007 66.63840 42.95 0.65432 24.26719 35.99587 20.58226 39. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 0.36203 23.28936 41.85081 11.14124 30.00690 33.57791 31.995 0.27670 15.59131 12.28891 19.56938 21.20624 0.62873 6.47531 20.80625 20.07172 0.34171 60. Óscar Flores Pérez Bioestadística ANEXOS Percentiles de la distribución ji-cuadrada.16961 35.14221 5.21217 48.99 0.005 0.26042 9.05064 0.29623 27.90766 7.75848 56.50731 16.42812 63.51965 11.06714 15.58935 25.18141 65.48839 28.17973 2.27477 61.60517 6.46079 45.02607 22.40106 42.54758 20.45777 15.71847 37.53874 18.12115 13.74122 37.59663 12.16209 62.81193 21.96393 60.34487 13.21580 0.19101 31.94239 58.92789 48.38354 54.Elaborado por: Ing.22603 5.79077 17.42078 22.21452 25.27501 18.20925 24.00270 56.52638 32.29076 19.86653 21.28988 49.56419 8.33666 24.37916 16.21697 27.70654 21.18128 45.69722 6.99685 41.73493 2.63490 9.34840 11.42174 42.96600 53.88390 25.83816 14.23075 8.33588 22.30786 16.36341 49.69074 64.40115 13.56623 38.40379 5.02277 20.92788 17.97924 48.99993 33.77676 0.56503 4.12404 0.47888 36.15586 2.19139 53.07563 39.61141 15.19624 34.92317 43.81189 18.80506 52.73560 26.46502 23.98926 1.57063 7.66797 56.84843 14.23636 10.58711 28.91898 18.99846 52.11701 10.025 0.14353 31.64492 50.04666 19.38159 35.83121 1.70554 4.34441 1.17246 36.57481 5.65248 38.03365 8.05273 69.48044 50.87944 10.81473 9.95 0.55697 43.90316 46.01003 0.48318 21.16735 2.93217 40.96165 8.58788 50.41174 0.43304 25.32511 3.67176 9.005 7.92005 23.53455 19.14548 1.26480 6.87848 23.41503 37.61509 30.61921 59.35185 0.68479 24.58118 62.72497 26.81527 16.26861 24.76904 25.67573 0.85233 34.98718 17.64845 58.98942 27.39046 10.41043 32.48442 0.11972 13.90652 9.64272 9.70039 3.50930 27.64464 12.44938 16.71072 1.95495 23.01 6.80185 50.16024 11.88334 64.19232 53.80132 34.57223 55.48773 11.68855 12.00098 0.91592 39.30704 19.78672 14.11327 41.84397 7.99866 0.07467 4.97982 44.86930 30.19451 44.28290 10.05 0.20699 0.77297 44.18818 26.32811 57.72229 46.67057 33.54183 24.41198 29.29952 29.00393 0.09020 0.975 0.08747 40.49266 19.34207 58.76596 68.99579 26.14405 0.32555 28.80759 12.26094 7.975 0.92444 35.43729 55.69539 26.07494 24.67514 21.63538 2.02389 7.20357 28.06414 22.48577 54.50127 17.24697 3.58581 19.09024 21.27824 49.

2006.78748 30.89255 73.99075 67.16005 29.822 1074.161 422.948 Tabla construida por: Flores. 161 .043 1057.99036 64.003 914.30351 60.80045 241.78537 27.56120 185.346 585.65623 62.26762 33.36615 29.09808 33.58121 226.936 676.20140 72.4433 73.92947 122.61653 67.098 439.95683 71.75451 31.1539 135.33865 67.77429 60.2077 249.34211 179.303 653.241 196.882 553.36854 57.392 449.00111 65.04133 25.24935 27.50481 124.7041 76.058 295.930 800.997 888.Elaborado por: Ing.95620 30.127 814.728 208.58063 233.20146 65.940 576.689 563.264 311.22241 71.57457 28.90661 62.61226 31.02259 70.050 540.147 687.445 304.77456 26.98452 162.785 1089.43654 75.42020 129.93031 34.207 853.724 59.35736 74.3602 255.16606 74.594 55.69178 168.51059 27.55492 32.493 843.61590 71.029 1106.969 70.9195 76.49800 172.64054 59.8067 193.14225 152.50530 58.85947 23.452 927.6826 74.03754 63.43900 32.279 214.70951 69.021 279. O.58369 24.564 26.257 28.82065 69.2307 79.82962 64.45935 68.76425 77. Óscar Flores Pérez 43 44 45 46 47 48 49 50 100 150 200 250 500 750 1000 22.1695 198.852 827.41016 66.994 287.48089 61.31101 25.514 1118.16712 118.679 Bioestadística 62.96472 29.9688 78.17077 66.531 67.23019 56.22193 117.4900 140.32756 109.

9629421 48.4150285 37.5779142 31.5878845 50.0862725 16.11327205 41.4086636 34.2767041 15.88513865 40.86929943 30.2169673 27.487729037 11.3794189 100.3620325 23.8921814 63.8053057 36.841459149 5.2893604 41.63489671 9.41043286 32.7249703 26.29622761 27.91897762 18.9321727 40.806723 162 .9999269 33. Óscar Flores Pérez Valores críticos de la distribución χ2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0.58711164 28.55696777 43.5662348 38.3448667 13.8118938 18.1452703 124.02606982 22.68479131 24.50731306 16.53122518 101.1538912 88.6907397 76.814727764 9.33713813 42.30703805 19.116319 135.425184 112.6659943 23.2782358 49.08194439 90.21034037 11.6383981 42.1908691 37.6882496 29.50480652 79.1412377 30.14352721 31.17246163 36.3421137 Bioestadística 0.67513757 21.59158724 14.8794741 113.090235 21.65248413 38.9798201 44.328793 124.05 3.99579013 26.Elaborado por: Ing.77297178 55.67057337 33.6416827 46.75847932 67.07049775 12.991464547 7.2092512 24.3141049 45.92443852 35.4753069 20.06714043 15.01 6.

y la V de Cramer. 2) La prueba delCoeficiente de Contingencia. significa ausencia de correlación entre las variables.(X2) (Para Variables Cualitativas en Escala Nominal). (X2 Ho: X e Y son independientes) (Para Variables Cualitativas-Dicotómicas).(similar a “R”.(similar a “R”. (Para Variables Cualitativas en Escala Ordinal). Óscar Flores Pérez Bioestadística Resumen de las utilidades de los principales estadísticas o pruebas estadísticas. Ho: R = 0). coeficiente Pearson (r) Kendall (τ) Biserial (r bis) Biserial puntual (r pbis) Tetracórica Coeficiente fi (ϕ) Coeficiente eta (η) Variable 1 continua Ordinal dicotomizada Dicotomica Dicotomizada Dicotómica Continua Variable 2 Continua Ordinal continua Continua Dicotomizada Dicotómica continua Tablas de Contingencia y Medidas de Asociación 1) La prueba de Phi.Elaborado por: Ing. lo cual es un indicador de que las variables son independientes entre si 163 . Ho: R = 0).(similar a “R”. 4) La prueba de Tau-c de Kendall. 5) La prueba del coeficiente Eta. 3) La prueba de Gamma. (Para Variables Cuantitativas en Escala de Intervalo o Razón). (Para Variables Cualitativas en Escala Ordinal). Coeficiente de correlación y naturaleza de las variables. (Para Variables Cuantitativas en Escala de Intervalo o Razón). Ho: R = 0. 6) Los Coeficientes de Correlación de Pearson y Spearman. Ho: R = 0).

sólo una de las variables respuesta del estudio recibe el nombre de variable respuesta principal.Elaborado por: Ing. ¿Cuál es la característica que la distingue del resto de variables respuesta? a) Es una variable explicativa categórica b) Es un factor de riesgo conocido c) Las posibles evidencias clínicas se basan en su análisis d) Es una variable continua e) Es una de las variables relacionadas con el objetivo general del estudio 3. la variable dependiente es: a) El número de trabajadores b) Oir música clásica / No oir música clásica c) La productividad d) El volumen de la música e) No hay variable dependiente porque es un estudio sin control del sesgo 4. En un estudio donde se desea medir el efecto de oír música clásica en la productividad de los trabajadores. Existen diversos tipos de ensayos clínicos en función del tipo de conclusiones a qué deseen llegar: estudios confirmatorios y exploratorios. Óscar Flores Pérez Bioestadística CUESTIONARIO DE AUTO EVALUACIÓN DISEÑO DE ESTUDIOS 1. La variable respuesta también recibe el nombre de variable dependiente. ¿Qué es el sesgo de una muestra? a) Datos falsificados a consecuencia de malas conductas b) Errores sistemáticos que influyen en la representatividad de la muestra. Normalmente. c) Un sinónimo de variabilidad d) Una característica intrínseca de la población de estudio e) Ninguna de las anteriores 164 . Sin embargo hay una característica común en todos ellos: a) Criterios de inclusión de pacientes muy suaves b) Especifican los objetivos a priori c) Son estudios totalmente controlados d) Incluyen pocas variables e) Pretenden demostrar equivalencia entre 2 o más tratamientos 2.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

5.

Qué es un ensayo controlado?

a) Un estudio donde se miden controladamente las variables respuesta b) Un estudio prospectivo c) Un estudio retrospectivo d) Un estudio donde se compara un grupo experimental con un grupo de referencia e) Un estudio en que los animales son asignados de forma aleatoria a los posibles grupos de la variable explicativa principal. 6. En el diseño de un estudio experimental controlado es posible llevar a cabo actuaciones para evitar posibles sesgos en los resultados. Las dos medidas principales de precaución son: a) Enmascaramiento de tratamientos y asignación aleatoria de los animales a los grupos b) Enmascaramiento de tratamientos y estandarización de variables c) Enmascaramiento de tratamientos y eliminación del análisis de los animales que incumplen el protocolo d) Validación de los datos y eliminación del análisis de los animales que incumplen el protocolo e) Validación de los datos y estandarización de las variables 7. La relación entre la variable respuesta y la variable explicativa principal (grupos de tratamiento) puede ser causal o predictiva. ¿En qué situación podemos decir que la relación entre variables explicativas y respuesta es de causalidad? a) En todos los estudios exploratorios b) Cuando la relación es predictiva c) Cuando el estudio es enmascarado y las variables han sido estandarizadas d) Cuando los p-valores de los coeficientes del modelo son significativos e) Cuando la muestra ha sido aleatorizada y los grupos son balanceados en función de los factores de riesgo 8. Qué tipo de estudios ofrecen mayor validez en los resultados obtenidos?

a) Los estudios observacionales b) Los estudios caso-control c) Los estudios de cohortes d) Los ensayos controlados con asignación aleatoria e) Los ensayos exploratorios

165

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

9.

El cálculo de tamaño de muestra permite determinar...:

a) el número de variables a recoger b) el número de tablas de resultados c) el número máximo de unidades experimentales d) el número óptimo de unidades experimentales e) el número mínimo de unidades experimentales 10. Qué diferencias hay entre las poblaciones de análisis PP y ITT? a) los animales que incumplen el protocolo no forman parte de la población ITT b) la población de animales PP es más amplia que la población ITT c) la población de animales PP conduce a la evaluación del objetivo en la práctica real. d) la población de análisis ITT permite evaluar el objetivo desde un punto de vista teórico e) ninguna de las anteriores es cierta ESTADÍSTICA BÁSICA 1. Una vez la base de datos ha sido validada y cerrada, se procede con el resumen descriptivo de los datos. El objetivo principal del resumen descriptivo es... a) medir efectos y obtener indicios de posibles relaciones entre variables b) detectar inconsistencias entre variables c) obtener conclusiones sobre la relación entre variables d) obtener algunas representaciones gráficas de la relación entre variables e) validar la base de datos 2. Antes de proceder con el análisis estadístico de los datos, es necesario comprobar la existencia o no de asociación entre las variables explicativas del estudio (homogeneidad basal). Su importancia reside en el hecho que la asociación entre variables... a) incrementa la significación de algunos resultados estadísticos b) posibilita predicciones de la respuesta con mayor fiabilidad c) garantiza la homogeneidad basal entre tratamientos d) influye en el valor interpretativo del modelo estadístico e) reduce el número de variables en el modelo

166

Elaborado por: Ing. Óscar Flores Pérez 3.

Bioestadística

¿Qué índices descriptivos son adecuados para variables cualitativas?

a) Media y Desviación típica b) Gráfico de Dispersión c) Frecuencias relativas y absolutas d) Frecuencias brutas e) Número total de casos 4. Un intervalo de confianza del 95% bilateral para una media será...

a) idéntico al intervalo del 95% unilateral b) el doble que un intervalo del 95% unilateral c) la mitad que un intervalo del 95% unilateral d) más estrecho que un intervalo del 99% bilateral e) más estrecho que un intervalo del 90% bilateral 5. ¿Qué índices o pruebas son más adecuados para medir el grado de asociación entre dos variables cualitativas? a) Correlación de Spearman y correlación de Pearson b) Prueba T-Student y correlación de Pearson c) Prueba Chi-Cuadrado d) Prueba T-Student y prueba Chi-Cuadrado e) Prueba T-Student y prueba U de Mann-Whitney 6. ¿Qué índices o pruebas son más adecuados para medir el grado de asociación entre una variable cuantitativa y otra variable cualitativa? a) Correlación de Spearman y correlación de Pearson b) Prueba T-Student y correlación de Pearson c) Prueba Chi-Cuadrado d) Prueba T-Student y prueba Chi-Cuadrado e) Prueba T-Student y prueba U de Mann-Whitney 7. ¿Qué índices o pruebas son más adecuados para medir el grado de asociación entre dos variables cuantitativas? a) Correlación de Spearman y correlación de Pearson b) Prueba T-Student y correlación de Pearson c) Prueba Chi-Cuadrado d) Prueba T-Student y prueba Chi-Cuadrado e) Prueba T-Student y prueba U de Mann-Whitney

167

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

8. La probabilidad de rechazar la hipótesis nula cuando efectivamente es falsa se llama: a) Alfa b) Beta c) Potencia d) Casualidad e) Probabilidad nula 9. En una prueba de hipótesis, si no se rechaza la hipótesis nula, ¿qué tipo de error puede haberse cometido? a) Error de tipo I b) Error de tipo II c) Error de tipo III d) Error probabilística e) No es un error ya que el objetivo de la prueba es aceptar la hipótesis nula 10. Cuando el p-valor de una prueba estadística es inferior al nivel de significación fijado por el investigador...: a) se rechaza la hipótesis nula b) se rechaza la hipótesis alternativa c) se rechaza que la muestra sea representativa d) se rechaza el error de tipo I e) se acepta la hipótesis nula Respuestas DISEÑO DE ESTUDIOS 1) b 2) c 3) c 4) b 5) d 6) a 7) e 8) d 9) d 10) e

ESTADÍSTICA BÁSICA 1) a 2) d 3) c 4) d 5) c 6) e 7) a 8) c 9) b 10) a

CONCLUSIÓN: Si el número de aciertos de los dos tests es: • Entre 0 y 5 aciertos: Tienes un nivel de Estadística muy bajo. • Entre 5 y 10 aciertos: El curso que te interesa realizar es el de Estadística Básica. • Más de 10 aciertos: Puede que el curso que te interese realizar es el de Modelización Estadística Básica (SPSS avanzado).

168

Cuál de las siguientes medidas define mejor la tendencia central de los datos: 5 . 6 a b c d e La mediana. Preg. e La glucemia es continua. 3. 4. Una frecuencia absoluta. No se ve afectada por los valores extremos. Preg. Es el segundo cuartil. 42. Dos variables cuantitativas en una población. 4.Ejercicios y problemas adicionales. 2. 1. En una muestra de pacientes. 5. ¿Cuál de las siguientes características no se corresponde con el concepto de mediana? a b c d e Es el centro de gravedad de la distribución. . La proporción. Una variable cualitativa en dos poblaciones. el número de varones dividido entre el total de pacientes es: a b c d e Una frecuencia relativa. Los diagramas de sectores son muy útiles para comparar: a b c d e Dos variables cualitativas en una población. El sesgo El rango. La media. Una variable cuantitativa con otra cualitativa. Preg. Preg. Una variable cuantitativa. c El lugar que ocupa una persona entre sus hermanos (de menor a mayor edad) es una variable ordinal. Deja por debajo el mismo número de datos que por encima. Señale cuál de las siguientes afirmaciones es falsa: a La aparición o no de bacterias en un cultivo es una variable dicotómica b La estatura de un individuo es una variable cuantitativa discreta. d El estado civil es una variable cualitativa. Una variable cuantitativa en dos poblaciones. Una variable cualitativa. Un valor de la variable. 4. Preg. Todo lo anterior se corresponde con la mediana.

c Las medidas de tendencia central pueden dar idea de la magnitud de los datos. b En variables continuas se usan medidas de tendencia central. Preg. Debe ser similar a la del resto de intervalos. e En variables cualitativas podemos utilizar proporciones y medidas de tendencia central. el número n de datos válidos es: a b c d e La suma de las frecuencias absolutas. Supongamos que uno de los intervalos en los que se agrupa la variable es 3 veces más grande que el resto. La estadística en Ciencias de la Salud se utiliza para obtener información sobre situaciones de carácter: a b c d e Determinista. 170 . d Las medidas de dispersión ayudan a interpretar entre qué márgenes se mueven los datos. 6. Al representar la distribución de frecuencias de una variable usamos un histograma de frecuencias relativas. Se estudió a la población para obtener información sobre la muestra. Elija la afirmación que pueda considerarse admisible al leer un estudio estadístico: a b Se estudió a una muestra en vez de a la población.Elaborado por: Ing. Preg. 10. Óscar Flores Pérez Bioestadística Preg. Debe ser 3 veces menor que la frecuencia relativa del intervalo. En cuanto al área que dicho intervalo ocupa del histograma: a b c d e Debe ser igual a la frecuencia relativa del intervalo. 9. En el caso de una variable ordinal. La suma de las frecuencias relativas. Coincide con la amplitud del intervalo. La frecuencia absoluta acumulada de la categoría más frecuente. 7. Exhaustivo. para mayor precisión. Aleatorio. Preg. indique la afirmación incorrecta: a Para variables discretas puede ser suficiente reseñar la proporción de sujetos que se incluyen en cada categoría. 8. La frecuencia relativa acumulada en la última categoría. Sobre el tipo de estadísticos utilizados para resumir o describir los datos. Sistemático. Preg. Excluyente. Debe ser 3 veces mayor que la frecuencia relativa del intervalo. La (a) y la (d) son ciertas.

Preg. la regla fundamental a tener en cuenta es: a Las alturas en cada modalidad son proporcionales al valor de la variable. Diagramas de cajas y bigotes. En cuanto a la presentación ordenada del estudio de una variable aislada: a Lo más informativo es mostrar las medidas de tendencia central. e A veces no tiene sentido usar frecuencias acumuladas. 11. b Lo más informativo es mostrar las medidas de dispersión. Preg. uno a uno. Preg. 13. c Se deben presentar todos los valores observados de la variable. Elija la afirmación correcta: a Los valores de cualquier variable deben ser agrupados en intervalos. e Todo lo anterior es falso. b Las áreas para cada modalidad son proporcionales al valor de la variable. En las representaciones gráficas de variables cualitativas. b Las variables deben ofrecer valores que no se repitan en los diferentes individuos. Se observó a un individuo de cada variable. Diagramas integrales. c Las modalidades de una variable deben poder ser observadas en todos los individuos. 171 . Entre las representaciones gráficas para variables cualitativas tenemos: a b c d e Histogramas. d Los individuos pueden poseer diferentes modalidades de la misma variable.Elaborado por: Ing. d Las representaciones gráficas dan más información que las tablas de frecuencia. Óscar Flores Pérez c d e Bioestadística Se estudió a una muestra representativa de la población. Se estudiaron todas las variables de la población. c Las áreas para cada modalidad son proporcionales a las frecuencias acumuladas. e Las alturas para cada modalidad son proporcionales a las frecuencias acumuladas. Nada de lo anterior. 12. Preg. 14. d Las áreas para cada modalidad son proporcionales a las frecuencias absolutas o relativas. de menor a mayor. Diagramas diferenciales.

Una variable numérica. a b c d e Bioestadística Un parámetro es algo calculado sobre cada individuo. De los siguientes conceptos indique el que no tenga sentido: a b c d e Diagrama de barras para la variable "Grupo sanguíneo" Pictograma para la variable "Altura" Diagrama integral para la variable "Nivel de colesterol" Diagrama de sectores para la variable "Sexo" Histograma para la variable "Peso" Preg. Se llama parámetro a: a Una función de valor numérico definida sobre las características medibles de una población. Una frecuencia absoluta. c Cualquier variable observable de una población d Las variables numéricas de la muestra e Cualquier función sobre las variables observadas Preg. Una frecuencia acumulada. 18.Elaborado por: Ing. Una variable cualitativa. Preg. Disponemos de la distribución de edades de los individuos de una población. Preg. Si queremos representar gráficamente los porcentajes de una variable cuantitativa continua debemos usar: a b c d e Pictogramas Diagrama de barras Diagrama diferencial acumulado Histograma No existe gráfica posible 172 . Óscar Flores Pérez Preg. 16. Un parámetro es calculado sobre la muestra. 19. Elija la opción correcta. El número de ellos que no es mayor de edad. b Una función definida sobre los valores numéricos de una muestra. es: a b c d e Una frecuencia relativa. Nada de lo anterior es correcto. Una variable se calcula sobre los parámetros de una población. 15. 17. Un estadístico se calcula sobre la población.

Preg. pero puede ocurrir por los errores de redondeo. Soluciones: Estadísticos. 2. Los coeficientes de variación. La diferencia de las varianzas. Las modalidades de una variable: a b c d e Bioestadística Han de ser exhaustivas y excluyentes. e En general no hay relación entre la varianza y la media.Elaborado por: Ing. Es el valor más representativo de una modalidad. e El percentil 50. 20. Los rangos. Si la variable es cualitativa. La media aritmética de una variable cuantitativa: a b c d e Es siempre un valor de la variable. Existe siempre. Preg. Para comparar la variabilidad relativa de la tensión arterial diastólica y el nivel de colesterol en sangre de una serie de individuos. excepto: a La media. La diferencia de las medias. Al analizar una serie estadística de datos. c A lo sumo puede ser igual a la media. Ninguna de las anteriores es correcta. Preg. b Siempre ha de ser la media mayor que la desviación típica. ¿puede ocurrir que la desviación sea mayor que la media? a Teóricamente no es posible. 4. b La moda. 173 . d Rango intercuartílico. puede no ser única. 1. Son las diferentes situaciones posibles de un carácter. Óscar Flores Pérez Preg. son de tipo nominal. Todas las anteriores son correctas. Si la variable es discreta. Preg. d La desviación típica a de ser como máximo igual a la media para que la suma de cuadrados no sea negativa. No tiene sentido calcularla para variables discretas. Las siguientes medidas son todas de centralización. utilizamos a b c d e Las desviaciones típicas. 3. c La mediana.

Preg. e La media. con una desviación típica de 5 años. b En una distribución continua simétrica. Preg. d La mediana no siempre cambia cuando lo hace algún dato. Señale cual de las siguientes afirmaciones es verdadera: a La media. Es menor que la desviación típica. 6. Señale cuál de las siguientes afirmaciones es falsa: a La media aritmética es siempre el centro de gravedad de la distribución. mientras que la media de las edades es 15 años. Preg. 9. Para comparar ambas dispersiones debemos usar la covarianza. a b c d e La altura tiene un valor más extremo que el peso. e En las distribuciones continuas simétricas todas las medidas de centralización coinciden. Óscar Flores Pérez Bioestadística Preg. Preg. Es menor que la media. c La media aritmética cambia cuando cambia algún dato. El peso es menos extremo que la altura. La altura tiene de media 170cm y desviación 6cm. Peso y edad están dispersos de modo equivalente. Cierto individuo tiene un peso de 70 Kg y altura 180cm. El coeficiente de variación: a b c d Permite comparar la dispersión de dos poblaciones.Elaborado por: Ing. d Las marcas de clase de una variable cualitativa se calculan como los puntos medios de los intervalos. No depende de la media ni la desviación típica. En una población. No tiene sentido compararlos al no coincidir las unidades de medida. el peso tiene media 60kg y desviación típica 6Kg. b La desviación típica me orienta sobre la "validez" de la media. En un estudio descriptivo se obtiene una que el peso tiene una media de 60 kg y una desviación típica de 20 kg. Entonces: a b c d e Hay más dispersión en pesos que en edades. mediana y moda resumen todo tipo de información de los datos. 174 . El peso es más extremo que la altura. Peso y altura son valores igualmente extremos. 5.. Hay más dispersión en edades que en pesos. c El rango me orienta sobre la simetría de la distribución. la mediana y el rango orientan sobre la tendencia central de los datos. 7. media y mediana coinciden. La altura es menos extrema que el peso. 8.

14. desviación típica y asimetría. Media y desviación típica. Nada de lo anterior. Percentil 50. o mejore. Mediana. Preg. Preg. Bioestadística Preg. 13. Frecuencias relativas. puede que este empeore.Elaborado por: Ing. elevado al cuadrado. Ninguna de las anteriores. no le haga efecto. Mediana y coeficiente de variación. Percentil 75. Mediana y desviación típica. b La mediana es el centro de gravedad de los datos. Si queremos resumir la información obtenida podemos utilizar: a b c d e Moda. Se pide a unos enfermos que valoren su grado de mejoría tras un tratamiento en una escala de 1 a 5. En cierta población se observa la distribución de los grupos sanguíneos. Mínimo y máximo. 10. 12. ¿qué medidas cree que resumen mejor los datos? a b c d e Media. d El cociente entre la desviación típica y la media es una medida relativa de variabilidad. De la siguiente colección de posibilidades. percentil 50 y percentil 75. indica cual es incorrecta: a Un estimador de la varianza es el cociente del sumatorio de la diferencia entre cada observación y la media. mediana. c n coeficiente de variación próximo a cero puede indicar una muestra homogénea. Óscar Flores Pérez e Depende de la escala que se use al medir la variable. Entre las siguientes afirmaciones. Frecuencias acumuladas absolutas. De las siguientes medidas. Preg. e El coeficiente de variación se mide en porcentaje. Preg. cuáles podria utilizar para argumentar en favor o en contra de la asimetría de la variable edad: 175 . y el número de observaciones. Al aplicar un tratamiento a un paciente. Percentil 25. Percentil 25. Media y coeficiente de variación. cuál cree que resume mejor los mismos: a b c d e Media. Mediana y Moda. 11. moda. Si dicho tratamiento se aplica a una población de 100 pacientes.

No es simétrica. La media es menor que la varianza. 15. El 60%. Preg.Elaborado por: Ing. Los percentiles 2. El percentil 5. Media y mediana Media y desviación típica. 17.88 Cuantil 0. Óscar Flores Pérez Bioestadística a b c d e Percentil 25 y percentil 75.12 Decil 88 Nada de lo anterior es correcto. Una distribución presenta asimetría negativa siempre que: Preg. Los percentiles 20 y 60. Nada de lo anterior. a b c d e Hay más valores negativos que positivos. Ninguna de las anteriores.5 y 97. El percentil 60. El percentil 40. población: a b c d e El 40%. Cuantil 0. Hay menos valores negativos que positivos. Nada de lo anterior es cierto. tiene por respuesta: a b c d e El percentil 95. 18. La pregunta: ¿qué nivel de colesterol sólo es superado por el 5% de los individuos?.5 95%. 176 . La calificación de selectividad que sólo es superada por el 12% de los estudiantes se denomina: a b c d e Percentil 12. Preg. Qué peso no llega a alcanzar el 40% de los individuos de una Preg. 16. Media y Percentil 60.

Rango intercuartílico. Rango intercuartílico. moda. Desviación típica. Coeficiente de variación. Si queremos saber cómo de disperso está una variable con respecto a la magnitud de los valores de la misma. Todo lo anterior es falso. mediana. Preg. mediana. 22. de peor a mejor): a b c d e media. Si una muestra posee valores anómalos. Preg. 19. Preg. usaremos: a b c d e Varianza. Por debajo del cuantil 0. Rango. mediana media. La distribución es prácticamente simétrica. Rango. de las siguientes cuál usarías como medida de dispersión: a b c d e Varianza. el 70% de las alturas consideradas "más normales" se encuentran: a b c d e Por encima del percentil 70. Entre la media y la mediana. Si el coeficiente de asimetría en una población presenta el valor 0.Elaborado por: Ing. preferimos (por orden. Preg. No se puede en general recomendar una como mejor que las otras. Óscar Flores Pérez Bioestadística Preg. 20.99 entonces: a b c d e La distribución presenta una cola a la derecha.30 Entre el percentil 30 y el 70 Entre el percentil 15 y el 85. 23. Las medidas de centralización. en cuanto a la información que ofrecen sobre una variable numérica. Desviación típica. moda moda. 21. 177 . media. La distribución es más apuntada que la normal. Máximo y coeficiente de variación. La distribución es menos apuntada que la normal. La distribución presenta una cola a la izquierda. En una población.

Media. Estudiaremos la covarianza. Compararemos los coeficientes de variación. Preg. Media y desviación típica. cuál es preferible para resumir la información que hay en la muestra. cuartiles. Queremos saber de qué tipo de célula se presenta mayor variabilidad a b c d e Compararemos las desviaciones típicas. Leptocúrtica. 24. La distribución es menos apuntada que la normal. Si el coeficiente de asimetría en una población presenta el valor -5.. 178 . Una variable continua presenta una fuerte asimetría positiva. Los cuartiles. curtosis y desviación típica. 25. De entre las siguientes posibilidades. Mesocúrtica. Asimétrica. La media y la desviación típica. Mediana y Moda. entonces afirmamos que la distribución del peso en la población es: a b c d e Platicúrtica. Unimodal. Preg. Si la media del peso en una población es 60 kg. mediana. En una muestra de 1000 mujeres se estudia su número de hijos. Compararemos los rangos. El diagrama de cajas de Tukey. Distribución de frecuencias Preg. Óscar Flores Pérez Bioestadística Preg. Estudiaremos el coeficiente de correlación lineal de Pearson.Elaborado por: Ing. 27. Medimos el número de glóbulos rojos y el de blancos en cada individuo de una población. Percentil 25. Si quiero tener el máximo de información sobre la variable del estudio. asimetría. Percentil 50. 28. Ese valor de asimetría es imposible. y la mediana 65kg. Se observa determinada variabilidad en esas cantidades. La distribución presenta una cola a la izquierda. 26. Percentil 75. Preg.22 entonces: a b c d e La distribución presenta una cola a la derecha. a b c d e La mediana. El mínimo y el máximo. preferimos: a b c d e Media. La distribución es más apuntada que la normal.

Conocemos: a b c d e El percentil 3 El cuantil 0. Pictograma Cajas de Tukey.Elaborado por: Ing. El diagrama de observaciones atípicas. Nada de lo anterior. con desviación típica de 3 años. 32. Preg. 29. Las dispersiones son similares. El 5% mide menos de 150cm. Preg. El peso presenta una distribución con gran asimetría positiva en un grupo de individuos obesos. Las tres anteriores son correctas. En un grupo de niños se tiene una altura media de 150cm con desviación típica de 10cm. La edad media es 12 años. 33. Preg. Ninguno de los anteriores. ¿Dónde se presenta mayor dispersión? a b c d e En edades. ¿Qué valor divide a los mismos en dos grupos con la misma cantidad de individuos? a b c d e La moda El percentil 25. cual muestra directamente las observaciones extremas: a b c d e Diagrama de excesos Barras. En distribuciones simétricas media. Respecto a las medidas de centralización: a b c d e La media no debe usarse en distribuciones muy asimétricas. El 3% de los individuos tiene una altura superior a 190cm. En alturas. De los siguientes representaciones gráficas. 30.06 El percentil 95 El percentil 97 Nada de lo anterior. 31. La moda puede no ser única. Óscar Flores Pérez Bioestadística Preg. Sólo la a) y la b) son correctas 179 . El percentil 75 La media. No se puede decir con esos datos qué variable está más dispersa. Preg. mediana y moda coinciden.

Es una medida de variabilidad relativa. Las puntuaciones típicas. Sólo dos de las anteriores son correctas. b La pendiente de la recta de regresión es grande. Si al calcular el coeficiente de correlación de dos variables X e Y. c X e Y están poco relacionadas. 35. Si queremos comparar la variabilidad de dos variables diferentes utilizaremos: a b c d e Las desviaciones típicas. Todo lo anterior es cierto. Las varianzas. Todas las anteriores. Preg. Los coeficientes de variación. 1. Preg.20 ocurre que a La pendiente de la recta de regresión es pequeña. No es invariante ante cambios de origen. Preg. Sólo la a) y la b). a b c d e Bioestadística Para medir la variabilidad de una variable utilizamos: El coeficiente de variación La desviación típica El coeficiente de determinación. 180 . Óscar Flores Pérez Preg. 36. e El modelo lineal de regresión explica el 80% de la varianza de una variable cualquiera en función de la otra. d El modelo lineal de regresión explica el 20% de la varianza de una variable cualquiera en función de la otra. aunque cuando X decrece. se tiene r=-0.Elaborado por: Ing. 34. Y tiene tendencia a crecer. El coeficiente de variación se caracteriza por ser: a b c d e Adimensional. Ninguna de las anteriores. Soluciones: Regresiones.

Preg.000. Se obtiene una varianza explicada por el modelo de 40. El coeficiente de correlación lineal tiende a -1. y una varianza residual de 2. Entonces: a b c d e Y se puede calcular exactamente como una función matemática de X. En una población se obtiene con una bondad de ajuste de 0. Se utiliza un modelo lineal de regresión para estimar el tiempo de supervivencia de un enfermo terminal a partir de un conteo de linfocitos. Es una medida de la variabilidad común. d El ajuste lineal es malo porque la varianza residual es muy alta. c Hay una buena relación lineal entre ambas variables. El coeficiente de correlación lineal es próximo a 1. Todas las anteriores afirmaciones son ciertas. La media de X coincide con la media de Y.000. Y es independiente de X. La recta de regresión de Y sobre X se muestra como un buen modelo para explicar la relación entre dos variables numéricas. Es la media de las varianzas. presentan glucemia 45.Elaborado por: Ing. 181 . La covarianza de dos variables: a b c d e Es la raíz cuadrada del coeficiente de correlación. Preg. b A mayor número de linfocitos.9 que la relación entre nivel de glucemia (Y) y nivel de colesterol (X) es de Y=20 + X/4. Es siempre positiva. Entonces: a Todos los individuos con un valor de colesterol 100. ¿Qué se puede deducir directamente de estos datos? a A mayor número de linfocitos. Preg. e Las repuestas (a) y (c) son correctas. con toda seguridad será mayor el tiempo se supervivencia. 5. Óscar Flores Pérez Bioestadística Preg. Si el cociente entre la varianza residual y la explicada por la regresión en un ajuste lineal es grande: a b c d e El ajuste es bueno. No puede usarse dicha información como medida de bondad de un ajuste. 6. probablemente será mayor el tiempo de supervivencia. 2. El ajuste es malo. 4. 3. Sólo dos de las afirmaciones anteriores son correctas. La covarianza de X e Y no es nula. Preg.

Preg. puedo asegurar que: a b c d e La ordenada en el origen de la recta no es cero La recta pasa por las medias de las variables Existe una correlación lineal perfecta entre las variables. 10. Mayor es r. Preg. Preg. Entonces: a b c d e La varianza de Y es 100.9 La covarianza es de 1/9. r=0. Mayor es la relación lineal entre las dos variables Sólo dos de las afirmaciones anteriores son correctas. d Las observaciones se muestran como una nube de puntos creciente. 7. 8. En el modelo de regresión lineal de Y sobre X. y disponemos de media y desviación típica de cada una de ellas. Cuanto mayor es el coeficiente de determinación en una regresión lineal: a b c d e Mayor es la covarianza. Óscar Flores Pérez Bioestadística b Existe tendencia a que a mayor nivel de glucemia. Preg.Elaborado por: Ing.9 r=-0. Tenemos dos variables numéricas X e Y medidas sobre la misma población. e Todo lo anterior es cierto. mayor nivel de colesterol. Son correctas (b) y (c). Dos variables numéricas son incorreladas. c La nube de puntos no presenta aspecto creciente. c Hay mas individuos con colesterol alto que con glucemia baja. e Sólo dos de las afirmaciones anteriores son correctas. se obtiene una varianza residual de 10 y una varianza explicada por el modelo lineal de regresión de 90. 9. Sólo dos de las afirmaciones anteriores son ciertas. además se observa que la nube de puntos tiene forma decreciente. Todas las anteriores son ciertas. Si al realizar un análisis de regresión la covarianza coincide con el producto de las desviaciones típicas de las variables. Entonces: a r=0 b El modelo lineal de regresión sólo propone un valor como predicción de Y. 182 . d La varianza residual en el modelo de regresión de Y sobre X es igual a la varianza de Y. Menor es la varianza residual.

El 80% de las predicciones son correctas. Preg. Preg. Si el coeficiente de correlación lineal de Pearson entre dos variables es -0. Al estudiarlo con el nivel del colesterol. en cuáles crees que puede ser útil un análisis de regresión lineal: a b c d e La presión sanguínea y el grupo sanguíneo.Elaborado por: Ing. Hay fuerte relación inversa entre las variables. 183 . De las siguientes parejas de variables. Preg. 11.1 podemos decir: a b c La covarianza es pequeña. e Nada de lo anterior. b Hay relación inversa entre las variables. Si el coeficiente de correlación lineal de Pearson entre dos variables es -0. 13. Poseer ideología racista y el factor RH. la altura media del padre en la familia se comporta como una distribución normal de media 170cm con desviación típica 5 cm. La altura del primer hijo varón es otra variable con distribución similar. Nada de lo anterior. Preg. Al estudiarlo con la presión sanguínea. 15. Hay poca relación lineal entre las variables. Al estudiarlo con el grupo sanguíneo. El género y la edad. en qué casos lo usarías como variable dependiente: a b c d e Al estudiarlo con la altura. La relación entre las variables es directa. 14. Hay un error de cálculo. En un estudio de regresión lineal. d Hay relación directa entre las variables. Con estos datos podemos afirmar: a No hay relación entre ambas variables. c No debemos intentar predecir la altura del hijo de un padre que mide 140cm. En una población formada por unidades familiares.8 podemos decir: a b c d e La covarianza es negativa. Óscar Flores Pérez Bioestadística Preg. donde el peso se estudie conjuntamente con otras variables. Hay poca relación lineal entre las variables. 12. El nivel de colesterol y la concentración de bilirrubina. El grupos sanguíneo y el factor Rh.

Sólo la a) y la b) son correctas.5 glucosuria". El 10% de las predicciones son correctas.60 r= -0. b Si la covarianza es positiva implica una relación creciente entre las variables. Tiene el mismo signo que la covarianza. 19. disminuye el nivel de colesterol en sangre. Preg. Es el valor de la variable Y cuando X=0. 16. La pendiente de una recta de una función de regresión lineal Y = b0 + b1 X a b c d e Representa el incremento de Y por cada unidad de incremento de X. 18. Bioestadística Preg.36 r= -0. Entonces: a b c d e El 36% de las predicciones del modelo son correctas. Se observa que al disminuir el consumo de comida rápida. Todas las anteriores son correctas. Óscar Flores Pérez d e Hay un error de cálculo. 17.60 r= +0. Se usa un modelo de regresión entre ambas que ofrece una bondad de ajuste del 36%. cual es la mejor estimación que puede hacer para la diferencia en glucemia: a b c d e 5 10 15 20 25 Preg. Qué afirmación sobre la covarianza es falsa: a La covarianza es una medida de la variabilidad conjunta de dos variables numéricas. d Posee dimensiones. Un modelo de regresión lineal para calcular la glucemia (sangre) a partir de la de la orina (glucosuria) es "glucemia = 20+ 0.36 Preg. e Si es 0 podemos afirmar que no existe relación posible entre las variables. c A partir de ella se obtiene el coeficiente de correlación lineal de Pearson. 184 . r= +0.Elaborado por: Ing. Si dos personas se diferencian en 10 unidades de glucosuria.

Óscar Flores Pérez Bioestadística Preg. e Se utiliza para medir la bondad del ajuste. Señala cual de las siguientes afirmaciones sobre el coeficiente de determinación es falsa: a Es el porcentaje de variabilidad de una variable explicado por la variabilidad de la otra. Soluciones: Problemas Ejercicio 1. el coeficiente estará más cercano a 1. el coeficiente estará más cercano a 0. ¿Podemos concluir en base a estos datos que la población de la cual fue extraída esta muestra sigue una distribución Normal? 185 .Elaborado por: Ing. 20. b Coincide con el valor del coeficiente de correlación r2 c Cuanto mayor sea la varianza residual en comparación con la varianza total de la variable dependiente. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no actúan estudiantes. Se obtuvieron los siguientes datos sobre las visitas de 20 pacientes aleatoriamente seleccionados: Duración en minutos de la visita 21'6 13'4 20'4 16'4 23'5 26'8 24'8 19'3 23'4 9'4 16'8 21'9 24'9 15'6 20'1 16'2 18'7 18'1 19'1 18'9 1. ¿Constituyen estos datos una muestra aleatoria? 2. indican que la duración media de la visita por paciente es de 22 minutos. Se cree que en centros donde con un elevado número de estudiantes en prácticas esta cifra es menor. d Cuanto mayor sea la varianza residual en comparación con la varianza total de la variable dependiente.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Ejercicio 2. Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes cuya función renal está deteriorada a causa de una metástasis maligna avanzada de causa no urológica. Se mide la tensión arterial de cada paciente antes y después de la operación. Se obtienen los siguientes resultados: Tensión arterial Antes 150 132 130 116 107 100 101 96 90 78 102 80 82 90 94 84 93 89 8????? Después 90

¿Se puede concluir que la intervención quirúrgica tiende a disminuir la tensión arterial?

Ejercicio 3. Se ensayaron dos tratamientos antirreumáticos administrados al azar, sobre dos grupos de 10 pacientes, con referencia a una escala convencional (a mayor puntuación, mayor eficacia), valorada después del tratamiento. Los resultados fueron: Nivel de eficacia del tratamiento Tratamiento primero 12 15 21 17 38 42 10 23 35 28 Tratamiento segundo 21 18 25 14 52 65 40 43 35 42 Decidir si existe diferencia entre los tratamientos.

186

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Ejercicio 4. Puesto que el hígado es el principal lugar para el metabolismo de los fármacos, se espera que los pacientes con enfermedades de hígado tengan dificultades en la eliminación de fármacos. Uno de tales fármacos es la fenilbutazona. Se realiza un estudio de la respuesta del sistema a este fármaco. Se estudian tres grupos: controles normales, pacientes con cirrosis hepática, pacientes con hepatitis activa crónica. A cada individuo se les suministra oralmente 19 mg de fenilbutazona/Kg. de peso. Basándose en los análisis de sangre se determina para cada uno el tiempo de máxima concentración en plasma (en horas). Se obtienen estos datos: Normal Cirrósis Hepatítis 4 30,6 26,8 37,9 13,7 49 22,6 14,4 26,3 13,8 17,4 16,6 12,1 7,2 6,6 12,5 15'1 6,7 20 ¿Se puede concluir que las tres poblaciones difieren respecto del tiempo de máxima concentración en plasma de fenilbutazona? Ejercicio 5. El administrador de un laboratorio está considerando la compra de un aparato para analizar muestras de sangre. En el mercado hay 5 de tales aparatos. Se le pide a cada uno de los 7 técnicos médicos que después de probar los aparatos, les asignen un rango de acuerdo con el orden de preferencia, dándole el rango 1 al preferido. Se obtienen los siguientes datos: Analizador de sangre Técnico I 1 2 3 4 5 6 1 4 4 1 1 5 II 3 5 1 3 2 1 III 4 1 3 2 3 3 IV 2 2 5 5 4 2 V 5 3 2 4 5 4

187

Elaborado por: Ing. Óscar Flores Pérez 7 5 1 4 3 2

Bioestadística

Utilizar el contraste adecuado para determinar si los técnicos perciben diferencias entre los aparatos. Ejercicio 6. Los efectos de tres drogas con respecto al tiempo de reacción a cierto estímulo fueron estudiados en 4 grupos de animales experimentales. El grupo IV sirvió de grupo control, mientras que a los grupos I, II y III les fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a la aplicación del estímulo:

A 17 20 40 31 35 8 7 9 8

B 3 5 2 9

C 2 5 4 3

Control

¿Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reacción? Ejercicio 7. La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4 grupos de personas. Usar el test de Kruskal-Wallis para contrastar a un nivel de confianza de 0'05, la hipótesis nula de que no existe diferencia en los niveles de PPB en los cuatro grupos considerados. Niveles de PPB Grupo I Grupo II 10 37 12 31 11 9 4 10 12 6 08 2 6 5 23 15 3 35 32 19 33 18 8 11 1

Grupo III 15 5 Grupo IV 7

Ejercicio 8. La cantidad de aminoácidos libres fue determinada para 4 especies de ratas sobre 1 muestra de tamaño 6 para cada especie. Comprobar si el contenido de aminoácidos libres es el mismo para las 4 especies. Especies de ratas I II III IV 431'1 477'1 385'5 366'8 440'2 479'0 387'9 369'9

188

Elaborado por: Ing. Óscar Flores Pérez 443'2 481'3 389'6 371'4 445'5 487'8 391'4 373'2 448'6 489'6 399'1 377'2 451'2 403'6 379'4 381'3

Bioestadística

Ejercicio 9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos por adulto y día en diferentes momentos en un año. Usar un contraste no paramétrico para comprobar si el consumo de comida es el mismo en los 4 meses considerados. Febrero Mayo Agosto Noviembre 4,7 4,9 5,0 4,8 4,7 4,7 4,4 4,3 4,4 4,1 4,8 4,7 4,6 4,4 4,7 4,9 5,2 5,4 5,1 5,6

Ejercicio 10. Se hizo un estudio neurofisiológico sobre la conducción motora tibial posterior en dos grupos de pacientes embarazadas con las siguientes determinaciones: Conducción motora tibial posterior Primer grupo 51 40 41 53 48 50 45 58 45 44 Segundo grupo 58 43 40 45 41 42 44 52 56 48 Comprobar la igualdad o no de ambas muestras. Ejercicio 11. En un experimento diseñado para estimar los efectos de la inhalación prolongada de óxido de cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras que 10 animales similares sirvieron de controles. La variable de interés fue el nivel de hemoglobina después del experimento. Se desea saber si puede concluirse que la inhalación prolongada de óxido de cadmio disminuye el nivel de hemoglobina según los siguientes datos que presentamos: Nivel de hemoglobina Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3 15'7 16'7 13'7 15'3 14'0 No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8

189

tiene dos formas de determinar su valoración suponiendo inicialmente que ambos métodos miden igualmente la extroversión.PROB[B] . A 11 ratas tratadas crónicamente con alcohol se les midió la presión sanguínea sistólica antes y después de 30 minutos de administrarles a todas ellas una cantidad fija de etanol. Opción d: PROB[ no A] = 1-PROB[A] para todo A. Pregunta 1. Opción b: PROB[A]> 0 para todo A. 21 24 29 7 11 13 8 11 190 . Opción e: Sólo (a) y (c) son correctas. obteniéndose los datos siguientes: Presión sanguínea sistólica Antes 126 120 124 122 130 129 114 116 119 112 118 Después 119 116 117 122 127 122 110 120 112 110 111 ¿Hay un descenso significativo de la presión sanguínea sistólica tras la ingestión de etanol? Ejercicio 13.Elaborado por: Ing. Opción b: Es la derivada de la función de distribución. Pregunta 2. Cuál de los siguientes es uno de los axiomas de probabilidad: Opción a: PROB[A]< 1 para todo A. Óscar Flores Pérez Bioestadística Ejercicio 12. La función de densidad de una variable aleatoria continua: Opción a: Siempre es no negativa. Un test de personalidad.PROB[ A interseccion B] para todos A y B. Opción c: El área encerrada por ella y el eje X vale uno. Para ello se estudia en 12 personas obteniéndose los siguientes resultados: Medida de la extraversión Forma A 12 18 21 10 15 27 31 6 15 13 8 10 Forma B 10 17 20 5 ¿Hay diferencia entre los dos métodos? Test general. Opción d: Todo lo anterior es cierto. Opción e: PROB[A unionB] = PROB[A] . Opción c: PROB[E]= 1 cuando E es el suceso seguro.

Opción c: Los sucesos elementales son independientes entre sí en cada experimento. Por conglomerados. Óscar Flores Pérez Pregunta 3. se selecciona aleatoriamente uno de ellos. Especificidad y verdaderos negativos Falsos positivos y verdaderos positivos. Opción e: Equidistante. Opción b: Sistemático. atendiendo al tipo de cáncer: El muestreo realizado es: Opción a: Opción b: Opción c: Opción d: Opción e: Sistemático. cuando un experimento se realiza un número elevado de veces. Este procedimiento de muestreo se denomina: Opción a: Por conglomerados. 191 . Se realiza un estudio con objeto de determinar el tiempo de supervivencia en pacientes con cáncer. Pregunta 5. será necesario conocer: Opción a: Opción b: Opción c: Opción d: Opción e: Sensibilidad y verdaderos positivos Prevalencia. Verdaderos positivos y especificidad. Opción b: Es muy pequeña la probabilidad de un suceso elemental. Estratificado. Para ello de los dos hospitales existentes en una ciudad. Pregunta 4. Por conglomerados y estratificado. Opción c: Correlativo. Pregunta 6. Se realiza una auditoría de historias clínicas tomando una primera historia al azar y después sucesivamente. y se elige una muestra aleatoria de pacientes. Opción d: Consecutivo. Opción e: Contabiliza en qué momento ocurre por primera vez un suceso elemental. Aleatorio. Opción d: Se debe verificar todo lo anterior simultáneamente.Elaborado por: Ing. Una variable de Poisson se caracteriza por: Bioestadística Opción a: Contabiliza el que se repita cierto número de veces un suceso elemental. la que ocupa la vigésima posición detrás de la anterior. Para conocer los índices predictivos en un test diagnóstico para una enfermedad que tiene un 1% de afectados en la población.

la de tener la enfermedad B es del 10% y la de tener al menos una de las dos es del 13%. Existe una probabilidad del 75% de que esté sana. Qúe propiedad o propiedades caracterizan a una distribución normal tipificada frente a una distribución normal cualquiera: Opción a: Opción b: Opción c: Opción d: Opción e: El área bajo su función de densidad es igual a 1. Opción d: Contabilizando el número de tests negativos en una muestra aleatoria de sanos.Elaborado por: Ing. Opción e: Ninguna de las anteriores es cierta. Existe una probabilidad del 75% de que esté enferma. 192 . Pregunta 10. Entonces: Opción a: Opción b: Opción c: Opción d: Opción e: Esta sana. Su rango de valores oscila entre 0 y 3. Cierta persona pasa el test con resultado negativo. Su media es 1 y su desviación típica es 0. Son ciertas (c) y (d) Pregunta 9. ¿cúal es la probabilidad de tener las dos? Opción a: Opción b: Opción c: Opción d: Opción e: Cero 1% 2% 5% 8% Pregunta 8. Esta enferma. Opción b: Contabilizando el número de tests negativos en una muestra aleatoria de individuos. Si la probabilidad de tener la enfermedad A es del 5%. Su media es 0 y su desviación típica es 1. Cierto tests diagnóstico acierta sobre el 100% de los individuos enfermos y el 50% de los sanos. ¿Cómo se calcula la sensibilidad de un test diagnóstico? Opción a: Contabilizando el número de tests positivos en una muestra aleatoria de individuos. Existe una probabilidad del 50% de que esté sana. Opción c: Contabilizando el número de tests positivos en una muestra aleatoria de enfermos. Óscar Flores Pérez Bioestadística Pregunta 7.

Elaborado por: Ing. Elegida una persona al azar: Opción a: Opción b: Opción c: Opción d: Opción e: Hay una probabilidad del 50% de que esté enferma. El nivel de significación de un test de hipótesis: Opción a: Suele ser pequeño y lo fija el investigador o un convenio generalmente aceptado. Opción d: Una distribución Ji-cuadrado simétrica. Ninguna de las anteriores es cierta. Queremos calcular PROB[X<3] en una variable de Poisson. Pregunta 15. La edad de los individuos de una población sigue una distribución normal. Opción e: Una distribución de Bernoulli con media 2. Opción c: Al disminuir hace aumentar la probabilidad del error de tipo II. Opción b: Una distribución gaussiana con la media igual a la varianza. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos y el 0% de los individuos enfermos. Entonces: Opción a: Aproximadamente el 95% de los pacientes tienen edades entre 30 y 70 años. De las siguientes situaciones. cuando esto es falso. El test será negativo. Se extrae aleatoriamente una muestra de 300 pacientes cuya media es de 50 años. Opción d: Todo lo anterior es cierto. 193 . Hay una probabilidad del 0% de que esté enferma. Opción c: Aproximadamente el 95% de los pacientes tienen edades entre 40 y 60 años. Opción b: Existe una probabilidad del 95% de que la verdadera media de la población esté entre 30 y 70 años. y la desviación típica es 10 años. Hay una probabilidad del 100% de que esté enferma. señale cuál es posible: Opción a: Una distribución de Poisson de media -2. Pregunta 12. Opción c: Una distribución normal de varianza nula. Pregunta 14. Opción e: Todo lo anterior es falso. Opción b: Da la probabilidad de declarar significativo el resultado de un test. Esto es: Opción a: Opción b: Opción c: Opción d: Opción e: F(3) F(2) 1-F(3) 1-F(2) Ninguna de las anteriores. Óscar Flores Pérez Bioestadística Pregunta 11. Pregunta 13.

Opción e: Existe una probabilidad del 95% de que la verdadera media de la pobllación esté entre 45 y 55 años. Opción c: La probabilidad de rechazar la hipótesis nula. Opción b: Se rechaza la hipótesis de menor probabilidad. Pregunta 18. Opción b: Fijada antes de realizar el contraste. Un estudio sobre la efectividad de un fármaco llega a la conclusión de que éste es mejor que el placebo con p<0. En todo contraste de hipótesis: Opción a: Se acepta la hipótesis de mayor probabilidad. Opción d: Todo lo anterior es cierto. Opción c: La hipótesis nula se elige según el principio de simplicidad científica.05 ¿Cuál es la interpretación correcta de este resultado? Opción a: Con toda seguridad. existe menos del 5% de probabilidad de observar unas muestras tan contrarias a dicha hipótesis como las obtenidas. Opción e: Si el tratamiento no fuese efectivo. Pregunta 19.Elaborado por: Ing. Opción e: Conocida al extraer la muestra y calcular el estadístico experimental. Opción b: La probabilidad de que el nuevo tratamiento sea mejor que el placebo es superior al 95%. Pregunta 16. Opción e: Son ciertas (b) y (c). Un contraste de hipótesis se considera significativo si: Opción a: Una muestra aleatoria es coherente con la hipótesis nula. Opción d: Todo lo anterior es cierto. Opción e: Es necesario contrastar la normalidad de los datos. 194 . Opción c: El tratamiento es un 95% más efectivo que el placebo. Opción c: La hipótesis alternativa es más probable que la nula. Pregunta 17. el tratamiento es mejor que el placebo. Opción d: La probabilidad de que el placebo sea mejor que el nuevo fármaco es menor de 5%. Opción d: La probabilidad de error al rechazar la hipótesis alternativa. En un contraste de hipótesis la cantidad p es: Opción a: Un número pequeño. Óscar Flores Pérez Bioestadística Opción d: Existe una probabilidad del 95% de que la verdadera media de la pobllación esté entre 40 y 60 años. Opción b: Una muestra aleatoria no es coherente con la hipótesis nula.

25 Opción e: 0. Opción d: Incorrecta. Óscar Flores Pérez Bioestadística Pregunta 20.20 Opción d: 0. En un grupo de 50 pacientes se ha obtenido un valor de glucemia medio de 90mg/dL. Opción b: Un muestreo aleatorio estratificado.Elaborado por: Ing. Opción c: Un muestreo aleatorio por conglomerados.10 Opción b: 0. Opción c: La hipótesis nula es más probable que la alternativa. Pregunta 21. 300 tienen alteración de la nutrición. Entonces: Opción a: Fuman tantos hombres como mujeres. Se desea estimar confidencialmente el número medio de veces que asiste a un servicio de salud los individuos de una población. Para ello se toman muestras aleatorias entre los individuos que asisten regularmente a los mismos. Opción d: Todo lo anterior es cierto. Un contraste de hipótesis se considera no significativo si: Opción a: Una muestra aleatoria es coherente con la hipótesis nula. Suponiendo la normalidad de los datos. hay tantos hombres como mujeres. Opción e: Son ciertas (a) y (c).15 Opción c: 0. Opción c: Por cada hombre fumador hay dos mujeres fumadoras.30 Pregunta 24. En una población. 195 . con una desviación típica de 15. el 20% son varones y fumadores y el 20% de las mujeres fuman. ¿cuál será la mejor estimación del número de pacientes que tienen un nivel de glucemia entre 90 y 105 Opción a: 15. De una población de 500 pacientes. Esta técnica de muestreo es: Opción a: Un muestreo aleatorio simple. de los cuales 50 son mujeres. Opción b: Por cada mujer fumadora hay dos hombres fumadores. La probabilidad de que un paciente escogido al azar sea mujer con desnutrición es: Opción a: 0. Opción b: 17 Opción c: 20 Opción d: 25 Opción e: 34 Pregunta 23. Opción b: Una muestra aleatoria no es coherente con la hipótesis nula. Opción e: Ninguna de las anteriores. Pregunta 22. al 50% hombres y mujeres.

Opción e: Nada de lo anterior es cierto. En un intervalo de confianza para una media. ¿Cuál de las siguientes razones podrían ser causantes del resultado? Opción a: Los tratamientos ofrecen tiempos de supervivencia muy diferentes. Opción e: Nada de lo anterior es cierto. entonces: Opción a: Siempre que sucede el uno. Opción c: Todos los sucesos elementales son independientes entre si.Elaborado por: Ing. señale la afirmación correcta: Opción a: Ningún suceso elemental pertenece a dos sucesos de dicho sistema. Opción e: Aumentar la varianza muestral. Dado un sistema exhaustivo y excluyente de sucesos. Opción d: Las muestras son demasiado pequeñas. Opción d: Dándose uno de ellos. Opción c: Las muestras son demasiado numerosas. Opción c: Aumentar la confianza. Opción d: Disminuir la varianza muestral. Opción b: Todo suceso elemental pertenece a algún suceso del sistema. Óscar Flores Pérez Opción d: Hay un 40% de fumadores en la población. Opción e: Sólo (a) y (b) son ciertas. Opción e: Nada de lo anterior. Opción d: Todos los sucesos elementales tienen la misma probabilidad de ocurrir. Pregunta 28. sucede el otro. Opción c: No pueden ocurrir simultáneamente. Si dos sucesos son incompatibles. Se realiza un estudio para saber si dos tratamientos de quimioterapia presentan diferencias en cuanto a la supervivencia de los pacientes. se verifica el otro. Pregunta 27. Pregunta 26. puede darse el otro. No se encontró diferencia estadísticamente significativa. 196 . buscamos disminuir el margen de error. Opción b: El nivel de significación es demasiado alto. Cuál de las siguientes posibilidades nos permite realizarlo: Opción a: Aumentar el tamaño muestral y la confianza. Bioestadística Pregunta 25. Opción b: Siempre que uno de ellos no se verifica. Opción b: Aumentar el tamaño muestral y disminuir la confianza.

Pregunta 31. y se observan los resultados.Elaborado por: Ing. cuál se corresponde con un error de tipo II: Opción a: Aceptar que un tratamiento ineficaz produce efectos útiles. Opción c: De un suceso unión. Pregunta 32. Opción e: Todo lo anterior. Opción b: La incidencia de la enfermedad en la población. Para estudiar la efectividad de un test diagnóstico ante una enfermedad se toma un grupo de 200 personas enfermas y 200 que no la padecen. De las siguientes. Pregunta 33. Opción d: A posteriori. Opción b: Rechazar que un tratamiento ineficaz produce efectos útiles. Opción d: El conjunto de los sucesos elementales en la recta real. Opción e: Nada de lo anterior es cierto. Opción c: El índice predictivo de verdaderos positivos. Opción d: A posteriori. Pregunta 30. 197 . Opción e: De un suceso complementario. ¿Qué podemos estimar directamente de ellos? Opción a: La sensibilidad y especificidad del test.1]. Opción b: el conjunto de sucesos en el intervalo [0.1]. Opción e: Es una variable real en la que influye el azar. El porcentaje de individuos con bronquitis entre los fumadores se puede interpretar como una probabilidad: Opción a: De un suceso intersección Opción b: Condicionada. Opción c: De un suceso unión. Opción e: De un suceso complementario. Una variable aleatoria es una aplicación de: Bioestadística Opción a: el conjunto de sucesos elementales en el intervalo [0. Opción d: Son correctas (a) y (c). Opción d: Rechazar que un tratamiento eficaz produce efectos útiles. El porcentaje de individuos fumadores o con bronquitis se puede interpretar como una probabilidad: Opción a: De un suceso intersección Opción b: Condicionada. Opción c: Los intervalos de la recta real en el conjunto de los sucesos elementales. Opción c: Aceptar que un tratamiento eficaz produce efectos útiles. Óscar Flores Pérez Pregunta 29.

Opción e: nada de lo anterior es cierto. EL 25% de ellos lo sabe.Elaborado por: Ing. Opción b: El índice predictivo positivo se obtiene directamente de la noción frecuentista de probabilidad. ¿Qué tasa de individuos tiene osteoporosis y lo desconoce? Opción a: 3% Opción b: 6% Opción c: 9% Opción d: 12% Opción e: 25% Pregunta 36. Pregunta 35. Óscar Flores Pérez Bioestadística Pregunta 34. Opción e: De un suceso complementario. Opción c: De un suceso unión. La osteoporosis afecta 4 veces más a mujeres que a hombres. Elija la afirmación correcta relativa a pruebas diagnósticas: Opción a: La sensibilidad se obtiene usando la noción subjetiva de probabilidad. 198 . El 12% de los individuos de una población padece osteoporosis. Opción d: La prevalencia de la enfermedad se obtiene a partir del teorema de Bayes. El porcentaje de individuos con bronquitis que además son fumadores se puede interpretar como una probabilidad: Opción a: De un suceso intersección Opción b: Condicionada. Opción c: La tasa de verdaderos positivos se obtiene directamente de la noción frecuentista de probabilidad. Opción d: A posteriori. ¿Cuál es la prevalencia de la osteoporosis en la población? Opción a: 2% Opción b: 5% Opción c: 8% Opción d: 10% Opción e: 2% Pregunta 37. El 8% de las mujeres padece osteoporosis en una población donde hay tantos hombres como mujeres.

qué me puede servir directamente para saber si una observación de una variable aleatoria es anómala: Opción a: Opción b: Opción c: Opción d: Opción e: El valor de la función de densidad. Óscar Flores Pérez Bioestadística Pregunta 38. Entre 130 y 170. Entre 110 y 190. Pregunta 39. La población de estudio es la de los abonados a telefónica. Nada de lo anterior es cierto. La variable aleatoria número de éxitos se describe mejor como: Opción a: Opción b: Opción c: Opción d: Opción e: Bernoulli. 199 . El valor esperado de la variable. Deseamos conocer la opinión de los ciudadanos de Málaga sobre el sistema de salud pública. y un coeficiente de variación del 10%.Elaborado por: Ing. El nivel medio de glucemia en una población tiene un comportamiento gausiano co n media 150mg/dl. Normal. Binomial. Para ello elegimos una muestra aleatoria de entre los abonados a telefónica. El valor de la función de distribución. Cualquiera de las anteriores valdría. La población objetivo es la de los abonados a telefónica. Entre qué valores se situa el 95% de los individuos de la población. El valor de la varianza. Pregunta 41. Pregunta 40. Poisson. De los siguientes. Entonces: Opción a: Opción b: Opción c: Opción d: Opción e: La población de estudio es la de los ciudadanos de Siuna.3. Nada de lo anterior. Se realiza el mismo experimento dicotómico aleatorio 5 veces. Entre 120 y 180. siendo la probabilidad de éxito en cada uno de ellos de 0. Opción a: Opción b: Opción c: Opción d: Opción e: Entre 140 y 160. El conjunto de abonados a telefónica son la muestra. Entre 100 y 200.

si la hipótesis nula fuese cierta. Se quiere hacer un estudio sobre el tabaquismo en el Municipio de Siuna. Opción d: Tiene probabilidad pequeña. Estratificado. si la hipótesis nula fuese cierta. pues creemos que en cada una de esas zonas la incidencia es diferente. Se realiza un experimento donde nos basaremos en un contraste de hipótesis para tomar una decisión con un nivel de significación del 1%. típicamente. Sistemático. Por grupos. Una probabilidad. Queremos asegurarnos tener cierto número de individuos de la zona litoral. Óscar Flores Pérez Bioestadística Pregunta 42. De las siguientes cuál no es un resultado posible de un contraste de hipótesis: Opción a: Opción b: Opción c: Opción d: Opción e: El experimento no es concluyente. si la hipótesis alternativa fuese cierta. la región crítica: Opción a: Tiene probabilidad pequeña. Un nivel de significación. Se rechaza la hipótesis alternativa. Pregunta 44. Pregunta 43. Opción e: Nada de lo anterior. Se rechaza la hipótesis nula. da por respuesta: Opción a: Opción b: Opción c: Opción d: Opción e: Una aproximación de la media. Una aproximación de una proporción.Elaborado por: Ing. Pregunta 45. Se acepta la hipótesis alternativa. Una estimación confidencial para un nivel de confianza fijado. No probabilístico. Opción b: Esta situada en la zona de mayor probabilidad. la capital y del interior. Un intervalo. Opción c: Tiene probabilidad grande. 200 . El experimento permite obtener conclusiones. Haremos un muestreo: Opción a: Opción b: Opción c: Opción d: Opción e: Aleatorio simple. En un contraste de hipótesis. si la hipótesis nula fuese cierta.

Pueden existir sesgos. Nada de lo anterior es correcto. Nos preguntamos cuántos de dichos individuos podrán reaccionar mal en esa muestra tan numerosa.85. Elija la afirmación falsa: Bioestadística Opción a: El nivel de significación es normalmente un valor pequeño. Y=tener secuelas en un accidente de moto sin casco es una V. 201 . Si la variable aleatoria X=tener secuelas en un acccidente de moto con casco tiene una probabilidad p=0. Todos los anteriores. Binomial Bernoulli Poisson Ninguna es correcta Pregunta 48. Dos de cada 100 individuos reaccionan mal ante determinado tratamiento.A. La V. Podríamos describirlo usando: Opción a: Opción b: Opción c: Opción d: Opción e: Un modelo Binomial. Un modelo de Poisson. Opción c: El nivel de significación de un contraste debe ser fijado antes de analizar los datos. Cuando la población objetivo y de estudio en un muestreo difieren mucho. Ninguno de los anteriores. Opción a: Opción b: Opción c: Opción d: Opción e: Bernoulli con p=0. Opción b: La significación de un contraste es conocida tras analizar los datos.Elaborado por: Ing. Óscar Flores Pérez Pregunta 46. Se debe usar un muestreo no probabilístico. Pregunta 47. No pueden selec cionarse unidades de muestreo.A. Pregunta 49. Si decidimos aplicarlo sobre 1000 personas.15. entonces: Opción a: Opción b: Opción c: Opción d: Opción e: Debe usarse el método de respuestas aleatorizadas. Un modelo normal. Opción d: Un contraste debe ser declarado significativo antes de recoger los datos. Opción e: Un contraste es declarado significativo si se obtiene una muestra que discrepa mucho de la hipótesis nula.

Pregunta 54. la probabilidad de que realmente esté enferma es: 202 . de forma que el 95% de los individuos presenta unos niveles comprendidos entre 10 y 18. De un suceso complementario. Opción a: Opción b: Opción c: Opción d: Opción e: De un suceso intersección Condicionada. Opción a: Opción b: Opción c: Opción d: Opción e: La varianza es 8 La desviación típica es 8. En una población. Pregunta 52. Elija la afirmación correcta: Opción a: La media de la muestra valdrá 95cm. Si de ellos. De un suceso unión. Óscar Flores Pérez Bioestadística Pregunta 50. el 30% no está diagnósticado.. La incidencia de la enfermedad en la población es del 50%. esta cantidad puede entenderse como una probabilidad. La creatinina se distribuye normalmente. Una prueba diagnóstica de cierta enfermedad. El 2% de la población padece diabetes. Si se pasa el test a una persona y sale positivo. el 5% son enfermos diagnosticados de una enfermedad. la cual padece el 10% de la población. Opción b: La media de la muestra será un valor comprendido entre 90 y 100 cm con confianza del 68%. Pregunta 51. Opción e: Todo lo anterior es falso.Elaborado por: Ing. El perímetro torácico en un grupo de militares presenta distribución gaussiana con 95 cm de media y 5 cm de desviación típica. tiene una tasa de aciertos del 90% tanto sobre enfermos como sanos. A posteriori. Elegimos a una muestra de 100 indivíduos y calculamos la media de la misma. La probabilidad de estar diagnósticado para un individuo enfermo es: Opción a: Opción b: Opción c: Opción d: Opción e: 2% 5% 15% 50% No puede calcularse con esos datos. La varianza es 4. Pregunta 53. La desviación típica es 4.. Opción d: La media de la muestra será un valor comprendido entre 94 y 96 cm con confianza del 95%. Opción c: La media de la muestra será un valor comprendido entre 95 y 100 cm con confianza del 95%. Todo lo anterior es falso.

pero no ambos a la vez. Opción c: Cuando se pueda. Siempre ocurre al menos uno de los dos. Si elegimos posteriormente una muestra de tamaño 9 veces mayor: Opción a: Opción b: Opción c: Opción d: Opción e: El error típico se reducirá a la tercera parte. Pregunta 57. Si dos sucesos son independientes: Opción a: Opción b: Opción c: Opción d: Opción e: No pueden ocurrir a la vez. Se desea estimar la media de una población. Óscar Flores Pérez Bioestadística Opción a: Opción b: Opción c: Opción d: Opción e: 45% 50% 75% 90% 100% Pregunta 55. La concentración de calcio se comporta en los mamíferos como una distribución normal de media 10 y desviación típica 2. Opción d: El muestreo aleatorio simple es normalmente el más económico en la práctica. Elija la afirmación correcta sobre teoría de muestreo: Opción a: La población de estudio es aquella de la que finalmente extraeremos una muestra aleatoria. Para ello se elije una muestra de cierto tamaño.5% Pregunta 56. El error típico se triplicará. se prefieren los muestreos no probabilísticos.Elaborado por: Ing. El error típico será 81 veces menor. Siempe ocurre uno o otro. el otro no puede ocurrir. ¿Con qué frecuencia se encuentran mamíferos con una concentración superior a 14? Opción a: Opción b: Opción c: Opción d: Opción e: 95% 68% 50% 5% 2. El error típico disminuirá a la novena parte. Opción b: El sesgo de selección es la diferencia existente entre la población de estudio y la muestra. Todo lo anterior es falso. Si pasa uno. Pregunta 58. Opción e: El mejor tipo de muestreo es el sistemático. 203 . El error típico disminuirá en tres unidades.

Pregunta 62. Si elijo una muestra de tamaño 100. 204 . Entre 2498 y 2502.Elaborado por: Ing. con media 2500 y desviación típica 100. La curtosis es cero. Sólo dos de las anteriores son correctas. Se define la sensibilidad de un test como: Opción a: La probabilidad de que si el test da positivo el sujeto esté enfermo. Todo lo anterior es cierto. Entre 2490 y 2510. El 95% central de los individuos tiene un IMC comprendido entre 20 y 24. la probabilidad de que esté enfermo es: Opción a: Opción b: Opción c: Opción d: Opción e: 20% 40% 50% 60% 80% Pregunta 61. Entre 2480 y 2520. Una enfermedad tiene una incidencia del 50% en la población. entre qué valores espero encontrar el resultado (con una probabilidad del 95% de acertar): Opción a: Opción b: Opción c: Opción d: Opción e: Entre 2400 y 2600. Pregunta 60. La desviación típica es 1. Óscar Flores Pérez Bioestadística Pregunta 59. Un test para detectarla posee una tasa de verdaderos positivos del 80%. Entonces: Opción a: Opción b: Opción c: Opción d: Opción e: La media es 22. Todas las anteriores son correctas. El consumo diario de Calorías se distribuye en una población de forma normal. Pregunta 63. Opción b: La probabilidad de que si el sujeto está enfermo el test de positivo. El IMC se distribuye en una población de forma normal. Entre 2300 y 2700. La probabilidad de la intersección es cero. y de falsos positivos del 20%. Si dos sucesos A y B son incompatibles (excluyentes): Opción a: Opción b: Opción c: Opción d: Opción e: La intersección es el conjunto vacío. La probabilidad de la unión es la suma de las probabilidades. Sólo dos de las anteriores son ciertas. Si un individuo resulta ser positivo.

74 0. Pregunta 64. Un intervalo de confianza será más amplio cuando: Opción a: Opción b: Opción c: Opción d: Opción e: La varianza sea mayor El nivel de confianza sea mayor.802 0. Todas las anteriores son correctas Sólo dos de las anteriores son ciertas. Pregunta 65. Opción d: La hipótesis nula es aquella para la que buscamos evidencia a favor. Opción e: Ninguna de las anteriores. Señale la respuesta falsa en lo que concierne a los contrastes de hipótesis: Opción a: La hipótesis nula puede ser rechazada. Opción b: La hipótesis alternativa puede ser aceptada. El tamaño de muestra sea mayor. Opción e: La hipótesis alternativa se opone a la nula.088 0. Opción c: Si no se rechaza la hipótesis nula. Escogida una persona al azar es deportista.Elaborado por: Ing. Escogidos diez sujetos al azar la probabilidad de que lo presenten 4 es: Opción a: Opción b: Opción c: Opción d: Opción e: 0. frente al 25% de las mujeres. Pregunta 66. Óscar Flores Pérez Bioestadística Opción c: La probabilidad de que si el test da negativo el sujeto esté sano.25 No puede calcularse con esos datos. En una población el 30% son hombres de los cuales son deportistas el 20%. Opción d: La probabilidad de que si el sujeto está sano el test de negativo. Pregunta 67.2001 0.020 No puede calcularse con esos datos. 205 . La probabilidad de que sea mujer es (aproximadamente): Opción a: Opción b: Opción c: Opción d: Opción e: 0.235 0. los resultados no son concluyentes. Determinado efecto secundario se presenta en un tratamiento con una probabilidad del 30%.60 0.

considere que resultaría mas económico o mas eficaz aplicar un muestreo estratificado en lugar de uno aleatorio. Óscar Flores Pérez Pregunta 68. Respuesta: 12. ¿Por qué se lograrán o no muestras aleatorias con este procedimiento? Respuesta: 9. Una agencia desea obtener una muestra de 200 adultos de cierta zona residencial de la ciudad de Siuna. No rechazar H_0 cuando es cierta. El error de tipo I consiste en: Opción a: Opción b: Opción c: Opción d: Opción e: Bioestadística rechazar H_0 cuando es falsa. Respuesta: 206 . La muestra se consigue mediante elección al azar de 10 cajas y la ulterior elección aleatoria de 2 huevos de cada caja de muestra. Suponga que se examinaron los 36 huevos de las cajas de la muestra. No rechazar H_0 cuando es falsa. 10. rechazar H_0 cuando es cierta. ¿De que tipo de muestra se trata? 11. sea afirmativa o negativa. Se propone cumplir su objetivo extrayendo una muestra aleatoria de 200 casas de familia de los que aparecen en una lista de todas las casas del sector urbano y selecciona luego al azar un adulto de cada casa. De un ejemplo de una población en la que ud. 8. La probabilidad de rechazar H_0 cuando es falsa. Se quiere tener una muestra de huevos a efecto de determinar su calidad. ¿La varianza de muestreo seria en este caso igual a cero? Fundamente su respuesta. El embarque consiste en 100 cajas con 36 docenas de huevos cada una. Respuesta: variada. Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la universidad Uraccan las minas.Elaborado por: Ing.

Respuesta: ¿? 14. Niños en una comunidad de menos de 5 años de edad y que hayan tenido sarampión. en un campo de maíz. si este campo es un cuadrado cuyo lado mide 1000 m y si cada muestra se toma eligiendo un punto al azar en el cuadrado y recogiendo el maíz que se encuentre dentro de un circulo de 5 m de diámetro cuyo centro se hala en el punto tomado al azar? Respuesta. ¿Cuál es la variable aleatoria? d. para obtener muestras de: Árboles de un bosque. El número de palabra de un libro se determina seleccionando una muestra de páginas y contando el número de palabras en esas paginas. ¿? 207 . c. ¿Cual es la población? Respuesta: ¿Cómo usaría ud números al azar par tomar muestras de maíz.Elaborado por: Ing. Sugiera un plan para muestreo aleatorio. En cada caso indica alguna variable a estudiar. Óscar Flores Pérez Bioestadística 13.

Sign up to vote on this title
UsefulNot useful