P. 1
Bioestadística

Bioestadística

|Views: 1.311|Likes:
Publicado porosflope

More info:

Published by: osflope on Dec 01, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

05/29/2013

pdf

text

original

Universidad de las Regiones Autónomas de la Costa Caribe Nicaragüense. Uraccan las Minas.

BIOESTADÍSTICA

Carrera: Ingeniería En Zootecnia Modalidad: Regular. Documento Recopilado Y Adecuado Por: Oscar Flores Pérez. Autorizado por: Secretaria académica, las minas. Actualizado Siuna, 2007.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Presentación
Comenzar a entender la Estadística requiere un cambio de mentalidad, no difícil, pero sí fundamental. Has de pasar de una mentalidad determinista a una mentalidad probabilista. Normalmente, tendrás la idea (bastante natural, por cierto), de que existe una relación de causa a efecto entre las cosas. Si tiras al suelo agua (causa), el suelo se moja (efecto). Esto es algo determinista; si lo haces un millón de veces, observarás una y otra vez el mismo resultado. No se trata de algo probable, que unas veces ocurre y otras no. La Estadística, en cambio, se basa precisamente en lo contrario; analiza cosas que unas veces ocurren y otras no, es decir, fenómenos que implican cierta incertidumbre, cierta probabilidad. En principio, parece que tales hechos deben ser raros o, al menos, que en la vida cotidiana no te los vas a encontrar. Pero resulta que la incertidumbre es algo tan común que casi pasa inadvertida. Por ejemplo, si coges una regla y mandas a medir la longitud de una mesa a 10 amigos, probablemente se obtengan varias medidas diferentes. ¿Cómo es posible, si se trata de la misma mesa y de la misma regla? Simplemente las diferencias entre personas en la forma de coger la regla, en cómo consideran el ajuste entre el borde de la mesa y la escala de la regla, en su tendencia a redondear si la medida de la mesa no se ajusta exactamente a una marca en la regla, etc., introducen variación. Esto se conoce por error de medida. Pero hay otras fuentes de variación que no dependen de la meticulosidad de una medida ni de lo sofisticado del aparato utilizado. Imagínate que no se trata de medir una mesa sino de determinar el peso de una especie cualquiera de ave, recogida durante una sesión de anillamiento. Probablemente, si tus 10 amigos realizan ese ejercicio se obtendran 10 pesos diferentes. A las diferencias entre personas, en este caso, hay que añadir que, probablemente, cada uno ha capturado y pesado individuos diferentes, que difieren en edad, sexo y condición física, por no hablar de la constitución genética, etc. La variación es algo omnipresente en la naturaleza, y esa es la fuente de incertidumbre, o sea, de probabilidades. Uno puede tratar de describir esa variación con palabras (muchos, pocos, grandes, pequeños, azules, amarillos,...). En algunos casos, eso es suficiente. Pero no cuando uno pretende acercarse a los detalles de un fenómeno natural. La Estadística permite describir esa variación en forma de números, lo cual resulta mucho más conveniente. Por tanto, el primer paso a dar para comprender la utilidad de la Estadística es admitir que existe variación en la naturaleza e incertidumbre en cualquier conjunto de observaciones; en resumen, adquirir una mentalidad probabilista. No es casualidad que en Estadística se use el término "variable". Las tres aplicaciones de la Estadística que se discuten en este documento tienen como objetivo, en el fondo, tratar con esa variación.

2

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Bioestadística
PRESENTACIÓN.
El presente documento esta dirigido a estudiantes universitarios y profesionales de las ciencias pecuarias y biológicas para que sirva de consulta acerca de la metodología estadística aplicada a las ciencias biológicas. Este documento requiere de una destreza razonable en álgebra para comprender los conceptos y métodos que fundamentan los cálculos. Asimismo se debe hacer énfasis en el aprendizaje basado en la comprensión intuitiva de los principios, y no en la comprensión de conceptos matemáticos complejos. En estos días de comunicación masiva y almacenamiento de información que se han hecho posibles gracias a los adelantos técnicos, la habilidad para entender y usar adecuadamente la información ha adquirido importancia creciente en todos los campos de las ciencias. No solo es importante saber usar apropiadamente la información disponible, también es esencial saber como recopilar la información adecuada para tomar decisiones si no se cuenta con tal información. A pesar de la extensa gama de campos de aplicación y la diversidad de problemas que se tratan, es posible analizar la naturaleza fundamental de los métodos estadísticos. La estadística en su forma más sencilla, como se aplica a problemas no sofisticados, trata con datos obtenidos al tomar muestras de alguna fuente y con el uso que ha de darse a tal información para sacar ciertas conclusiones acerca de dicha fuente. Los métodos estadísticos se aplican generalmente a diverso campos, tales como la agricultura, negocio, educación, ingeniería, gobierno, medicina, etc.; debe existir, por tanto, una parte central de la teoría y métodos que sea aplicable a todos esos campos. Los objetivos de este documento son: ⇒ Enseñar al estudiante a organizar y procesar datos (estadística descriptiva), ⇒ Enseñarle como tomar decisiones a partir de un gran volumen de datos al examinar solo una pequeña parte de ellos (Estadística inferencial). Nota: el estudiante debe ser capaz de inferir los modelos ejemplificados en este documento a ejercicios prácticos de su carrera o de su profesión. La inferencia de los modelos es lo más importante y no copiarlos al pie de letras.

3

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

I. INTRODUCCIÓN A LA BIOESTADÍSTICA.
Objetivos de la unidad. 1. Conocer la importancia de la Estadística y su campo de aplicación. 2. Valorar desde el punto de vista histórico el surgimiento y la importancia de la estadística. 3. Definir los conceptos básicos de Estadística. 4. Diferenciar los distintos tipos de variables según su naturaleza. 5. Comprender las técnicas de muestreos. 6. Establecer los criterios y normas mínimas que deben verificarse para construir y presentar adecuadamente los gráficos en el ámbito de la Estadística descriptiva. ¿Para qué sirve la estadística? La Ciencia se ocupa en general de fenómenos observables 1. ¿Resumir y describir la información? Estadística descriptiva Te permite organizar, resumir y describir la información recogida de modo que sea fácilmente comprensible para tí y para los demás, mediante el uso de: a) b) c) d) medidas de tendencia central: Media, Mediana, Moda, medidas de dispersión: Desviación Típica, Rango, Coeficiente de Variación, tablas, representación gráfica.

2. ¿Comparar valores medios entre grupos de datos? Contraste de hipótesis Te permite decidir si la variación entre grupos de datos es sistemática (debida a un fenómeno biológico) o meramente “ruido” debido a la variación natural existente en todo grupo de organismos, como se comentó al hablar de la mentalidad probabilista. Esto se logra mediante el uso de test estadísticos. La elección del test adecuado depende de: a) el tipo de variables, b) el número de muestras o tratamientos que se desea comparar, c) el cumplimiento de los requisitos necesarios para cada test (tests paramétricos y tests no paramétricos). 3. ¿Descubrir si hay relación entre dos variables? Medidas de asociación Te permite descubrir la existencia, dirección y fuerza de la relación entre dos variables, mediante:

4

Elaborado por: Ing. c) tablas de contingencia. tomar decisiones u obtener conclusiones. La Estadística es la Ciencia de la Descriptiva: Sistematización. 5 . Los modelos que crea la ciencia son de tipo determinista o aleatorio (estocástico) La Estadística se utiliza como tecnología al servicio de las ciencias donde la variabilidad y la incertidumbre forman parte de su naturaleza “La Bioestadística [. Voy a ello.. recolección. Definición. Resumiendo lo anterior se puede decir que la Estadística es la disciplina que se ocupa de 1) recolección. Óscar Flores Pérez a) correlación. ordenación y presentación de los datos referentes a un fenómeno que presenta variabilidad o incertidumbre para su estudio metódico. y 2) la obtención de inferencias a partir de un volumen de datos cuando se observa solo una parte. La Ciencia se desarrolla observando hechos. b) regresión.. Aquí simplemente he introducido el tipo de preguntas que la Estadística ayuda a resolver.] enseña y ayuda a investigar en todas las áreas de las Ciencias de la Vida donde la variabilidad no es la excepción sino la regla” Carrasco de la Peña (1982) 1. con objeto de Probabilidad: deducir las leyes que rigen esos fenómenos.1 Conceptos básicos. pero si sigues leyendo verás que tiene bastante sentido. El resto del documento trata con más detalle cada una de estas tres utilidades e intenta dejar claro por qué son interesantes e incluso necesarias cuando tienes que analizar tus datos. Pero antes es conveniente dar una serie de definiciones. Inferencial: y poder de esa forma hacer previsiones sobre los mismos. organización y procesamiento de datos. Bioestadística Reconozco que ahora mismo todo esto parece misterioso. formulando leyes que los explican y realizando experimentos para validar o rechazar dichas leyes.

. 1. ¿Sexo? ¿Sector laboral? ¿Otros factores? Recoger los datos (muestreo) ¿Estratificado? ¿Sistemáticamente? Describir (resumir) los datos obtenidos Tiempo medio de baja en fumadores y no fumadores (estadísticos) % de bajas por fumadores y sexo (frecuencias).. Cuantificar la confianza en la inferencia Nivel de confianza del 95% Significación del contraste: p =2% No tenéis que tenerlo aun 6 .2 Pasos en un estudio estadístico Plantear hipótesis sobre una población. gráficos. Cuando los datos que se analizan proceden de las ciencias biológicas se prefiere el termino bioestadística para distinguir las herramientas y conceptos de la estadística general.Elaborado por: Ing. Realizar una inferencia sobre la población Los fumadores están de baja al menos 10 días/año más de media que los no fumadores. Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades crónicas? Qué datos recoger de los mismos (variables) Número de bajas. Tiempo de duración de cada baja.. Los fumadores tienen “más bajas” laborales que los no fumadores ¿En qué sentido? ¿Mayor número? ¿Tiempo medio? Decidir qué datos recoger (diseño de experimentos) Qué individuos pertenecerán al estudio (muestras) Fumadores y no fumadores en edad laboral. Óscar Flores Pérez Bioestadística Bioestadística.

se tiene prácticamente una parte de la población (de pesos). El estudio también puede centrarse en bandos. colonias. Lo más normal es que se trate de individuos. entonces. Siuna. pero no tiene por qué ser así. También se denomina unidad de muestreo. Al suponer que una población de los pesos de todos los terneros menores de un año de un sistema semi estabulado de la Hacienda La Esperanza y se escoge para el análisis solo cierto número de los pesos. Normalmente es demasiado grande para poder abarcarlo. Así que en Estadística puede hablarse de una "población de picos de gaviota" o una "población de bandos" sin estar loco. las longitudes de los picos de las gaviotas.Elaborado por: Ing. una población consiste de una sucesión infinita de valores. Los terneros de repastos de la finca las Azucenas. Óscar Flores Pérez Bioestadística Unidad de estudio. Hay tantos y de tantas calidades que esa población podría considerarse infinita. Si se estudian. el número de alumnos de un centro de enseñanza. conjunto de individuos o cosas que tienen unas características comunes y a los que va referida toda investigación estadística. Por ejemplo. Esta formado por miembros “seleccionados” de la población (individuos. por otra parte. Muestra es un subconjunto suyo al que tenemos acceso y sobre el que realmente hacemos las observaciones (mediciones). Por ejemplo. se dice que la población es finita. Si. si se realizase un estudio sobre los productos que hay en el mercado. etc. Las poblaciones pueden ser finitas o infinitas. que son grupos de individuos. Población y muestra Población es el conjunto sobre el que estamos interesados en obtener conclusiones (hacer inferencia). Es decir. Si una población de valores consiste en un número fijo de esos valores. es decir. la población esta formada por todos esos pesos. es una parte de la población Debería ser “representativo”. Ejemplo. Ejemplo. Es cada elemento que va a ser estudiado. se tiene una muestra 7 . las unidades de estudio son partes de un individuo. es decir. o grupo de clase. entonces es una población infinita. por ejemplo. unidades experimentales). nidadas. si se tiene interés en conocer el peso de los niños inscritos en el sistema de educación primaria de la escuela Rafaela Herrera.

Parámetro: Es una cantidad numérica calculada sobre una población • La producción media en litros de leche de vaca de un país La idea es resumir toda la información que hay en la Población en unos pocos números (parámetros). La confianza dependerá del grado de precisión con que se haya construido la muestra de que los métodos utilizados sean los adecuados y de que se hayan aplicados correctamente. entre otras. calculamos un estimador sobre una muestra y “confiamos” en que sean próximos. Estadístico: Es una cantidad numérica calculada sobre una muestra ⇒ La producción media en litros de las vacas Holstin de la Hacienda El vaquero. carácter destructivo (algunos casos). la confiabilidad. ¿Qué grado de confianza podremos otorgar a estas deducciones? La muestra debe ser representativa de la población. ¿Por qué se estudia generalmente solo una parte de la población y no toda la población? Razones: costo económico. tiempo. Óscar Flores Pérez Las vacas de razas Holstin del Municipio de Siuna. Normalmente nos interesa conocer un parámetro. pero por la dificultad que conlleva estudiar a *TODA* la población. El objetivo final de la estadística no es otro que el de encontrar formas simples mediante las cuales se pueda hacer descripciones o informaciones cuantitativas o cuantitativas sobre una serie de datos. Somos una muestra (¿representativa?) de la población. validez. Más adelante veremos como elegir muestras para que el error sea “confiablemente” pequeño. los datos se obtienen solo de un grupo de población al que se denomina muestra y a partir de la cual se generalizan los resultados. accesibilidad (vida marina). Si un estadístico se usa para aproximar un parámetro también se le suele llamar estimador. Bioestadística Existen muchas clases de muestras que pueden escogerse de entre una población y lo abordaremos mas adelante. Pero por lo general.Elaborado por: Ing. 8 .

Hirundo rustica (especie). regiones. temperatura. Óscar Flores Pérez Elementos: individuos o cosas que integran la población Bioestadística Caracteres: rasgos. raza.. bosque (hábitat). La información que disponemos de cada individuo es resumida en variables.: peso. Ejemplos: temperatura. Ej. número de potreros. peso de erales. edad. Reales: Abstractos: Naturales: Artificiales: número de cuarterones. Variables Si una variable es una característica observable que varía entre los diferentes individuos de una población. propiedades o cualidades que poseen los elementos de la población sobre la que realizamos el estudio. color del pelaje. personas. Ordinal 9 . Ejemplos: 5 ºC (temperatura).. de uno a otro es variable: El grupo sanguíneo {A. Puede recibir otros nombres (caso. Variable es cualquier característica que ha sido medida.Elaborado por: Ing. B. número de huevos. peso de marranos. O} Su nivel de felicidad “declarado”. personas. intervalos de tiempo.. animales. macho (sexo de las aves). {Deprimido. parcelas de tierra.. Variable: Género Modalidades: H = macho M = hembra En los individuos de la población nicaragüense. para cada una de las unidades de estudio incluidas en la muestra. 3 (número de huevos). observación. Ejemplo de variable son la presión sanguínea diastólica. altura. Dato.. votos. medida). registrada o cuantificada durante el estudio realizado. Cualitativa Var. sexo de las animales. Ni fu ni fa. frecuencia cardiaca.. AB. especie. hábitat utilizado. Es cada uno de los registros o valores individuales que toma la variable que se ha medido. Muy Feliz} Var.

Elaborado por: Ing. el peso... Por ejemplo. Numérica discreta Var. numero de cabezas de ganado. perdida o caída de dientes en niños en la escuela primaria. Sin importar cuan cerca estén los pesos de dos animales. Se caracteriza por interrupciones o separaciones en la escala de valores que puede tomar. aunque sin establecer ninguna relación de orden entre ellas. {1’6. son aquella que pueden medirse en forma usual.. etc. 3. “Numero de “Cabezas de bovino” P. a. Número de partos de una vaca. Dosis de proteína suministrado en el concentrado. e. es decir toma valores enteros. 3. pero que puede expresarse de un modo cualitativo en forma de categorías. 32. etc. Las V.. e. 2. pero por ejemplo.45). peso de marranos.. Variable cualitativa. Estatura. Altura. Continuas pueden tomar cualquier valor dentro de un intervalo. peso... 2. Número de becerros (puede ser 1. Óscar Flores Pérez El número de cabezas de ganado.} Producción en litros de leche. etc. P.876 Kg. Número de terneros. puede ser 32 Kg. Estas separaciones indican la ausencia de valores entre los distintos valores específicos que la variable puede asumir. Presión intraocular. Cualquier variable no expresable en forma de números. número de cabezas de ganado. etc. Si entre dos valores. 10 .. 48. mediciones de alzada de la cruz de terneros machos.1. 40. Bioestadística Var..625. Numérica contínua Variable cuantitativa o Numéricas. 60. 2..} Tipos de variables.. nunca podrá ser 3. Variable aleatoria contínua una variable aleatoria continua puede tomar cualquier valor dentro de un intervalo especificado de valores es decir. {0. edad Ejemplo. 1’74. son posibles infinitos valores intermedios. teóricamente siempre es posible encontrar otro animal cuyo peso se encuentre entre las dos pesos de referencia. Si sus valores son numéricos (tiene sentido hacer operaciones algebraicas con ellos) Variable aleatoria discreta.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Ejemplos: sexo, hábitat, color, diagnóstico medico, grupo étnico, etc. Cualitativos o Atributos: Miden una cualidad y se representan por palabras. Ej.: color de pelaje, sexo, razas, nacionalidad.... A cada uno de los posibles valores de un atributo se le denomina modalidad. Ej.: en el atributo color de ojos: negro, marrón, azul y verde, son las distintas modalidades. Nominales: Si sus valores no se pueden ordenar. Sexo, Grupo Sanguíneo, Raza, Nacionalidad, vaquilla (Sí/No), el color del pelo, origen de la raza, etc. Ordinales: Aquella que no puede ser expresada en forma de números, pero que puede ser ordenada o clasificada según su magnitud. Ejemplos: escalas de abundancia, probabilidades de cría, mejoría a un tratamiento, Grado de satisfacción, Intensidad del dolor, selección de especies, el nivel de pisoteo en el suelo, etc. Variable aleatoria. Se refiere a valores (observaciones o mediciones) que se originan de factores aleatorios. Es buena idea codificar las variables como números para poder procesarlas con facilidad en un ordenador. Es conveniente asignar “etiquetas” a los valores de las variables para recordar qué significan los códigos numéricos. Sexo (Cualitativas: Códigos arbitrarios) 1 = Macho 2 = Hembra Raza (Cualitativas: Códigos arbitrarios) 1 = Criolla 2 = Holstin,... Felicidad Ordinal: Respetar un orden al codificar. 1 = Muy feliz 2 = Bastante feliz 3 = No demasiado feliz Se pueden asignar códigos a respuestas especiales como 0 = No sabe 99 = No contesta...

11

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Estas situaciones deberán ser tenidas en cuentas en el análisis. Datos perdidos (‘missing data’) Aunque se codifiquen como números, debemos recordar siempre el verdadero tipo de las variables y su significado cuando vayamos a usar programas de cálculo estadístico. No todo está permitido con cualquier tipo de variable. Los posibles valores de una variable suelen denominarse modalidades. Las modalidades pueden agruparse en clases (intervalos) Partos: Ninguno, de 2 a 3, más de 3 partos. Hijos: Menos de 3 terneros, 3 o más. Las modalidades/clases deben forman un sistema exhaustivo y excluyente. Exhaustivo: No podemos olvidar ningún posible valor de la variable Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)? Bien: ¿Cuál es su grupo sanguíneo? Excluyente: Nadie puede presentar dos valores simultáneos de la variable Estudio sobre el ocio. Mal: De los siguientes, qué le gusta: (deporte, cine) Bien: Le gusta el deporte: (Sí, No) Bien: Le gusta el cine: (Sí, No) Mal: Cuántas vacas paridas tiene: (Ninguna, Menos de 5, Más de 2) Ejercicios. 1. 2. 3. 4. 5. Describa dos poblaciones finitas y dos infinitas. Definir dos poblaciones con sus respectivas muestras. Describa dos variables continuas y dos variables discretas. Describa dos variables ordinales y dos nominales. Clasifique las Variables siguientes, o como v. contínua, o discreta, o atributo u ordinal: 5 variables (longitud del pico, número de sondeos, número de presas, sexo, nivel de marea).

Cómo redondear decimales. Para redondear esos decimales de más que aparecen al usar la calculadora o el ordenador, sólo hay que seguir unas reglas muy sencillas:

12

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

(1) si el último número después de la última cifra a considerar es igual o mayor que 6, se suma 1 a la última cifra; por ejemplo 6,32654 se redondea a dos cifras decimales como 6,33; (2) si el último número después de la última cifra a considerar es menor que 5, se deja la última cifra como está; por ejemplo 6,32654 se redondea a una cifra decimal como 6,3; (3) si el último número después de la última cifra a considerar es igual a 5, se redondea la última cifra al número par más próximo; por ejemplo, 6,32654 se redondea a tres cifras decimales como 6,326. 1.3

Muestreo.

En términos generales existen dos tipos de muestreo probabilístico y no probabilístico. En este documento base abordaremos con mayor énfasis el muestreo probabilístico, debido a que existen procedimientos estadísticos seguros que permiten inferir a partir de la muestra extraída de la población de interés. Definición. Una muestra probabilística es una muestra extraída de una población de tal forma que cada elemento tiene una probabilidad conocida de estar incluido en la muestra. Definición. Una muestra de tamaño n, extraída de una población de tamaño N, se llama muestra aleatoria simple, si cada muestra posible de tamaño n tiene la misma probabilidad de ser seleccionada. Por ejemplo, hemos mencionado que las poblaciones están formadas por individuos, pero sería mejor denominarlas unidades de muestreo o unidades de estudio: por ejemplo. Personas, células, familias, hospitales, países… La población ideal que se pretende estudiar se denomina población objetivo. ⇒ No es fácil estudiarla por completo. Aproximamos mediante muestras que den idealmente la misma probabilidad a cada individuo de ser elegido. ⇒ Tampoco es fácil elegir muestras de la población objetivo: Si estudiamos las vacas paridas, excluimos a los que no lo están. Si elegimos animales a orillas de vías de acceso, olvidamos los que están en las vías de acceso...

13

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

El grupo que en realidad podemos estudiar (v.g. las vacas paridas) se denomina población de estudio. 1.4

Técnicas de muestreo

Cuando elegimos individuo de una población de estudio para formar muestras podemos encontrarnos en las siguientes situaciones: Muestreos probabilistas. • Conocemos la probabilidad de que un individuo sea elegido para la muestra. • Interesantes para usar estadística matemática con ellos. Muestreos no probabilistas. Muestreo no probabilísticos. ⇒ Dirigido o intencional. Consiste en seleccionar las unidades maestrales según el juicio de los investigadores, dado que las unidades gozan de representatividad. ⇒ Deliberado o convencional. Consiste en tomar una muestra por su cómoda accesibilidad. ⇒ Por cuotas. Es una técnica corriente en las encuesta de opinión publica. El investigador selecciona de acuerdo a si criterio un número determinado de individuos u objetos (cuota) de cada uno de los sectores de la población. P.e entrevistar a 25 señoras del mercado, 30 obreros, 20 estudiantes, etc. ⇒ Bola de nieve. Este es el nombre con que se describe la técnica de recoger información en cascada. Se entrevista a algunos informantes claves que a su vez sugieren a otros y así sucesivamente. En las muestras no probabilísticas: • No se conoce la probabilidad. • Son muestreos que seguramente esconden sesgos. • En principio no se pueden extrapolar los resultados a la población. A pesar de ello una buena parte de los estudios que se publican usan esta técnica. ¡Buff! En adelante vamos a tratar exclusivamente con muestreos con la menor posibilidad de sesgo (probabilistas): aleatorio simple, sistemático, estratificado y por grupos.

14

5 Bioestadística Fuentes de sesgo (parcialidad).… ⇒ Mentir en las preguntas “delicadas”. diremos que las muestras que se elijan estarán sesgadas. Para evitar este tipo de sesgo se utilizan la técnica de respuesta aleatorizada. ⇒ No respuesta a encuestas embarazosas. Óscar Flores Pérez 1. Hay otras fuentes de error/sesgo. prácticas poco éticas.Elaborado por: Ing. viendo en cuánto se alejan las respuestas del 50%. la culpa es de la moneda) (no tiene por qué Si sale cruz que diga la verdad (no tiene por qué avergonzarse. Las poblaciones objetivo y de estudio pueden diferir en cuanto a las variables que estudiamos. Consumo de drogas. 15 . se me verá el plumero…? ¿Cómo se hace? Pídele que lance una moneda antes de responder y… Si sale cara que diga la “opción comprometida” avergonzarse. violencia doméstica.6 Técnicas de respuesta aleatorizada Reducen la motivación para mentir (o no responder) a las encuestas. p.. e. el encuestador no sabe si ha salido cara o cruz) Aunque no podamos saber cuál es la verdad en cada individuo. Al tipo de sesgo debido a diferencias sistemáticas entre población objetivo y población de estudio se denomina sesgo de selección. ¿Si digo la verdad.. ⇒ El nivel económico en la población de estudio es mayor que en la objetivo..)… En este caso. 1. ⇒ Los animales que se eligen a orillas de la vía pueden ser de mayor peso (mayor frecuencia de adultos. podemos hacernos una idea porcentual sobre la población.

hasta alcanzar el tamaño muestral deseado.Elaborado por: Ing. Óscar Flores Pérez 1. con lo cual si e no ha sido seleccionado previamente. la probabilidad de que lo sea en este momento es de 1/N−i . ⇒ en el (i + 1) – ésimo intento. El muestreo aleatorio con reposición es también denominado muestreo aleatorio simple.) Bioestadística Consideremos una población finita. en un muestreo aleatorio sin reposición se da la siguiente circunstancia: ⇒ La probabilidad de que e sea elegido en primer lugar es 1/N. pero de modo que cada vez el elemento extraído es repuesto al total de la población. El muestreo aleatorio se puede plantear bajo dos puntos de vista: ⇒ Sin reposición de los elementos. de la que deseamos extraer una muestra. 16 . Cuando el proceso de extracción es tal que garantiza a cada uno de los elementos de la población la misma oportunidad de ser incluidos en dicha muestra. denominamos al proceso de selección muestreo aleatorio.s. Se puede realizar partiendo de listas de individuos de la población. ⇒ Con reposición. y se caracteriza porque cada elemento de la población tiene la misma probabilidad de ser elegido. y las observaciones se realizan con reemplazamiento. la población consta de N − i elementos.a. cada observación es realizada sobre la misma población (que no disminuye con las extracciones sucesivas).6. de manera que todos tienen la misma probabilidad de aparecer. ⇒ Si no ha sido elegido en primer lugar (lo que ocurre con una probabilidad de N−1/N. Se eligen individuos de la población de estudio. Muestreo aleatorio con reposición Sobre una población E de tamaño N podemos realizar extracciones de n elementos. De este modo. y eligiendo individuos aleatoriamente con un ordenador. Si observamos un elemento particular. e ∈ E. Muestreo aleatorio sin reposición Consideremos una población E formada por N elementos. Normalmente tiene un coste bastante alto su aplicación.1 Muestreo aleatorio simple (m. De esta forma un elemento puede ser extraído varias veces. la probabilidad de que sea elegido en el segundo intento es de 1/N−1.

. e = limite del error de muestro y N = tamaño de la población o marco muestral. aunque en realidad se use alguna de las que veremos a continuación. elegimos individuos igualmente espaciados de la lista.Elaborado por: Ing. . . el muestreo sistemático suele ser más preciso que el aleatorio simple. entre 1 y k. Si queremos una muestra de un tamaño dado. Fórmula para estimar el tamaño de la muestra para un muestreo aleatorio simple. ⇒ Tomar como muestra los elementos de la lista: {em. fh = n = ksh N fh = Factor que define la proporción muestral por cada estrato 1.a. em+(n−1)k} Esto es lo que se denomina muestreo sistemático. una manera de muestrear consiste en Sea k = N/n. em+k. ⇒ Elegir aleatoriamente un número m. em+2k. es a menudo más fácil no cometer errores con un muestreo sistemático que con este último.05 (probabilidad de éxito y fracaso respetivamente y corresponde la máxima varianza). Por otro lado.s. Cuando los elementos de la población están ordenados en fichas o en una lista. Z 2 pqN n= Ne 2 + Z 2 pq Donde Z = es el valor de la tabla de distribución normal según el nivel de significancia elegido. .2 Muestreo sistemático Se tiene una lista de los individuos de la población de estudio. . El método tal como se ha definido anteriormente es sesgado si N/n no es entero. donde el primero ha sido elegido al azar. ya que los últimos elementos de la lista nunca pueden ser escogidos. Óscar Flores Pérez Bioestadística En general.6. las técnicas de inferencia estadística suponen que la muestra ha sido elegida usando m. ya que recorre la población de un modo más uniforme. p = q = 0. Un modo de 17 . Cuando el criterio de ordenación de los elementos en la lista es tal que los elementos mas parecidos tienden a estar más cercanos.

. 7+20+20. etc. a partir de m. 7+20.… Caso 2. Un caso real 1: Se eligió una de cada cinco casas para un estudio de salud pública en una ciudad donde las casas se distribuyen en manzanas de cinco casas.Elaborado por: Ing. N = N1 + N2 + · · · + Nk y realizando en cada una de estas sub poblaciones muestreos aleatorios simples de tamaño ni i = 1. Nk. A continuación nos planteamos el problema de cuantos elementos de muestra se han de elegir de cada uno de los estratos. el correspondiente al numero 7. que reciben más sol. etc. . Para ello tenemos fundamentalmente dos técnicas: la asignación proporcional y la asignación óptima. 7+20+20+20. ⇒ Se selecciona un número al azar m.6. . obtendremos una muestra sesgada. 18 .) 1. Se puede comprobar que con este método todos los elementos de la lista tienen la misma probabilidad de selección. de tamaños respectivos N1. entre 1 y N. . e. Suponga una población de la que se desea tomar una muestra del 5% por lo que tendremos que tomar a un animal de cada 20 para ello es suficiente con seleccionar solo un anima entre los 20 primeros. entonces la muestra la compondremos con todos los sujetos a quienes los corresponda los siguientes: 7. 47. p. . . es decir este muestreo es adecuado siempre y cuando en los elementos de la población no exista una periodicidad que coincida con la ordenación de la muestra. . en k sub poblaciones o estratos. 87. están mejor ventiladas. ⇒ Se toma como muestra los elementos de la lista que consisten en ir saltando de k elementos en k. . atendiendo a criterios que puedan ser importantes en el estudio. teniendo en cuenta que la lista es circular.3 Muestreo estratificado Un muestreo aleatorio estratificado es aquel en el que se divide la población de N individuos. 27. k. Salieron con mucha frecuencia las de las esquinas. Óscar Flores Pérez Bioestadística evitar este problema consiste en considerar la lista como si fuese circular (el elemento N + 1 coincide con el primero) y: ⇒ Sea k el entero más cercano a N/n. CUIDADO: Si en la lista existen periodicidades. Si al elegirlo sale. (7. 107. 67.

19 . jóvenes y adultos… Se realiza entonces una m. para un coste especificado.Elaborado por: Ing. sub poblaciones o estratos) que pueden influir en el estudio y queremos asegurarnos de tener cierta cantidad mínima de individuos de cada tipo: Machos y Hembras. de los individuos de cada uno de los estratos. o bien. El estrato posee mayor variabilidad interna (varianza). Se aplica cuando sabemos que hay ciertos factores (variables. En ocasiones puede ser conveniente e incluso necesario subdividir una población heterogénea en subgrupos homogéneos y escoger dentro de cada subgrupo un determinado número de casos elegidos al azar mediante un muestreo simple o sistemático. los tamaños muestrales en cada uno de los estratos.s. ⇒ habiendo fijado la varianza que podemos admitir para el estimador. Recién nacidos. Al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo del estrato con respecto al total de la población. El muestreo es más barato en ese estrato.a. ni. Así en un estrato dado. y para ello puede basarse en alguno de los siguientes criterios: ⇒ Elegir los ni de tal modo que se minimice la varianza del estimador. minimizar el coste en la obtención de las muestras. los elige quien hace el muestreo. se tiende a tomar una muestra más grande cuando: El estrato es más grande. Óscar Flores Pérez Asignación proporcional Bioestadística Sea n el número de individuos de la población total que forman parte de alguna muestra: n = n1 + n2 + · · · + nk Cuando la asignación es proporcional el tamaño de la muestra de cada estrato es proporcional al tamaño del estrato correspondiente con respecto a la población total: ni = n ·Ni/N Asignación óptima Cuando se realiza un muestreo estratificado.

n = tamaño de la muestra. Óscar Flores Pérez Bioestadística El método es adecuado cuando los grupos a estudiar están en realidad verdaderamente estratificados. Esto dará una muestra estrato – aleatoria de tamaño n = ∑ nh para la población entera. Donde. Supongamos que tenemos una población de N unidades dividida en L estratos.Elaborado por: Ing.5 y luego. Sea Nh el numero de unidades de a población en el estrato h. Se toma una muestra aleatoria 2 j =1 L de tamaño nh en el estrato h-ésimo. N =total de elementos que componen el marco muestral. Entonces. y sea µh la media de estrato y σ h su varianza. Ni = número de elementos por estrato. p = q = 0. Una estimación ponderada de la media j =1 L de población µ basada en esta estratificación es X =∑ Nh xh h =1 N L Donde xh es la media de la muestra del estrato h. 20 . n = muestra total y D = B2/4 y B es el límite del error de muestreo. N = ∑ N h . esta estimación es insesgada y tiene la varianza dada por 2 ⎛ N ⎞ ⎛σ h Vs (X ) = ∑ ⎜ h ⎟ ⎜ ⎜ h =1 ⎝ N ⎠ ⎝ n h L 2 ⎞ ⎟ ⎟ ⎠ Estratificación optima. nh ⎛ ⎜ = n⎜ ⎜ ⎜ ⎝ N hσ h ∑ (N h =1 L h σ h ⎞ ⎟ ⎟ ⎟ )⎟ ⎠ Fórmula para estimar el tamaño de la muestra en un muestreo estratificado. nivel de confiabilidad = 95%.

y ya elegidos algunos podemos estudiar a todos los individuos de los grupos elegidos o bien seguir aplicando dentro de ellos más muestreos por grupos. Se aplica cuando es difícil tener una lista de todos los individuos que forman parte de la población de estudio. que consiste en elegir aleatoriamente ciertos barrios dentro de la ciudad. En esta situación es más económico realizar el denominado muestreo por conglomerados. por estratos. para después elegir calles y edificios. Si se toma una muestra aleatoria de n conglomerados dentro de la población de N conglomeraos se obtiene una estimación de µ dada la media global de todos los elementos obtenidos que es X = ∑ ∑ i =1 n Mo j =1 X ij nMo 21 . Se denomina conglomerados a la agrupación de varios elementos de la población con arreglo o alguna condición o característica. ya que estudiar una muestra de tamaño n implica enviar a los encuestadores a n puntos distintos de la misma. Es condición previa que en cada conglomerado existan elementos de la población de todas las clases (heterogéneo) y que los conglomerados sean entre si los mas parecidos posibles (homogéneos). se entrevista a todos los vecinos. el muestreo aleatorio simple puede resultar muy costoso. Se realiza eligiendo varios de esos grupos al azar. Podemos utilizar luego cada uno de estos conglomerados como una unidad muestra. Una vez elegido el edificio.4 Muestreo por grupos o conglomerados Bioestadística Si intentamos hacer un estudio sobre los habitantes de una ciudad.Elaborado por: Ing. pero sin embargo sabemos que se encuentran agrupados naturalmente en grupos.… Supongamos que se divide una población de M unidades en N conglomerados de Mo unidades cada una.6. Para componer una muestra por conglomerados se selección aleatoriamente cierto número de conglomerados y se investiga después a todos los elementos que los componen. Además. denótese con Xij el valor observado de X para el j – ésimo elemento de i – ésimo conglomerado. Óscar Flores Pérez 1. aleatorios simples. Sea X la variable estudiada en esta población y µ y σ su media y desviación estándar. de modo que en cada uno de ellos sólo se realiza una entrevista.

Terneros.Elaborado por: Ing. producción de carne.Midiendo . y… Al igual que en el muestreo estratificado. erales. Escala de intervalo en la que se ha fijado un punto de origen que marque un cero absoluto. hospitales grandes frente a pequeños. dentro de ellas varias comarcas. Por ejemplo: en una manada de 50 animales bovinos hay 17 machos. al extrapolar los resultados a la población hay que tener en cuenta el tamaño relativo de unos grupos con respecto a otros. superiores y otros). etc. Formas de Obtener nuestro Objetivo: . Óscar Flores Pérez Bioestadística Por ejemplo. entre las cuales no se puede establecer ninguna relación de orden.Mediante la asignación de un rango a cada elemento Tipos de Escala: Escala Nominal: Escala en la cual la información sobre un determinado carácter se puede clasificar en categorías no numéricas mutuamente excluyentes. Municipios con diferente población pueden tener probabilidades diferentes de ser elegidas. Es una escala cuantitativa. Por ejemplo. Escala Ordinal: Escala en la cual la información sobre un determinado carácter se puede clasificar en categorías no numéricas mutuamente excluyentes. entre las cuales sí que se puede establecer alguna relación de orden. medios. raza. novillos. la ideología política. Por ejemplo: los volúmenes de ventas. Por ejemplo: las profesiones laborales. comarcas. Escala de Intervalos: Escala en que se establece de antemano algún tipo de unidad de medida. los beneficios. el sexo.… Nota: para mayor ampliación sobre este apartado.Mediante un sistema de evaluación . pudiéndose cuantificar numéricamente la distancia existente entre dos observaciones cualesquiera. y dentro de ellas varios centros de salud. recomiendo leer más sobre “Teorías de muestreo” Escalas de Medición de Caracteres. el estado civil. etc. Para conocer la opinión de los médicos del sistema nacional de salud. la 22 . Objetivo: Obtener para cada posible observación de la variable o atributo un número o palabra que la identifique. Escala de Proporción: Es la razón de una parte respecto al todo. Por ejemplo: los niveles de estudios (primarios. podemos elegir a varias municipios de Nicaragua. etc.

de un modo permanente. Observación parcial: Consiste en observar un subconjunto de la población que se está analizando. Por ejemplo: el mandador que revisa a su hato y cuenta los machos y hembras. unidad por unidad. Observación indirecta: Cuando de unos datos estadísticos ya conocidos sobre cierto hecho o fenómeno. ganaderos. deducimos datos relativos estadísticos relativos a otros. el número de unidades físicas de un stock. De observación periódica: el inventario anual que realizan los comerciantes. Ej. Observación continua. Óscar Flores Pérez Bioestadística proporción es 17/50 o lo que es lo mismo el 34%. De observación circunstancial: la obtención de censos de comercios. 1. periódica o circunstancial Ejemplo de observación continua: las compras.  Ejercicios. Formas de Observar la Población: Censos y Encuestas Observación directa o indirecta Observación directa: Implica observar el fenómeno y las condiciones que le acompañan. ventas y operaciones que se registran a medida que se van produciendo. Si estudiamos de forma exhaustiva a la población decimos que estamos realizando un CENSO. etc. lo mismo puede suceder con las variables. Observación exhaustiva o parcial Observación exhaustiva: Consiste en observar a todos y cada uno de los elementos de la población que se pretende estudiar. Por ejemplo: deducir el número de zapatos que fabrica una empresa a partir del número de clavos que utiliza para las suelas. la edad. ¿Por qué se lograrán o no muestras aleatorias con este procedimiento? Respuesta: 23 . Ej. Una agencia desea obtener una muestra de 200 adultos de cierta zona residencial de la ciudad de Siuna. Se propone cumplir su objetivo extrayendo una muestra aleatoria de 200 casas de familia de los que aparecen en una lista de todas las casas del sector urbano y selecciona luego al azar un adulto de cada casa.Elaborado por: Ing.

De un ejemplo de una población en la que ud. a. Se quiere tener una muestra de huevos a efecto de determinar su calidad. ¿De que tipo de muestra se trata? 4. Respuesta: ¿? 7. Sugiera un plan para muestreo aleatorio. para obtener muestras de: Árboles de un bosque. Suponga que se examinaron los 36 huevos de las cajas de la muestra. La muestra se consigue mediante elección al azar de 10 cajas y la ulterior elección aleatoria de 2 huevos de cada caja de muestra. 3. ¿Cual es la población? Respuesta: ¿Cómo usaría ud números al azar par tomar muestras de maíz. ¿Cuál es la variable aleatoria? b. El embarque consiste en 100 cajas con 36 docenas de huevos cada una. sea afirmativa o negativa. Respuesta: 6. El número de palabra de un libro se determina seleccionando una muestra de páginas y contando el número de palabras en esas paginas. ¿? 24 . si este campo es un cuadrado cuyo lado mide 1000 m y si cada muestra se toma eligiendo un punto al azar en el cuadrado y recogiendo el maíz que se encuentre dentro de un circulo de 5 m de diámetro cuyo centro se hala en el punto tomado al azar? Respuesta. ¿La varianza de muestreo seria en este caso igual a cero? Fundamente su respuesta. En cada caso indica alguna variable a estudiar. Respuesta: 5. Óscar Flores Pérez Bioestadística 2.Elaborado por: Ing. considere que resultaría mas económico o mas eficaz aplicar un muestreo estratificado en lugar de uno aleatorio. Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la universidad Uraccan las minas. en un campo de maíz. Respuesta: variada. Niños en una comunidad de menos de 5 años de edad y que hayan tenido sarampión.

Es necesario ser cuidadoso en la elección de las columnas y sus encabezamientos. 4. Óscar Flores Pérez Bioestadística II. Por esta razón. 2.1 Distribución de frecuencias. ⇒ Cuerpo. 5. Organización de datos y medidas descriptivas. 2. 6.Elaborado por: Ing. las columnas y la distribución de la información por orden de importancia que. Objetivos de la unidad. Distinguir los elementos principales de correlación y regresión. 1. también se indica en ellas la fuente de información. la cual da solo aproximaciones de esos estadísticos. Aplicar el análisis de regresión a problemas reales. miles o millones. tienen por objeto aclarar ciertas operaciones o relaciones que se utilizan en el cuadro. es aquella en que se anotan las categorías. ⇒ Columna principal. Cuadros. Una distribución de frecuencias proporciona mayor visualización de conjunto que un arreglo de datos. 3. ⇒ Notas al pie. ya que en ellos se pondrán las relaciones que se desean destacar. si se tiene la posibilidad de mantener los datos en “bruto” para el calculo de estadísticos de resumen. donde y cuando). No es fácil la elaboración de un cuadro: debe planearse cuidadosamente su tamaño. Aplicar el análisis de correlación a problemas prácticos. en el que se explica el objeto de cada una de ellas. estos deben usarse y no una distribución de frecuencias. Conocer la utilidad de los estadísticos descriptivos. ⇒ Encabezado de columnas. En general un cuadro se compone de líneas y columnas y sus partes esenciales son: ⇒ Títulos en los que se destaca el objeto del cuadro (que. por lo general no es alfabéticamente. 25 . es la parte que contiene la información. pero pierde la posibilidad de mantener el Batlle de la información original. si es necesario se agregan notas con explicaciones. Otro aspecto importante es la elección de las unidades de medidas de las magnitudes. Calcular e interpretar estadísticos descriptivos. Conocer la importancia del análisis de correlación y regresión. como. en notas en el encabezamiento debe indicarse si se trabaja con cientos.

. a saber. nn-1 nn acumulada n1 n1 + n2 .. Las dos exponen ordenadamente la información recogida en una muestra. en forma de tabla. La distribución de frecuencia es la representación estructurada... de forma que no se pierda nada de información (o poca). estas deber ser mutuamente excluyentes y exhaustivas.+fn-1 Σf Siendo X los distintos valores que puede tomar la variable... f1 + f2 +.. Xn-1 Xn Frecuencias absolutas simple n1 n2 . pero dividido por el total Frecuencias acumuladas: Sólo tienen sentido para variables ordinales y numéricas Muy útiles para calcular cuantiles.. de toda la información que se ha recogido sobre la variable que se estudia. n1 + n2 +.): 26 .. fn-1 = nn-1 / n fn = nn / n acumulada f1 f1 + f2 . variable (valor) X1 X2 . Las tablas de frecuencias y las representaciones gráficas son dos maneras equivalentes de presentar la información..Elaborado por: Ing... Frecuencias absolutas: Contabilizan el número de individuos de cada modalidad Frecuencias relativas (porcentajes): Ídem.. Siendo n el número de veces que se repite cada valor..+ nn-1 Σn Frecuencias relativas simple f1 = n1 / n f2 = n2 / n . Siendo f el porcentaje que la repetición de cada valor supone sobre el total Veamos el ejemplo siguiente: Medimos la altura de los niños de una clase y obtenemos los siguientes resultados (cm. Óscar Flores Pérez Bioestadística Las clases a usarse en una distribución de frecuencia deben reunir las características mencionadas para aquellas en una clasificación de un atributo. Tablas de frecuencia Exponen la información recogida en la muestra.

28 1. ya que de otra manera obtendríamos una tabla de frecuencia muy extensa que aportaría muy poco valor a efectos de síntesis.6% 46.0% 56. Óscar Flores Pérez Cuadro 1.28 1.0% 10.26 1.3% 80.0% 66. entonces conviene agruparlos por intervalos.21 1.21 1.22 1.30 Frecuencias absolutas simple acumulada 1 1 4 5 4 9 2 11 1 12 2 14 3 17 3 20 4 24 3 27 3 30 Frecuencias relativas simple acumulada 3.29 1.21 Si presentamos esta información estructurada obtendríamos la siguiente tabla de frecuencia: Cuadro 2.6% 36.30 1.26 1.20 1.27 1.22 1.24 1.23 1.30 1.26 1.24 1.20 1. En el siguiente ejemplo detallaremos los aspectos más relevantes. Estatura en metro de 30 estudiantes de una clase.25 1.3% 13.0% 90.27 1.29 1.0% 10.30 1.6% 13.22 1.26 1.3% 16.21 1.3% 3.27 1.22 1.21 1. Ejemplo.28 1.6% 13. la parcela donde se encontraba: 27 . Los diámetros a la altura del pecho (DAP) de 38 robles observados en las cercanías del volcán Poas.29 alumno 11 12 13 14 15 16 17 18 19 20 estatura 1. variable (valor) 1.22 1.3% 30.0% 100.23 1. alumno 1 2 3 4 5 6 7 8 9 10 estatura 1.29 1. más próximo y según.Elaborado por: Ing.0% 6. fueron registrados al cm.6% 10.25 1.28 Bioestadística alumno 21 22 23 24 25 26 27 28 29 30 estatura 1.3% 40.27 1.6% 3.25 1.0% 6.0% Si los valores que toma la variable son muy diversos y cada uno de ellos se repite muy pocas veces.23 1. Altura en metros de 30 estudiantes de una clase.28 1.6% 10.

Md = (80+81)2 = 80. 95 cm.) de 38 robles muestreados en el Volcán Poas. d) n = 38 observaciones.. Arreglo estadístico de todas las observaciones. y la desviación estándar es igual a 27. para todo el conjunto) indica una posible presencia de valores extremos f) la media aritmética es igual a 82. por lo que la moda = 75 cm.5 cm. b) Hay concentraciones de datos en los 70`s y 80`s cm. e) El percentil 25 (P25) que es igual al primer cuartel (Q1). viene definido por el P(n+1)/100 – ésimo elemento. Q3 = 29. Esto da una idea sobre la dispersión del 50% de las observaciones centrales. por lo tanto. 80 y 81. para valores centrales versus 168 cm.25 = 30-ésimo. Entonces. por el 25*39 /100 = 9.Elaborado por: Ing. 28 . y el mayor = 212 cm. 44 47 51 58 59 59 62 66 68 69 70 71 72 74 75 75 75 78 80 81 82 83 84 84 89 90 91 93 95 95 97 97 100 104 105 106 109 212 De estos se puede apreciar lo siguiente: a) El valor menor = 44 cm. o sea. Diámetros (cm. Óscar Flores Pérez Bioestadística Cuadro 3. o sea.3 cm. cual es 69 cm.9 cm. cual es 212-44 = 168 cm. El recorrido intercuartil se puede comparar con el ámbito o recorrido del conjunto de datos. Parcela 1 90 105 97 78 100 75 89 74 68 93 Parcela 2 66 83 97 70 69 75 58 75 212 84 Parcela 3 106 104 59 47 44 51 59 81 62 Parcela 4 84 82 95 95 80 109 72 71 91 I. El tercer cuartel.. Esta diferencia en la dispersión (26 cm. interpretándose que cerca del 25% de los datos son menores de 69 y cerca del 75% mayores. por lo tanto es por lo que la mediana estará entre el n/2 = 38/2 = 19 –ésimo y el (n/2)+1 = 19+1 = 20 –ésimo termino (promedio de ambos).8 = 10 – ésimo elemento del arreglo estadístico. c) El valor que mas se repite es 75 cm. el recorrido intercuartil (Q3-Q1) es de 95-69 = 26 cm.

5 y 44.5. por lo tanto. (seleccionado subjetivamente).8 clases).5 = 69 cm.6 cm. Construcción de una distribución de frecuencia de todas las observaciones. Con respecto al intervalo de clase (IC). siendo lo correcto 112 cm. 112-44 = 69.Elaborado por: Ing. el conjunto de datos presenta una ligera asimetría positiva hacia la derecha (Mo < X ≈ Md) de la curva normal j) una medición practica de la asimetría viene dada por: Sk = (Q3 – Md) – (Md – Q1) Q3 – Q1 La distribución es: Simétrica Asimétrica positiva Asimétrica negativa si Sk = 0 si Sk > 0 si Sk < 0 ó as = 3(µ − Mn ) s En el ejemplo Sk = 0. Esta medición de asimetría no es sensible a los valores extremos. se desean que estos sean iguales a 5 cm. ni la moda ni la mediana no cambian. entonces 112 puede ser cualquier observación entre 111. indicando así que el conjunto de datos es ligeramente hacia la derecha. = 44 cm. V máx. Si se sustituye la utilización de los cuarteles primero y tercero en la ecuación para Sk por los valores extremos (mínimo y máximo respectivamente) se tendría entonces una medida de asimetría total. b. i) La moda es menor que la mediana. Amplitud o ámbito general (AG) = al valor máximo (V máx. y la desviación estándar de 17. lo que podría constituirse en ventaja o desventaja según como se analice. sin embargo. = 112 cm. y V min. por lo tanto. Óscar Flores Pérez Bioestadística g) El ultimo valor reporta una magnitud fuera de lo común en este conjunto de datos (casi 5 desviaciones del promedio) por lo que se reviso la parcela 2 y se encontró que fue un error. La Md es aproximadamente igual al promedio.115. h) Haciendo la corrección. II. Así también. Por lo tanto la amplitud general (AG) = 112. 29 .) – valor mínimo (V min. Como los datos están redondeados al centímetro más próximo.5 y 112.). el promedio corregido es igual a 80.5 cm. o bien.3 cm. se obtendrán aproximadamente 14 clases (numero de clases (NC) = AG/IC = 69/5 = 13. 44 puede ser cualquier observación entre 43.5 -43. a.

11 0. Se observa como efectivamente la distribución de los datos esta un poco inclinada hacia los valore mayores (los se vio en el punto h del anterior apartado).08 0.95 1.) – fm-1(.11 0.5 – 98.34 0.5 68. entonces.13 0.5 63. d1 = 5 -4 = 1 y d2 = 5-4 = 1.63 0.5 – 103. lo que dice que la mediana se encuentra en la clase 78.5 – 78.18 0.5 93.5. la clase de mayor frecuencia esta en la clase 73.) – fm+1(.74 0. por lo tanto la moda es aproximadamente igual a: Mo = 73.5 78.48.00 d.5 108.5 – 78. Óscar Flores Pérez Bioestadística c.5 – 113. por lo tanto.) I = intervalo de clase m = clase modal En el ejemplo.08 0.5 53.5 73.5 – 83.5 – 88.5 – 63.) 43.03 0.5 // / / /// // //// ///// //// // //// //// / /// // fi 2 1 1 3 2 4 5 4 2 4 4 1 3 2 fr 0. Clases (cm.5 58. La distribución de frecuencias viene dada por: Cuadro 4. La aproximación de la moda viene dada por: d1 Mo = Li + *I d1 + d 2 Donde Li = limite inferior de la clase con mayor frecuencia (fm (.5 98.5 103.5 48.03 0. 30 .05 0.Elaborado por: Ing. IC = 5 y Vmin = 43.5 83.05 Fi 2 3 4 7 9 13 18 22 24 28 32 33 36 38 Fr 0.11 0. g. e.5 – 108.84 0.5 – 68.05 0.11 0.05 0.05 0.5.47 0. La aproximación de la mediana viene dada por: n/2 = 38/2 = 19 – ésimo termino.5 – 73. No se observan valores fuera de lo razonable en la distribución f.5 88.)) d1= fm(. NC = 14. Resumen del proceso de tabulación de frecuencias.08 0.) d2= fm(.24 0.5 – 83.5 – 53.5.5 – 93.03 0.5 – 58.5 .5 + ½(5) = 76 cm.87 0.59 0.11 0.

h.5 = mediana Tercer cuartil = Percentil 75 = cuantil 0.5.2 Estadísticos de posición Se define el cuantil de orden como un valor de la variable por debajo del cual se encuentra una frecuencia acumulada α Casos particulares son los percentiles.75 cm. cuartiles. el supuesto anterior raramente se cumple.75 cm. Como Pp = Li + (n1/n2)*I. indicando que el P25 se encuentra en la clase 68. Percentil de orden k = cuantil de orden k/100 La mediana es el percentil 50 El percentil de orden 15 deja por debajo al 15% de las observaciones. entonces P25 = 68. En el ejemplo. 2..5 + ¼(5) = 79. La aproximación del P25 = Q1 viene dada por el (p)(n)/100 termino.5 ≈ 10 – ésimo termino. El P75 = Q3 esta definido por el 75*38/100 = 28. Por lo tanto el recorrido intercuartil es aproximadamente 94.5 + ¼*5 = 94.8 cm. que se ubica en la clase 93. Por encima queda el 85% Cuartiles: Dividen a la muestra en 4 grupos con frecuencias similares.5 + ¼*5 = 69.5 – 73.5 ≈ 29 –ésimo observación. Si el tamaño del conjunto de observaciones (n) es pequeño. La aproximación del promedio viene dad por: = 80. deciles.6 cm. o sea. donde fi y Mi son la frecuencia y el X = punto medio de respectivamente. entonces P75 = 93.5. Md = 78. Óscar Flores Pérez Bioestadística Md = Li + (n1/n2)*I.5 – 98. por el 25*38/100 = 9. la i ésima clase. k ∑ i =1 fiM n i La aproximaron del promedio con datos agrupados asume que el punto medio (Mi) de una clase dada e el promedio de los datos comprendidos en esta.75 31 .75 – 69. o sea. Si n es grande es supuesto es prácticamente valido..25 Segundo cuartil = Percentil 50 = Cuantil 0. Primer cuartil = Percentil 25 = Cuantil 0..75 = 25 cm.Elaborado por: Ing. quintiles..

Obtener el primer cuartil Q1. 122. 71. 54. Respuestas. donde n tamaño de la muestra y k es el decil a buscar. 75. 43. D4 = 4*50/10 = 20. 123. 103. 77. 84. 94. 116. 88. 68. 27. D9 = 9*50/10 = 45. 128. 47. 120. Q1 = 71 • Q2 = 2*50/4 = 25. 84. 80. 97. D4 = (77 + 79)/2 = 78. 108. 120. Estos puntajes son los siguientes en el orden en que fueron reunidos. 88. donde n tamaño de la muestra y k es el cuartil a buscar. 91. 74.Elaborado por: Ing. D9 = (120 + 120) /2 = 120 32 . 43. 73. 71.5 = 13. 71. 108. 43. 63. Fórmula: kn/4. Q2 = (82 + 84)/2 = 83 • Q3 = 3*50/4 = 37. D7 = 7*50/10 = 35. • Q1 = 1*50/4 = 12. 79. D9. 94. 82. 81. 93. Respuestas. D4. 50. Q3 = 97. 107. Óscar Flores Pérez Bioestadística Ejemplo Se tomó una muestra de 50 calificaciones de una población de resultados de un examen de Bioestadística. 58. 94. • • • • D1 = 1*50/10 = 5. Encuentre D1. 91. el segundo cuartil Q2 y el tercer cuartil Q3. 106. D7 = (94 + 94) /2 = 94. 76. 125.5 = 38. D1 = (47+49)/2 = 48. 49. D7. 86. 44. Fórmula: kn/10. 96. 82.

discreta v. Tipo de variables v. donde n tamaño de la muestra y k es el percentil a buscar. ⇒ Dejemos siempre un espacio entre barras. ordinales o atributos. continua Diagrama de barras. pictogramas diferencial (barras) Integral (escaleras) diferencial (histogramas. P1 = 1*50/100 = 0. P35 = 75. P1 = 27.5 = 18. líneas de fondo en la grafica. ⇒ No recargar las barras. al tratar de expresar muchos productos en cada una de ellas. Aunque no hay normas estrictas para la elaboración de gráficos de barras. ⇒ Confíe en su buena apreciación visual y buen sentido.5 = 1. 33 . para indicar el carácter discreto de las variables. 2. Principales diagramas según el tipo de variables. ⇒ Cuidemos que el grafico quede balanceado. polígono de frecuencias Integral (diagramas acumulados). P35 = 35*50/100 = 17.Elaborado por: Ing. P99 = 99*50/100 = 49. P10 = 10*50/100 = 5. P99 = 128. las siguientes recomendaciones son útiles para orientar nuestro trabajo. Óscar Flores Pérez Bioestadística Encuentre P1. Se diferencia de un histograma en que las barras están separadas entre sí. sectores. diagramas barras.3 Representaciones graficas. P35. Se utiliza para representar frecuencias en variables discretas. ⇒ Si el grafico tiene muchas barras es preferible reemplazar por un diagrama lineal. que no sea inferior a la mitad del ancho de ellas. cualitativo v.5 = 50. P10 = (47+49) /2 = 48. pues ellos facilitan la lectura de valores. P10. P99 Formula: kn/100. evitando que las barras resulten muy anchos o excesivamente altas. ⇒ Dibujemos a buen criterio.

Recuerda los conceptos de frecuencia relativa y diagrama de barras. Relacion número de árboles y volumen del Carapa guianensis 30000 25000 20000 15000 10000 5000 0 1 2 3 Añios Total árboles y volumen Total Arboles Volumen Aprovechado M3 4 5 34 . 40% Asigna a cada posible valor de una variable discreta su probabilidad. 8 511 965km2. Nota. Perú. 1 285 215km2. Tendencia de la especie Carapa guianensis en el período 2000 a 2004. 2 776 889km2. 9 976 137km2. Brasil. 9 363 498km2. Canadá. 35% 30% 25% 20% 15% 10% 5% 0% 0 1 2 3 Elabore un grafico de barras en el que figuren los seis países americanos de mayor área: argentina. estados unidos. 1 958 201km2. Alturas proporcionales a las frecuencias (absolutas o relativas). Óscar Flores Pérez Bioestadística Diagrama de barras. México. Ejemplo Número de caras al lanzar 3 monedas. Se deja un hueco entre barras para indicar los valores que no son posibles Ejercicio.Elaborado por: Ing.

00 35 .00 40 12. la cantidad (frecuencia) de individuos que poseen un valor inferior o igual al mismo.00 50 12. No los construiremos en clase. El área que hay bajo el histograma entre dos puntos cualesquiera indica la cantidad (porcentaje o frecuencia) de individuos en Estadísticos el intervalo.00 Moda 12 Percentiles 10 9.90 Mediana 12. Observa cómo están de dispersos los individuos que ocupan la “parte central”.00 60 13. para cada valor de la variable. Las barras están pegadas unas a otras.00 20 11. para indicar el carácter continuo de la variable.00 25 12. Número de años de escolarización N Válidos 1508 Perdidos 0 Media 12.00 80 16. Óscar Flores Pérez Bioestadística Tendencia del aprovechamiento del Pinus caribaea 20000 Numero de arboles 15000 10000 5000 0 1 2 3 Años 4 5 Pinus caribaea Grafico de líneas. Se utiliza para representar frecuencias en variables continuas.Elaborado por: Ing. Diagramas integrales Se realizan a partir de las frecuencias acumuladas.00 30 12. Aprovechamiento del Pinus caribea en el periodo 2000 a 2004.00 75 15. Indican. Se pasan de los diferenciales a los integrales por integración y a la inversa por derivación Histogramas para variables continuas.00 90 16.00 70 14.

00 30 12.6 22.0 100.0 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Total ≥20%? ≥ 90%? Gráficos con barras de error.00 80 16. . representan dos variables.3 . no emplees más gráficos de los necesarios. indicados por medio de puntos o de barras. los oscurecen! 36 . ..9 3. Óscar Flores Pérez Bioestadística Estadísticos Número de años de escolarización N Válidos 1508 Perdidos 0 Media 12. a los que se añade un segmento o un semisegmento que indica una medida de dispersión Fig.00 75 15.7 1. o de dispersión.deben resaltar los patrones de interés sin comprometer la integridad de los datos. .utilices gráficos de "torta" ni gráficos de barras apiladas (Fig.9 2.6 8.7 4. Nunca: . Se aplican a variables mensurables y a veces a las ordinales.9 3. 4 D).8 61.3 .6 11.00 20 11. sombreados. . Recuerda que las representaciones gráficas: .0 100.4 . una en el eje horizontal y la otra en el eje vertical.00 50 12. mensurables u ordinales.son una necesidad.0 11.90 Mediana 12.6 98.6 30.5 3.A diferencia de los tipos anteriores.3 . ¡más que ayudar a ver los patrones.8 12.6 4. líneas y volumen innecesarios.9 90.00 60 13. nunca a atributos.00 90 16. B.2 52.7 93. En su lugar.4 73.no añaden nada a los datos que ya no estuviese allí.repitas la misma información en un gráfico y una tabla. Diagramas de puntos.8 5. o con dos representaciones gráficas distintas.00 40 12.00 25 12.6 96. no representan frecuencias o valores medios en el eje vertical.0 77.5 2. no un lujo.1 1.0 Porcentaje acumulado .deben carecer de "chatarra gráfica" como colores.0 1.7 4.Se utilizan para representar valores medios.7 16.8 1.00 Número de años de escolarización Frecuencia 5 5 6 12 25 68 56 73 85 461 130 175 73 194 43 45 22 30 1508 Porcentaje .00 Moda 12 Percentiles 10 9.Elaborado por: Ing.5 8.00 70 14. su función es simplemente mostrarlos de modo más claro..

_________________________ _________________ ______________________ ______________________ ___________ 37 . D) diagrama de barras apiladas. Óscar Flores Pérez Bioestadística _________________________________ Fig.Elaborado por: Ing.1. B) gráfico con barras de error. C) gráfico de "tarta". Varios tipos de representaciones gráficas: A) diagrama de barras.

Media (‘mean’) Es la media aritmética (promedio) de los valores de una variable. xi = las marcas de clase del i – ésimo intervalo de clase y fi = es la frecuencia del i – ésimo intervalo de clase.35 f 1 8 15 4 28 En tablas de datos agrupados x marca f de clase 2a4 3 2 En este caso se 4 a 6 5 9 usa el punto 6a8 7 10 medio o marca 8 a 10 9 1 de clase total 22 media = 3x2 + 5x9 + 7x10 + 9x1 = 5.. Formula de la media aritmética para datos sin agrupar. Si no ignorar la columna de intervalos. En este caso son medidas que buscan posiciones (valores) con respecto a los cuales los datos muestran tendencia a agruparse. Ejemplo. Muy sensible a valores extremos. 7 es (2+2+3+7)/4=3. En tablas de datos sin agrupar x 3 6 9 12 total = 8. + xn X= 1 2 3 n = X = ∑x i =1 n i n Media de 2. Suma de los valores dividido por el tamaño muestral.4 Centralización Añaden unos cuantos casos particulares a las medidas de posición. x + x + x + .5 Conveniente cuando los datos se concentran simétricamente con respecto a ese valor.90 22 x = ∑ k x n i=1 i f i media = 3x1 + 6x8 + 9x15 + 12x4 28 38 . Óscar Flores Pérez Bioestadística 2. 3. Centro de gravedad de los datos Datos organizados en tabla Si está en intervalos usar Media Donde. 2.Elaborado por: Ing..

Para datos no agrupados.7! La mediana para datos agrupados. Estos valores anómalos podrían condicionar en gran medida el valor de la media. Ejemplos.Elaborado por: Ing. 4. donde el valor de cada año tiene un efecto multiplicativo sobre el de los años anteriores. etc. Lo más positivo de la media es que en su cálculo se utilizan todos los valores de la serie. La media geométrica se suele utilizar en series de datos como tipos de interés anuales. 9 es (5+6)/2=5. n = tamaño de la muestra 39 .. 6. Si el número de datos es par. por lo que no se pierde ninguna información. perdiendo ésta representatividad. 5. No es sensible a valores extremos. Mediana de 1. 6. Según el tipo de datos que se analice será más apropiado utilizar la media aritmética o la media geométrica.5 Es conveniente cuando los datos son asimétricos. Si el número de valores (n) es impar.800 es 5. 2. ¡La media es 117. presenta el problema de que su valor (tanto en el caso de la media aritmética como geométrica) se puede ver muy influido por valores extremos. 8 es 5 Mediana de 1. 4. 5. 6. 8. 2. 5. Sin embargo. 2. Se multiplican todo estos resultados y al producto final se le calcula la raíz "n" (siendo "n" el total de datos de la muestra). n − fa Mn = Li + 2 *h f Li = limite inferior real del intervalo que contiene a la mediana. se elige la media de los dos datos centrales. que se aparten en exceso del resto de la serie. inflación. Mn = n +1 2 Mediana de 1. 6. En todo caso. Mediana (‘median’) Es un valor que divide a las observaciones en dos grupos con el mismo número de individuos (percentil 50). 6. la media aritmética es la medida de posición central más utilizada. Óscar Flores Pérez Bioestadística Media geométrica: se eleva cada valor al número de veces que se ha repetido. 4. la mediana es el valor medio siempre y cuando todos las variables sean arregladas en magnitudes de mayor a menor.6.

es decir es el valor o valores que ocurren con mayor frecuencia.Elaborado por: Ing.5 (la mediana está entre los valores de las observaciones 24º y 25º) La mediana se calcula de acuerdo a la fórmula Donde: li: límite inferior de la clase mediana (en este caso li = 14) Fa: frecuencia acumulada de la clase anterior a la clase mediana (16) f: frecuencia absoluta de la clase mediana (15) h: amplitud o extensión del intervalo de clase (6) MEDIANA Es útil sobretodo cuando: Datos ordinales o numéricos La distribución de la variable es asimétrica y hay pocas observaciones Moda (‘mode’) Es el/los valor/es donde la distribución de frecuencia alcanza un máximo. Cuando los datos están sin agrupar: La moda se determina por la simple inspección de la lista ordenada x 10 10 11 12 12 12 12 16 La moda es 12 40 . Se determina la clase que contiene la observación de orden (n+1)/2 que corresponde a la clase mediana (48+1)/2 = 24. Óscar Flores Pérez Bioestadística fa = frecuencia acumulada del intervalo de clase inmediatamente anterior a la clase mediana f = frecuencia de la clase mediana h = amplitud del intervalo de clase Ejemplo.

) I = intervalo de clase m = clase modal d1: 21 .5 es mediana Para una variable discreta se define el percentil de orden K. Óscar Flores Pérez Para datos agrupados.54 4+9 x 0a5 5a10 f 1 13 10a15 17 15a20 21 20a25 12 25a30 7 Algunas fórmulas Cuantil de orden α i es el menor intervalo que tiene frecuencia acumulada superior a α ·n α=0.Elaborado por: Ing.) – fm+1(. Pk se obtiene según la relación: n⋅ Pk = L i −1 + Donde k − N i −1 100 *I ni 41 . como la observación PKK que deja por debajo de si el k % de la población En el caso de una variable continua.12 = 9 Mo = 15 + 4 x 5 = 16. el intervalo donde se halla Pk existe Li-1 – Li.) d2= fm(.)) d1= fm(.17 = 4 d2: 21 .) – fm-1(. Dentro de él. Bioestadística d1 *I d1 + d 2 Mo = Li + Donde Li = limite inferior de la clase con mayor frecuencia (fm (. se calcula buscando el que deja debajo de si al k % de las observaciones.

5 + (175-123) * (71. acumulada 3 23 61 123 186 236 248 250 Por su naturaleza el percentil puede estar situado en cualquier lugar de la distribución. Óscar Flores Pérez Bioestadística li-1 = limite inferior de la clase que contiene el percentil P n = tamaño de la muestra I = ancho de clase Cuadro 5. clases 62 – 63 64 – 65 66 -67 68 – 69 70 -71 72 – 73 74 – 75 76 – 77 Marca de clase 62. Q3 = 42 .5 66.5 68.5 74.5 70.15 63 El resultado indica que el 70 % de los erales miden menos que 71.5 72. Medidas de la alzada de cruz en pulgadas de 250 erales.ésima observación ordenada 4 Q2 = 2(n + 1) n + 1 = ésima observación ordenada 4 2 3(n + 1) 4 .15 pulgadas.ésima observación ordenada.5 76.5 frecuencia 3 20 38 62 63 50 12 2 Frec. la localización de k – ésimo percentil Pk esta dado por Pk = k n 100 Cuando se pretende calcular los cuartiles de datos no agrupados. por lo que puede considerársele como una medida de tendencia central P70 = 69.5 64.5) =71. se usan las siguientes formulas: Q1 = n +1 .Elaborado por: Ing. En general.5 -69.

43 . Clase 45 55 65 75 85 95 115 frec Fr. Óscar Flores Pérez Bioestadística Cuadro 6. 5 10 21 11 5 3 3 5 15 36 47 52 55 58 2.Elaborado por: Ing.90 90 .. ¿Las notas serían las mismas en todos? Seguramente No. Diferencias individuales en la habilidad para hacer un examen. Peso 40 – 50 50 – 60 60 – 70 70 . Ejemplo con variables continuas.100 100 – 130 M.. el becerro estaba envenenado. acum. ¿Podría haber otras razones (fuentes de variabilidad)? Por ejemplo supongamos que todos los alumnos poseen el mismo nivel de conocimiento. ¿A qué puede deberse? Diferencias individuales en el conocimiento de la materia.80 80 .5 Variabilidad o dispersión Los estudiantes de Bioestadística reciben diferentes calificaciones en la asignatura (variabilidad). Dormir poco el día del examen.

2. multiplicadas por el número de veces que se ha repetido cada valor. La varianza siempre será mayor que cero.Elaborado por: Ing. 4. Amplitud o Rango (‘range’): La diferencia entre las observaciones extremas. se duda entre varias opciones. Variabilidad por error de medida. n n n S2 = ∑ ( x1 − x ) 2 i =1 n −1 = n ∑ xi 2 − ( ∑ xi ) 2 i =1 i =1 n ( n − 1) Es sensible a valores extremos (alejados de la media). El sumatoria obtenido se divide por el tamaño de la muestra. Medidas de dispersión Miden el grado de dispersión (variabilidad) de los datos. Por el contrario. Mientras más se aproxima a cero. Varianza S2 (‘Variance’): Mide el promedio de las desviaciones (al cuadrado) de las observaciones con respecto a la media. mientras mayor sea la varianza. 4. Óscar Flores Pérez Bioestadística El examen no es una medida perfecta del conocimiento. aleatoriedad. más concentrados están los valores de la serie alrededor de la media. y al azar se elige la mala. Es decir. Rango intercuartílico (‘interquartile range’): Es la distancia entre el primer y tercer cuartil. pero eliminando las observaciones más extremas inferiores y superiores. mide la distancia existente entre los valores de la serie y la media. 8. En alguna pregunta difícil. Variabilidad por azar. Sus unidades son el cuadrado de las de la variable. No es tan sensible a valores extremos. Rango intercuartílico = P75 .P25 Parecida al rango. El rango es 8-1=7 Es muy sensible a los valores extremos. Se calcula como sumatoria de las diferencias al cuadrado entre cada valor y la media. 3. más dispersos están 44 . independientemente de su causa. 1.

Óscar Flores Pérez Bioestadística Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su media la dispersión es menor que cuando están esparcidos. A una distancia de dos desviación típica de la media tendremos 95% observaciones.) A dos desviaciones típicas las tenemos a casi todas (dcha. A una distancia de una desviación típica de la media tendremos 68% observaciones. Centrado en la media y a una desviación típica de distancia tenemos más de la mitad de las observaciones (izq. Cierta distribución que veremos más adelante (normal o gaussiana) quedará completamente determinada por la media y la desviación típica. Si habéis oído hablar en física de porqué un patinador gira a diferente velocidad cuando tiene los brazos recogidos (menor dispersión). S = ∑ n ( xi − µ ) 2 n −1 i =1 Tiene las misma dimensionalidad (unidades) que la variable.) 45 . puede que os suene el ‘coeficiente de inercia’ Desviación típica (‘standard deviation’) Es la raíz cuadrada de la varianza Para datos sin agrupar.Elaborado por: Ing.

s2 = n(n −1) ( ) 2 Donde. S= ∑ i =1 k fi ( Mi − x ) 2 n −1 k = numero de clases fi = frecuencia de la clase i .25=25% (variabilidad relativa) Es una cantidad adimensional. Si el peso tiene CV = 30% y la altura tiene CV = 10%. Es la razón entre la desviación típica y la media. No debe usarse cuando la variable presenta valores negativos o donde el valor 0 sea una cantidad fijada arbitrariamente. Interesante para comparar la variabilidad de diferentes variables. Si la media es 80 y la desviación típica 20 entonces CV =20/80=0. Por ejemplo 0 ºC ≠ 0 ºF 46 .Elaborado por: Ing. 2. El numerador en ambos ecuaciones recibe el nombre de suma de cuadrados y el denominador recibe el nombre de grados de libertad. denomina variabilidad relativa.1 Coeficiente de variación Sirve para comparar distribuciones numéricas medidas en escalas o medidas diferentes. Óscar Flores Pérez Bioestadística n∑i=1 Mi2 fi − ∑i=1 Mifi k k Para datos agrupados. CV = σ µ También se la Mide la desviación típica en forma de “qué tamaño tiene con respecto a la media” Es frecuente mostrarla en porcentajes Ejemplo.ésima Mi = punto medio de la clase i – ésima x = promedio aproximado de de la distribución de frecuencias n = total de observaciones. los individuos presentan más dispersión en peso que en altura.5.

7. 11.5 El interés del coeficiente de variación es que al ser un porcentaje permite comparar el nivel de dispersión de dos muestras. si se calculan los coeficientes de variabilidad. 14. Esto no ocurre con la desviación típica.7. a) b) c) d) 9. 6. sus coeficientes de variación son ambos porcentajes. 5. 6. Encuentre la moda para el conjunto de datos del ejercicio 3: 47 . 8. Ejercicio.99 frecuencia 3 5 7 11 15 7 2 Halle la mediana para los siguientes conjuntos de datos.). 7. ya que viene expresada en las mismas unidas que los datos de la serie. 3. 3. En cambio. 9. 11.9 Para los 11 años de edad CV = 10/80(100) = 12. 6. 8. 3. por lo que sí se pueden comparar. 2.Elaborado por: Ing. se obtiene para los 25 años de edad. 8. 2. y la otra en Kg. 2. 5. Óscar Flores Pérez Muestra 1 25 años 154 libras 10 libras Bioestadística Muestra 2 11 años 80 libras 10 libras Edad Peso Desv. 7. estándar Una compasión de las desviaciones estándares puede conducir a la conclusión de que las dos muestras tienen igual variabilidad. CV = 10/145(100) = 6. 4. no se puede utilizar las desviaciones típicas (una viene expresada en cm. para comparar el nivel de dispersión de una serie de datos de la alzada de la cruz de los marranos de una unidad de producción y otra serie con el peso de dichos marranos. 2. 5. Por ejemplo. Halle la media para datos agrupados. 9. Sin embargo. clase 1 2 3 4 5 6 7 Limites de clase 30 – 39 40 – 49 50 – 59 60 – 69 70 – 79 80 – 89 90 . 3. Hallar la media del conjunto de mediciones 2. 6. 7.

mediana. humana o vegetal es compartida por sus descendientes. Hoy en día el sentido de regresión es el de predicción de una medida basándonos en el conocimiento de otra.6 Relaciones entre variables y regresión El término regresión fue introducido por Galton* en su libro “Natural inheritance” (1889) refiriéndose a la “ley de la regresión universal”: “Cada peculiaridad en una especie animal.5 altura del padre (aprox.Elaborado por: Ing. Varianza y desviación estándar. en un grado menor. aunque tienen tendencia a acercarse (regresar) a la media. 2. * Francis Galton • Primo de Darwin • Estadístico y aventurero 48 . Edad 05 . pero en media. Lo mismo puede decirse de los padres muy bajos.14 15 – 24 25 – 34 35 – 44 45 – 54 55 – 64 Total número de casos 5 10 20 22 13 5 75 Calcule la media.) Conclusión: Los padres muy altos tienen tendencia a tener hijos que heredan parte de esta altura.” Regresión a la media Su trabajo se centraba en la descripción de los rasgos físicos de los descendientes (una variable) a partir de los de sus padres (otra variable). La siguiente tabla de distribución de edades de casos de una cierta enfermedad informados durante un año en un estado. Óscar Flores Pérez Bioestadística Encuentre la variación y la desviación estándar para los datos del ejercicio 3. Pearson (un amigo suyo) realizó un estudio con más de 1000 registros de grupos familiares observando una relación del tipo: Altura del hijo = 85cm + 0.

. las dos variables no están correlacionadas. El coeficiente de correlación de la población puede tomar valores cualesquiera entre -1 y +1. ¿Conocer el peso de una persona (o animal o vegetal) conociendo su altura y contorno de cintura? El estudio conjunto de dos variables cualitativas lo aplazamos hasta que veamos contrastes de hipótesis (X2).. Estudiar la relación entre el sobrepeso y el dolor de espalda (ordinal) Hay más de dos variables relacionadas. describe la relación entre las observaciones de la muestra en dos variables de la misma forma que ρ describe la relación en la población..Elaborado por: Ing. 2.1 Coeficiente de correlación. El parámetro (ρ). Si ρ = 0. 61 60 78 62 66 60 54 84 68 .6. existe una correlación lineal directa perfecta entre las dos variables. Si ρ = 1. ¿Hay relación entre fumar y padecer enfermedad de pulmón? Estudio conjunto de dos variables Altura en cm. En este apartado vamos a tratar diferentes formas de describir la relación entre dos variables cuando estas son numéricas. A la derecha tenemos una posible manera de recoger los datos obtenidos observando dos variables en varios individuos de una muestra. 162 154 180 158 171 169 166 176 163 . El coeficiente de correlación de la muestra r. mientras que si ρ = -1indica una correlación lineal inversa perfecta. Peso en Kg. Estudiar si hay relación entre la altura y el peso.. se conoce como coeficiente de correlación de la población y mide la intensidad de la relación lineal entre x e y. Haremos mención de pasada a otros casos: Alguna de las variables es ordinal. En cada fila tenemos los datos de un individuo 49 . Óscar Flores Pérez Bioestadística • Fundador (con otros) de la estadística moderna para explicar las teorías de Darwin.

Óscar Flores Pérez Bioestadística Cada columna representa los valores que toma una variable sobre los mismos.2 Diagrama de dispersión o nube de puntos. Diagrama de dispersión. En ellos. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 Pesa 50 kg. de qué tipo.6. Mide 187 cm. Tenemos las alturas y los pesos de 30 individuos. Figura 1. Nuestro objetivo será intentar reconocer a partir del mismo si hay relación entre las variables. 50 . Dichas observaciones pueden ser representadas en un diagrama de dispersión (‘scatterplot’). 2. cada individuo es un punto cuyas coordenadas son los valores de las variables. Los individuos no se muestran en ningún orden particular.Elaborado por: Ing. y si es posible predecir el valor de una de ellas en función de la otra. Pesa 76 kg. Mide 161 cm.

por cada 10 cm. 170 180 190 200 Figura 3.3 Relación entre las variables Tenemos las alturas y los pesos de 30 individuos representados en un diagrama de dispersión. 100 90 80 70 60 50 40 30 140 150 160 10 cm.Elaborado por: Ing. 2. 51 . 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 P ar q ec e ue e es lp o aum en t on ac l lt u aa ra Figura 2. Aparentemente el peso aumenta 10 Kg.6. Predicción de una variable en función de la otra. o sea. el peso aumenta en una unidad por cada unidad de altura.4 Predicción de una variable en función de la otra. de altura…. 10 kg. Relación entre variables.6. Óscar Flores Pérez Bioestadística 2.

6. 100 90 80 70 60 50 40 30 140 150 160 170 180 190 200 Fuerte relación directa. Incorrelación.5 Como reconocer la relación directa e inversa.Elaborado por: Ing. Peso de las relaciones. 33 28 23 18 13 8 3 14 15 16 17 18 19 20 Incorrelación Figura 4. Para la figura de arriba se observa que para los valores de X mayores que la media le corresponden valores de Y mayores también o para los valores de X menores que la media le corresponden valores de Y menores también. Relación directa e inversa. Esto se llama relación directa o creciente entre X e Y. Óscar Flores Pérez Bioestadística 2. En la figura de arriba se observa que para valores de X por encima de la media tenemos valores de Y por encima y por debajo en proporciones similares. Figura 5. 52 .

La covarianza entre dos variables. Óscar Flores Pérez 80 70 60 50 40 30 20 10 0 140 150 160 170 180 Bioestadística Cierta relación inversa 190 200 Figura 6. entonces se tendría que SXY = 0. Covarianza de dos variables X e Y. Se define como: ⇒ Si hay mayoría de puntos en el tercer y primer cuadrante. ⇒ Si la mayoría de puntos están repartidos entre el segundo y cuarto cuadrante entonces SXY ≤ 0. lo que se puede interpretar como que la variable Y tiende a aumentar cuando lo hace X. En la figura se observa que para los valores de X mayores que la media le corresponden valores de Y menores. Directa: Sxy >0 Inversa: Sxy <0 Incorreladas: Sxy =0 S xy = 1 ∑ ( xi − x )( yi − y ) n i El signo de la covarianza nos dice si el aspecto de la nube de puntos es creciente o no. es decir. ocurrirá que SXY ≥ 0.Elaborado por: Ing. las observaciones Y tienen tendencia a disminuir cuando las de X aumentan. Tipo de relación. 53 . Esto es relación inversa o decreciente. pero no nos dice nada sobre el grado de relación entre las variables. y). La covarianza SXY . Sxy. nos indica si la posible relación entre dos variables es directa o inversa. es una medida que nos hablará de la variabilidad conjunta de dos variables numéricas (cuantitativas). ⇒ Si los puntos se reparten con igual intensidad alrededor de (x. La covarianza.

n−2 distribución de t – student con n-2 grados de 1− r2 2.6. nos indica si los puntos tienen una tendencia a disponerse alineadamente (excluyendo rectas horizontales y verticales). pero no servirá para otro tipo de relaciones (cuadrática.) r = Fórmula para calcular r. Óscar Flores Pérez Bioestadística 2. p q Relación inversa perfecta Variables incorreladas Relación directa casi perfecta -1 0 T 3 E t dí ti +1 54 . Además.1] Las variables son incorrelacionadas r=0 Relación lineal perfecta entre dos variables r =+1 o r =-1 Excluimos los casos de puntos alineados horizontal o verticalmente. logarítmica.6 Coeficiente de correlación lineal de Pearson El coeficiente de correlación lineal de Pearson de dos variables.. r.. S xy S xS y r= n ∑ x 2 − (∑ x ) * n ∑ y 2 − (∑ y ) 2 n ∑ xy − ((∑ x )(∑ y )) 2 Prueba estadística. Siempre que no existan observaciones anómalas. Tiene el mismo signo que Sxy por tanto de su signo obtenemos el que la posible relación sea directa o inversa.7 Propiedades de r ⇒ ⇒ ⇒ ⇒ Es adimensional Sólo toma valores en [-1.6.Elaborado por: Ing. t = r libertad. r es útil para determinar si hay relación lineal entre dos variables.. ⇒ Cuanto más cerca esté r de +1 o -1 mejor será el grado de relación lineal.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Entrenando el ojo: correlaciones positivas
330 280 230 180 130 80 30 140 110 100 90 80 70 60 50 40 30 140 150 160 170 180 130 120 110 100 90 80 70 60 50 40 30 140 100 90 80 70 60 50

r=0,1
150 160 170 180 190 200

r=0,4
150 160 170 180 190 200

r=0,6
190 200

40 30 140 150 160 170 180

r=0,8
190 200

100 90 80 70 60 50 40 30 140 100 90 80 70 60 50 40 30 140 150 160 170 180 150 160 170 180

100 90 80 70 60 50

r=0,9
190 200

40 30 140 150 160 170 180

r=0,99
190 200

r=1
190 200

55

Elaborado por: Ing. Óscar Flores Pérez
90 80 70 60 50 40 30 20 10 0 140

Bioestadística

80 70 60 50 40 30 20

r=-0,5
150 160 170 180 190 200

10 0 140 80 70 60 50 40 30 20

r=-0,7
150 160 170 180 190 200

80 70 60 50 40 30 20 10 0 140

r=-0,95
150 160 170 180 190 200

10

r=-0,999
150 160 170 180 190 200

0 140

Ejercicio. Cuadro 8. Relación entre el peso y la concentración de glucosa en personas aparentemente. peso (x) glucosa (y) xy x2 64 108 6912 4096 75,3 109 8207,7 5670,09 73 104 7592 5329 82,1 102 8374,2 6740,41 76,2 105 8001 5806,44 95,7 121 11579,7 9158,49 59,4 79 4692,6 3528,36 93,4 107 9993,8 8723,56 619,1 835 65353 49052,35 y2 11664 11881 10816 10404 11025 14641 6241 11449 88121

r=

n∑ x 2 − (∑ x ) * n∑ y 2 − (∑ y )
2

n∑ xy − ((∑ x )(∑ y ))

2

r = ___ 8*65353-619.1*835_________ √ (8*49052.35)-(619.1)2*√8*88121-(835)2 R = 0.69865

56

Elaborado por: Ing. Óscar Flores Pérez Preguntas frecuentes ¿Si r = 0 eso quiere decir que no las variables son independientes? En la práctica, casi siempre sí, pero no tiene por qué ser cierto en todos los casos. Lo contrario si es cierto: Independencia implica incorrelación.
Las dos variables Son independientes

Bioestadística

Hay dependencia entre las variables aunque la sea covarianza

nula Me ha salido r = 1’2 ¿la relación es “súper lineal”? ¿Súper qué? Eso es un error de cálculo. Siempre debe tomar un valor entre -1 y +1. ¿A partir de qué valores se considera que hay “buena relación lineal”? Es difícil dar un valor concreto (mirad los gráficos anteriores). Para este curso digamos que si |r|>0,7 hay buena relación lineal y que si |r|>0,4 hay cierta relación (por decir algo... la cosa es un poco más complicada: observaciones anómalas,...)

2.6.8 Otros coeficientes de correlación
Cuando las variables en vez de ser numéricas son ordinales, es posible preguntarse sobre si hay algún tipo de correlación entre ellas. Disponemos para estos casos de dos estadísticos, aunque no los usaremos en clase: ρ (‘ro’) de Spearman τ (‘tau’) de Kendall No tenéis que estudiar nada sobre ellos en este curso. Recordad sólo que son estadísticos análogos a r y que los encontrareis en publicaciones donde las variables no puedan considerarse numéricas.

57

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Resuelva el siguiente ejercicio. Cuadro 9. Relación de la especie Swietenia macrophylla, las minas y Prinzapolka. Año 2000 2001 2002 2003 2004 Total Árboles Volumen aprov. m3 603 2467,42 1864 4556,895 1022 7195,922 1257 3233,657 227 549,975

Halle el coeficiente de correlación. R = 0.5831

2.7

Regresión lineal.

Calculo e interpretación del intercepto y pendiente de la recta de regresión Al analizar los datos en las disciplinas que conforman las ciencias biológicas con frecuencias es conveniente obtener algún conocimiento acerca de la relación entre las dos variables. Por ejemplo, estatura y peso, intensidad de un estimulo y tiempo de reacción, ingreso familiar y gastos médicos. La naturaleza e intensidad de relaciones entre variables como las antes escritas son examinadas por medio de los análisis de la regresión y correlación, que son dos técnicas estadísticas que, aunque están relacionadas, sirven para propósitos diferentes. El análisis de regresión es útil para averiguar la forma probable de las relaciones entre las variables, es decir, sirve para predecir una medida en función de otra medida (o varias). Y = Variable dependiente Predicha Explicada X = Variable independiente Predictora Explicativa ¿Es posible descubrir una relación? Y = f(X) + error

58

explicativa) Buscamos encontrar una función de X muy simple (lineal) que nos permita aproximar Y mediante Ŷ = b0 + b1X ó a+bx a = b0 (ordenada en el origen. Es el punto donde la recta cruza el eje vertical. pequeño. nos interesaremos por modelos de regresión lineal simple. constante). Regresa a la media. pero no tanto como el padre. dado dos variables Y (dependiente) X (independiente. Y e Ŷ rara vez coincidirán por muy bueno que sea el modelo de regresión. y no depende de X El ejemplo del estudio de la altura en grupos familiares es del tipo que desarrollaremos en el resto del tema. Alto. Es decir. En el ejemplo de Pearson y las alturas. A la cantidad e = Y-Ŷ se le denomina residuo o error residual.5 X) Si el padre mide 200cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0. (No interpretar como altura de un hijo cuyo padre mide 0 cm.7.5x200=185 cm. Si el padre mide 120cm ¿cuánto mide el hijo? Se espera (predice) 85 + 0.Elaborado por: Ing. b = b1 (pendiente de la recta). ¡Extrapolación salvaje! 59 .5x120=145 cm. Bajo. Óscar Flores Pérez Bioestadística f es una función de un tipo determinado El error es aleatorio. 2.5 altura del padre (Y = 85 + 0. Regresa a la media. Altura del hijo = 85cm + 0.1 Modelo de regresión lineal simple En el modelo de regresión lineal simple. pero no tanto como el padre. él encontró: Ŷ = b0 + b1X b0=85 cm. Cantidad con la cual “y” cambia por cada unidad de cambio en “x”.

5 (En media el hijo gana 0. 60 . 180 150 120 90 60 30 0 0 20 10 40 30 50 70 60 90 80 1 00 1 20 1 10 1 40 1 30 1 60 1 50 1 70 1 90 1 80 2 10 2 00 2 20 b1=0.5 b0=85 cm Figura 7. El modelo lineal de regresión se construye utilizando la técnica de estimación mínimo cuadrática: Buscar b0. será peor por presentar mayor variabilidad con respecto al error medio (que es cero).) La relación entre las variables no es exacta. b1 de tal manera que se minimice la cantidad Σi ei2 Se comprueba que para lograr dicho resultado basta con elegir: b1 = r SY SX b0 = y − b1 x Se obtiene además unas ventajas “de regalo” El error residual medio es nulo La varianza del error residual es mínima para dicha estimación.Elaborado por: Ing.5 cm. Traducido: En término medio no nos equivocamos. si es de tipo lineal. por cada cm. Es natural preguntarse entonces: ⇒ Cuál es la mejor recta que sirve para predecir los valores de Y en función de los de X ⇒ Qué error cometemos con dicha aproximación (residual). del padre. Cualquier otra estimación que no cometa error en término medio. Modelo lineal. Óscar Flores Pérez Bioestadística b1=0.

7.Elaborado por: Ing. su relación con la varianza de Y. 61 . y vamos a tratar de comprender en primer lugar que es el error residual. Se necesitan los valores numéricos de las constantes b0 y b1 Ecuaciones normales para un conjunto de datos. n ∑ xy − (∑ x )(∑ y ) n ∑ x 2 − (∑ x ) 2 ∑ y = nb + b ∑ x ⎫ ⎪ ⎬ xy = b ∑ x + b ∑ x ⎪ ∑ ⎭ 0 1 2 0 1 b1 = Ó b0 = ∑ y − b1 ∑ x n Hay que encontrar un medio de expresar la bondad del ajuste (bondad de la predicción) No importa.2 ¿Cómo medir la bondad de una regresión? Imaginemos un diagrama de dispersión. 2. Cometió un error de -30 en su última predicción Para trazar una recta con base en la ecuación Ŷ = b0 + b1X. Con los dos últimos clientes me equivoqué en +10 y +20. y de ahí. Óscar Flores Pérez Bioestadística Que el error medio de las predicciones sea nulo no quiere decir que las predicciones sean buenas. cómo medir la bondad de un ajuste. En término medio el error es cero.

Proyección sobre el eje Y = olvidar X 2. Y La franja sombreada indica la zona donde varían los valores de Y. están menos dispersos que la variable Y original. Óscar Flores Pérez Bioestadística 2. Veamos cuál es la variabilidad en el eje Y.7. Se observa que los errores de predicción. Los proyectamos sobre el eje Y.7.3 Interpretación de la variabilidad en Y En primer lugar olvidemos que existe la variable X. Cuanto menos dispersos sean los residuos.4 Interpretación del residuo p Fijémonos ahora en los errores de predicción (líneas verticales). mejor será la bondad del ajuste.Elaborado por: Ing. residuos. Y 62 .

1] Para el alumno astuto: ¿por qué? Cuando un ajuste es bueno. ¿Por qué? Cuando un ajuste es malo R2 será cercano a cero. Óscar Flores Pérez Bioestadística 2. pero en el modelo lineal simple. Eso hace que definamos como medida de bondad de un ajuste de regresión. ¿Por qué? Difícil. ¿Por qué? A R2 también se le denomina porcentaje de variabilidad explicado por el modelo de regresión.7. o coeficiente de determinación a: Y S e2 R = 1− 2 SY 2 Bioestadística U Málaga S e2 < SY2 Tema 3: Estadística bivariante 28 La bondad de un ajuste de un modelo de regresión se mide usando el coeficiente de determinación R2 ⎡ (∑ x )2 ⎤ 2 ⎢∑ x − n ⎥ = SCR r 2 = b2 ⎢ (∑ y )2 ⎥ SCT 2 ⎥ ⎢ ⎢∑ y − n ⎥ ⎦ ⎣ El coeficiente de determinación (r2) de la muestra mide la proximidad del ajuste de la ecuación de regresión de la muestra a los valores observados de y. la expresión es de lo más sencilla: R2 = r2 ¿Es coherente lo dicho entonces sobre los valores de R2? 63 . R2 puede ser pesado de calcular en modelos de regresión general.Elaborado por: Ing.5 Bondad de un ajuste Resumiendo: • La dispersión del error residual será una fracción de la dispersión original de Y •Cuanto menor sea la dispersión del error residual mejor será el ajuste de regresión. R2 es una cantidad adimensional que sólo puede tomar valores en [0. R2 será cercano a uno.

Prom.5 0.594 3.035 0. Fuentes de Grados de Suma de variación libertad cuadrados Regresión 1 1913890.011465708 -0. ese termino es una medida de la variación total en los valores observados de y. Fuente de Grados de Suma de Promedio Razón de Valor variación libertad cuadrados cuadrados(CM) variación crítico de F Regresión 1 SCR SCR/1 CMR/CME Residuos n-2 SCE SCE/n-2 Total n-1 SCT Ejemplo.82 6590 26761.13 Residuos 3 165009082. Año Posición Nombre Científico 2000 2 Carapa guianensis 2001 1 Carapa guianensis 2002 1 Carapa guianensis 2003 1 Carapa guianensis 2004 2 Carapa guianensis Estadísticas de la regresión Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones ANÁLISIS DE VARIANZA. Nivel de aprovechamiento de la especie Carapa guianensis en el distrito II. e M3 m3/Árbol 2607 9946. (las minas y Prinzapolka).Elaborado por: Ing.358 4. Cuadro 10. Árboles Aprov.06 4380 12760.4026 5 Total Volumen Vol.91 5242 14194.879 271 La suma total de cuadrados (SCT) es una medida de la dispersión de los valores observados de “y” en torno a la su media “Ÿ”. es decir.318045722 7416.039 2.82 4424 16881.864 55003027.7 Promedio Valor crítico cuadrados F de F 1913890. 64 .6 Total 4 166922972.13 0.7 3. Óscar Flores Pérez Bioestadística Tabla ANOVA de regresión lineal simple.

Elaborado por: Ing. Es la cantidad que se minimiza cuando se obtiene la recta de mínimos cuadrados. Óscar Flores Pérez Bioestadística La suma de cuadrados explicadas mide la cantidad de la variabilidad total en los valores observados de y que se toma en cuenta mediante la relación lineal entre los valores observados de y e x. Se pueden considerar otros tipos de modelos. esta es la suma de cuadrados debido a la regresión lineal (SCR) La suma de cuadrado inexplicada es una medida de dispersión de los valores observados de y en torno a la recta de regresión. conocida también como suma de error de cuadrados (SCE). 140 ¿recta o parábola? 150 160 170 180 190 200 ¿recta o cúbica? 140 150 160 170 180 190 200 65 . SCT = SCR + SCE (∑ y ) SCT = ∑ ( y − Υ ) = ∑ y − n 2 i 2 i i 2 ⎛ SCR = b ⎜ ∑ x 2 − ⎜ ⎝ 2 (∑ x ) n 2 ⎞ ⎟ ⎟ ⎠ Otros modelos de regresión. en función del aspecto que presente el diagrama de dispersión (regresión no lineal) Incluso se puede considerar el que una variable dependa de varias (regresión múltiple).

Una variable explicativa Más de 2 variables explicativas Modelos de regresión Simple Múltiple Lineal No lineal Lineal No lineal 66 . Óscar Flores Pérez Bioestadística 2.Elaborado por: Ing.7.6 Modelos de análisis de regresión.

3. Recordar algunas reglas de cálculo. 1. constituyendo la base para la estadística inductiva o inferencial. Aplicar los conceptos de esperanza matemática a problemas reales. ¿Cuál es la probabilidad de aprobar Bioestadística? ¿Cuál es la probabilidad de no encontrarme un atasco en la calle cuando voy a clase? Todos los días nos hacemos preguntas sobre probabilidad e incluso los que hayáis visto poco de la materia en cursos anteriores. Aplicarlo a algunos conceptos nuevos de interés en CC. Es personal. Hay dos maneras principales de entender la probabilidad: Frecuentista (objetiva): Probabilidad de un suceso es la frecuencia relativa (%) de veces que ocurriría el suceso al realizar un experimento repetidas veces. Ver cómo aparecen las probabilidades en CC. 4.1 Nociones de probabilidad. Subjetiva (Bayesiana): Grado de certeza que se posee sobre un suceso.Elaborado por: Ing. Vamos a recordar qué son y algunas operaciones que se pueden realizar con sucesos. 2. En este tema vamos a: Recordar qué entendemos por probabilidad. tenéis una idea intuitiva lo suficientemente correcta para lo que necesitamos de ella en este curso. Objetivos de la unidad. 3. Suministrar las reglas para el estudio de los experimentos aleatorios o de azar. Salud. Óscar Flores Pérez Bioestadística III. Desatacar la importancia de las probabilidades. Pruebas diagnósticas. Probabilidades. Salud. Interpretar la teoría elemental de las probabilidades. En ambos tipos de definiciones aparece el concepto de suceso. 67 .

AUB. Condicionada Se llama probabilidad a cualquier función. Se llama suceso a un subconjunto de dichos resultados. Se llama suceso contrario (complementario) de un suceso A.Elaborado por: Ing. Cuando se realiza un experimento aleatorio diversos resultados son posibles. verificando las siguientes reglas (axiomas) 0≤P(A) ≤1 P (E)=1 P (AUB)=P(A)+P (B) si AB = Ø Ø es el conjunto vacío. 3. E espacio muestral 100% E espacio muestral A B 68 . P. al formado por los resultados experimentales que están simultáneamente en A y B simultáneamente en A y B E espacio muestral A B Bioestadística U Málaga E espacio muestral A B UNIÓN E espacio muestral A B INTERSEC. que asigna a cada suceso A un valor numérico P(A). al formado por los elementos que no están en A E espacio muestral E espacio muestral A A’ Se llama suceso unión de A y B. Se llama suceso intersección de A y B. A’. Óscar Flores Pérez Bioestadística Sucesos. al formado por los resultados experimentales que están en A o en B (incluyendo los que están en ambos. El conjunto de todos los resultados posibles se llama espacio muestral (E). A∩B o simplemente AB.2 Definición de probabilidad y prob.

U. Óscar Flores Pérez Bioestadística Se llama probabilidad de A condicionada a B. es más cómodo conocer algunas reglas de cálculo: P (A’) = 1 – P (A) P (AUB) = P (A) + P (B) – P (AB) P (AB) = P (A) P (B|A) = P (B) P (A|B) Probabilidad de que pasen A y B es la probabilidad de A y que también pase B sabiendo que pasó A. entre una población de enfermos de osteoporosis 760 eran mujeres. o probabilidad de A sabiendo que pasa B: Se a a p obab dad de sabiendo que pasa B: co d c o ada a E . qué probabilidad hay de que sea mujer: La noción.76=76% Si elegimos a un individuo de la población.76=0. Frecuentista de probabilidad nos permite aproximarlo a P (Mujer)=0’76 ¿Cuál es la probabilidad de que elegido un individuo de la población sea hombre?: P (Hombre)=P (Mujer’)=1-0. Cualquier problema de probabilidad puede resolverse en teoría mediante aplicación de los axiomas. Sin embargo. Málaga. o p oba espacio muestral P( A | B) = P ( AB ) P( B) “tam año ” de uno res pec to a l otro A B Tem Bioestadística.24 69 . ¿Qué porcentaje de mujeres hay en la muestra? 760/1000=0. Dos sucesos son independientes si la el que ocurra uno no añade información sobre el otro.Elaborado por: Ing. En lenguaje probabilístico: A independiente B Dicho de otra forma: A independiente B P (A|B) = P (A) P (AB) = P (A) P (B) EJEMPLO: En una muestra de 1000 individuos elegidos al azar.

Óscar Flores Pérez Bioestadística Se sabe de otros estudios que entre los individuos con osteoporosis.4 Teorema de la probabilidad total. A3 A4 Divide y vencerás. puede ser descompuesto en componentes de dicho sistema. A4 A3 3.19 ¿Qué probabilidad hay de que sea un hombre fumador? P (Hombre ∩ Fumar) = P (Hombre) P (Fumar | hombre) = 0. ¿Qué probabilidad hay de que sea mujer fumadora? P (Mujer ∩ Fumar) = P (Mujer) P (Fumar | mujer) = 0. aprox. 70 . A2.08 3.Elaborado por: Ing. B = (B∩A1) U (B∩A2) U (B∩A3) U (B∩A4) B A1 A2 Nos permite descomponer el problema B en sub Problemas más simples. Creedme. A3.3 Sistema exhaustivo y excluyente de sucesos.76 x ¼ = 0.24 x 1/3 = 0. Todo suceso B. A4… Tales que la unión de todos ellos forman el espacio muestral. Elegimos a un individuo al azar de la población de enfermos. la cuarta parte de las mujeres fuman y la tercera parte de los hombres. Funciona. y sus interseccione son disjuntas. A1 A2 Son una colección de sucesos A1.

13 =13% Teorema Probabilidad Total.46 = 46% de Bayes 71 .3 + 0.7 = 0.13 = 0.1 x 0. entonces… … podemos calcular la probabilidad de B. A1 A2 B A3 A4 P(B) = P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4 ) =P(B|A1) P(A1) + P(B|A2) P(A2) + … Ejemplo: En esta aula el 70% de los alumnos son mujeres. Hombres y mujeres forman un Sistema Exhaustivo y Excluyentes de sucesos Se elige a un individuo al azar y resulta fumador. ¿Qué porcentaje de fumadores hay en total? P (F) = P (F∩H) + P (F∩M) = P (F|H) P (H) + P (F|M) P (M) = 0. son fumadores el 20%.Elaborado por: Ing. Óscar Flores Pérez Bioestadística Si conocemos la probabilidad de B en cada uno de los componentes de un sistema exhaustivo y excluyente de sucesos.3 / 0. De los varones.2 x 0. ¿Cuál es la probabilidad de que sea un hombre? P (H|F) = P (F ∩ H)/P (F) = P (F|H) P (H) / P (F) Teorema = 0.2 x 0. De ellas el 10% son fumadoras.

2 0. B A3 A4 P(Ai | B) = P(B Ai) P(B) P(B)=P(B∩A1) + P(B∩A2 ) + P( B∩A3 ) + ( B∩A4 ) =P(B|A1) P(A1) + P(B|A2) P(A2) + … 72 .8 0. Óscar Flores Pérez Bioestadística Expresión del problema en forma del árbol.3x0. Fuma P(F) = 0.2/P(F) •Los caminos a través de nodos representan intersecciones.3 Hombre 0. Donde P (B) se puede calcular usando el teorema de la probabilidad total: de cada Ai.3x0. 3.5 Teorema de Bayes.7 Estudiante 0.Elaborado por: Ing.7 x 0. Si conocemos la probabilidad de B en cada uno de los componentes de un sistema exhaustivo y excluyente de sucesos.1 0.9 No fuma P(H | F) = 0. podemos calcular la probabilidad (a posterior) de ocurrencia de cada A.1 + 0. A2 A1 entonces… … si ocurre B. •Las bifurcaciones representan uniones disjuntas.2 Mujer 0. Fuma No fuma •Podéis resolver los problemas usando la técnica de vuestra preferencia.

Elaborado por: Ing.… Porcentaje de la población que presenta una enfermedad. Por otra parte. podemos calcular las probabilidades a posteriori (en función de los resultados del test): Índices predictivos. Sensibilidad. verdaderos + P. Una prueba diagnóstica sirve para ayudar a mejorar una estimación de la probabilidad de que un individuo presente una enfermedad. preval. intuición. P (Enfermo | Test +) = Índice predictivo positivo P (Sano | Test -) = Índice predictivo negativo Pruebas diagnosticas: aplicación T. usamos una prueba diagnóstica. Bayes. A partir de lo anterior y usando el teorema de Bayes. Porcentaje de nuevos casos de la enfermedad en la población. Prevalencia.6 Pruebas diagnosticas. Óscar Flores Pérez Bioestadística 3. Verdaderos - T- 73 . para confirmar. La misma ha sido evaluada con anterioridad sobre dos grupos de individuos: sanos y enfermos. En principio tenemos una idea subjetiva de P (Enfermo)..… Enfermo Falsos Individuo Falsos + Sano T+ T- T+ Especificidad.. Así de modo frecuentista se ha estimado: Sensibilidad (verdaderos +) = Tasa de acierto sobre enfermos. Especificidad (verdaderos -) = Tasa de acierto sobre sanos. a priori de enfermedad: incid. Nos ayudamos de… Incidencia.

Bayes Bioestadística La diabetes afecta al 20% de los individuos que acuden a una consulta.99 0.2 ⋅ 0.88 0. Le haremos unas pruebas. al llegar un individuo a la consulta tenemos una idea a priori sobre la probabilidad de que tenga una enfermedad.3 y la especificidad de 0.2 Individuo Enfermo T+ TT+ T- P ( Enf | T + ) = = P( Enf Ι T +) + P ( SanoΙ T +) P ( Enf Ι T +) 0.99 + 0.85 0. A continuación se le pasa una prueba diagnóstica que nos aportará nueva información: Presenta glucosuria o no. . -¿Qué probabilidad tengo de estar enfermo? .8 ⋅ 0.Elaborado por: Ing. Calcular los índices predictivos 0.99.2 ⋅ 0.01 Sano 0. Óscar Flores Pérez Ejemplo: Pruebas diagnóstica y T.2 ⋅ 0.8 ⋅ 0. En función del resultado tenemos una nueva idea (a posteriori) sobre la probabilidad de que esté enfermo. Su sensibilidad es de 0. Relaciónalo con el método científico.7 Observaciones En el ejemplo anterior. La presencia de glucosuria se usa como indicador de diabetes.8 P ( Sano | T −) = = 0.3 + 0.Presenta glucosuria. 74 . Nuestra opinión a priori ha sido modificada por el resultado de un experimento.7 0.3 0.3 = 0.99 = 0.8 ⋅ 0.En principio un 20%.01 P( SanoΙ T −) + P( Enf Ι T −) P( SanoΙ T −) 0. La probabilidad ahora es del 88%.

25 × 0. ¿cuál es la probabilidad de que entre estas. Si un individuo es elegido aleatoriamente de esta población. exactamente dos estén sanas? Calcular la probabilidad de que el test suministre un resultado incorrecto para dos personas. ¿Cual es la probabilidad de que exactamente a cuatro personas le de un resultado positivo? Si en la muestra hay cuatro personas a las que el test le da positivo.80. Calcular la probabilidad de que el resultado sea correcto para más de 7 personas.Elaborado por: Ing. 8 P[T−|E] = 0. 8 × 0. La probabilidad de que un individuo expuesto al alergeno experimente una reacción es de 0. 9 = 0. T+. Solución: Los datos de que disponemos son: P[E] = 0. Si queremos saber a cuantas personas el test le dará un resultado positivo. la probabilidad de que un individuo. tendremos que calcular P[T+]. La sensibilidad del test es del 80% y la especificidad del 75 %. elegido aleatoriamente haya sido expuesto a un alergeno y tenga una reacción frente al mismo es de 0. 1 + 0. 75 prevalencia de la enfermedad en la población Probabilidad a priori de estar enfermo sensibilidad (verdaderos positivos) especificidad (verdaderos negativos) donde E.60. para lo que podemos usar el teorema de la probabilidad total (estar enfermo y no estarlo forman una colección exhaustiva y excluyente de sucesos): = 0. y T− tienen el sentido que es obvio. 305 75 . Óscar Flores Pérez Ejercicio. Bioestadística En una población. ¿Cuál es la probabilidad de que haya estado expuesto al alergeno? El valor esperado y la varianza de esta variable son: E[X] = np Var [X] = npq Ejemplo de uso de la distribución binomial Un médico aplica un test a 10 alumnos de un colegio para detectar una enfermedad cuya incidencia sobre una población de niños es del 10%. 1 P[T+|E] = 0.

25 × 0.a. o sea. en realidad tiene una probabilidad aproximadamente del 74% de estar sana.Elaborado por: Ing. Sea X2 la variable aleatoria que contabiliza al número de personas al que el test le da positivo. hemos de calcular previamente P[E|T+]. Óscar Flores Pérez Bioestadística Sea X1 la v. 9 + 0. pero que están sanas en realidad. el índice predictivo de falsos positivos: Es importante observar este resultado. 2 × 0. Antes de hacer los cálculos no era previsible que si a una persona el test le da positivo. 245 76 . que contabiliza el número de resultados positivos. 1 = 0. Entonces y Por ´ultimo vamos a calcular la probabilidad p3 de que el test de un resultado err´oneo. Es claro que llamando p1 = P[T+]. que es: = 0. se tiene que X sigue una distribución binomial Por ello la probabilidad de que a cuatro personas le de el resultado del test positivo es: Si queremos calcular a cuantas personas les dará el test un resultado positivo aunque en realidad estén sanas.

5407 77 .Elaborado por: Ing. se tiene = 0. es la de que sea incorrecto para menos de 3. Óscar Flores Pérez Bioestadística La variable aleatoria que contabiliza el n´umero de resultados err´oneos del test es Como la probabilidad de que el test sea correcto para m´as de siete personas.

Preg. c. d.PROB[A]< 1 para todo A.PROB[ no A] = 1-PROB[A] para todo A.Prevalencia.Falsos positivos y verdaderos positivos. b.Contabilizando el número de tests positivos en una muestra aleatoria de individuos. 3.1% c.Especificidad y verdaderos negativos e. 2. d. c.PROB[A]> 0 para todo A.Verdaderos positivos y especificidad.PROB[E]= 1 cuando E es el suceso seguro. Cierto tests diagnóstico acierta sobre el 100% de los individuos enfermos y el 50% de los sanos.Sensibilidad y verdaderos positivos b.PROB[ A interseccion B] para todos A y B.Existe una probabilidad del 75% de que esté sana. Preg. e. Entonces: a.Esta enferma. Óscar Flores Pérez Bioestadística Ejercicios de Probabilidades. d.Existe una probabilidad del 50% de que esté sana. ¿cúal es la probabilidad de tener las dos? a. Cierta persona pasa el test con resultado negativo. 1. Para conocer los índices predictivos en un test diagnóstico para una enfermedad que tiene un 1% de afectados en la población. 5.PROB[A unionB] = PROB[A] . 78 . Preg.Existe una probabilidad del 75% de que esté enferma. Cuál de los siguientes es uno de los axiomas de probabilidad: a.5% e. la de tener la enfermedad B es del 10% y la de tener al menos una de las dos es del 13%. será necesario conocer: a. b.8% Preg. ¿Cómo se calcula la sensibilidad de un test diagnóstico? a. e. c.2% d.Cero b.Esta sana.PROB[B] . Si la probabilidad de tener la enfermedad A es del 5%. 4.Elaborado por: Ing. Preg.

Todos los sucesos elementales tienen la misma probabilidad de ocurrir.Por cada hombre fumador hay dos mujeres fumadoras.Contabilizando el número de tests negativos en una muestra aleatoria de sanos.Contabilizando el número de tests negativos en una muestra aleatoria de individuos. e.0. c. Entonces: a.Hay un 40% de fumadores en la población. al 50% hombres y mujeres. c. e. d.Todos los sucesos elementales son independientes entre si.Todo suceso elemental pertenece a algún suceso del sistema. e. Preg.Elaborado por: Ing.Fuman tantos hombres como mujeres. señale la afirmación correcta: a. b. d. b. d.Ninguna de las anteriores es cierta. 6. Preg. En una población.Contabilizando el número de tests positivos en una muestra aleatoria de enfermos. Preg. b.Por cada mujer fumadora hay dos hombres fumadores.Hay una probabilidad del 0% de que esté enferma.0. el 20% son varones y fumadores y el 20% de las mujeres fuman.15 c. d. Elegida una persona al azar: a. De una población de 500 pacientes. c. 9. hay tantos hombres como mujeres.Ningún suceso elemental pertenece a dos sucesos de dicho sistema.El test será negativo.0. 300 tienen alteración de la nutrición.10 b. de los cuales 50 son mujeres.30 Preg.25 e.0.Hay una probabilidad del 100% de que esté enferma. 8.Nada de lo anterior es cierto. La probabilidad de que un paciente escogido al azar sea mujer con denutrición es: a.Ninguna de las anteriores es cierta.0.20 d. Dado un sistema exhaustivo y excluyente de sucesos.Sólo (a) y (b) son ciertas. 79 . c. e. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos y el 0% de los individuos enfermos. Óscar Flores Pérez Bioestadística b. 7.Hay una probabilidad del 50% de que esté enferma.

e. y se observan los resultados.De un suceso complementario. 13. sucede el otro.De un suceso complementario. Si dos sucesos son incompatibles.A posteriori.El índice predictivo de verdaderos positivos. El porcentaje de individuos fumadores o con bronquitis se puede interpretar como una probabilidad: a. c. Preg.De un suceso intersección b.A posteriori. puede darse el otro.De un suceso intersección b.Siempre que uno de ellos no se verifica. 10. Preg.No pueden ocurrir simultáneamente.De un suceso unión.De un suceso complementario. Preg. 12. c.La incidencia de la enfermedad en la población.Condicionada. 11. e.Condicionada. e.La sensibilidad y especificidad del test. Para estudiar la efectividad de un test diagnóstico ante una enfermedad se toma un grupo de 200 personas enfermas y 200 que no la padecen. El porcentaje de individuos con bronquitis entre los fumadores se puede interpretar como una probabilidad: a. d. b. Óscar Flores Pérez Bioestadística Preg. c.Condicionada. e.Siempre que sucede el uno. b. c.De un suceso intersección b.A posteriori. d. Preg.Dándose uno de ellos. d. 14. ¿Qué podemos estimar directamente de ellos? a. c. 80 .Nada de lo anterior es cierto.Son correctas (a) y (c).De un suceso unión. se verifica el otro. e. d. d. entonces: a. El porcentaje de individuos con bronquitis que además son fumadores se puede interpretar como una probabilidad: a.Todo lo anterior.Elaborado por: Ing.De un suceso unión.

La tasa de verdaderos positivos se obtiene directamente de la noción frecuentista de probabilidad. Preg.El índice predictivo positivo se obtiene directamente de la noción frecuentista de probabilidad. La osteoporosis afecta 4 veces más a mujeres que a hombres.nada de lo anterior es cierto.8% d. e. el 5% son enfermos diagnosticados de una enfermedad.De un suceso unión. Elija la afirmación correcta relativa a pruebas diagnósticas: a.A posteriori. Óscar Flores Pérez Bioestadística Preg.15% d.La prevalencia de la enfermedad se obtiene a partir del teorema de Bayes.10% e. la cual padece el 10% de la población. ¿Qué tasa de individuos tiene osteoporosis y lo desconoce? a. el 30% no está diagnósticado. ¿Cuál es la prevalencia de la osteoporosis en la población? a. EL 25% de ellos lo sabe. 15. d. La probabilidad de estar diagnósticado para un individuo enfermo es: a.La sensibilidad se obtiene usando la noción subjetiva de probabilidad.. c.2% b. 19. b. 17.9% d.25% Preg.De un suceso intersección b.12% e. En una población..De un suceso complementario.Condicionada.2% b.6% c.3% b.Elaborado por: Ing. Si de ellos. El 2% de la población padece diabetes. El 12% de los individuos de una población padece osteoporosis. esta cantidad puede entenderse como una probabilidad. d. 18. Preg.5% c.5% c.12% Preg. a. c. 16. e. El 8% de las mujeres padece osteoporosis en una población donde hay tantos hombres como mujeres.50% 81 .

d.Sólo dos de las anteriores son ciertas. Si dos sucesos son independientes: a. la probabilidad de que realmente esté enferma es: a.No puede calcularse con esos datos. Si se pasa el test a una persona y sale positivo.80% Preg. Preg. e. Una prueba diagnóstica de cierta enfermedad. e. c.La probabilidad de que si el test da negativo el sujeto esté sano. el otro no puede ocurrir. 82 .No pueden ocurrir a la vez.20% b. tiene una tasa de aciertos del 90% tanto sobre enfermos como sanos. Una enfermedad tiene una incidencia del 50% en la población.Si pasa uno. La incidencia de la enfermedad en la población es del 50%. pero no ambos a la vez.La intersección es el conjunto vacío.40% c. 21. e. 22. b.La probabilidad de que si el sujeto está enfermo el test de positivo. Preg.La probabilidad de que si el test da positivo el sujeto esté enfermo. Óscar Flores Pérez e. la probabilidad de que esté enfermo es: a.Todo lo anterior es falso.75% d.Elaborado por: Ing.La probabilidad de la unión es la suma de las probabilidades. Si dos sucesos A y B son incompatibles (excluyentes): a. y de falsos positivos del 20%. 23. b.90% e. Si un individuo resulta ser positivo. c.50% d. 24. b.La probabilidad de la intersección es cero.50% c.45% b. Un test para detectarla posee una tasa de verdaderos positivos del 80%. Se define la sensibilidad de un test como: a.60% e. d. 20. Bioestadística Preg. d.Ninguna de las anteriores. c.Siempre ocurre al menos uno de los dos.La probabilidad de que si el sujeto está sano el test de negativo.Todo lo anterior es cierto.100% Preg.Siempe ocurre uno o otro.

0.Elaborado por: Ing. 83 . frente al 25% de las mujeres.25 e. La probabilidad de que sea mujer es (aproximadamente): a. 25.0.No puede calcularse con esos datos. Escogida una persona al azar es deportista.0.0.74 d. En una población el 30% son hombres de los cuales son deportistas el 20%.60 c.235 b. Óscar Flores Pérez Bioestadística Preg.

4. Aplicar los métodos abreviados para calcular variaciones. Principales leyes de distribución de variables aleatorias. Destacar la importancia de la curva normal 2. la variable queda perfectamente determinada conociendo el parámetro p 84 . 3. en experimentos donde el resultado es dicotómico. Hay v.1 Distribución de Bernoulli. que aparece con frecuencia en las Ciencias de la Salud. Distinguir las características del experimento de dos factores. Conocer la importancia del análisis de varianza. Conocer la relación existente entre las frecuencias observadas y teóricas a través de la prueba ji-cuadrada. 5.…) El resto del tema está dedicado a estudiar estas distribuciones especiales. Experimentos dicotómicos. 4. 7. Bernoulli Contar éxitos en experimentos dicotómicos repetidos: Binomial Poisson (sucesos raros) Y en otras muchas ocasiones… Distribución normal (gaussiana. probabilidad de que el individuo se cure Como se aprecia. P =95%.Elaborado por: Ing. con probabilidad q =1-p) Lanzar una moneda y que salga cara. con probabilidad p) X =0 (fracaso. P =1/1000 = prevalencia de la enfermedad Aplicar un tratamiento a un enfermo y que éste se cure. Óscar Flores Pérez Bioestadística IV. Tenemos un experimento de Bernoulli si al realizar un experimento sólo son posibles dos resultados: X =1 (éxito. 1. 6. 8. Objetivos de la unidad. P =1/2 Elegir una persona de la población y que esté enfermo. campana. Distinguir las particularidades de los experimentos de factor único. Conocer las propiedades para distribución F.a. Conocer la importancia de la aplicación de la distribución t de student.

Solución.5% En realidad no sabemos en este punto si ambas cantidades son muy diferentes o aproximadamente iguales. Es muy pronto para resolver esta cuestión ahora.15=15% X =“tener secuelas tras accidente sin cinturón” es variable de Bernoulli X =1 tiene probabilidad p ≈ 0. que 10 individuos quedaron con secuelas.995 Observaciones.15 X =0 tiene probabilidad q ≈ 0. En los dos ejemplos anteriores hemos visto cómo enunciar los resultados de un experimento en forma de estimación de parámetros en distribuciones de Bernoulli. que 300 individuos quedaron con secuelas. La noción frecuentista de probabilidad nos permite aproximar la probabilidad de tener secuelas mediante 300/2000=0.85 Ejemplo 2. Describa el experimento usando conceptos de variable aleatoria. Sin cinturón: p ≈ 15% Con cinturón: p ≈ 0.005 X =0 tiene probabilidad q ≈ 0. Para decidir si entre ambas cantidades existen diferencias estadísticamente significativas necesitamos introducir conceptos de estadística inferencial (extrapolar resultados de una muestra a toda la población). 85 . pues en otros estudios sobre accidentes. Bioestadística Se ha observado estudiando 2000 accidentes de tráfico con impacto frontal y cuyos conductores no tenían cinturón de seguridad.Elaborado por: Ing. Se ha observado estudiando 2000 accidentes de tráfico con impacto frontal y cuyos conductores sí tenían cinturón de seguridad. Esperemos a las pruebas de X2. las cantidades de individuos con secuelas hubieran sido con seguridad diferentes. Óscar Flores Pérez Ejemplo 1.5% X =“tener secuelas tras accidente usando cinturón” es variable de Bernoulli X =1 tiene probabilidad p ≈ 0. La noción frecuentista de probabilidad nos permite aproximar la probabilidad de quedar con secuelas por 10/2000=0. Describa el experimento usando conceptos de variable aleatoria. Solución.005=0.

Si se escoge una muestra aleatoria de 10 elementos de entre esta población. 86 . Seis o más daltonianos c. probabilidad 1-π de que lo n-x individuos restantes estén en la otra categoría. se podrá clasificar los n elementos en dos categorías.2 Bioestadística Distribución binomial. La distribución binomial tiene dos parámetros n y p. Ejercicio. el modelo binomial es adecuado. los que poseen el atributo de interés y los que no.2001 2. en situaciones donde el muestreo se realiza a partir de una población infinita o a partir de una poblaron finita con restitución. Suponga que se conoce que en cierta población el 10% de la misma es daltoniana.Elaborado por: Ing. π = probabilidad de pertenecer a una categoría. la probabilidad π de que x individuos estén en una categoría (por lo tanto. Suponga que se sabe que el 80% de cierta población es inmune a alguna enfermedad. Cinco o menos sean daltonianos. La media y la varianza son µ = np y σ2 = np (1-p). Entre seis y nueve inclusive. Si se extrae una muestra aleatoria de 25 gente de entre la población. son parámetros en el sentido de que son suficiente para especificar una distribución binomial. 1. Normalmente se considera que cuando n es pequeña en relación con N. respectivamente. La conveniencia del uso de esta distribución depende de que tan drástico es el efecto de esas condicionas en las circunstancia de p de un ensayo a otro. Cuando se obtiene la muestra. 1-π = probabilidad de no pertenecer a esa categoría. es igual a n P( X = x) = Cx π x (1 − π ) n− x Donde. use la tabla A del apéndice II del libro de bioestadística para calcular la probabilidad de que: a. Cuando una muestra aleatoria de tamaño n se toma de una población binomial. f (4) = 0. La distribución binomial es aplicable. ¿Cuál es la probabilidad de que dicha muestra contenga exactamente cuatro personas inmunes? R//. Óscar Flores Pérez 4. b.

Bin(n =100. Óscar Flores Pérez 4. para ‘n grande’ (n>30) y ‘p pequeño’ (p<0. Se obtiene como aproximación de una distribución binomial con la misma media. El número de personas que enfermará (en una población de 500. Cuando p es muy pequeño es mejor usar la aproximación del modelo de Poisson. El modelo normal será más adecuado..1). ni de Poisson. Bin(n =500. k = 0 . n. Función de probabilidad: P[ X = k ] = e − µ µk k! . El modelo de Poisson será más adecuado.4 Distribución de Poisson También se denomina de sucesos raros.000. Media: µ =n p Varianza: σ2 = n *p* q Si se repite un número fijo de veces. 87 .. un experimento de Bernoulli con parámetro p.000 personas) de una enfermedad que desarrolla una de cada 2000 personas. p =1/2) Difícil hacer cálculos con esas cantidades. Aún no conocéis la distribución normal. Parecidos razonables. Queda caracterizada por un único parámetro µ (que es a su vez su media y varianza. p =1/2000) Difícil hacer cálculos con esas cantidades. De cualquier forma ahí tenéis la comparación entre valores de p no muy extremos y una normal de misma media y desviación típica. p). 4. es decir la media la varianza son iguales. para tamaños de n grandes (n>30).3 Bioestadística Función de probabilidad Problemas de cálculo si n es grande y/o p cercano a 0 ó 1.Elaborado por: Ing. 2 . p =1/2) Lanzar una moneda 100 veces y contar las caras. el número de éxitos sigue una distribución binomial de parámetros (n..).1. Bin(n =10. Lanzar una moneda 10 veces y contar las caras.

Óscar Flores Pérez Ejemplo 1. o el tamaño de la población.Elaborado por: Ing.… Se puede modelar mediante Poisson (µ=np) La distribución de Poisson se emplea cuando se cuentan los eventos o cantidades. Ejercicios. El administrador de un hospital analiza los casos diarios de urgencia durante un periodo de varios años y concluyó que se distribuyen de acuerdo a la distribución de Poisson. Los registros del hospital revelan que los casos de urgencia promedian tres días durante ese periodo. pero creemos que aún demasiados.000) ≈ Poisson (µ=np=500) Sospechamos que diferentes hospitales pueden tener servicios de traumatología de diferente “calidad” (algunos presentan pocos. calcule la probabilidad de que: 88 .000. Si el administrador tiene razón respecto a la distribución de Poisson. Es difícil compararlos pues cada hospital atiende poblaciones de tamaños diferentes (ciudades. Bin (n =5000.7183. Supongamos que es 1/10. “e” es la constante 2. En Nicaragua hay 5000. Si x es el numero de ocurrencia de algún evento aleatorio en un intervalo de espacio o tiempo (o algún volumen de materia) la probabilidad de que x ocurra es dada por −λ x f ( x) = e λ x! λ es el parámetro de la distribución y es el número promedio de ocurrencia del evento aleatorio dentro del intervalo (o volumen). Tenemos p pequeño calculado como frecuencia relativa de secuelas con respecto al total de pacientes que trata el hospital.000. nº de pacientes atendidos o nº individuos de la población que cubre el hospital. distribuidas al azar en tiempo o espacio. enfermos con secuelas tras la intervención).000 habitantes (n grande) La probabilidad de que cualquier persona tenga un accidente es pequeña. p =1/10.…) Tenemos en cada hospital n. pero no nula. pueblos. Bioestadística El número de individuos que será atendido un día cualquiera en el servicio de urgencias del hospital clínico universitario.

39 La distribución de Poisson es útil para solucionar problemas cuando n es grande. y la desviación típica. µ. propensión al crimen… Distribuciones binomiales con n grande (n>30) y ‘p ni pequeño’ (np>5) ‘ni grande’ (nq>5). Óscar Flores Pérez Bioestadística a. f(3) + f(4) = 0. Ocurren exactamente dos casos de urgencia en un día dado.16875 = 0.225. Está caracterizada por dos parámetros: La media.Elaborado por: Ing. b.5 Distribución normal o de Gauss Aparece de manera natural: Errores de medida. Distancia de frenado. σ.050 * 9 P(x = 2) = f(x) = = = 0.225 b.050 *1 = = 0. Ocurren tres o cuatro casos de emergencia en un día en particular. 89 . f(0) = 0.225+0. f(x) = e −3 30 0. 2! 2 *1 b) no ocurra un solo caso de urgencia en un día particular.225 + 0. Solución.05. Puesto que los dos eventos son mutuamente excluyentes se usa la regla de adición. c. 0! 1 c) ocurran tres o cuatro casos de urgencia en un día en particular. pero. Altura.05 c.39 3! 4! Respuesta: a. peso. e −3 32 0. f (3) + f (4) = e −3 33 e −3 34 + = 0. “p” es tan pequeña. 4. Es útil en problemas de colas. No ocurre un solo caso de emergencia en un día particular. P(x =2) = 0.16875 = 0. a) λ = 3 y x es la variable aleatoria que denota el numero de casos diarios de urgencia.

mesocúrtica y unimodal. a distancia 2 σ. cuando intentamos comparar individuos diferentes obtenidos de sendas poblaciones normales. σ).Elaborado por: Ing. ya que no tiene primitiva expresable en términos de funciones ‘comunes’. Todas las distribuciones normales N (µ. mediana y moda coinciden. a distancia 2’5 σ tenemos probabilidad 68% tenemos probabilidad 95% tenemos probabilidad 99% No es posible calcular la probabilidad de un intervalo simplemente usando la primitiva de la función de densidad. pueden ponerse mediante una traslación µ. Justifica la técnica de tipificación.… N (µ. grado de dispersión. y cuyos extremos están… a distancia σ. Si tomamos intervalos centrados en µ. 90 . 68% Entre la media y dos desviaciones típicas aprox. La función de densidad es simétrica. y un cambio de escala σ. Media. Los puntos de inflexión de la función de densidad están a distancia σ de µ. como N (0. Óscar Flores Pérez Su función de densidad es: N (µ.1). Esta distribución especial se llama normal tipificada. σ): Interpretación probabilista Entre la media y una desviación típica tenemos siempre la misma probabilidad: aprox. 95% Algunas características. Y la desviación típica como un factor de escala. σ): Interpretación geométrica Bioestadística f (x) ? = 1 e σ 2π −1⎛ χ −µ ⎞ ⎜ ⎟ 2⎝ σ ⎠ 2 Podéis interpretar la media como un factor de traslación.

5557 0.8186 0. se denomina valor tipificado.5040 0.9 2.99560 0.9738 0.9713 0.98214 0.99396 0.99305 0.99598 0.99202 0.8531 0.9591 0.98500 0.9756 0.98574 0.7088 0.99361 0.99324 0.5398 0.9484 0.9671 0.6406 0. de una observación x. X 0.7704 0.8438 0.5438 0.8315 0.2 1. de que las probabilidades para cada valor de la curva se encuentran recogidas en una tabla.0 2.7642 0.8 0.9686 0.9082 0.9564 0.05 0.98713 0.7611 0.98169 0.8023 0.6879 0.9641 0.9554 0.6 0.0 1.8554 0.99492 0.9495 0.8577 0.98745 0.8389 0.9719 0.99266 0.6179 0.6293 0.9115 0.99379 0.3 1.8770 0.97882 0.99430 0.5000 0.5793 0.7794 0.7910 0.99036 0.9236 0.6736 0.6950 0.1 0.8643 0.98983 0.8485 0.9732 0.98257 0.9649 0.7852 0.5948 0.99086 0.9664 0.99343 0.5359 0.6591 0.09 0.9452 0.98422 0.6808 0.8416 0.99111 0.7 0.98124 0.97982 0.6772 0.8708 0.7422 0.9251 0.9 1.8264 0.99534 0.5832 0.9049 0.9573 0.9625 0.5675 0.99413 0.8997 0.6700 0.6103 0.98341 0. a la distancia (con signo) Z = χ − µ con respecto a la media.9382 0. como ya hemos indicado.9505 0.9207 0.3 0.99573 0.99643 91 .9345 0.98679 0.9265 0.5987 0.99446 0.7764 0.99621 0.9515 0.7123 0.7357 0.98077 0.9032 0.4 2.9608 0. la interpretación es clara: Asigna a todo valor de N (µ.7019 0.98928 0.5517 0.00 0.5 0.98778 0.5160 0.7939 0.5636 0.98809 0.6064 0.8790 0.7389 0.9599 0.5714 0.6217 0.7 1.99286 0.7054 0.7090 0.8621 0.6844 0. Nos permite así comparar entre dos valores de dos distribuciones normales diferentes.7291 0.9726 0.0 0.9545 0.6480 0.5080 0.7324 0.97778 0.99245 0.8729 0.98300 0.8962 0.9099 0.99520 0.9656 0.8 1.9279 0. para saber cuál de los dos es más extremo.9222 0.8907 0.99010 0.9292 0.8461 0.5239 0.9418 0. z.99158 0.8340 0.8159 0.99632 0.6026 0.03 0.8686 0.99461 0.99477 0.9394 0.02 0.9616 0.9744 0.8749 0.9693 0.98461 0.6517 0.99180 0.9192 0.4 0.6 Bioestadística Tipificación Dada una variable de media µ y desviación típica σ.99547 0.98899 0.8508 0.6 1.9332 0.7995 0.5596 0.7257 0.6141 0.8078 0.5723 0.9750 0.7881 0.8869 0.9441 0.9370 0.8133 0.5279 0.9463 0.5120 0.08 0.7224 0.9535 0.6331 0.97725 0.9357 0.98840 0.7813 0.5319 0.8925 0.8888 0.8830 0.04 0.9761 0.8944 0.2 2. medido en desviaciones típicas.9066 0.7486 0.8810 0. σ).9131 0.7673 0. un valor de N (0.8051 0.9429 0.1 2.06 0.6 0.7967 0.6664 0.6985 0.07 0.98610 0.97831 0.7549 0. La distribución normal tipificada tiene la ventaja.01 0.7734 0.5478 0.8665 0.8106 0.8599 0.98382 0.99609 0.1) que deja exactamente la misma probabilidad por debajo.9633 0. Óscar Flores Pérez 4.6255 0.2 0.5910 0.6554 0.97932 0.98870 0.6915 0.9147 0.9678 0.9162 0.Elaborado por: Ing.8212 0.98956 0.99134 0.3 2.8980 0.6443 0.7580 0.8365 0.9582 0.9474 0.8849 0.9406 0.9767 0.5 1.99224 0.7517 0.9306 0.9699 0.4 1.8238 0.9177 0.9319 0.1 1.8289 0.5199 0.5871 0.7454 0.98537 0.98030 0. es decir σ En el caso de variable X normal.99506 0.5 2.99061 0.98645 0.99585 0.9525 0.7157 0.9015 0.6368 0.9706 0.6628 0.

Óscar Flores Pérez Bioestadística 2.99801 0. No nos da la probabilidad concreta en ese punto. El estudiante B tiene una calificación de 80 en un sistema donde la calificación de los alumnos se comporta como N (70.7486 Probabilidad acumulada en el valor 1.99.99788 0. La probabilidad de que tome exactamente el valor 2 es despreciable.7 0. 1.99846 0.99851 0.99795 0. En una distribución continua en el que la variable puede tomar infinitos valores.9115 Probabilidad acumulada en el valor 2.Elaborado por: Ing. Ejemplo: Imaginemos que una variable continua puede tomar valores entre 0 y 5.05.99774 0.99664 0.99836 0.99711 0.19: la respuesta es 0.99807 2.99693 0.99861 ¿Cómo se lee esta tabla? La columna de la izquierda indica el valor cuya probabilidad acumulada queremos conocer. 1.7 y en la primera fila el valor 0.99653 0.99728 0.9998.98574 Ejemplo 1. La primera fila nos indica el segundo decimal del valor que estamos consultando.994. es decir.10).99702 0.99831 0. Se quiere dar una beca a uno de dos estudiantes de sistemas educativos diferentes.99767 0.99674 0.99720 0. Veamos otros ejemplos: Probabilidad acumulada en el valor 0. la que va desde el inicio de la curva por la izquierda hasta dicho valor. ya que podría tomar infinitos valores: por ejemplo: 1.35: la respuesta es 0.99744 0. La casilla en la que se interceptan es su probabilidad acumulada (0.99736 2.9967. Atención: La tabla nos da la probabilidad acumulada.Entonces buscamos en la columna de la izquierda el valor 2.1). etc.99841 0. Ejemplo: queremos conocer la probabilidad acumulada en el valor 2.9 0.99683 0.99781 0. 1999791.99752 0.99813 0. Se asignará al que tenga mejor expediente académico.99760 0.99825 0.99702.75.99856 0.67: la respuesta es 0.7%). El estudiante A tiene una calificación de 8 en un sistema donde la calificación de los alumnos se comporta como N (6. es decir 99.99819 0.8 0. 1. 92 . la probabilidad en un punto concreto es prácticamente despreciable.

¿Por qué es importante la distribución normal? Las propiedades que tiene la distribución normal son interesantes. Ejercicio 1.a. La vida media de los habitantes de un país es de 68 años. podemos tipificar y observar las puntuaciones sobre una distribución de referencia N (0. con una varianza de 25. a) Personas que vivirán (previsiblemente) más de 75 años Luego. Es decir. Óscar Flores Pérez Solución Bioestadística No podemos comparar directamente 8 puntos de A frente a los 80 de B. tengan la distribución que tengan nuestros datos. ciertos estadísticos/estimadores calculados sobre muestras elegidas al azar sí que poseen una distribución normal.Elaborado por: Ing. posiblemente tengan distribución normal (o asociada). La razón es que aunque una v. pero todavía no hemos hablado de por qué es una distribución especialmente importante.000 habitantes: a) ¿Cuántas personas superarán previsiblemente los 75 años? b) ¿Cuántos vivirán menos de 60 años? Respuesta. Se hace un estudio en una pequeña ciudad de 10. podemos decir que el porcentaje de compañeros del mismo sistema de estudios que ha superado en calificación el estudiante A es mayor que el que ha superado B. pero como ambas poblaciones se comportan de modo normal. el 8.1) zA = σA x − µ B 80 − 70 = =1 zB = B σB 10 xA − µ A = 8−6 =2 1 Como ZA>ZB.08% de la población (808 habitantes) vivirán más de 75 años. 93 . no posea distribución normal. los ‘objetos’ que resumen la información de una muestra. Podríamos pensar en principio que A es mejor candidato para la beca.

Elaborado por: Ing. Óscar Flores Pérez Bioestadística b) Personas que vivirán (previsiblemente) menos de 60 años Luego. entonces la distribución de probabilidad de x esta dada por f (x) = ½ e-x/2 94 . El consumo medio anual de cerveza de los habitantes de un país es de 59 litros. ¿Qué proporción de sus clientes necesitaran algún ajuste porque sus bulbos hallan fallado antes del termino de un año? Si x denota la duración de un bulbo en años. Pruebe la Ho de que µ = $45000 con un nivel de significancia de 5%. 2. Distribución exponencial. la duración de la firma de negocios y la demanda de un producto a varios niveles de precios. Si garantiza sus bulbos por un año. Suponga que un fabricante de bulbo de televisión ha descubierto por medio de la experiencia que un bulbo estándar dura un periodo de dos años. el ingreso por hogar tiene una distribución aproximadamente normal y que puede aceptarse que la desviación estándar es igual a $2000. Un líder comunitario le informa al posible desarrollador de un centro comercial que el ingreso promedio por hogar en la zona es de $ 45000. con base en un estudio anterior. para el tipo de la zona que se trata. A partir de una muestra aleatoria de n = 15 hogares. −x f ( x) = e β β .48% de la población (548 habitantes) no llegarán probablemente a esta edad. el tiempo que dura una maquina antes de volver a descomponerse. x > 0 El parámetro β es la media de la distribución. La distribución exponencial se ha comprobado que representa la distribución de variables aleatorias como el lapso de tiempo de permanencia de un cliente en una tienda. el argumento del representante de la comunidad no puede rechazarse al nivel significancia de 5%. se determina que el ingreso domestico medio es de $44500. Suponga. Ejemplo. y si tiene una distribución exponencial. con una varianza de 36. Respuesta: Z = -1.93 se halla en la región de aceptación de Ho. el 5. que puede asumirse que. Se supone que se distribuye según una distribución normal.93. Dado que la SC = -1.

La desviación típica de los promedios disminuye en un factor “raíz de n” (error estándar). Fotografías tomadas desde un helicóptero mostraron que en promedio había 80 autos circulando en el carril de alta velocidad sobre un tramo de una milla de una vía rápida urbana. y calculamos los promedios muestrales.e-x/2 Aquí A(x) = denota el área bajo f(x) desde 0 hasta x. es calcular P (x≤1). Si para plena seguridad. P(x ≤1) = A (1) = 1 . si extraemos muestras de tamaño n.e-1/2 = 0. Tales áreas se obtienen fácilmente por medio del cálculo y para la grafica de f(x) cuya ecuación es dada por: f (x) = 1 . Las aproximaciones anteriores se hacen exactas cuando n tiende a infinito. Dada una v. cualquiera. Óscar Flores Pérez Bioestadística El problema por tanto. la distancia entre coches en ese tramo y sobre ese carril. entonces: Dichos promedios tienen distribución aproximadamente normal. ¿Qué porcentaje de los coches corren a una distancia demasiada corta del delantero? Repuesta: Alrededor del 37 % de los conductores viaja demasiada cerca del auto de adelante. Este teorema justifica la importancia de la distribución normal.7 Teorema central del límite. Esto esta dada por el área bajo la grafica de f(x) desde x = 0 hasta x =1.a. debería ser de cuando menos 30 pies.Elaborado por: Ing. La media de los promedios muestrales es la misma que la de la variable original. 95 . 4.39 Ejercicio. En meses recientes habían ocurrida ciertos número de accidentes en ese tramo atribuidos al manejo a corta distancia del auto delantero.

1 Distribuciones asociadas a la normal. Para más detalles consultad el manual. podemos encontrar otras (asociadas): X2 (chi cuadrado) t. Tiene un sólo parámetro denominado grados de libertad.7. 4.2 Chi cuadrado.… 4. Dependiendo del problema. Significación. Óscar Flores Pérez Bioestadística Sea lo que sea lo que midamos. Sobre todo nos interesa saber qué valores de dichas distribuciones son “atípicos”. Veamos algunas propiedades que tienen (superficialmente).Elaborado por: Ing.student F-Snedecor Estas distribuciones resultan directamente de operar con distribuciones normales. p-valores. 96 . cuando se promedie sobre una muestra grande (n>30) nos va a aparecer de manera natural la distribución normal.7. Cuando queramos hacer inferencia estadística hemos visto que la distribución normal aparece de forma casi inevitable. Típicamente aparecen como distribuciones de ciertos estadísticos.

Óscar Flores Pérez Bioestadística La función de densidad es asimétrica positiva. Sólo tienen densidad los valores positivos. La función de densidad se hace más simétrica incluso casi gausiana cuando aumenta el número de grados de libertad. Normalmente consideraremos anómalos aquellos valores de la variable de la “cola de la derecha”. 97 .Elaborado por: Ing.

3 T de student Tiene un parámetro denominado grados de libertad. que compara las medias de dos categorías dentro de una variable dependiente.7. La prueba t Student.Elaborado por: Ing.µ)/ŝ] * √N En definitiva la prueba de t Student contrasta la HP Nula de que la media de la variable numérica “y”. arroja el valor del estadístico t.1). Bioestadística Cuando aumentan los grados de libertad. se debe utilizar otro tipo de pruebas no paramétricas. corresponderá un valor de significación estadística determinado. o las medias de dos grupos diferentes.0001. Por ejemplo. La prueba de t Student. t = [(x . o sea que la hipertensión 98 . Es una prueba paramétrica. Es simétrica con respecto al cero. mientras que los hipertensos secundarios 26 8 años. La prueba t para muestras independientes se utiliza para comparar la media de dos grupos o dos categorías dentro de una misma variable dependiente. o sea que solo sirve para comparar variables numéricas de distribución normal.9 correspondiendo a una p < 0.µ)/s] * √ (N – 1) ó t = [(X . Supongamos la comparación de la edad en 566 pacientes con Hipertensión esencial y 214 con Hipertensión secundaria. como la prueba U de Mann – Whitney. es un método de análisis estadístico. Los resultados arrojan que los pacientes del grupo de hipertensión esencial presentan una edad media de 55 12 años. no tiene diferencias para cada grupo de la variable categórica “x”. Según sea el valor de t. En caso de tener que analizar variables numéricas de distribución anormal. más se acerca a N (0. Esto implica que la diferencia de edad entre ambos grupos de hipertensos no es aleatoria. Óscar Flores Pérez 4. Se consideran valores anómalos los que se alejan de cero (positivos o negativos). El valor de la prueba t se establece mediante el estadístico t que en este caso es de 38.

Elaborado por: Ing.747 3.878 2.408 5.262 2.528 2.567 2.781 4.f) P(T > t(df.110 2.740 1.440 1.721 12.356 1.725 1.0100 0.718 2.898 2.787 3.132.624 2.860 1.250 3.501 4.353 2.998 2.015 3.365 3.325 1.333 1.761 1.0500 0.706 4.182 2.012 2. Por ejemplo.686 3.571 2.796 1.297 4.073 4.025) Valores críticos para la distribución Student's t alfa = área a la derecha de t (df.610 6.093 2.734 1.610 3.883 3.895 1.345 1.539 2.314 2.350 1.782 1.208 4.055 3.861 2.650 2.850 3.173 5.140 4.894 5.886 1.776 2.365 2.318 4.437 4.101 (obtenido en la fila gl =18 y en la columna encabezada por 0.120 2.328 10.578 31.947 2.518 63. alfa) T~ t(d.383 1.341 1.552 2.221 4.143 2.845 2.476 1.0250 0.896 2.145 2.101 2.977 2.330 1.821 6.306 2.600 12.132 2.831 318.397 1.965 3.821 2.527 636.0010 0.078 1.303 3.415 1.833 1.753 1.201 2.924 8.579 3.583 2.0050 0.922 3.106 3.733 3.541 3.920 2.032 3.812 1.015 1.638 1.160 2.0005 3.1000 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 alfa 0.785 4.086 2.943 1.852 3.764 2.552 3. Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a ese cociente.921 2.131 2. para una prueba t con nivel alfa 0'05 bidireccional y 18 grados de libertad la t crítica es 2. Óscar Flores Pérez Bioestadística secundaria se observa en grupos etarios más jóvenes.746 1.228 2.214 7.363 1.869 5.959 5. para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de libertad la t crítica es 2.841 4.323 6.355 3.337 1.025 3.499 3.041 4. alfa)) grados de libertad 0.144 4. (Se rechaza la HP Nula HP alterna) Por ejemplo.925 5.372 1.328 1.656 9.819 99 .729 1.604 4.930 3.533 1.681 2.289 22.169 3.707 3.602 2.646 3.587 4.965 4.080 31.179 2.447 2.771 1.

307 3.686 1.711 1.689 3.591 3.304 1.304 1.492 2.645 2.327 2.333 3.674 3.232 3.431 2.453 2.396 3.030 2.309 1.040 2.296 1.699 1.385 3.479 2.438 2.622 3.434 2.688 1.582 3.307 1.485 2.706 1.091 3. Bioestadística 2.692 1.601 3.306 1.684 1.646 3.500 2.340 3.707 3.701 1.321 − 1.4 F de Snedecor Tiene dos parámetros denominados grados de libertad.069 2.457 2.056 2.660 2.779 2.473 2.725 3.426 2.000 1.048 2.306 1.450 3.712 2.313 3.708 1.756 2.660 3.303 1.714 1.326 3.467 3.787 2.291 1.023 2.052 2.421 3.697 1.690 1.321 1.441 2.305 1.316 1.319 3.024 2.315 1.462 2.771 2.728 2.309 1.064 2.318 4.763 2.719 2.074 2.558 3.551 3.768 3.566 3.Elaborado por: Ing.365 3.449 2.028 2.738 2.021 2. 100 .313 1.310 1.319 22 − 24 1.508 2.691 1.733 2.687 1.685 1.319 1.717 1.694 1.408 3.792 3.289 1.026 2.980 1. 22 − 23 1.611 3.423 2.819 2.724 2.390 2.282 1.308 1.704 2.7.321 − x = = x = 1.960 Ejemplo de Interpolación.160 3.703 1.505 3.708 2.037 2.671 1.042 2.715 2.745 3.060 2.617 2.429 2.574 3. Óscar Flores Pérez 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 60 120 Inf.435 3.797 2.467 2.032 2.485 3.658 1.750 2.318 1.576 3.311 1.696 1.460 3.373 3.356 3.348 3.045 2.744 2.314 1.807 2.375 3.035 2.358 2.633 3.445 2.

Calcular los intervalos de confianza en la distribución t student. Para la media de una población: “El mejor” es la media de la muestra. 3. Normalmente se consideran valores anómalos los de la cola de la derecha V. Estimar intervalos para la media (caso general) y para dos poblaciones. 2. Estimación confidencial. Objetivos de la unidad. 4. Estimar los intervalos de confianza para la distribución ji-cuadrada. Realizar estimación del tamaño muestral. etc. Ver libro bioestadistica. Óscar Flores Pérez Bioestadística Sólo toma valores positivos. 5. ¿Es útil conocer la distribución de un estimador? Es la clave para hacer inferencia. Ilustrémoslo con un ejemplo que ya tratamos en el tema anterior (teorema del límite central). 1. Para la frecuencia relativa de una modalidad de una variable: “El mejor” es la frecuencia relativa en la muestra. Calcular los intervalos de confianza en la distribución normal. Habría que precisar que se entiende por “el mejor estimador” pero eso nos haría extendernos demasiado. En realidad ya en algún momento hemos trabajado con estimadores cada vez que hacemos una práctica con muestras extraídas de una población y suponemos que las medias.… eran próximas de las de la población. 101 . Un estimador es una cantidad numérica calculada sobre una muestra y que esperamos que sea una buena aproximación de cierta cantidad con el mismo significado en la población (parámetro).Elaborado por: Ing. Es asimétrica.

la media muestral es: σ EE = n aproximadamente normal. con la misma media y. y desviación 5kg. pues como de todas maneras no conozco σ desconoceré el intervalo exacto para µ. Sin embargo también hay estimadores para σ y puedo usarlo como aproximación. Una estimación por intervalo de confianza es una que ofrece un intervalo como respuesta. sabemos que para muestras “grandes”. Óscar Flores Pérez Bioestadística Si de una variable conocemos µ y σ. La desv. Ojo: He hecho un poco de trampa.5 como la media muestral es aproximadamente normal. Ejemplo: Una muestra de n =100 individuos de una población tiene media de peso 60 Kg. al hacer un estudio tenemos una confianza del 95% de que la verdadera media esté a una distancia de ±1.5 estima el error estándar (típico) EE Estas son las llamadas estimaciones puntuales: un número concreto calculado sobre una muestra es aproximación de un parámetro. Nos servirá como introducción a la estimación puntual y por intervalos de confianza. analicemos el siguiente ejemplo. y obtenemos muestras de tamaño n =100. Para tener una idea intuitiva. ¿La ves? 102 . En el ejemplo anterior la situación no era muy realista.Elaborado por: Ing. típica de la media muestral (error estándar) es EE = 5/√(100)=0. desviación típica mucho menor (error estándar) Es decir si por ejemplo µ=60 y σ=5.5 Hay una confianza del 95% de que µ esté en 60±1. Además podemos asignarle una probabilidad aproximada que mida nuestra confianza en la respuesta: Hay una confianza del 68% de que µ esté en 60±0. Dichas cantidades pueden considerarse como aproximaciones (estimaciones puntuales) 60 kg estima a µ 5 kg estima a σ 5/√(n)= 0. el 95% de los estudios con muestras ofrecerían estimaciones entre 60±1 Dicho de otra manera.

01 ⇒ En general el tamaño del intervalo disminuye con el tamaño muestral y aumenta con 1-α. Valores típicos: α=0.10 . Se calcula con la fórmula La formula para estimar intervalos de confianza es: Es decir. a un intervalo que ha sido construido de tal manera que con frecuencia 1-α realmente contiene al parámetro. Intervalo de confianza Es la probabilidad de que el criterio de evaluación seleccionado (por ejemplo. X ± Z (1−α ) *σ X 2 Estimador +/.05 . Se denomina estimación confidencial o intervalo de confianza para un nivel de confianza 1-α dado. 0.1 Estimación puntual y por intervalos Se denomina estimación puntual de un parámetro al ofrecido por el estimador sobre una muestra. t ha-1) caerá dentro de cierto rango por encima y por debajo de la media. Óscar Flores Pérez Bioestadística 5. 0. X ± t (1− α ) * 2 s n 103 .Elaborado por: Ing. ⇒ En todo intervalo de confianza hay una noticia buena y otra mala: La buena: hemos usado una técnica que en % alto de casos acierta. puede usarse otro estadístico de prueba como por ejemplo la distribución t-student. ¿Cómo se interpreta esto? Al repetir el muestreo aproximadamente el ¿?% de los intervalos construidos mediante la formula antes descrita incluyen la media de la población. La formula puede ser cambiada según la distribución de los datos observados. La mala: no sabemos si ha acertado en nuestro caso. Esta interpretación se basa en la probabilidad de ocurrencia de diferentes valores de X (media). En el siguiente tema se llamará probabilidad de error de tipo I o nivel de significación.coeficiente de confiabilidad * error estándar. ⇒ Obsérvese que la probabilidad de error (no contener al parámetro) es α. si no cumple con distribución normal.

que mide las diferencias entre medias. Esto implica que el descenso de la TAM con el tratamiento no se produjo al azar. Los valores de tensión arterial media (TAM) pre tratamiento fueron de 125 15 mm (Hg). para una prueba t con nivel alfa 0'05 bidireccional y 18 grados de libertad la t crítica es 2.101 (obtenido en la fila gl =18 y en la columna encabezada por 0. asignando rangos a cada grupo. determina el nivel de la enzima en cada una de ellos y calcula la media muestral = 22. Un investigador esta interesado en obtener una estimación del nivel promedio de alguna enzima en cierta población de seres humanos.Elaborado por: Ing. Para obtener en esta tabla los valores de t crítica para contrastes bidireccionales dividir el nivel alfa bidireccional por 2 y seleccionar la columna que corresponda a ese cociente. Comparando ambas medias observamos un valor de t de 78. como por ejemplo pre y post tratamiento.9 correspondiendo a una p < 0. Estime el valor de µ.025) Ejemplo. Un intervalo de confianza de aproximadamente el 95% para µ esta dado por: X ± Z (1 − α ) * σ 2 X 104 . que descendieron a 88 10 mm (Hg.) postratamiento. Por ejemplo. para una prueba t con nivel alfa 0'05 unidireccional y 4 grados de libertad la t crítica es 2. La suma de rangos para los 2 grupos puede compararse por la obtención de la cifra estadística U) La prueba de Suma de Rangos de Wilcoxon es semejante a la prueba U. Prueba U de Mann – Whitney La U de Mann – Whitney es una prueba no paramétrica para grupos independientes.132. Óscar Flores Pérez Bioestadística Intervalos de confianza. Solución. Por ejemplo.tc (ŝ /√N-1) La prueba t para muestras dependientes se utiliza para comparar las medias de un mismo grupo en diferentes etapas. El investigador toma una muestra de 10 individuos. Además se sabe que la variable de interés sigue una distribución aproximadamente normal con una varianza de 45. X +/. Supongamos el grupo de 566 Hipertensos sometidos a tratamiento durante un mes. pero se utiliza para muestras de grupos dependientes o apareados.0001.

Se 105 .4.5.16 Ejemplo. Ejercicios Resolver los ejercicios de la página 182 y 187 del libro de Bioestadística. 86.12 17. a) El intervalo de confianza (IC) del 90 % para µ b) El intervalo de confianza (IC) del 95 % para µ c) El intervalo de confianza (IC) del 99 % para µ Respuesta: b) 88. Se determino para cada uno de ellos el tiempo de hospitalización.81.) contenga al DAP promedio real (poblacional) de los robles de esa zona.4 cm.1. se extrajo una muestra aleatoria de 64 individuos con úlcera péptica de la lista de todos los pacientes con esa enfermedad internados alguna vez en los hospitales participantes. 86.92 c) 87. 1) En un experimento diseñado para estimar el número promedio de latidos del corazón por minuto para cierta población.84. es decir. Óscar Flores Pérez Bioestadística 22+/. calcular. n − 1 ) * S X 2 = 80. Para los mismos datos de los 38 robles descritos anteriormente.Elaborado por: Ing. (74. se tiene un 95% de confianza de que el intervalo (74. se encontró que el número promedio de latidos por minuto para 49 personas era de 90.94 2) En un estudio acerca de la duración de hospitalización dirigido por varios hospitales en cooperación. 26.3+/. Si resulta lógico suponer que esos 49 pacientes constituyen una muestra aleatoria y que la población sigue una distribución normal.96*2.93 d) 86.1) En otras palabras.96√ (45/10) 22+/.1. X ± t (α . un intervalo de confianza para el promedio de un 95% viene dado por. con una desviación estándar de 10.1 cm.

9. encontrar los intervalos de confianza del 90.8. Respuesta. se les pidió que llevaran a cabo cierta tarea como parte de un experimento. Si la población sigue una distribución normal. Óscar Flores Pérez Bioestadística encontró que la duración media de hospitalización fue de 8.8. a) 69.22 3) A nueve pacientes que sufren la misma incapacidad física.Elaborado por: Ing. Suponiendo que la distribución de los datos es normal. El tiempo promedio necesario para realizar la tarea fue de 7 minutos con una desviación estándar de 2 minutos.8.76.46.24 4) Una muestra de 25 niños de 10 años de edad proporciono un peso medio y una desviación estándar de 73 y 10 libras respectivamente.007 sujeto 9 valor 0.76.59 5) Una muestra aleatoria simple de 16 individuos aparentemente normales proporcionan los siguientes niveles de arsénico expulsado en la orina (miligramos por día) sujeto valor 1 0.28.13 c) 67.24 b) 5.51. 95 y 99 % para la media de la población.76.9. construir intervalos de confianza del 90.54 c) 4.63. a) 7. 95 y 99 % para el tiempo medio real para que este tipo de paciente realice la tarea. Si se sabe que la desviación estándar de la población es de 3 días.99 c) 7.25 días. y por lo tanto son comparables.58.8.42 b) 68. a) 5.77.012 106 . Respuesta.78.41.87 b) 7.87. calcular: a) El intervalo de confianza (IC) del 90 % para µ b) El intervalo de confianza (IC) del 95 % para µ c) El intervalo de confianza (IC) del 99 % para µ Respuesta.

la que ocupa la vigésima posición detrás de la anterior.009 0.00964. 0.025 0.02160 Ejercicios de Aplicación.Elaborado por: Ing.032 0.030 0.011 Bioestadística Construir un intervalo de confianza de 95 % para la media de la población.063 .81 1.006 0.114 1.014 0.90 Límite inferior Límite superior 1.765 0 8 8 3. Óscar Flores Pérez 2 3 4 5 6 7 8 0.75 Mediana Varianza Desv. 0. Este procedimiento de muestreo se denomina: 107 .038 0.008 0. Mínimo Máximo Rango Amplitud intercuartil 2.00 3.126 Muestreo.060 .045 Al final del tema dejamos sin interpretar parte de los resultados que obtenidos con el programa estadístico SPSS. Descriptivos para Número de hijos Media Intervalo de confianza para la media al 95% Estadístico 1. Preg.00 Asimetría Curtosis 1. ¿Crees probable que la asimetría en la población pueda ser cero ya que la obtenida en la muestra es aprox. .99 Error típ.007 0.034 1.030 0. Respuesta.010 0.006 0. ¿Sabrías interpretar lo que falta por sombrear? ¿Puedes dar un intervalo de confianza para la media al 68% de confianza? Observa la asimetría. típ. 1? Media recortada al 5% 1. 1.005 10 11 12 13 14 15 16 0. Se realiza una auditoría de historias clínicas tomando una primera historia al azar y después sucesivamente.

Aumentar la confianza. se selecciona aleatoriamente uno de ellos. En un intervalo de confianza para una media. Preg. c. e. Para ello se toman muestras aleatorias entre los individuos que asisten regularmente a los mismos. Aproximadamente el 95% de los pacientes tienen edades entre 40 y 60 años. c. c. Entonces: a. Existe una probabilidad del 95% de que la verdadera media de la población esté entre 30 y 70 años. e. Ninguna de las anteriores. atendiendo al tipo de cáncer: El muestreo realizado es: a. Cuál de las siguientes posibilidades nos permite realizarlo: a. Incorrecta. muestreo aleatorio estratificado. Existe una probabilidad del 95% de que la verdadera media de la población esté entre 45 y 55 años. e. 2.Aumentar el tamaño muestral y la confianza. Bioestadística Preg. e. Consecutivo. b.Elaborado por: Ing. 4. Correlativo. c. d. Un muestreo aleatorio por conglomerados. b. Por conglomerados y estratificado. Aleatorio. Existe una probabilidad del 95% de que la verdadera media de la población esté entre 40 y 60 años.Aumentar el tamaño muestral y disminuir la confianza. 108 . Preg. d. Para ello de los dos hospitales existentes en una ciudad. 3. c. Sistemático. b. Se realiza un estudio con objeto de determinar el tiempo de supervivencia en pacientes con cáncer. y la desviación típica es 10 años. Un muestreo aleatorio simple. Por conglomerados. b. La edad de los individuos de una población sigue una distribución normal. y se elige una muestra aleatoria de pacientes. b. Por conglomerados. d. Aproximadamente el 95% de los pacientes tienen edades entre 30 y 70 años. Se extrae aleatoriamente una muestra de 300 pacientes cuya media es de 50 años. Óscar Flores Pérez a. Sistemático. Preg. Se desea estimar confidencialmente el número medio de veces que asiste a un servicio de salud los individuos de una población. Estratificado. buscamos disminuir el margen de error. 5. Esta técnica de muestreo es: a. Equidistante. d.

Haremos un muestreo: a. Preg. comunidades a orillas de carreteras todo tiempo y del área urbana.Aleatorio simple. Elija la afirmación correcta: 109 . El perímetro torácico en un grupo de militares presenta distribución gaussiana con 95 cm de media y 5 cm de desviación típica.Pueden existir sesgos. entonces: a.Una aproximación de la media. Se quiere hacer un estudio sobre el tabaquismo en el municipio de Siuna.Debe usarse el método de respuestas aleatorizadas. 6. c.No pueden selec cionarse unidades de muestreo. Preg. d. c. c. Óscar Flores Pérez d.Estratificado. b.Por grupos. Cuando la población objetivo y de estudio en un muestreo difieren mucho. 9.Una aproximación de una proporción. 10. da por respuesta: a.Nada de lo anterior es correcto. c. Una estimación confidencial para un nivel de confianza fijado. Preg. e.La población objetivo es la de los abonados a telefónica. Preg. Queremos asegurarnos tener cierto número de individuos de las comunidades lejanas. b.Disminuir la varianza muestral.Se debe usar un muestreo no probabilístico.Nada de lo anterior es cierto. 8.Sistemático. 7. Bioestadística Preg. e. e. d.El conjunto de abonados a telefónica son la muestra. Entonces: a.Aumentar la varianza muestral.Una probabilidad. Deseamos conocer la opinión de los ciudadanos de Siuna sobre el sistema de salud pública. pues creemos que en cada una de esas zonas la incidencia es diferente.Un nivel de significación.La población de estudio es la de los ciudadanos de Siuna. Elegimos a una muestra de 100 individuos y calculamos la media de la misma. d. d. Para ello elegimos una muestra aleatoria de entre los abonados a telefónica.No probabilístico. e. b.Un intervalo.Elaborado por: Ing. b. e.La población de estudio es la de los abonados a telefónica.

Cuando se pueda. Entre 2300 y 2700.Todas las anteriores son correctas e.La media de la muestra será un valor comprendido entre 95 y 100 cm con confianza del 95%. Si elijo una muestra de tamaño 100. e. Preg. 13.El nivel de confianza sea mayor. con media 2500 y desviación típica 100. El mejor tipo de muestreo es el sistemático.La media de la muestra será un valor comprendido entre 94 y 96 cm con confianza del 95%. Entre 2400 y 2600. e. 110 . Preg. 12. Preg. d. El sesgo de selección es la diferencia existente entre la población de estudio y la muestra.Sólo dos de las anteriores son ciertas. b. se prefieren los muestreos no probabilísticos. d. d.Todo lo anterior es falso.La media de la muestra será un valor comprendido entre 90 y 100 cm con confianza del 68%. c.El tamaño de muestra sea mayor.La varianza sea mayor b. Entre 2490 y 2510. 11. d. b. e. entre qué valores espero encontrar el resultado (con una probabilidad del 95% de acertar): a. Óscar Flores Pérez Bioestadística a. Un intervalo de confianza será más amplio cuando: a. c. Elija la afirmación correcta sobre teoría de muestreo: a. Entre 2480 y 2520. Entre 2498 y 2502. b. c. El muestreo aleatorio simple es normalmente el más económico en la práctica. El consumo diario de Calorías se distribuye en una población de forma normal.La media de la muestra valdrá 95cm.Elaborado por: Ing. La población de estudio es aquella de la que finalmente extraeremos una muestra aleatoria. c.

Es una suposición acerca de una o más poblaciones. El primer paso a tomar al comenzar una investigación es pensar en la pregunta que a uno le interesa. no te quedara más remedio que continuar leyendo este documento. ¡Creo que el porcentaje de enfermos será el 5%! 111 . En términos sencillos podemos definir hipótesis como una creencia sobre la población. Esta pregunta debe estar basada en la teoría existente o algunas observaciones previas.Elaborado por: Ing. En general las hipótesis se refieren a los parámetros de la población para los cuales se hace la proposición. 3. Comprender los errores tipo I y tipo II. 4. Para mas detalles. Usar las pruebas de hipótesis como una herramienta base en las tomas de decisiones. Contrastar hipótesis para os parámetros mas usuales: media y varianza. Óscar Flores Pérez Bioestadística VI. Objetivos de la unidad. 2. Pasos a seguir en el contraste de hipótesis. Conocer los conceptos y planteamientos generales de las hipótesis. debe establecerse antes del análisis. para una o dos poblaciones. La hipótesis nula (H0) es la hipótesis de “ningún efecto” y generalmente es formulada con el propósito expreso de desecharla. Contrastes de hipótesis. Hipótesis. principalmente sus parámetros: • • • Media Varianza Proporción/Tasa OJO: Si queremos contrastarla. El siguiente paso es plantear la hipótesis nula. 5. 1. Interpretar las pruebas de hipótesis y sus contrastes. es decir que el rechazarla es justo lo que uno está tratando de hacer. la hipótesis alternativa es apoyada. Si es rechazada la hipótesis nula.

Una pregunta posible es ¿Promueven la diversidad vegetal los herbívoros o predadores de semillas? De acuerdo a las posibilidades logísticas del lugar se deciden qué parámetros pueden ser medidos y por lo tanto cuáles Ho son posibles. 2) H0 = No hay diferencia estadística entre el número de parcelas con especies dominantes (entendiéndose por especies dominantes las que tienen mayor o igual 112 . basadas en teorías de equilibrio del mantenimiento de la diversidad en bosques tropicales. Óscar Flores Pérez Bioestadística Ejemplo: Parcelas de exclusión de herbívoros o predación de semillas. por ejemplo: 1) H0 = No hay diferencia estadística entre el promedio del número de especies por parcela (del mismo tamaño) entre zonas con herbívoros o sin herbívoros.Elaborado por: Ing.

El nivel de significancia (o "alfa") nos indica la probabilidad de equivocarnos al rechazar la H0 en favor de HA. ¿Cómo se determina la preferencia? Si sólo se nota un ligero cambio de dirección en el desplazamiento por parte del predador. Hip. las medidas que uno va a tomar. Es importante definir cada medida. Es importante recordar que el investigador/a siempre tiene una idea previa sobre el resultado que desea obtener. El investigador le presenta a cada predador un par de presas a la vez. ⎧H0 : ⎨ 1 ⎩H : p=50 % p≠50 % =. Sin embargo. especialmente.Elaborado por: Ing. o sea de cometer el error de Tipo I. Óscar Flores Pérez Bioestadística número de tallos que el número de tallos/ número total de especies) entre zonas con o sin herbívoros. en el caso anterior ¿qué vamos a llamar una especie dominante? ¿Que plantas vamos a medir. ≤. 113 . cuando se trata de observaciones de comportamiento animal. ≥ ≠ . debemos intentar mantener la objetividad y para esto las definiciones son fundamentales. Después de este paso pensamos en los métodos. todas aquellas mayores a 10cm de diámetro ó 20m de altura? El definir medidas puede ser muy fácil cuando se trata de medidas exactas como altura y peso. Identificación de hipótesis. <. > Por ejemplo: Un experimento realizado en el laboratorio sobre la preferencia de un predador hacia presas crípticas o no-crípticas. es muy probable que aquellos pequeños cambios direccionales hacia la presa críptica sean ignorados mientras que aquellos hacia la presa no-críptica sean anotados. Hipótesis nula Ho La que contrastamos Los datos pueden refutarla No debería ser rechazada sin una buena razón. En realidad esto es casi inevitable porque estas ideas provienen usualmente de las observaciones o las hipótesis existentes que han formado la visión del investigador/a. Alternativa H1 Niega a H0 Los datos pueden mostrar evidencia a favor No debería ser aceptada sin una gran evidencia a favor. o más complicado. una críptica y otra no. Esto crearía un sesgo hacia la detección/preferencia de especies no-crípticas y por lo tanto podría ocasionar el rechazo de la hipótesis nula falsamente. Luego espera para detectar cuál prefiere. el diseño del estudio y el análisis estadístico.

Óscar Flores Pérez ¿Quién es Ho? Bioestadística Problema: ¿La osteoporosis está relacionada con el género? Solución: Traducir a lenguaje estadístico: Establecer su opuesto: Seleccionar la hipótesis nula Razonamiento básico. ¡Rechazo que Ho sea cierta! ¿Si una teoría hace predicciones con éxito. Sin embargo ocurrió.el resultado del experimento seria improbable. 114 . queda probado que es cierta? µ = 40 X = 38 …el resultado del experimento es coherente. Si supongo que Ho es cierta… ¿qué hace un científico cuando su teoría no coincide con sus predicciones? p=50 % p≠50 % p=50 % µ = 40 X = 20 ….Elaborado por: Ing.

Es conocida antes de realizar el experimento: resultados experimentales que refutarían H0 Nivel de significación: α Número pequeño: 1%. No se rechaza Ho. Reg. El experimento no es concluyente. Crit. Región crítica y nivel de significación Región crítica Bioestadística Valores ‘improbables’ si. 5%. No rechazo H0 Η0: µ=40 Contrastes: unilateral y bilateral. Fijado de antemano por el investigador Es la probabilidad de rechazar H0 cuando es cierta α=5% Reg.Elaborado por: Ing. La posición de la región crítica depende de la hipótesis alternativa. Óscar Flores Pérez No hay evidencia contra Ho.. El contraste no es significativo.. Crit. 115 .

• • • Es la probabilidad que tendría una región crítica que comenzase exactamente en el valor del estadístico obtenido de la muestra. Sobre p Es conocido tras realizar el experimento Conocido p sabemos todo sobre el resultado del experimento 116 . Óscar Flores Pérez Bilateral H1: µ≠40 Bioestadística Unilateral Unilateral H1: µ<40 H1: µ>40 Significación de p.Elaborado por: Ing. Es la probabilidad de tener una muestra que discrepe aún más que la nuestra de H0. preelegido al diseñar el experimento Conocido a sabemos todo sobre la región crítica. p es conocido después de realizar el experimento aleatorio El contraste es no significativo cuando p>α X = 43 No se rechaza H0: µ=40 P P α α Sobre α Es número pequeño. Es la probabilidad de que por puro azar obtengamos una muestra “más extraña” que la obtenida.

por el hecho de que beta disminuye. sin embargo. que si. Error tipo I (α): Se rechaza la Hipótesis nula cuando era cierta (has condenado a un inocente) B.Elaborado por: Ing. La probabilidad alfa es lo que llamamos significancia. elegida arbitrariamente casi siempre a un nivel de P = 0.01. En el caso de impactos sería la incapacidad de encontrar un impacto cuando realmente hay. 117 . pero no efecto lo percibimos Probabilidad β Correcto Error tipo I El tratamiento no tiene El tratamiento tiene efecto y el efecto. En diferentes clases de pruebas estadísticas.05 o 0. Óscar Flores Pérez Sobre el criterio de rechazo Contraste significativo = p menor que α Tipos de error al contrastar hipótesis. En el caso de impactos sería afirmar la existencia de un impacto cuando realmente no lo hay. errores tipo II son menos probables a medida que N (el tamaño de la muestra) es mayor. Alfa o la Probabilidad de Cometer ERROR TIPO I. realidad No rechazo Ho Rechazo Ho Acepto Ha Bioestadística Ho cierta Ho falsa Correcto Error de tipo II El tratamiento no tiene El tratamiento si tiene efecto. pero se decide experimento lo confirma. Alternativa: Existen diferencias (Culpable) Los errores tipo I son independientes del número de muestras. la potencia de la prueba (o la probabilidad de rechazar H0 cuando de hecho es falsa) es mayor a medida que N (tamaño de muestra) es mayor. nula: No existen diferencias (No culpable) H. Beta o la Probabilidad de Cometer ERROR TIPO II Se comete error de Tipo II cuando se acepta una hipótesis nula que es falsa. Se comete error de Tipo I cuando se rechaza la hipótesis nula falsamente o sea cuando la hipótesis nula es verdadera. Error tipo II (β): Aceptar la Hipótesis Nula cuando es falsa (has dejado libre a un culpable) H. Probabilidad α A.

α debe ser pequeño Rechazar una hipótesis consiste en observar si p<α Rechazar una hipótesis no prueba que sea falsa. Óscar Flores Pérez Bioestadística Disminuir la probabilidad de cometer el error tipo I para una n dada. H1: El peso de la prueba recae en ella. Cometer un error tipo II puede ser muy serio. Un error tipo I puede llevarnos a concluir que el agua que esta siendo vertida de una planta industrial tiene una temperatura media que excede los 150 °F cuando en realidad la temperatura media no es mayor que los 150 °F. Podemos cometer error de tipo II Si decidimos rechazar una hipótesis debemos mostrar la probabilidad de equivocarnos. Análisis. Estos daños generalmente toman gran tiempo repararlos si se piensa reparar el daño practico. Como evitarlos: Aumentar el tamaño de la muestra. Podemos cometer error de tipo I No rechazar una hipótesis no prueba que sea cierta. las hipótesis nula y alternativa no tienen el mismo papel: H0: Hipótesis científicamente más simple. 118 . Consecuencias financieras en lo natural.Elaborado por: Ing. Un error tipo I significa que tenemos que requerir de una planta que tome la acción correctiva cuando no es necesario hacerlo. Un error tipo II es concluir que la temperatura media del agua que esta siendo vertida es 150 °F o menos cuando en la realidad la temperatura media excede los 150 °F. Conclusiones. Ejemplo. Las hipótesis no se plantean después de observar los datos. Causamos daño al ecosistema del río. En ciencia. implica aumentar la probabilidad de cometer el error tipo II.

Excluyente Con base real H. La hipótesis de investigación es la de conjetura o suposición que motiva la investigación Las hipótesis de investigación conducen directamente a la hipótesis estadística.Elaborado por: Ing. Estas se establecen de tal forma que pueden ser evaluadas por medio de técnicas estadísticas adecuadas. La decisión en cuanto a que valores van hacia la región de rechazo y cuales a la región de aceptación se toma con base en el nivel de significancia deseado (α) 119 . La regla de decisión se señala que se debe rechazar la Ho si el valor de la estadística de prueba que se calcula a partir de la muestra es uno de los valores de la región de rechazo. Parámetros respecto a la normalidad de la distribución. es decir. La H. Hipótesis. Una vez calculada la prueba estadística se dicta la sentencia. Nula. Nota. Al especificar una hipótesis nula y una hipótesis alternativa debe cuidar que se cumpla lo siguiente. Comprende la naturaleza de los datos.1 Hipótesis. se rechaza o no se rechaza la H. Las pruebas de hipótesis se presentan como un procedimiento de prueba. Los investigadores se interesan en dos tipos de hipótesis: de investigación y estadísticas. Óscar Flores Pérez Bioestadística 6. Datos. Hipótesis que debe probarse (Ho) Hipótesis alternativa. Nula es falsa pero no puede rechazarse. Regla de decisión. Suposiciones. Distribución de la estadística de prueba. Alternativa: Existen diferencias (Culpable Estadística de prueba. Estadística relevante – parámetro supuesto Error estándar de la estadística relevante. nula: No existen diferencias (No culpable) H.

por ejemplo el valor medio de la longitud del pico en machos y hembras de X especie. puedes comparar las medias mediante uno de estos dos tests: (a) un test de la t. (b) utiliza el test de la t aproximado de Welch. Comprueba la igualdad de variancias entre ambos grupos. 2. En este caso los datos son independientes. (a) utiliza una transformación de los datos (logarítmica. 120 . (a) utiliza una transformación de los datos (logarítmica. como ya se ha dicho en los puntos previos. (c) utiliza un test de la U de Mann-Whitney. 1. por medio de un test de Kolmogorov-Smirnov. (b) utiliza un test de la U de Mann-Whitney. que no es paramétrico. que no es paramétrico. comprueba si las variancias se vuelven homogéneas y en caso afirmativo utiliza un ANOVA. 6. (b) utiliza un test de la U de Mann-Whitney. comprueba que si datos se vuelven normales y en caso afirmativo utiliza un ANOVA. comprueba si los datos siguen una distribución normal. (a) intenta una transformación de los datos. Si los datos no son normales ni las variancias son homogéneas. pues los grupos de datos a comparar se han obtenido por el muestreo de individuos distintos. pero si los datos no son normales conviene usar otro test. raíz cuadrada o inversa). que no es paramétrico. Si los datos no son normales. el procedimiento a seguir es el siguiente. (b) un análisis de variancia o ANOVA. Si los datos son normales. De modo indicativo. El ANOVA es robusto ante la falta de normalidad. 3. raíz cuadrada o inversa). Para cada grupo por separado. 4. por medio de un test de Bartlett. 5. Óscar Flores Pérez Bioestadística Contraste de Hipótesis: Elección de la prueba apropiada Supongamos que quieres comparar dos grupos de datos. de idéntico resultado pero más potente. pero las variancias son heterogéneas. que no asume igualdad de variancias.Elaborado por: Ing. pero las variancias son homogéneas. Si se cumplen los requisitos de normalidad e igualdad de variancias.

Si los datos son normales. Para cada grupo por separado. Comprueba la igualdad de variancias entre grupos. (b) transforma los datos en forma de rangos y realiza el ANOVA sobre los mismos. los grupos se constituyen en base a un sólo factor. El procedimiento indicativo a seguir es el siguiente. Este test requiere comprobar menos requisitos que el anterior. por medio de un test de Kolmogorov-Smirnov. para datos independientes y una clasificación sencilla de los grupos (es decir. (a) Si las diferencias entre grupos son significativas. Cuando se trata de comparar más dos grupos de datos. raíz cuadrada o inversa). la cantidad de posibilidades de análisis aumenta. 3. Óscar Flores Pérez Bioestadística Si los datos no son independientes. se procede del siguiente modo. 3. Si se cumplen los requisitos de normalidad e igualdad de variancias compara las medias mediante un ANOVA (el test de la t no es aplicable a más de dos grupos). como el crecimiento de pollos a tres tasas de ceba diferentes. y como con el uso de la Estadística en general. la tasa de ceba). Hay otros tests no paramétricos para comparar dos grupos de datos no independientes. pero son menos potentes. pero las variancias son heterogéneas. Aquí trataré sólo las más simples. ej. usa un test de Wilcoxon de rangos con signo. es decir. 2. es necesario consultar los libros más especializados. (a) utiliza una transformación de los datos (logarítmica. el tamaño de puesta entre dos puestas sucesivas de una misma hembra). puedes utilizar un ANOVA de medidas repetidas. Si los datos son normales y las variancias homogéneas. utiliza un test a posteriori (hay muchos) para descubrir qué grupo o grupos son los responsables de dichas diferencias. Si la diferencia entre cada par de valores sigue una distribución normal.Elaborado por: Ing. comprueba si los datos siguen una distribución normal. Si no se cumplen los requisitos paramétricos. 121 . comprueba si las variancias se vuelven homogéneas y en caso afirmativo utiliza un ANOVA. los grupos a comparar provienen del muestreo de los mismos individuos (p. en el ejemplo. puedes utilizar un test de la t de medidas repetidas. 1. En los restantes casos. 1. por medio de un test de Bartlett. 2. 4.

como ya se ha dicho en los puntos previos. (i) Si las diferencias entre grupos son significativas. Este test requiere igualdad de variancias. rangos o atributos. se quiere saber si el diámetro a la altura de pecho (DAP) promedio de un roble en las cercanías del Volcán Poas es de 50 cm. (a) utiliza una transformación de los datos (logarítmica. Número de muestras a comparar Ejemplo. Si los datos no son normales ni las variancias son homogéneas. pero si los datos no son normales conviene usar otro test. 122 . 6. discretas. Si los datos no son normales. pocos DAP`s pequeños y DAP`s grandes. concentrándose la mayoría en el medio. entonces se puede utilizar la prueba t para probar la conjetura hecha anteriormente. (b) transforma los datos en forma de rangos y realiza el ANOVA sobre los mismos. Parcela 1 Parcela 2 Parcela 3 Parcela 4 90 66 106 84 105 83 104 82 97 97 59 95 78 70 47 95 100 69 44 80 75 75 51 109 89 58 59 72 74 75 81 71 68 212 62 91 93 84 Si se asume que la distribución de DAP`s sigue la forma de una campana. comprueba si los datos son normales y en caso afirmativo utiliza un ANOVA. (a) intenta una transformación de los datos. pero las variancias son homogéneas. raíz cuadrada o inversa). Óscar Flores Pérez Bioestadística 5. utiliza un test a posteriori de Dunn-Sidák para descubrir qué grupo o grupos son los responsables de dichas diferencias. Utilizando los datos del ejemplo en la unidad 2. que no es paramétrico. por lo que no es aplicable al caso (4) ni al (6) (aunque al parecer es bastante robusto ante la heterogeneidad de variancias). (b) utiliza un test de Kruskal-Wallis.Elaborado por: Ing. Tipo de test Variables continuas. El ANOVA es robusto ante la falta de normalidad.

001. 6.61 y que la t tabular. Por ultimo se toma una decisión según la evidencia suministrada.61 17. para 37 grados de libertad.3-50 = 10. t` es 10. El nivel de significancia de esta prueba es menor a 0. usa prueba paramétrica 123 . 2 Comprueba a) Normalidad → Test Kolmogorov . Debido a que la t calculada. correspondiente a la probabilidad de 0. Óscar Flores Pérez Primero se establecen las hipótesis: Ho: µ = 50 cm.Smirmov b) Homogeneidad → Prueba F de similitud de varianzas 3 Si se cumple. Se dice por lo tanto.025 .026. t. X −µ t `= Sx t´ = 80. se debe rechazar Ho. no paramétrica.2 Pruebas Paramétricas y No Paramétricas Supuestos sobre los datos: 1 Los datos corresponden a una variable 2 Variable sigue distribución normal continua 3 Varianza de los subgrupos son similares 4 Los datos son independientes Si se cumple: Test paramétrico (mas potente) Si no se cumple: Test no paramétrico 6. Bioestadística Ahora se selecciona el estadístico de prueba. Como se asume normalidad y los datos provienen de un muestreo al azar. se selecciona la prueba t – student.03. tiene una valor de 2.1 Como escoger entre una prueba paramétrica y no paramétrica 1 Si el tamaño de la muestra es ‹ 10.2.6/√38 t `(α 2 .37 ) = 2.001). ya que el valor t calculado es menor que el valor tabular.Elaborado por: Ing. n −1 ) = t(0. En otras palabras existe suficiente evidencia para rechazar la conjetura de que el DAP promedio es de 50 cm.001 (p<0. que la prueba es altamente significativa. Ha: µ ≠50 cm.

124 .Elaborado por: Ing. así como para otros métodos no parametritos. y las diferencias son error de muestreo Ha: De poblaciones con promedios distintos. las mediciones originales no son utilizadas. 6.2 Pruebas Paramétricas Prueba de t para datos no pareados Prueba de t para datos pareados • • • • Observaciones reales Comparan medias Datos deben tomarse en escalas de intervalos Medias y varianzas similares 6. Óscar Flores Pérez Comparando promedios Bioestadística Diferencias observadas entre 2 promedios. Los datos pueden ser ranqueados tanto del mayor al menor como del menor al mayor.3 Pruebas No Paramétricas Prueba de U de Mann Whitney para datos no pareados Prueba de Wilcoxon para datos pareados • • Rangos Comparan medianas Para esta prueba (Mann – Whitney).2.2. ¿es significativo o un error de muestreo? Muestras proceden: • • Ho: De poblaciones con promedios idénticos. y las diferencias no se deben a un error de muestreo. El estadístico que se calcula se U y se obtiene de la expresión: U = n1 * n2 + n1 (n1 +1) − R1 2 Donde n1 y n2 son los números de las observaciones en las muestras 1 y 2 respectivamente y R1 es la suma de los rangos de las observaciones en la muestra 1. si no que se utilizan los rangos de las mediciones.

5 6.3 75 75.5. 125 .3 75.3 75.5 = 41.5 = 6. Ha: las longitudes de las alas son diferentes en machos y hembras.8 n1= 6 R 5 8.5 Ho: las longitudes de las alas son iguales en machos y hembras. U tab.2 n2 = 8 R 1 2 3 4 6. Óscar Flores Pérez Bioestadística Ejemplo. Se han ordenado por conveniencia de menor a mayor.5 11 R2 = 42. (Fowler y Cohen) = 8 6(6 + 1) − 62 .5 10 12 13 10 R1 = 62.5 2 Por ejemplo. Machos 73 74.4 73.5 75.5 73. Formula de trabajo: U = n1 * n2 + Donde Ú = n1n2 – U y sustituyendo: n1 (n1 + 1) − R1 2 U = 6 *8 + Ú = 6*8 – 6.5 U tab. (Sigarroa) = 40 U tab.5 8.5 74. en ese caso concreto se selecciona el menor de los dos valores de U y se compara con el valor tabular: Uc = 6. (Fowler y Cohen) = 8 Conclusión: Como el valor calculado es menor que el tabular se rechaza Ho.5 Hembras 71 71. Los datos se refieren a las longitudes de ala (mm) de seis machos y ocho hembras del pájaro Carbonero común Parus major.5 72 72.Elaborado por: Ing.

R1 = H = 75 R2 = M = 178 U1 = 11 * 11 + 11(11+1)1/2 – 178 = 121 + 66 – 178 = 9 U2 = 11 * 11 + 11(11+1)1/2 – 75 = 121 + 66 . 160.5 7 8 9 10 11 12 13. Para comparar el promedio de dos muestras pequeñas. 170. Al contrario. M 185 – 165 = 20 Valor de la prueba de U de Mann – Whitney es 30. 179. 185.5 13. 164.Elaborado por: Ing. 180. Al ser un aspecto más complejo del estudio de la asociación entre variables. 1 2 3 4 5. se tratará aquí de modo muy preliminar y sin dar todas las explicaciones necesarias. se rechaza la hipótesis nula Ho. Óscar Flores Pérez Ejercicio. debe ser mencionado para no dar una falsa impresión de que los tests pueden usarse en cualquier circunstancia. U de Mann – Whitney para datos no pareados. Prueba para comparar promedios. Hembra y macho. n 2 (n 2 + 1) − R2 2 n (n + 1) U 2 = n1 * n 2 + 1 1 − R1 2 U 1 = n1 * n 2 + U 1 + U 2 = n1 * n 2 Seleccione el menor valor. 161. el ajuste a los requisitos es una parte fundamental en la elección del test adecuado. No obstante. Bioestadística Prueba de t para datos no pareados. 163. 17 18 19 20 21 22 174. 170. además del tipo de variables y de datos.75 = 122. 160. 162. 178. 159. 165. que serían demasiado largas y técnicas. 176. Como en los tests de hipótesis. Si U< valor critico. 126 .5 5. el uso de la correlación y la regresión depende del cumplimiento de una serie de requisitos. cuyas violaciones tienen consecuencias diversas. 172. 155.5 15 16 153. 173. 157. 167.

La correlación de Kendall es también un método no paramétrico de correlación. es posible transformar los datos para hacer que la relación se convierta en linear. Pero. pero no proporciona ninguna ecuación para predecir los valores de la variable dependiente. A continuación se resumen los pasos a seguir para el estudio de la asociación entre variables. b) la relación entre las variables es linear. pero no es muy utilizado. Las condiciones (b) y (e) pueden contrastarse examinando los residuos de la regresión. Asegúrate de que lo que te interesa es la asociación entre variables y no un test de hipótesis. no curvilinea. si se viola el supuesto (a). 127 . El método de correlación no paramétrico más habitual es el coeficiente de correlación de Spearman (rs). (d) y (e) no se cumplen. Existe un método no paramétrico de regresión. Puede usarse como sustituto del análisis de regresión paramétrica. Este método simplemente evalúa si los valores de la variable dependiente aumentan o disminuyen con cambios en la variable independiente. 1. d) la variable independiente se mide sin error y e) la variación en la variable dependiente es similar en todo el rango de valores de la variable independiente. es decir. Los requisitos (a) y (c) se cumplirán si la toma de datos en el campo ha sido planificada de modo correcto. y b) ambas variables siguen una distribución normal. el método robusto de Kendall de ajuste de rectas. c) los valores de la variable independiente son fijados por el observador. Si las condiciones (c). Si la condición (b) no se cumple. Óscar Flores Pérez Bioestadística Los requisitos necesarios para poder realizar un análisis de regresión paramétrico son: a) las medidas son independientes. Puede utilizarse para examinar la asociación entre dos variables. Puede usarse no sólo para variables mensurables sino también para variables ordinales. Violaciones del resto de los supuestos hacen imposible el análisis.Elaborado por: Ing. Los requisitos necesarios para poder realizar un análisis de correlación paramétrico son: a) la relación entre las variables es linear. Puede recurrirse a la transformación de las variables. como se explicó para los tests de hipótesis. mensurables u ordinales. puede utilizarse un modelo II de regresión. a diferencia de la correlación de Spearman. La normalidad de las variables se comprueba mediante un test de Kolmogorov-Smirnov. En el resto de los casos. la diferencia entre los valores observados de la variable dependiente y los predichos de acuerdo con la recta de regresión. permite el examen no paramétrico de la correlación entre más de dos variables. lo mejor es recurrir a un test no paramétrico.

un test de la G. 128 . normalidad: test de Kolmogorov-Smirnov. preferentemente.Elaborado por: Ing. (b) no deben existir frecuencias esperadas menores que 5 en más del 20% de las casillas. Supuestos. Método robusto de Kendall de ajuste de rectas. 3. ◊ más de 200 datos. test de la G. agrupa niveles hasta evitarlo. o emplea un test exacto de Fisher para tablas 2 x 2). Utiliza correlación no paramétricas Mas de dos variables o Regresión múltiple. no es necesaria la corrección para continuidad. ♦ entre 25 y 200 datos. (b) tienes dos variables y es una tabla 2 X m o n X m: test χ2 o. ordinales o una combinación de estos tipos: (a) decide si te interesa la asociación (correlación) o la relación funcional (regresión). Si las variables son mensurables. (i) tienes al menos 25 datos: utiliza un test X2 o. Correlación parcial de No existe ningún test Kendall. (c) decide el test a utilizar en función del número de variables y del cumplimiento de los supuestos. emplea la corrección para continuidad. (c) si tienes dos variables y es una tabla 2 X 2. linealidad de la relación y variación homogénea de la variable Y en todos los valores de la variable X: examen de los residuos). Si las variables son atributos o una combinación de atributos y variables ordinales: (a) No deben existir casillas vacías (si existen. (ii) tienes menos de 25 datos: utiliza un test exacto de Fisher. preferentemente. (b) comprueba los supuestos necesarios (independencia. Óscar Flores Pérez Bioestadística 2. Parámetros Se cumplen No se cumplen Correlación Dos variables Coeficiente de correlación de Pearson Coeficiente de correlación de Spearman Correlación de Kendall Regresión Dos variables Coeficiente de determinación Se cumplen No se cumplen Mas de dos variables Correlación múltiple parcial. Regresión modelo II.

Tal vez. Si el histograma no parece alejarse mucho de la forma de una campana. Se sabe que intervalos formados por µ+/-σ. 2. y luego dividirlas entre n para obtener la proporción de frecuencias que caen dentro y fuera del intervalo respectivo. sea p.4 ¿Son nuestros datos normales? En muchas situaciones en la investigación biológica o ciencias naturales. 3.3. 1/300). No hay que confundir que se trata de la distribución de una característica determinada y no de la distribución normal del promedio. Ho = S21 / S22 = F = 1 F= Varianza Mayor (muestra 1) Varianza Menor (muestra 2) Grados de libertad (g. 6. µ+/-2σ.Elaborado por: Ing. 95.ks donde k = 1. Como no se conoce µ y σ. 1/20.3 Prueba F de Similitud de Varianzas Sirve para determinar si nuestras muestras tienen varianzas similares. lp `− pl p (1 − p ) n 129 . por lo tanto. µ+/-3σ en una distribución normal contienen el 68. respectivamente. 1/20. l. se podría utilizar la siguiente formula para cuantificar la discrepancia. la cual es garantizada por el teorema del límite central. la proporción de observaciones que quedan fuera de esos intervalos son en forma aproximada 1/3. 1/300. interesa no solo hacer referencia sobreµ. por lo que es conveniente tener alguna forma de confrontar este supuesto una vez que se obtiene las observaciones por medio de la muestra.7 de las observaciones respectivas. se puede efectuar una prueba por medio del conteo de las frecuencias correspondientes a intervalos simétricos con respecto al promedio. Si se llama a la proporción de observaciones que quedaron fuera del intervalo como p` y lo comparamos con la proporción esperada (1/3.4 y el 99. sino también conocer la distribución completa de la población para una característica especifica. se usa X y s para contar las frecuencias respectivas a los intervalos X +/. para verificar las colas de la distribución observada.) = (n1-1) y (n2-1 6. la distribución que más se utiliza en los supuestos de la prueba estadística es la distribución normal. Óscar Flores Pérez Bioestadística (c) utiliza modelos loglineares para el caso de más de dos variables.

a partir de un cruzamiento en el cual se plantea como hipótesis una proporción fenotípica de 3:1. lo cual deja por fuera a solo una observación de las 38 realizadas. mientras que lo esperado.l. p.e. 130 .3. por lo p (1 − p ) 1 / 20(19 / 20) n 38 tanto. que es el siguiente. Óscar Flores Pérez Bioestadística Si la cantidad anterior es mayor que 3. independencia y bondad de ajuste).8). aleatoriedad.5 • • Análisis de Frecuencias Prueba del Chi cuadrado (homogeneidad. se puede calcular. 115.00084 lo cual es obviamente menor que 3. Comparamos las frecuencias observadas con las esperadas en función de la Hipótesis Nula. Realizando el cálculo respectivo. se tiene que X +/. que es de 75 amarillas y 25 verdes.= n -1 Ejemplo: n = No. un genetista obtiene una progenie de 100 F2. Se obtienen 84 plantas de flores amarillas y 16 verdes. no existen desviaciones serias de supuestos de normalidad. asociación. o sea p`= 1/38. Si alrededor del 70% de las observaciones están dentro del intervalo X±S X = Media S = Desviación típica 6. de frecuencias El caso mas sencillo es el de X2 para dos categorías. Ejemplo. indicaría un alojamiento de normalidad en las colas de la distribución (es precisamente en las colas donde se determina el grado de significancia en los procesos de inferencia). χ 2 = (O i − E E j j ) 2 g. según una distribución normal es de p = 1/20.Elaborado por: Ing. a pesar de lo que establece la hipótesis.2s proporciona el intervalo (45. Así entonces. lp`− pl l1 / 38 − 1 / 20l = = 0.

La hipótesis en este caso es que la población que ha sido muestreada tiene una proporción de 3:1 de plantas amarillas y plantas verdes. que los datos observados son estadísticamente diferentes de la proporción esperada. = 2. Esto quiere decir. es decir que para un valor dado de g.84. es posible cualquier valor de Χ2 por lo que los resultados de los análisis de Χ2 son solo aproximaciones a la distribución teórica y nuestras conclusiones no estrictamente son reales para un nivel de significancia establecido. se rechaza la Ho.24 = 4. e. por lo tanto. es decir que tiene una proporción diferente de 3:1. Óscar Flores Pérez Bioestadística Nos podríamos formular la siguiente pregunta ¿se desvían significativamente las frecuencias observadas (84 Y 16) de las esperadas (75 y 25)? El procedimiento estadístico para atacar este problema involucra primeramente el planteamiento de la hipótesis que se quiere probar. Los valores de Χ2 obtenidos pertenecen a una distribución discreta o discontinua en los que pueden tomar solo algunos valores.05 y un grado de libertad = 3. Corrección para continuidad. sin embargo la distribución teórica Χ2 es una distribución continua. Se concluye entonces que si Ho es falsa. La expresión para el cálculo es la siguiente: Donde χ = 2 ∑ i =1 k (O − E )2 E E: es la frecuencia esperada de los conteos de i – esima clase.32 Χ2 tab para α = 0. luego Ha es cierta. en este caso que tenemos dos categorías de frecuencias seria 2 – 1 =1. g.Elaborado por: Ing.l. El procedimiento mas cómodo consiste en la tabulación de los datos de la manera siguiente: Fenotipos o clases Amarilla verdes Frecuencias observadas (O) 84 16 Frecuencias esperadas (E) 75 25 (O − E E )2 (84-75)²/75 (16-25)²/25 Χ2 = 1. p. 131 .08 + 3.. Entonces Χ2 calc > Χ2 tab. porque plantea la no diferencia.l. Estadísticamente esto se refiere como Hipótesis Nula (Ho). O: frecuencia observada de los conteos de la i – esima clase. Los grados de libertad están dados por el número de categorías de frecuencias menos uno.

heterocigoto y homocigoto decisivo. χ c= 2 ∑ i =1 k (84 − 75 75 − 0 . al no aplicar la corrección y por ende..Elaborado por: Ing. y para ella se recomienda la corrección de Yates para continuidad. Sin el uso de corrección para continuidad el χ2c se incrementa y puede causar el rechazo de Ho. El rasgo no se distribuye de acuerdo a la razón 1:2:1. Respuesta.853. Las tablas de contingencia se utilizan para medir la asociación entre dos atributos. De esta forma. el valor p para la prueba es p<0.5 unidades al valor absoluto de O – E.005. Cumplen un papel análogo a las otras medidas de asociación entre variables (correlación y regresión) pero también sirven como contraste de hipótesis. aplicar la continuidad en estos casos puede provocar que se cometa el error tipo I. Dado que 13. dado que en las variables medidas como atributos ambos tipos de análisis no se diferencian claramente. es decir.5 ) + (16 − 25 2 − 0 . El examen de una muestra aleatoria simple de 200 individuos proporciono la siguiente distribución del rasgo: dominante.5 ) 2 i =1 Donde χ2c representa el valor χ2 calculado con la corrección para continuidad. Óscar Flores Pérez Bioestadística Esta situación se presenta enfatizada en el caso de que exista 1(un) g. Aunque en este caso se llega a la misma conclusión que sin la aplicación de la corrección. 43. Ejercicio.5 ) 2 25 χ2c = 0. Se desea saber si lo datos proporcionan suficiente evidencia para cancelar dudas sobre la distribución del rasgo. Tablas de contingencia. 125. 32. heterocigoto. lo cual no ocurre con el uso de corrección. 132 . es decir: χ c = 2 ∑ k (O − E E − 0 .963 + 2.71> 10. l. Se piensa que cierto rasgo humano es heredado de acuerdo a la razón de 1:2:1 para homocigoto dominante. en que se resta 0. Dicho de otra forma. retomando el ejemplo anterior donde existe un g. y recesivo. aceptar la hipótesis Ha (hipótesis alternativa) siendo Ho cierta.l.890 = 3. este no siempre es el caso.597.

Habrá una asociación entre variables si determinadas combinaciones de las mismas aparecen con una frecuencia estadísticamente mayor que otras. Estos coeficientes varían entre 0 (ninguna asociación) y 1 (asociación perfecta).Elaborado por: Ing. se habla de tablas 2 X 2 si cada variable tiene dos niveles. y la celda correspondiente a la i – ésima fila y j – ésima columna tendrá Oij observaciones. 7 cada variable tiene sólo dos niveles. También es posible calcular la "fuerza" de la misma. 7. 7 A y B). Óscar Flores Pérez Bioestadística El nombre de "tablas" deriva del tipo de representación que suele hacerse para el análisis. 133 . B) asociación inexistente (los a son 1 ó 2 con idéntica frecuencia. Ejemplo de asociación entre dos atributos para los que se han medido 20 valores: A) asociación perfecta (todos los a son 2 y todos los b son 1). El análisis consiste en averiguar si el reparto de los individuos en las diferentes casillas sigue algún patrón o es simplemente debido al azar (Fig. las variables fueran independientes. y lo mismo sucede con los b). En cada casilla de la tabla se escribe la frecuencia observada de individuos dentro de cada combinación de niveles. Supóngase que se seleccionan n artículos y se clasifican según a dos criterios diferentes. Coeficiente de contingencia. En el ejemplo de la Fig. pero eso no es obligatorio. de tablas n X m. Se obtiene un valor de significación para la asociación por medio de un test Chi cuadrado (χ2) o un test de la G. si en realidad. mediante el uso de tablas multidimensionales y el uso de modelos loglineares. Se construye una tabla con tantas filas como niveles tiene una de las variables y tantas columnas como niveles toma la otra variable. de tablas 2 X 4 si una tiene dos niveles y la otra cuatro o. La tabla a cuadro resultante tendrá r filas y c columnas. es posible examinar la asociación entre más de dos variables simultáneamente. Fig. La prueba de hipótesis (independencia entre las variables) es bastante sencilla y es básicamente una comparación de los valores observados con aquellas que se esperarían teóricamente. mediante el coeficiente de Cramér (C) o el coeficiente Phi de asociación (rφ) (sólo en tablas 2 X 2). en general. Como en la correlación y la regresión.

sino también su dirección.Elaborado por: Ing. la mayoría (mas del 20 % de los valores esperados) son al menos 5. este no solo señala el grado de la asociación. Considerando el inconveniente señalado con la prueba Chi cuadrado. Óscar Flores Pérez Bioestadística Si χ2 →0 indica que las variables son estadísticamente independientes. 134 . Una población es multinomial si cada elemento de la población es asignada a uno (y solo uno) de dos o mas clases de atributos o categorías. ⇒ La muestra es razonablemente grande. aun cuando la asociación sea perfecta (cuando no hay asociación entre las variables. (r-1) (c-1) no se rechaza el supuesto de independencia. ningún valor esperado es mayor que 1.1T. es el gran total.j/T. donde T.2 T1 . dos valores de C no son directamente comparables al menor que sean calculadas a partir de tablas del mismo tamaño.T 2 . la muestra es grande.j como el total de la columna j – ésima y T. el valor χ2 es cero). de lo contrario. El valor máximo posible varía según el número de filas y columnas. será Eij = Ti. así entonces. Hay dos supuestos que se utilizan en esta prueba: ⇒ La muestra se seleccionó. un estadístico alternativo para medir asociación en una tabla de contingencia de 2 x 2 podría se el coeficiente de Crámer o phi φ.i como el total de la fila i –ésima. entonces el valor esperado en la celda ij. si χ2 ≤χ2 (1-α). se rechaza.. Para un nivel de significancia dado. χ 2 = ∑ ∑ i =1 r c (Oij j =1 − Eij Eij )2 Si las variables son estadísticamente independientes. Si se denota T. bajo el supuesto de independencia. por medio de un método aleatorio de una población infinita o sumamente grande multinomial divariada. entonces el estadístico Chi cuadrado tiene una distribución teórica Chi cuadrado con (r-1) (c-1) grados de libertad. pero aquí se señalara solo aquel que reúne la propiedad de su variar entre -1 y +1. o sea φ2. φ2 = O 11 O 22 − O 12 O 21 T. provienen de una población multinomial. χ2 C= N + χ2 El estadístico C no alcanza el valor 1. Si χ2 →∞ indica que las variables no son estrictamente. Si la tabla tiene r filas y c columnas..T. Existen varias modalidades del mismo.. entonces tendrá k = r *c celdas.

j j i j ⎤ ⎦ El estadístico puede utilizarse para realizar la prueba de hipótesis sobre independencia entre las variables. 1) = 3. o sea. la razón de máxima verosimilitud (G).. Un método alternativo general. no hay evidencia estadística para asumir que existe relación entre la presencia de la enfermedad y la presencia de insecto.j . Los resultados finales son: Presencia de la enfermedad presente ausente 6 4 1 3 7 7 Insecto Presente Ausente total total 10 4 14 φ2 = ((6) (3)-(4) (1) / √ (7) (7) (10) (4) =0. especialmente aquellas que se refieren a las frecuencias mínimas esperadas. Ejemplo: Se recolectó para determinar si existía o no asociación entre la presencia de una enfermedad en una planta y la presencia de un cierto vector (insecto).Elaborado por: Ing. − ∑T LnT + nLnn ij ij . 135 . ⎡ G = 2⎢∑ ⎣i ⎥ ∑O LnO − ∑Ti.32. O12 =O21).841 > 1. No existe evidencia para rechazar la hipótesis de independencia. El estadístico G se distribuye aproximadamente como la distribución Chi cuadrado con (r-1) (c-1) grados de libertad.44 χ2 (0.7 Ln 7 – 7 Ln 7 + 14 Ln 14) = 1.32 G = 2(6Ln 6 + 4Ln 4 + 1 Ln 1 + 3 Ln 3 – 10 Ln 10 – 4 Ln 4 . La relación muestral entre las dos variables tiene una intensidad de φ2 = 0.05. podría utilizarse en aquellas situaciones cuando los supuestos para Chi cuadrado no se cumplieran. esto significa que todos los valores en la tabla de contingencia esta en las celdas superior izquierda e inferior (i. Óscar Flores Pérez Bioestadística Si φ2 = 1.44.e.

Establecen 25 parcelas y cada técnica de preparación es aplicada a 5 parcelas seleccionadas al azar. Óscar Flores Pérez Bioestadística 6. o muestras. donde k es el numero de grupos experimentales. cada observación será representada por Xij donde i se refiere a la observación realizada en el j-ésimo grupo o tratamiento. La asignación de las técnicas de preparación de sitio a cada parcela es totalmente al azar. Además el andeva es suficientemente robusto para operar bien aun en situaciones que presentan heterogeneidad de varianzas. El andeva es también robusto con respecto al supuesto de normalidad de las poblaciones subyacentes. Para probar hipótesis Ho: µ2=µ2= µ3… = µk. siempre y cuando todos los n`s sean iguales o casi iguales. Se quiere determinar los efectos de cinco técnicas de preparación de sitio sobre el crecimiento juvenil de plántulas de Jacaranda copaia (gallinazo) cuando se planta en monocultivo. El supuesto de homocedasticidad se puede probar con la prueba de Bartlett. Usaremos un ejemplo para explicar este método. pero su validez si es afectada por una desviación considerable de este supuesto de normalidad (en caso de asimetría y/o curtosis). Si los n`s son muy diferentes. Alguna notación. 136 . En este caso. El análisis de varianza se basa en la partición de la suma de cuadrados y grados de libertad asociados a la variable respuesta. Cada experimento se realiza bajo las mismas condiciones. Las parcelas se plantan a mano y el final del tercer año se mide la altura de todos los arbolitos y se calcula el promedio de altura para cada parcela. En este caso el camino apropiado es un análisis de un solo factor.Elaborado por: Ing. a un grado dependiente de la magnitud de la heterogeneidad.6 Análisis de varianza. la probabilidad del error tipo I se alejara marcadamente de α. El análisis de varianza es utilizado para probar la hipótesis Ho: µ2=µ2= µ3… = µk. solo se probara el efecto de un factor la técnica de preparación de sitio sobre la variable repuesta. altura del arbolito. obedeciendo a lo que se conoce con el nombre de diseño experimental completamente aleatorizado. Sin embargo. Para ejecutar esta prueba se asume que σ21= σ22 = σ23 =……= σ2k (propiedad de homocedasticidad) y que todas las k muestras provienen de poblaciones normales. esta prueba es muy sensible a la no normalidad por lo que no vale la pena usarlo en el andeva.

se les llama grados de libertad del error (gle). se obtiene al dividir la SCE entre los grados de libertad gle y se le llama el cuadrado medio del error (CME). la suma d cuadrados total (SCT) viene dada por: ∑ ∑(X k nj j =1 i =1 ij − X) 2 Y tiene n-1 grados de libertad. La suma de cuadrados entre grupos (SCG). También se considera la variabilidad presente entre todas las n observaciones. nj = tamaño de la muestra en el grupo j . n = ∑ nj suma que se realiza sobre los k grupos. A la suma de cuadrados dentro de grupos se le llama suma de cuadrados debidos al error (SCE) y a los grados de libertad dentro de grupos. se obtiene como sigue: ∑n (X k j =1 j j − X) 2 Que tiene k -1 grados de libertad. El mejor estimador de varianza σ2. j =1 El supuesto de homocedasticidad (homogeneidad de varianzas entre grupos) lleva el cálculo de una varianza común para todo el experimento que será el estimador nj la suma de de σ2.Elaborado por: Ing. Óscar Flores Pérez Bioestadística El promedio del grupo j-ésimo se llamara Xj y el promedio general de todas las k observaciones X. además. Se puede señalar que el modelo general implícito en el andeva es aquel que divide cada desviación de una observación con respecto al promedio general en dos partes: Una desviación de esa observación con respecto al promedio del grupo a la cual pertenece. y la desviación del promedio del grupo con respecto al promedio general. o sea. En el caso de k k 2 muestras X ij − X j viene dada por cuadrados dentro de grupos ∑ ∑( j =1 i =1 ) y tiene ∑ (n k j =1 j − 1) grados de libertad asociados. La magnitud de la variación entre los k grupos también es importante para la prueba de hipótesis. 137 . varianza común para los k grupos.

De Valor crítico variaciones cuadrados libertad cuadrados F Probabilidad para F Entre grupos 313. Yi. cordero castrado entero implantados con Sinovex S. 150 160 221 251 782 Cuadro de concentración de datos.07757187 3. Óscar Flores Pérez Bioestadística SCT = SCG + SCE Gltotal = glentre grupos + glerror Fórmulas más sencillas para aplicar con calculadoras son: SCT = ∑ k j =1 i =1 ∑Xij − C 2 nj .547619 3 104. SCG = ∑ k ⎛ ⎜ ⎜ ⎝ ∑ nj X n j i =1 ij ⎞ ⎟ ⎟ ⎠ 2 − C 2 j =1 SCE = ∑ j =1 k ∑X i =1 nj 2 ij −∑ j =1 k ⎛ nj ⎞ ⎜ ∑ X ij ⎟ ⎜ ⎟ ⎝ i =1 ⎠ nj Ejemplo 1. 4. I T1 47 T2 50 T3 57 T4 62 Origen de Suma de Grados Prom. Donde (∑ ∑ X ) C = ij 2 n y se le llama factor de corrección.0166667 Total 653.515873 3.70826569 Dentro de los grupos 340. implantados con Stil Bestrol II 52 54 53 65 III 56 54 74 IV 51 57 50 Y. 3.072 0.. Los datos siguientes se refieren a los pesos finales de corderos alimentados durante 90 días con una ración que contenía 14 % de proteínas.714286 13 138 .166667 10 34. Los tratamientos fueron definidos de la siguiente manera: Tratamiento 1 2.Elaborado por: Ing.

95 2. Los tratamientos consisten en cantidades diferentes de estiércol incorporado al suelo como mejorador. 6 Yij.125 F 735.895 + 67.895 67.916) = 228. = 1/12(2562+3622+7282+2592) – 16052/48 = 12469. pero 139 . 2 Yij.812 Grados libertad 3 12 32 47 Prom. Error de muestreo Total Suma de cuadrados 12469. Óscar Flores Pérez Ejemplo 2.895 SCEE = 1/3 (682+642+…+632) – 16052/48 – 12469..05 Ft 0. De cuadrados 4156. I 24 23 21 68 25 28 30 83 56 65 58 179 24 19 23 66 II 19 21 24 64 31 24 32 87 62 60 59 181 21 22 24 67 III 18 19 22 59 28 32 36 96 61 60 64 185 23 18 22 63 IV 23 22 20 65 34 33 29 96 62 60 61 183 19 21 23 63 Y.49 5. 256 362 728 259 1605 SCtrat. Origen de las variaciones tratam Error experim. podemos decir que rechazamos la hipótesis de igualdad de tratamientos.65 7. Yi.812 – (12469.812 SCEM = 12765.01 3. tomadas como muestras ante la imposibilidad de medir la producción total de cada unidad experimental. Dosis (ton/ha) 0 Yij.792 NS Ft 0.916 228 12765. Bioestadística Los datos siguientes se refieren a producciones parciales de forraje de maíz en verde.63 5.80 Con base en lo anterior.07 2. 4 Yij.68** 0.895 = 67.916 SC total = 242+232+…+232 – 16052/48 = 12765..Elaborado por: Ing.. y debido a que Fc de tratamientos es mayor que Ft.

4 66.2 11.2 76.0 Y.0 66.28** Ft 0.3 Yi.0 78.265 Total 223. Por otra parte el ANDEVA solo indica una diferencia entre tratamientos. 83.8 18. En un experimento se probaron tres dietas diferentes (A.Elaborado por: Ing.99 Peso I 18.2 18.4 19. Ejercicios. C) para medir su efecto en la producción de leche.5 17. Niveles de pollinaza 0 10 20 30 Y.0 12. pero no especifica entre cual..2 Peso III 21.9 21. fue necesario efectuar un control (bloques).6 70. debido al peso inicial de los novillos. Realice los procedimientos necesarios para obtener los datos del ANDEVA.822 10. Los resultados son los siguientes: 1 A: 608 B: 715 C: 884 2207 vacas 2 B: 885 C: 1087 A: 711 2683 3 C: 940 A: 766 B: 832 2538 Hk 2433 2568 2427 7428 Y… Grados libertad 3 3 9 15 Prom.3 0.4 13.05 Ft 0.1 9.467 Bloques 30.9 17. como fuente proteica en raciones para novillos. Respuestas: Origen de las Suma de variaciones cuadrados Tratamiento 191. B.902 Error experimental 1. Con el fin de probar cuatro niveles diferentes de pollinaza. De cuadrados 63.1405 F 454. se llevo a cabo un estudio. Óscar Flores Pérez Bioestadística será necesario aplicar otro tipo de pruebas a fin de establecer conclusiones especificas acerca de este trabajo en particular.9 Peso IV 22.86 6.7 47.4 16.07** 73.9 15.634 Ejercicio. I II III 140 . 274.01 3. Las dietas se aplicaron a tres vacas en tres periodos de lactancia diferentes. en el cual.j.3 Peso II 20.8 61.7 periodo Cj Solución.

La hipótesis alternativa es más probable que la nula. d.Conocida al extraer la muestra y calcular el estadístico experimental. Óscar Flores Pérez Hipótesis. 1.Una muestra aleatoria no es coherente con la hipótesis nula. c.Una muestra aleatoria es coherente con la hipótesis nula. El nivel de significación de un test de hipótesis: Bioestadística a. c. b. e. e.La probabilidad de error al rechazar la hipótesis alternativa. e.Si el tratamiento no fuese efectivo. d. e. 3.Da la probabilidad de declarar significativo el resultado de un test.05 ¿Cuál es la interpretación correcta de este resultado? a. cuando esto es falso. Preg. 2.Con toda seguridad. c. d.Suele ser pequeño y lo fija el investigador o un convenio generalmente aceptado. 4. c. Preg. Preg. En todo contraste de hipótesis: a. b.Todo lo anterior es cierto. b. 141 . 5. b.La hipótesis nula se elige según el principio de simplicidad científica. Preg.Un número pequeño. b. Ejercicios.El tratamiento es un 95% más efectivo que el placebo.Al disminuir hace aumentar la probabilidad del error de tipo II.Todo lo anterior es falso. el tratamiento es mejor que el placebo.Se acepta la hipótesis de mayor probabilidad. c.Elaborado por: Ing. d. Preg.Fijada antes de realizar el contraste. existe menos del 5% de probabilidad de observar unas muestras tan contrarias a dicha hipótesis como las obtenidas.La probabilidad de que el nuevo tratamiento sea mejor que el placebo es superior al 95%.La probabilidad de rechazar la hipótesis nula. Un estudio sobre la efectividad de un fármaco llega a la conclusión de que éste es mejor que el placebo con p<0.Se rechaza la hipótesis de menor probabilidad.Es necesario contrastar la normalidad de los datos.La probabilidad de que el placebo sea mejor que el nuevo fármaco es menor de 5%.Todo lo anterior es cierto. Un contraste de hipótesis se considera significativo si: a. En un contraste de hipótesis la cantidad p es: a.

Elaborado por: Ing. 8.Las muestras son demasiado numerosas. 7.Nada de lo anterior es cierto. De las siguientes cuál no es un resultado posible de un contraste de hipótesis: a.El experimento permite obtener conclusiones. la región crítica: a. 142 .Aceptar que un tratamiento ineficaz produce efectos útiles. Óscar Flores Pérez d. d. d. Preg. e. c.Esta situada en la zona de mayor probabilidad. e. Preg. e.Tiene probabilidad pequeña.El nivel de significación es demasiado alto.Todo lo anterior es cierto. cuál se corresponde con un error de tipo II: a. si la hipótesis nula fuese cierta. b.Los tratamientos ofrecen tiempos de supervivencia muy diferentes. si la hipótesis nula fuese cierta. d. c. típicamente. b.La hipótesis nula es más probable que la alternativa. En un contraste de hipótesis. c. c.Una muestra aleatoria es coherente con la hipótesis nula.Aceptar que un tratamiento eficaz produce efectos útiles.Rechazar que un tratamiento ineficaz produce efectos útiles. No se encontró diferencia estadísticamente significativa. e. si la hipótesis alternativa fuese cierta. ¿Cuál de las siguientes razones podrían ser causantes del resultado? a. De las siguientes.Nada de lo anterior.Se acepta la hipótesis alternativa. Se realiza un estudio para saber si dos tratamientos de quimioterapia presentan diferencias en cuanto a la supervivencia de los pacientes.Todo lo anterior es cierto. e.Una muestra aleatoria no es coherente con la hipótesis nula. si la hipótesis nula fuese cierta.Tiene probabilidad pequeña. Preg. Un contraste de hipótesis se considera no significativo si: a. c.Se rechaza la hipótesis alternativa.Las muestras son demasiado pequeñas. d.Tiene probabilidad grande. b. 9. b.El experimento no es concluyente. Bioestadística Preg. 6.Son ciertas(a) y (c).Rechazar que un tratamiento eficaz produce efectos útiles. Se realiza un experimento donde nos basaremos en un contraste de hipótesis para tomar una decisión con un nivel de significación del 1%.Se rechaza la hipótesis nula.Son ciertas (b) y (c). Preg. d. 10. b.

Señale la respuesta falsa en lo que concierne a los contrastes de hipótesis: a. 143 . b.Un contraste debe ser declarado significativo antes de recoger los datos.El nivel de significación es normalmente un valor pequeño.La hipótesis alternativa se opone a la nula.La hipótesis alternativa puede ser aceptada. los resultados no son concluyentes. e. 11.rechazar H0 cuando es cierta. d. b. e. El error de tipo I consiste en: a.No rechazar H0 cuando es falsa. c. e.La hipótesis nula es aquella para la que buscamos evidencia a favor.La probabilidad de rechazar H0 cuando es falsa.La hipótesis nula puede ser rechazada.Nada de lo anterior. Elija la afirmación falsa: Bioestadística a.Si no se rechaza la hipótesis nula. Preg. b. d.rechazar H0 cuando es falsa. Preg. c.No rechazar H0 cuando es cierta.Elaborado por: Ing. 13.El nivel de significación de un contraste debe ser fijado antes de analizar los datos. c.Un contraste es declarado significativo si se obtiene una muestra que discrepa mucho de la hipótesis nula. 12.La significación de un contraste es conocida tras analizar los datos. Preg. d. Óscar Flores Pérez e.

Los valores de k que se utilizan con mayor frecuencia en las razones son 1 y 100. Objetivos de la unidad. y tanto c como d se refieren a la frecuencia de ocurrencia de algún evento o articulo. Óscar Flores Pérez Bioestadística VII. 1000. el numerador no es una parte del componente del denominador. es evitar resultados que comprendan números muy pequeño que puedan surgir en el cálculo de la tasa y facilitar la comprensión de estas últimas. Estadísticas vitales.Elaborado por: Ing. 144 . El numerador de una tasa es una parte componente del denominador. ⎛c⎞ Razón. 3. En el caso de una razón. Una razón es una fracción de la forma ⎜ d ⎟k donde k es alguna base. Aun cuando hay excepciones. Aquí se presentan algunas tasas y razones más útiles y ampliamente utilizadas. k. 4. 1. puede hablarse de la razón de personas camas en el hospital de cierta área geográfica. El propósito del multiplicado. a= la frecuencia con la cual se ha presentado un evento durante algún periodo especificado. antes de proceder es necesario distinguir entre los términos tasa y razón. a+b= el numero de personas expuestas al riesgos del evento durante el mismo periodo. Reconocer los elementos básicos de los estadísticos vitales. Estimar los elementos básicos de tasa y razones de mortalidad. Por ejemplo. El valor elegido para k dependo de la magnitud del numerador y del denominador. fertilidad y morbilidad. 2. el contrario de la tasa. este término se utiliza por lo general para referirse a aquellos cálculos que implican la probabilidad de ocurrencia de algún evento. llamado base. Sin embargo. 10000 o 100000. Interpretar adecuadamente los estadísticos vitales. Tasa. 5. Conocer los elementos principales de los estadísticos de la población. K= algún numero como 10. ⎝ ⎠ como ya se ha definido. 100. Realizar estimaciones de estadísticos vitales con casos reales de la zona. ⎛ a ⎞ ⎜ ⎟k ⎝a+b⎠ Donde.

Numero total de muertes durante un año (1 de enero a 31 de diciembre). que afectan a la tasa de mortalidad. Donde por lo general. 1000 como valor de k. k es igual a 1000. Las variables que entran en juego comprenden la edad. Por ejemplo. * k Población total al 1 de julio. es más importante e ilustrativo observar las tasas de mortalidad de subgrupos pequeños y bien definidos de la población total. padecimientos cardiacos o accidentes. Numero de muertes en un subgrupo especifico durante un año *k Población total en el subgrupo especifico a julio 1. La tasa bruta de mortalidad anual se define como. Las tasas y razones que se estudian en esta sección se refieren a la ocurrencia de muerte. Pueden calcularse simultáneamente las tasas específicas para dos o más característica. Compara las tasa brutas de mortalidad de dos comunidades es riesgoso. Debido a la pequeño fracción que resulta. se elige. e. Óscar Flores Pérez Bioestadística 7. puede calcularse la tasa de mortalidad para los varones de raza blanca. 145 . Cuando dos poblaciones deben compararse con base en la tasa de mortalidad. cáncer. a menos que se sepa que3 las comunidades son comparables con respecto a muchas características distintas de las condiciones de salud. la base k. Tasas especificas de mortalidad anual. El numerador representa solo aquellas muertes que ocurrieron en la población. sexo y condición socio económica. grupo racial y edad. especificada por el denominador. Deben tenerse las mismas precauciones el comparar las tasas de mortalidad anual para la misma comunidad en dos años distintos. Tasa bruta de mortalidad anual. P. Los subgrupos para los que pueden calcularse las tasas específicas de mortalidad comprenden aquellos grupos que pueden distinguirse con base en el sexo. obteniendo así una tasa especifica de raza – sexo.1 Tasas y razones de mortalidad. El denominador de una tasa de mortalidad se conoce como población en riesgo. Donde por lo general.Elaborado por: Ing. para una tasa de causa especifica es por lo general de 100000 o 1000000. Pueden calcularse también las tasas especificas de mortalidad por causas especificas incluyendo en el numerador solo aquellas muertes debidas a una causa particular. En general. grupo racial. esta es la tasa que se utiliza con mayor frecuencia para estimar la salud global de una comunidad. Las tasas de mortalidad expresan la frecuencia relativa de ocurrencia de muerte en algún intervalo específico en una población particular. deben hacerse ajuste para conciliar las diferencias entre las poblaciones con respecto a esas variables.

Solución. 3. 4. Ya se indico que la utilidad de a tasa bruta de mortalidad se restringe por el hecho de que no refleja la composición de la población con respecto a ciertas características por las cuales es afectada. las muertes en la población se listan (columnas 3) se las edades. la población de iteres se lista (columna 2) de acuerdo con el grupo de edades (columna 1). dividiendo la columna 3 entre la columna 2 y multiplicando por 100000. multiplicando la columna 4 por la columna 5 y dividiendo entre 100000. 2. En otras palabras se desea una tasa de mortalidad que pudiera haberse esperado en Georgia. se calcula el numero esperado de muertes en la población estándar para cada grupo (columna 6).1 muertes por cada 1000 habitantes. si la composición por edades de la población de Georgia hubiera sido la misma que la de los estados unidos. 5. se suman lo valores de la columna 6 para obtener el numero total de muertes esperados en la población estándar. Óscar Flores Pérez Bioestadística Tasa de mortalidad ajustadas o estandarizadas.Elaborado por: Ing. Obtener la tasa de mortalidad ajustada por edades para Georgia mediante el uso de la población estándar en el censo de 1970 para los Estados Unidos. El procedimiento para calcular una tasa de mortalidad ajustada por edades comprende los siguientes pasos: 1. La tasa bruta para Georgia en 1970 fue de 9. se calculan las tasas de mortalidad por edades (columna 4) para cada grupo. los valores de la columna 6 son las muertes que se esperarían en la población estándar si las personas de esta poblaciones hubieran expuestos al mismo riesgo de muerte experimentado por la población que se esta ajustando. Los datos necesarios para los cálculos se muestran en la tabla siguiente. 146 . la población estándar se lista (columna 5) por grupo de edades. Ejemplo. 6.

1 3669. se tiene una tasa de mortalidad ajustada por edades es igual a 10415*1000 1000000 = 10. solo el 8% de la población de Georgia tenía 65 años de edad o más. Es decir la tasa bruta de mortalidad ajustada por edades es igual a. 1 2 3 4 Tasa de mortalidad según la edad (por 100000) 5 Población estándar basada en la población de EEUU. Óscar Flores Pérez Bioestadística Cuadro 12. Calculo de la tasa de mortalidad ajustada por edades para el estado de Georgia.1 9060.1 por 1000 a un 10. En el ejemplo.9 84416 200508 174406 122569 113614 114265 91480 61195 37547 1000000 494 94 277 274 503 1088 1854 2429 3402 10415 7. la población de Georgia era un poco mas joven que la población de los estados unidos en general.6 442. 147 .6 223.4 por 1000 ajustando la población de Georgia en 197 a la distribución de edades de la población estándar. Edad (años) Población Muertes 0 -4 05 a 14 15-24 25-34 35-44 45-54 55-64 65-74 75 y mas Total 424600 955000 863000 608100 518400 486400 384400 235900 132900 4608700 2483 449 1369 1360 2296 4632 7792 9363 12042 41786 584. 1970 6 Numero de muertes esperadas en la población estándar. Por ejemplo. refleja el hecho de que.9 952. después del ajuste. 1970. la tasa de mortalidad ajustada por edades se calcula de la misma manera que una tasa bruta de mortalidad.3 2027. Este incremento en la tasa de mortalidad.4 Se observa entonces que la tasa bruta de mortalidad se ha incrementado de una 9. mediante el método directo. en 1970. mientras que el 10% de la población de los estados unidos estaba ese grupo de edades. Tasa de mortalidad materna.Elaborado por: Ing. Número total de muertes esperadas * 1000 Población estándar total. Esta se define como Muertes por causas puerperales durante un año *k Total de nacimientos vivos durante el año.8 47 158.

b) La muerte de la madre solo puede contarse una vez. Una muerte debida a una causa puerperal es aquella que puede atribuirse a alguna fase del parto. suelen calcularse tasas de mortalidad para niños menores de un año. en periodos de cambios rápidos deben hacerse algunos ajustes. En un esfuerzo por comprender mejor la naturaleza de las muertes infantiles. Sin embargo. c) Algunos nacimientos vivos no se registraron. resulta. Debido a la disminución de la tasa de mortalidad materna en los estado unidos. El uso y la interpretación de esta tasa tiene que hacerse a la luz de sus limitaciones. aunque puede haber ocurrido un nacimiento de gemelos o un nacimiento múltiple mayor. En poblaciones con una natalidad estable. Una manera de hacer ajustes es asignar las muertes infantiles al año civil en el que nacieron los niños antes de calcular la tasa. que son semejantes a las que caracterizan a la tasa de mortalidad materna. esto no constituye un problema serio. Tasa de mortalidad infantil. en la mayoría de los casos la transferencia de muertes maternas se balanceara en un determinado año. Sin embargo. se tiene una tasa demasiado pequeña. en algunos países. Estos casos hacen que el denominador sea demasiado grande. mas conveniente utilizar k = 100000. Muchos de los infantiles que mueren durante un año dado nacieron el año anterior. Óscar Flores Pérez Bioestadística Donde k toma el valor de 1000 o 100000. y en consecuencia. a. Número de muertes de niños menores de 1 año durante un año * k Número total de nacimientos vivos durante 1 año. Esto conduce a una tasa inflada. ya que una madre puede morir de causa puerperal sin producir un nacimiento vivo. k = 1000 conduce a una tasa mas conveniente. Donde k se toma generalmente como 1000. d) La muerte de la madre puede ocurrir en un año posterior al cual ocurrió el nacimiento. Aunque hay excepciones. 148 .Elaborado por: Ing. Entre los aspectos que limitan la tasa de mortalidad materna se incluyen las siguientes: a) las muertes fetales no se incluyen en el denominador. es imposible determinar este denominador. muchos niños nacido vivos en un año dado morirán el siguiente año. Tasa de mortalidad neonatal. El denominador preferido para la tasa es el número de mujeres embarazadas durante el año. lo cual conduce a un denominador demasiado pequeño y hace que la tasa sea demasiado grande. Sin embargo. De la misma forma.

Hay variaciones entre las diferentes regiones que informan con respecto a la duración de la gestación. Donde k.Elaborado por: Ing. se ha sugerido que se combinen ambas para obtener lo que se conoce como tasa de mortalidad perinatal. Una objeción a esta sugerencia se apoya e lo incompleto de los datos acerca de las muertes fetales. La muerte fetal se define como un producto de la concepción que no muestra signo de vida al concluir el nacimiento. Debido a que las muertes fetales que ocurren al final del embarazo y las muertes neonatales con frecuencia tienen las mismas causas fundamentales. Razón de mortalidad fetal. que otras tienen un periodo de gestación mínimo que debe alcanzarse antes de que se requiera hacer el informe. Tasa de mortalidad perinatal. La razón que se considera a continuación se propuesto para superar las objeciones c. d. Tasa de mortalidad fetal. toma por lo general. en tanto. Donde k = 1000 b. Óscar Flores Pérez Bioestadística Número de muertes de niños de 28 días de edad durante un año* k Número total de nacimientos de niños vivos durante el año. Número total de muertes fetales durante un año k Número total de alumbramiento durante el año. Algunos expertos sugieren que en el denominador se incluyan tanto el número de muertes fetales como los nacimientos de niños vivos en un intento por incluir toda preñez en el cálculo de la razón. (Número de muertes fetales de 28 semanas o más) + (Número de muertes infantiles de menos de 1 semana) (Número de muertes fetales de 28 semanas o más) + Número de nacimientos de niños vivos) 149 . Algunas regiones que dan a conocer todas las muertes fetales sin importar la duración de la gestación. Otra objeción a la tasa de mortalidad fetal es que no toma en cuenta el grado al cual una comunidad pretende reproducirse. el valor de 1000. Número total de muertes fetales durante un año *k Número total de nacimientos de niños vivos durante el año Donde k se toma como 100 o 1000. Existen varios problemas asociados con el uso e interpretación de esta tasa.

150 . Medidas de fertilidad. Donde k = 1000. Número de muertes de personas de 50 años de edad y mayores * k Número total de muertes. como accidentes. La clase especificada es por lo general. por ejemplo. Donde k = 100. bebes y niños. e. un grupo de edades. fenómeno para el cual se utiliza el término fecundidad. Este índice se utiliza para estimar la importancia relativa de una causa determinada de defunción. Fertilidad se refiere al acto real de dar a luz. Conocer la tasa de alumbramientos en una comunidad es importante para quienes se dedican a la salud publica. Es la medida de fertilidad que se utiliza más ampliamente. ya que de esa forma pueden planificar los servicios e instalaciones par las madres. Razón de mortalidad proporcional. Razón de causa de defunción. Una razón de causa de defunción mayor en una comunidad que en otra puede deberse a que la primera comunidad tiene una baja mortalidad debida a otras causas. Donde k = 100. Numero de muertes debida a una enfermedad especifica durante un año *k Numero total de muertes debidas a todas las causas durante un año. contrario a la capacidad de concebir. Tasa bruta de natalidad. o bien una categoría de causas de muerte. 50 años y mas. Debe utilizarse con precaución al comparar una comunidad con otra. Número total de nacimiento de niños vivos durante un año * k Población total a julio 1. Se ha sugerido este índice como una medida única para compara las condicione sanitarias globales de diferentes comunidades.Elaborado por: Ing. Óscar Flores Pérez Bioestadística Donde k = 1000. f.

cuando se compara con a tasa bruta de natalidad. especifica por edades. Óscar Flores Pérez Bioestadística 7. están expuestas al riesgo de dar a luz a un niño. Número de nacimientos en mujeres de una edad dad durante un año *k Número total de mujeres de la edad específica Donde k = 1000. resulta conveniente una tasa que permita el análisis de las tasa de fertilidad para intervalos de edad materna mas cortos.Elaborado por: Ing.1 Tasa general de fertilidad. Pueden calcularse también las tasas específicas de fertilidad para otros subgrupos de la población. 151 . de 15 a 49. como los definidos por grupo racial. La tasa especificas por edades. Donde k = 1000 y. Número de nacimiento de niños vivos durante un año * k Número total de mujeres en edad fértil. Pueden calcularse para una solo edad o para cualquier intervalo de edades. la edad fértil se define como las edades entre 15 y 44 años. nivel socio económico y diversas características demográficas. Dado que la tasa de alumbramientos no es uniforme en toda la edad fértil.7. Las que se calculan con más frecuencia son las tasas para grupos de edades de cinco años. en realidad. es el hecho de que el denominador es una aproximación de número de personas que. La característica de interés de esa tasa. por lo general. Tasa de fertilidad. o bien.

5 27.= (95584/4608700)*1000 = 21 2) Tasa general de fertilidad = (95584/1135900)*1000 = 84.1 3) Tasa de mortalidad a edad especifica = entrada en la columna 3 entre las entradas de la columna 2 multiplicadas por 1000 para cada grupo.0)(5) + (176.Tabla 13.0 5 6 Población Nacimientos estándar en base esperados la población de EEUU.5 Calculo de las seis tasas básicas: 1) tasa bruta de nacimientos = total de nacimientos entre la población total.9 130.0 2362.6)(5) +(4. 495. El resultado aparece en la columna 4.1)(5) +(66.5)(5) +(27.6 4. 1970 c 193 762 19 182 173 583 30 707 140 764 18 313 119 804 7 967 116 925 3 227 255 162 1 021 1 000 000 80 417 7 Tasa acumulada de fertilidad.9)(5) + (130. 4) Tasa total de fertilidad = la suma de cada tasa de edad especifica por edades multiplicada por el ancho del intervalo de la edad = (99.0 176.5 2030.5 2540. Procedimientos para calcular seis medidas básicas de fertilidad.0 1379.5 5) Tasa de fertilidad acumulada = tasa de natalidad especifica por edades multiplicada por el ancho del intervalo de edades acumuladas por edades ver la columna 7. 6) Tasa general estandarizada de fertilidad = (80 417/1000000)(1000) = 80.4 .5 2500.0)(10) = 2540. 1 Edad de la mujer (años) 15 a 19 20 a 24 25 a 29 30 a 34 35 a 39 40 a 49 2 Numero de mujeres en la población a 220 100 209 500 170 100 139 100 135 400 261 700 1 135 900 3 Numero de nacimientos para las mujeres de edad especifica a 21 790 37 051 22 135 9 246 3 739 1 044 95 005 4 Tasa de natalidad especifica por edades para cada 1000 mujeres 99.1 66.

153 . Si se suman las tasas específicas de fertilidad por edades par todas las edades. nuevos o viejos. Esta tasa es esencialmente útil en el estudio de las enfermedades crónicas. Número total de casos. Medidas de morbilidad.Elaborado por: Ing. es útil para determinar la necesidad de medidas preventivas. Se calcula de la misma forma que la tasa total de fertilidad. Como regla general los datos para el estudio de la morbilidad de una comunidad no son tan completos ni se encuentran con tanta facilidad como los que se refieren a la natalidad y mortalidad.7. Óscar Flores Pérez Bioestadística Tasa de fertilidad total. debido a los incompletos de los informes y a las diferencias entre los estados e relación con las leyes que requiere el informe de las enfermedades. El procedimiento es idéntico al que se analizo en el anteriormente en el ejemplo de tasa de mortalidad ajustada o estandarizada. que existen en un instante *k Población total en ese instante. Esta tasa que mide el grado con el cual ocurren nuevos casos en la comunidad. Donde el valor de k se elige mediante los mismos criterios que para la tasa de incidencia. El valor resultante es una estimación del número de niños que tendría un grupo de 1000 mujeres. y se multiplican por el intervalo en el cual se agruparon estas ultimas. si durante sus años fértiles. Tasa acumulada de fertilidad. pero puede calcularse también para las enfermedades agudas. pero puede utilizarse 100 para las enfermedades más comunes. 7. y 10000 o 100000 para aquellas que son menos comunes o más raras. Tasa estandarizada de fertilidad.3 Tasa de prevalencia. Número total de nuevos casos de una enfermedad especifica durante un año *k Población total a julio 1 Donde el valor de k depende de la magnitud del numerador utiliza una base de 1000 cuando resulta conveniente.7. el resultado se conoce como fertilidad total. se reprodujera según las tasas representadas por las tasas de edades específicas de fertilidad de la que se calcula la tasa total de fertilidad. Estudio de una comunidad con respecto a la enfermedad. Es una medida muy importante tanto para las enfermedades crónicas como para agudas. excepto que el proceso de sumar puede terminarse al final de cualquier grupo de edades deseado.2 Tasa de incidencia. 7.

Número de nacimientos de niños vivos Con un peso inferior a los 2500 gramos durante un año *k Número total de nacimientos de niños vivos durante un año Donde k = 100. Daniel. Donde k = 100. d) tasa de mortalidad infantil. 770. Es útil para determinar que tanto éxito esta teniendo un programa de tratamiento para cierta enfermedad. Óscar Flores Pérez Bioestadística Razón de muertes – casos. 771. Wayne W. depende de la naturaleza de la enfermedad y puede abarcar varios años para una enfermedad endémica. El periodo abarcado es arbitrario. 1. f) razón de mortalidad fetal y g) razones de causa de defunción por neoplasmas malignos y enfermedad isquémica del corazón. Se obtuvieron los siguientes datos anuales de cierta región geográfica.7. Donde k = 100. Esta mide la ocurrencia de una enfermedad contagiosa entre personas susceptibles que se han expuesto a un caso primario. Numero de casos adicionales entre personas expuestas A un caso primario dentro del periodo máximo de incubación. Ejercicios. 774 y 775 del libro de Bioestadística. Tasa de ataque secundario. calcular las siguientes tasa y razones: a) tasa bruta de mortalidad. b) tasas especificas de mortalidad por grupos raciales para blancos y no blancos.Elaborado por: Ing. 7. A partir de esos datos. donde puede suponerse razonablemente que. c) tasa de mortalidad materna. Esta tasa se utiliza para estimar la propagación de la infección y se aplica por lo general a grupos cerrados como casa habitación o salones de clase. revela la gravedad de la enfermedad. 154 . Es importante observar que esta razón puede interpretarse como la probabilidad de morir al contraer la enfermedad en cuestión y. Número total de muertes debidas a una enfermedad *k Número total de casos debidos a la enfermedad. Resolver los ejercicios de la Pág. e) tasa de mortalidad neonatal. *k Número total de personas susceptibles. de hecho. como tal.4 Razón de inmadurez. todos los miembros estuvieron expuestos.

La siguiente tabla muestra las muertes y la población estimada por edades en el estado de Georgia en 1971. Muertes. Nacimientos inmaduros Muertes fetales: Total Con menos de 20 semanas de gestación. Menos de un año. Neoplasmas malignos Corazón isquémico Respuestas. en 1971. Edad (años) Población estimada 0a4 423700 5 a 14 947900 15 a 24 891300 25 a 34 623700 35 a 44 520000 45 a 54 494200 55 a 64 388600 65 a 74 243000 75 y mas 136000 Total 4668400 excluidas 42 muertes de edad desconocida. Muertes 2311 480 1390 1307 2137 4640 7429 9389 12411 41494a a 155 .Elaborado por: Ing. Óscar Flores Pérez Bioestadística Total 597500 12437 1243 592 355 103 123 11 11 267 210 16 2 948 1697 Número blancos No blancos 361700 235800 6400 6037 440 803 365 227 269 86 42 61 49 74 5 6 3636 2583 97 170 79 131 12 4 2 626 1138 322 559 Población estimada al 1º. Menos de 28 días. Muertes por inmadurez Muertes de madres. De 20 a 27 semanas de gestación. Causas de muertes. Utilizar estos datos para calcular la tasa de mortalidad ajustada por edades para Georgia. Total en todas las edades. De julio Total de nacimientos vivos. Utilizar la misma población estándar que se utiliza en el ejemplo del cuadro 12. 2.

b) La tasa general de natalidad. b) Tasa total de fertilidad.Elaborado por: Ing. para el año de 1971. la población total estimada a julio 1º de 1971 fue de 4 668 400 y el numero de mujeres entre las edades de 15 a 49 años fue de 1 161 400. Respuestas. A partir de los datos anteriores. Óscar Flores Pérez Bioestadística 3. 15 a 19 225 200 21 834 20 a 24 217 600 35 997 25 a 29 173 400 21 670 30 a 34 143 300 8 935 35 a 39 134 100 3 464 40 a 49 267 800 625 a a Puede incluir algunos nacimientos en mujeres de mas de 49 años de edad. calcular las siguientes tasas: a) tasas de fertilidad especificas por edades para cada grupo de edades. c) Tasa acumulada de fertilidad para cada grupo de edades. Utilice la población estándar de la tabla 13. ¡Si la estadística no se practica y se estudia se termina olvidando! 156 . Recomendación final. utilizar estos datos para calcular: a) La tasa bruta de natalidad. Hubo un total de 95 546 nacimientos de niños vivos en Georgia en 1971. Los datos de la tabla pertenecen al estado de Georgia. Edad de la mujer Numero de Numero de nacimientos (años) mujeres en la en mujeres según la edad población especifica. 4. d) Tasa general estandarizada de fertilidad por edades.

Mexico. Wendy Townsend. 7. 3. Edt. McGraw – Hill.R. 2001. 6. Bibliografía consultada 1. Estadística Elemental. Uraccan las minas. Probabilidad y estadistica para ingenieria. Wayne W. Lilian Painter. Óscar Flores Pérez Bioestadística VIII. 20002. Métodos de investigación. Bioestadística. Edit. Montgomery.es 157 . 878 p. 175 p. Ed. 1999. México. Runger.. Heredia C. 1999. www. Antonio. Herramientas y manejo para el diseño y manejo de los recursos naturales y biodiversidad. Reimpresión de la 3ª. métodos estadísticos para las ciencias biológicas. Edgar. McGraw – Hill. Hildebrand y Elena P. Montgomery y George C. Ed. Ed. 2000. 2. Introducción a la medición de la biodiversidad. Mijail. Douglas C. Pearson Educación. 2ª. Daniel. Mexico. 8. Pérez Antonio. Edición. México. 12. 7ª. Mario f. Edit.uma. Salkind J. 30 p.aulafacil. Damián Rumiz. 8ª. Betty Flores. Peter E. México. 1ª. Bastidas. www. Edit. 2001. Gutiérrez Espeleta. Triola. PRINTICE HALL. Bolivia 5. 21cm 4. McGraw – Hill. Edic. Daniel Guinart Robert Wallace. 10. Douglas C.Elaborado por: Ing. Probabilidad y estadistica aplicadas a la ingenieria. curso practico de estadistica. 1999. 2001. 11. edit.com 13. 2000. 9. 3ª.. Lincoyan Portus G. 2002. Mexico. TECNICAS DE INVESTIGACION PARA EL MANEJO DE FAUNA SILVESTRE. Análisis de adaptabilidad: Pasos a seguir para el análisis e interpretacion de datos de investigacion y extension a nivel de finca.: EUNA.. Base para el análisis de las ciencias de la salud.

.6.....) ..........6..................................................6 Coeficiente de correlación lineal de Pearson ...... Óscar Flores Pérez INDICE GENERAL Bioestadística INTRODUCCIÓN A LA BIOESTADÍSTICA...........................................5............................................2 Diagrama de dispersión o nube de puntos......... .............7............ ...... 51 2......... 38 2...........................................................................................................2 Muestreo sistemático .......7.........................5 Como reconocer la relación directa e inversa........... 68 3......... 58 2...........7.......4 Técnicas de muestreo ....... Probabilidades...............................1 Distribución de frecuencias......... 62 2........... 17 1..... 51 2.................... 54 2.....................................1 Conceptos básicos.. 6 1...................................................7.......................1 Coeficiente de variación ......................2 Definición de probabilidad y prob........4 Muestreo por grupos o conglomerados .............. 33 2........ 14 1.....................6............. 57 2................................. 21 II............................3 Muestreo estratificado ...... 43 2............ 52 2............................................................6........................................... . 84 4.........................1 Modelo de regresión lineal simple.. .....................................................6 Modelos de análisis de regresión.................................3 Interpretación de la variabilidad en Y ..............................................................6.. ............ ................................. 67 3.......3 Sistema exhaustivo y excluyente de sucesos......................................... ......................6 Pruebas diagnosticas.......... 158 .. 25 2................ ........ ...................................... 72 3................ ...........6.....2 Estadísticos de posición.... ...........................................................1 Distribución de Bernoulli............................. 67 3.3 Relación entre las variables .. 50 2.................. ....7 Regresión lineal...... Principales leyes de distribución de variables aleatorias........................... 49 2.......... 54 2... ........................ 73 IV............................ 25 2..............6........................................5 Teorema de Bayes......s.... 16 1...... 13 1...... ..................................... 15 1......... Condicionada ........2 ¿Cómo medir la bondad de una regresión? ..................................................5 Fuentes de sesgo (parcialidad)...................6......... 70 3.....................................2 Pasos en un estudio estadístico ............................................................................. 48 2..........Elaborado por: Ing......5 Bondad de un ajuste ...................................................................... .................................... ..........8 Otros coeficientes de correlación ........................ 31 2.6 Técnicas de respuesta aleatorizada.....................................4 Interpretación del residuo .. ...... 70 3........... 66 III...............................5 Variabilidad o dispersión ........... 84 I.........a.6.........1 Muestreo aleatorio simple (m............................... 18 1................4 Predicción de una variable en función de la otra............................................6............................ 15 1........... Organización de datos y medidas descriptivas.............................3 Representaciones graficas......6.............. 46 2.............1 Nociones de probabilidad..........3 Muestreo............1 Coeficiente de correlación......................................... 61 2...............4 Centralización ..............................................................................7.................................... .................... 5 1................................. 59 2................ 62 2...............................................6...........6 Relaciones entre variables y regresión ....................................7... 4 1.......................... ....4 Teorema de la probabilidad total...... 63 2.......................................7 Propiedades de r.................

.................... 111 6......4 Distribución de Poisson..................................... 100 V.................................................................................................................................................2... ..................................................... 95 4....... Tasa de mortalidad perinatal................................................ ............. Estimación confidencial..6 Tipificación ..............1 Tasa general de fertilidad................................................... 150 f.....................................................5 Distribución normal o de Gauss ..... 149 e.............................................4 F de Snedecor . 151 7. ............................................................................................ 129 6....................................................................................................2..............................1 Estimación puntual y por intervalos... 124 6......................5 Análisis de Frecuencias ................ 101 5.............................................................. 98 4..........................................................................................7..... 87 4................7............... .... Estadísticas vitales. 124 6........... 130 6.................. 96 4..............2 Distribución binomial..................................... Razón de mortalidad fetal....... Medidas de fertilidad.................3 Prueba F de Similitud de Varianzas . 91 4..................................... 148 b.............................. ..3 Pruebas No Paramétricas .............. ..............7 Teorema central del límite.............. Tasa de mortalidad fetal............. Óscar Flores Pérez Bioestadística 4...7.......................................... 129 6....... ............... Bibliografía consultada ......6 Análisis de varianza......................... 150 7................................4 Razón de inmadurez.............4 ¿Son nuestros datos normales? ... 89 4............................................................................................................... Tasa de mortalidad infantil.................. 103 Prueba U de Mann – Whitney ....................2 Pruebas Paramétricas y No Paramétricas ............. 123 6............................................. 119 6...2 Chi cuadrado.........................3 T de student ....................................................................................... 154 VIII........... .7...........................................Elaborado por: Ing......................... Contrastes de hipótesis. 153 7.... 149 d............2 Tasa de incidencia..........7............................................................ 145 a...................................................... ........................ 149 c.....7.........................3 Función de probabilidad ................ 104 VI.......... 157 159 ... ...3 Tasa de prevalencia....................... ..................2................................... .................................. 144 7.......................... 96 4............. 123 6.....................................................1 Distribuciones asociadas a la normal..........................1 Como escoger entre una prueba paramétrica y no paramétrica .............................7......... .............. Razón de causa de defunción.......................7.......... 87 4....................................... .................1 Tasas y razones de mortalidad..................... ............... 86 4........................... .................................. ...... 153 7..................................2 Pruebas Paramétricas ................................................................ 136 VII.............1 Hipótesis......

89552 58.26214 6.00098 0.995 0.66428 22.33666 24.78672 14.07563 39.37776 9.99146 7.98534 46.68987 2.40866 34.68479 24.84535 30.58711 28.21034 11.51258 50.14124 30.19451 44.46079 45.80625 20.48318 21.96600 53.05 3.71847 37.07172 0.33588 22.28988 49.27670 15.25139 7.34441 1.99587 20.12006 59.28891 19.99685 41.23636 10.48044 50.99993 33.81189 18.01003 0.025 5.35185 0.40115 13.11701 10.96165 8.84391 14.87944 10.995 0.73493 2.40106 42.08627 16.66797 56.56419 8.73264 3.09051 13.55851 46.23189 49.55697 43.80506 52.11972 13.005 7.47531 20.975 0.69722 6.95 0.30713 23.39988 48.26719 35.56317 36.19182 17.58118 62.00004 0.29952 29.56623 38.94851 54.20699 0.56057 61.05879 47.41198 29.89186 6.95 0.64492 50.72497 26.70654 21.74518 44.42174 42.33600 160 .72508 51.16735 2.14405 0.01704 13.59663 12.01 6.99579 26.04666 19.88390 25.63840 42.85081 11.23734 1.48839 28.36408 40.75685 28.07382 3.80185 50.19087 37.17973 2.80531 36.21697 27.56938 21.06091 57.65977 51.16024 11.18141 65.60517 6.77944 9.38159 35.27824 49.64845 58.39046 10.43384 8.49266 19.88673 18.10563 22.72229 46.34207 58.36203 23.67573 0.41174 0.13846 0.19139 53.90316 46.70554 4.44938 16.48577 54.14329 12.37916 16.87848 23.79077 17.31410 45.40379 5. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 0.00270 56.57481 5.27477 61.11327 41.53455 19.80132 34.94030 4.41043 32.98718 17.90652 9.025 0.41503 37.92005 23.68825 29.59078 10.94239 58.27774 21.20335 54.84146 5.97924 48.20624 0.54183 24.27501 18.43304 25.32811 57.69539 26.42078 22.81193 21.30786 16.29076 19.96294 48.63490 9.74960 18.43729 55.83816 14.95007 66.05064 0.00875 5.97982 44.48773 11.Elaborado por: Ing.91592 39.07050 12.13403 15.92788 17.18128 45.81328 32.07467 4.61921 59.88514 40.98232 11.98926 1.64647 41.36341 49.86930 30.28290 10.57063 7.84397 7.19232 53.14221 5.32511 3.69074 64.81473 9.77297 44.26042 9.15645 38.61509 30.77554 56.05273 69.45777 15.21452 25.9 0.68855 12.53874 18.52638 32.10259 0.04707 16.77676 0.46502 23.15140 16.92317 43.00393 0.81947 31.51965 11.60322 3.33562 53.34840 11.57338 15.25602 41.1 2.79565 44.57791 31.85233 34.59159 14.31935 32.11895 27.83250 14.65432 24.99846 52.64464 12.21217 48.34487 13.975 0.84843 14.20357 28.22603 5.48442 0.67176 9.26861 24.33714 42.61141 15.24697 3.68366 15.99 0.95495 23.58788 50.78071 38.21580 0.42812 63.50731 16.70837 18.28057 20.14548 1.07191 20.75848 56.58581 19.06414 22.02607 22.005 0.83121 1.64272 9.89250 61.99866 0.93217 40.96393 60.66599 23.81527 16.26480 6.67514 21.92444 35.19426 47.08747 40.20925 24.50930 27.54758 20.86026 16.73560 26.99338 52.47888 36.12404 0.47557 66.58935 25.02277 20.71072 1.58475 43.67196 55.38354 54.65248 38.07494 24.16209 62.14353 31.74122 37.60237 49.03365 8.17246 36.34171 60.59131 12.88623 10.16961 35.70039 3.23075 8.58226 39.12115 13.46134 13. Óscar Flores Pérez Bioestadística ANEXOS Percentiles de la distribución ji-cuadrada.54935 19.81575 4.18818 26.32555 28.60092 5.26094 7.64168 46.63538 2.57223 55.28936 41.76904 25.29623 27.00690 33.09020 0.67057 33.91898 18.19101 31.56503 4.30704 19.02389 7.98942 27.62873 6.06714 15.76596 68.15586 2.36157 14.01276 17.19624 34.80759 12.89218 52.09024 21.88334 64.33801 13.05 0.90766 7.86653 21.92789 48.50127 17.

882 553.724 59.50530 58.93031 34. 161 .003 914.61226 31.80045 241.514 1118.098 439.4433 73.948 Tabla construida por: Flores.41016 66.Elaborado por: Ing.303 653.7041 76.969 70.346 585.75451 31.161 422.8067 193.22241 71.43900 32.22193 117.61590 71.48089 61.95683 71. Óscar Flores Pérez 43 44 45 46 47 48 49 50 100 150 200 250 500 750 1000 22.04133 25.99075 67.78748 30.24935 27.70951 69.56120 185.6826 74.531 67.36615 29.31101 25.689 563.03754 63.50481 124.20146 65.00111 65.785 1089.207 853.452 927.98452 162.43654 75.58369 24.17077 66.42020 129.930 800.241 196.51059 27.264 311.82962 64.20140 72.90661 62.65623 62.57457 28.49800 172.89255 73.3602 255.9195 76.043 1057.392 449.85947 23.994 287.58121 226.2307 79.257 28.936 676.029 1106.127 814.61653 67. O.1539 135.26762 33.36854 57.95620 30.09808 33.728 208.021 279.852 827.2077 249.30351 60.45935 68.493 843.23019 56.050 540.16606 74.9688 78.34211 179.4900 140.77456 26.32756 109.822 1074.76425 77.997 888.58063 233.35736 74.02259 70.594 55.78537 27.69178 168.679 Bioestadística 62.940 576.92947 122.14225 152.564 26.82065 69.96472 29.16712 118.058 295.55492 32.99036 64.147 687. 2006.77429 60.279 214.64054 59.16005 29.1695 198.445 304.33865 67.

33713813 42.59158724 14.58711164 28.65248413 38.8794741 113.5662348 38.17246163 36.3421137 Bioestadística 0.3794189 100.487729037 11.4753069 20.425184 112.5878845 50.50731306 16.Elaborado por: Ing.9321727 40.8118938 18.0862725 16.30703805 19.7249703 26.2169673 27.92443852 35.21034037 11.07049775 12.63489671 9.99579013 26.05 3.6383981 42.3620325 23.4150285 37.814727764 9.090235 21.6882496 29.2893604 41.67513757 21.9629421 48.5779142 31.3141049 45.1412377 30.4086636 34.1538912 88.806723 162 .11327205 41.02606982 22.91897762 18.8921814 63.6416827 46.9798201 44.841459149 5.29622761 27.991464547 7.3448667 13.2782358 49.08194439 90.14352721 31.41043286 32.68479131 24.2092512 24.116319 135.6659943 23.75847932 67.50480652 79.88513865 40.86929943 30.06714043 15.67057337 33.6907397 76.2767041 15.77297178 55.1452703 124.53122518 101. Óscar Flores Pérez Valores críticos de la distribución χ2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 50 60 70 80 90 100 0.8053057 36.55696777 43.1908691 37.9999269 33.328793 124.01 6.

(Para Variables Cualitativas en Escala Ordinal). (X2 Ho: X e Y son independientes) (Para Variables Cualitativas-Dicotómicas). Coeficiente de correlación y naturaleza de las variables. 5) La prueba del coeficiente Eta.(similar a “R”. y la V de Cramer. 2) La prueba delCoeficiente de Contingencia.(similar a “R”. lo cual es un indicador de que las variables son independientes entre si 163 . 3) La prueba de Gamma. significa ausencia de correlación entre las variables.(X2) (Para Variables Cualitativas en Escala Nominal). 6) Los Coeficientes de Correlación de Pearson y Spearman. Ho: R = 0). Ho: R = 0.(similar a “R”. (Para Variables Cuantitativas en Escala de Intervalo o Razón). Ho: R = 0). 4) La prueba de Tau-c de Kendall. (Para Variables Cuantitativas en Escala de Intervalo o Razón). (Para Variables Cualitativas en Escala Ordinal). Óscar Flores Pérez Bioestadística Resumen de las utilidades de los principales estadísticas o pruebas estadísticas. coeficiente Pearson (r) Kendall (τ) Biserial (r bis) Biserial puntual (r pbis) Tetracórica Coeficiente fi (ϕ) Coeficiente eta (η) Variable 1 continua Ordinal dicotomizada Dicotomica Dicotomizada Dicotómica Continua Variable 2 Continua Ordinal continua Continua Dicotomizada Dicotómica continua Tablas de Contingencia y Medidas de Asociación 1) La prueba de Phi. Ho: R = 0).Elaborado por: Ing.

¿Qué es el sesgo de una muestra? a) Datos falsificados a consecuencia de malas conductas b) Errores sistemáticos que influyen en la representatividad de la muestra. Existen diversos tipos de ensayos clínicos en función del tipo de conclusiones a qué deseen llegar: estudios confirmatorios y exploratorios. ¿Cuál es la característica que la distingue del resto de variables respuesta? a) Es una variable explicativa categórica b) Es un factor de riesgo conocido c) Las posibles evidencias clínicas se basan en su análisis d) Es una variable continua e) Es una de las variables relacionadas con el objetivo general del estudio 3. Óscar Flores Pérez Bioestadística CUESTIONARIO DE AUTO EVALUACIÓN DISEÑO DE ESTUDIOS 1. En un estudio donde se desea medir el efecto de oír música clásica en la productividad de los trabajadores. c) Un sinónimo de variabilidad d) Una característica intrínseca de la población de estudio e) Ninguna de las anteriores 164 . Normalmente. Sin embargo hay una característica común en todos ellos: a) Criterios de inclusión de pacientes muy suaves b) Especifican los objetivos a priori c) Son estudios totalmente controlados d) Incluyen pocas variables e) Pretenden demostrar equivalencia entre 2 o más tratamientos 2. La variable respuesta también recibe el nombre de variable dependiente. sólo una de las variables respuesta del estudio recibe el nombre de variable respuesta principal.Elaborado por: Ing. la variable dependiente es: a) El número de trabajadores b) Oir música clásica / No oir música clásica c) La productividad d) El volumen de la música e) No hay variable dependiente porque es un estudio sin control del sesgo 4.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

5.

Qué es un ensayo controlado?

a) Un estudio donde se miden controladamente las variables respuesta b) Un estudio prospectivo c) Un estudio retrospectivo d) Un estudio donde se compara un grupo experimental con un grupo de referencia e) Un estudio en que los animales son asignados de forma aleatoria a los posibles grupos de la variable explicativa principal. 6. En el diseño de un estudio experimental controlado es posible llevar a cabo actuaciones para evitar posibles sesgos en los resultados. Las dos medidas principales de precaución son: a) Enmascaramiento de tratamientos y asignación aleatoria de los animales a los grupos b) Enmascaramiento de tratamientos y estandarización de variables c) Enmascaramiento de tratamientos y eliminación del análisis de los animales que incumplen el protocolo d) Validación de los datos y eliminación del análisis de los animales que incumplen el protocolo e) Validación de los datos y estandarización de las variables 7. La relación entre la variable respuesta y la variable explicativa principal (grupos de tratamiento) puede ser causal o predictiva. ¿En qué situación podemos decir que la relación entre variables explicativas y respuesta es de causalidad? a) En todos los estudios exploratorios b) Cuando la relación es predictiva c) Cuando el estudio es enmascarado y las variables han sido estandarizadas d) Cuando los p-valores de los coeficientes del modelo son significativos e) Cuando la muestra ha sido aleatorizada y los grupos son balanceados en función de los factores de riesgo 8. Qué tipo de estudios ofrecen mayor validez en los resultados obtenidos?

a) Los estudios observacionales b) Los estudios caso-control c) Los estudios de cohortes d) Los ensayos controlados con asignación aleatoria e) Los ensayos exploratorios

165

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

9.

El cálculo de tamaño de muestra permite determinar...:

a) el número de variables a recoger b) el número de tablas de resultados c) el número máximo de unidades experimentales d) el número óptimo de unidades experimentales e) el número mínimo de unidades experimentales 10. Qué diferencias hay entre las poblaciones de análisis PP y ITT? a) los animales que incumplen el protocolo no forman parte de la población ITT b) la población de animales PP es más amplia que la población ITT c) la población de animales PP conduce a la evaluación del objetivo en la práctica real. d) la población de análisis ITT permite evaluar el objetivo desde un punto de vista teórico e) ninguna de las anteriores es cierta ESTADÍSTICA BÁSICA 1. Una vez la base de datos ha sido validada y cerrada, se procede con el resumen descriptivo de los datos. El objetivo principal del resumen descriptivo es... a) medir efectos y obtener indicios de posibles relaciones entre variables b) detectar inconsistencias entre variables c) obtener conclusiones sobre la relación entre variables d) obtener algunas representaciones gráficas de la relación entre variables e) validar la base de datos 2. Antes de proceder con el análisis estadístico de los datos, es necesario comprobar la existencia o no de asociación entre las variables explicativas del estudio (homogeneidad basal). Su importancia reside en el hecho que la asociación entre variables... a) incrementa la significación de algunos resultados estadísticos b) posibilita predicciones de la respuesta con mayor fiabilidad c) garantiza la homogeneidad basal entre tratamientos d) influye en el valor interpretativo del modelo estadístico e) reduce el número de variables en el modelo

166

Elaborado por: Ing. Óscar Flores Pérez 3.

Bioestadística

¿Qué índices descriptivos son adecuados para variables cualitativas?

a) Media y Desviación típica b) Gráfico de Dispersión c) Frecuencias relativas y absolutas d) Frecuencias brutas e) Número total de casos 4. Un intervalo de confianza del 95% bilateral para una media será...

a) idéntico al intervalo del 95% unilateral b) el doble que un intervalo del 95% unilateral c) la mitad que un intervalo del 95% unilateral d) más estrecho que un intervalo del 99% bilateral e) más estrecho que un intervalo del 90% bilateral 5. ¿Qué índices o pruebas son más adecuados para medir el grado de asociación entre dos variables cualitativas? a) Correlación de Spearman y correlación de Pearson b) Prueba T-Student y correlación de Pearson c) Prueba Chi-Cuadrado d) Prueba T-Student y prueba Chi-Cuadrado e) Prueba T-Student y prueba U de Mann-Whitney 6. ¿Qué índices o pruebas son más adecuados para medir el grado de asociación entre una variable cuantitativa y otra variable cualitativa? a) Correlación de Spearman y correlación de Pearson b) Prueba T-Student y correlación de Pearson c) Prueba Chi-Cuadrado d) Prueba T-Student y prueba Chi-Cuadrado e) Prueba T-Student y prueba U de Mann-Whitney 7. ¿Qué índices o pruebas son más adecuados para medir el grado de asociación entre dos variables cuantitativas? a) Correlación de Spearman y correlación de Pearson b) Prueba T-Student y correlación de Pearson c) Prueba Chi-Cuadrado d) Prueba T-Student y prueba Chi-Cuadrado e) Prueba T-Student y prueba U de Mann-Whitney

167

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

8. La probabilidad de rechazar la hipótesis nula cuando efectivamente es falsa se llama: a) Alfa b) Beta c) Potencia d) Casualidad e) Probabilidad nula 9. En una prueba de hipótesis, si no se rechaza la hipótesis nula, ¿qué tipo de error puede haberse cometido? a) Error de tipo I b) Error de tipo II c) Error de tipo III d) Error probabilística e) No es un error ya que el objetivo de la prueba es aceptar la hipótesis nula 10. Cuando el p-valor de una prueba estadística es inferior al nivel de significación fijado por el investigador...: a) se rechaza la hipótesis nula b) se rechaza la hipótesis alternativa c) se rechaza que la muestra sea representativa d) se rechaza el error de tipo I e) se acepta la hipótesis nula Respuestas DISEÑO DE ESTUDIOS 1) b 2) c 3) c 4) b 5) d 6) a 7) e 8) d 9) d 10) e

ESTADÍSTICA BÁSICA 1) a 2) d 3) c 4) d 5) c 6) e 7) a 8) c 9) b 10) a

CONCLUSIÓN: Si el número de aciertos de los dos tests es: • Entre 0 y 5 aciertos: Tienes un nivel de Estadística muy bajo. • Entre 5 y 10 aciertos: El curso que te interesa realizar es el de Estadística Básica. • Más de 10 aciertos: Puede que el curso que te interese realizar es el de Modelización Estadística Básica (SPSS avanzado).

168

La proporción. Preg. 3. 4. Todo lo anterior se corresponde con la mediana. 1. Una variable cualitativa. En una muestra de pacientes. ¿Cuál de las siguientes características no se corresponde con el concepto de mediana? a b c d e Es el centro de gravedad de la distribución. el número de varones dividido entre el total de pacientes es: a b c d e Una frecuencia relativa. La media. Dos variables cuantitativas en una población. Deja por debajo el mismo número de datos que por encima. Una variable cuantitativa en dos poblaciones. Una variable cuantitativa con otra cualitativa. 6 a b c d e La mediana. Los diagramas de sectores son muy útiles para comparar: a b c d e Dos variables cualitativas en una población.Ejercicios y problemas adicionales. 5. Cuál de las siguientes medidas define mejor la tendencia central de los datos: 5 . El sesgo El rango. No se ve afectada por los valores extremos. Un valor de la variable. Una variable cualitativa en dos poblaciones. Preg. Es el segundo cuartil. e La glucemia es continua. 4. Señale cuál de las siguientes afirmaciones es falsa: a La aparición o no de bacterias en un cultivo es una variable dicotómica b La estatura de un individuo es una variable cuantitativa discreta. d El estado civil es una variable cualitativa. c El lugar que ocupa una persona entre sus hermanos (de menor a mayor edad) es una variable ordinal. Una frecuencia absoluta. . 42. Preg. 4. Preg. Preg. 2. Una variable cuantitativa.

Preg. Excluyente. el número n de datos válidos es: a b c d e La suma de las frecuencias absolutas. La frecuencia relativa acumulada en la última categoría. c Las medidas de tendencia central pueden dar idea de la magnitud de los datos. Coincide con la amplitud del intervalo. Supongamos que uno de los intervalos en los que se agrupa la variable es 3 veces más grande que el resto. Exhaustivo. La estadística en Ciencias de la Salud se utiliza para obtener información sobre situaciones de carácter: a b c d e Determinista. Debe ser 3 veces menor que la frecuencia relativa del intervalo. La (a) y la (d) son ciertas. 6. para mayor precisión. Al representar la distribución de frecuencias de una variable usamos un histograma de frecuencias relativas. Se estudió a la población para obtener información sobre la muestra. 7. Elija la afirmación que pueda considerarse admisible al leer un estudio estadístico: a b Se estudió a una muestra en vez de a la población. Sobre el tipo de estadísticos utilizados para resumir o describir los datos. Óscar Flores Pérez Bioestadística Preg. Preg. 9. Aleatorio. Preg. La suma de las frecuencias relativas. En cuanto al área que dicho intervalo ocupa del histograma: a b c d e Debe ser igual a la frecuencia relativa del intervalo. indique la afirmación incorrecta: a Para variables discretas puede ser suficiente reseñar la proporción de sujetos que se incluyen en cada categoría. 10. Debe ser 3 veces mayor que la frecuencia relativa del intervalo. b En variables continuas se usan medidas de tendencia central. 8. La frecuencia absoluta acumulada de la categoría más frecuente. En el caso de una variable ordinal.Elaborado por: Ing. e En variables cualitativas podemos utilizar proporciones y medidas de tendencia central. 170 . Sistemático. d Las medidas de dispersión ayudan a interpretar entre qué márgenes se mueven los datos. Debe ser similar a la del resto de intervalos. Preg.

b Lo más informativo es mostrar las medidas de dispersión. Óscar Flores Pérez c d e Bioestadística Se estudió a una muestra representativa de la población. Diagramas integrales. uno a uno. c Las modalidades de una variable deben poder ser observadas en todos los individuos. Preg. c Las áreas para cada modalidad son proporcionales a las frecuencias acumuladas. la regla fundamental a tener en cuenta es: a Las alturas en cada modalidad son proporcionales al valor de la variable. d Las representaciones gráficas dan más información que las tablas de frecuencia. e Todo lo anterior es falso. Preg. Entre las representaciones gráficas para variables cualitativas tenemos: a b c d e Histogramas. c Se deben presentar todos los valores observados de la variable. En las representaciones gráficas de variables cualitativas. Nada de lo anterior. Se observó a un individuo de cada variable. Diagramas de cajas y bigotes. b Las variables deben ofrecer valores que no se repitan en los diferentes individuos. 13. En cuanto a la presentación ordenada del estudio de una variable aislada: a Lo más informativo es mostrar las medidas de tendencia central. Preg. e A veces no tiene sentido usar frecuencias acumuladas. de menor a mayor. d Los individuos pueden poseer diferentes modalidades de la misma variable. b Las áreas para cada modalidad son proporcionales al valor de la variable. Preg. Diagramas diferenciales. 12. d Las áreas para cada modalidad son proporcionales a las frecuencias absolutas o relativas. Elija la afirmación correcta: a Los valores de cualquier variable deben ser agrupados en intervalos.Elaborado por: Ing. Se estudiaron todas las variables de la población. 171 . e Las alturas para cada modalidad son proporcionales a las frecuencias acumuladas. 11. 14.

Una variable se calcula sobre los parámetros de una población. Preg. Una variable cualitativa. Un estadístico se calcula sobre la población. 15. Un parámetro es calculado sobre la muestra. 17. De los siguientes conceptos indique el que no tenga sentido: a b c d e Diagrama de barras para la variable "Grupo sanguíneo" Pictograma para la variable "Altura" Diagrama integral para la variable "Nivel de colesterol" Diagrama de sectores para la variable "Sexo" Histograma para la variable "Peso" Preg. Preg. c Cualquier variable observable de una población d Las variables numéricas de la muestra e Cualquier función sobre las variables observadas Preg. Óscar Flores Pérez Preg. Se llama parámetro a: a Una función de valor numérico definida sobre las características medibles de una población. 18. 16. Una frecuencia acumulada. Elija la opción correcta. 19. a b c d e Bioestadística Un parámetro es algo calculado sobre cada individuo. b Una función definida sobre los valores numéricos de una muestra. Una frecuencia absoluta. Nada de lo anterior es correcto. Si queremos representar gráficamente los porcentajes de una variable cuantitativa continua debemos usar: a b c d e Pictogramas Diagrama de barras Diagrama diferencial acumulado Histograma No existe gráfica posible 172 . El número de ellos que no es mayor de edad. es: a b c d e Una frecuencia relativa.Elaborado por: Ing. Disponemos de la distribución de edades de los individuos de una población. Una variable numérica.

Todas las anteriores son correctas. Preg. La diferencia de las varianzas. Son las diferentes situaciones posibles de un carácter. Al analizar una serie estadística de datos. son de tipo nominal. c A lo sumo puede ser igual a la media. Soluciones: Estadísticos. b La moda. 1. La media aritmética de una variable cuantitativa: a b c d e Es siempre un valor de la variable. d La desviación típica a de ser como máximo igual a la media para que la suma de cuadrados no sea negativa. Las modalidades de una variable: a b c d e Bioestadística Han de ser exhaustivas y excluyentes. Preg. e El percentil 50. excepto: a La media. Ninguna de las anteriores es correcta. No tiene sentido calcularla para variables discretas. Es el valor más representativo de una modalidad. ¿puede ocurrir que la desviación sea mayor que la media? a Teóricamente no es posible. Óscar Flores Pérez Preg. Preg. Los coeficientes de variación. 20. b Siempre ha de ser la media mayor que la desviación típica. Los rangos. Existe siempre. La diferencia de las medias. Preg. pero puede ocurrir por los errores de redondeo. Para comparar la variabilidad relativa de la tensión arterial diastólica y el nivel de colesterol en sangre de una serie de individuos. Si la variable es cualitativa. 173 . puede no ser única. utilizamos a b c d e Las desviaciones típicas.Elaborado por: Ing. 3. Si la variable es discreta. 4. Las siguientes medidas son todas de centralización. 2. c La mediana. d Rango intercuartílico. e En general no hay relación entre la varianza y la media.

d Las marcas de clase de una variable cualitativa se calculan como los puntos medios de los intervalos. a b c d e La altura tiene un valor más extremo que el peso. b La desviación típica me orienta sobre la "validez" de la media. con una desviación típica de 5 años. Entonces: a b c d e Hay más dispersión en pesos que en edades. El coeficiente de variación: a b c d Permite comparar la dispersión de dos poblaciones. c El rango me orienta sobre la simetría de la distribución. No depende de la media ni la desviación típica. Señale cual de las siguientes afirmaciones es verdadera: a La media. la mediana y el rango orientan sobre la tendencia central de los datos. Es menor que la desviación típica. d La mediana no siempre cambia cuando lo hace algún dato. Peso y altura son valores igualmente extremos. La altura tiene de media 170cm y desviación 6cm. Óscar Flores Pérez Bioestadística Preg. mediana y moda resumen todo tipo de información de los datos. En un estudio descriptivo se obtiene una que el peso tiene una media de 60 kg y una desviación típica de 20 kg. e En las distribuciones continuas simétricas todas las medidas de centralización coinciden. Preg. mientras que la media de las edades es 15 años. Peso y edad están dispersos de modo equivalente.. Para comparar ambas dispersiones debemos usar la covarianza. b En una distribución continua simétrica. 5. Señale cuál de las siguientes afirmaciones es falsa: a La media aritmética es siempre el centro de gravedad de la distribución. c La media aritmética cambia cuando cambia algún dato. Preg. media y mediana coinciden. 6. Cierto individuo tiene un peso de 70 Kg y altura 180cm. Es menor que la media. Hay más dispersión en edades que en pesos.Elaborado por: Ing. el peso tiene media 60kg y desviación típica 6Kg. 174 . 7. En una población. Preg. 9. El peso es menos extremo que la altura. 8. Preg. La altura es menos extrema que el peso. El peso es más extremo que la altura. No tiene sentido compararlos al no coincidir las unidades de medida. e La media.

moda. Bioestadística Preg. Preg. Si queremos resumir la información obtenida podemos utilizar: a b c d e Moda. Media y desviación típica. Mínimo y máximo. indica cual es incorrecta: a Un estimador de la varianza es el cociente del sumatorio de la diferencia entre cada observación y la media. d El cociente entre la desviación típica y la media es una medida relativa de variabilidad. 14. Frecuencias acumuladas absolutas. Mediana. Mediana y coeficiente de variación. puede que este empeore. Si dicho tratamiento se aplica a una población de 100 pacientes. Al aplicar un tratamiento a un paciente. 10. no le haga efecto. ¿qué medidas cree que resumen mejor los datos? a b c d e Media.Elaborado por: Ing. 12. Media y coeficiente de variación. Preg. Entre las siguientes afirmaciones. Óscar Flores Pérez e Depende de la escala que se use al medir la variable. Preg. cuáles podria utilizar para argumentar en favor o en contra de la asimetría de la variable edad: 175 . Se pide a unos enfermos que valoren su grado de mejoría tras un tratamiento en una escala de 1 a 5. cuál cree que resume mejor los mismos: a b c d e Media. b La mediana es el centro de gravedad de los datos. Mediana y Moda. y el número de observaciones. 11. En cierta población se observa la distribución de los grupos sanguíneos. Percentil 50. 13. Frecuencias relativas. elevado al cuadrado. desviación típica y asimetría. Nada de lo anterior. Percentil 25. percentil 50 y percentil 75. e El coeficiente de variación se mide en porcentaje. Ninguna de las anteriores. Percentil 25. c n coeficiente de variación próximo a cero puede indicar una muestra homogénea. o mejore. De la siguiente colección de posibilidades. De las siguientes medidas. Mediana y desviación típica. Preg. Percentil 75. mediana.

a b c d e Hay más valores negativos que positivos.88 Cuantil 0. El percentil 60. 16.5 95%. Los percentiles 2. 15. Cuantil 0. 17. 18. La media es menor que la varianza. Nada de lo anterior. La pregunta: ¿qué nivel de colesterol sólo es superado por el 5% de los individuos?. tiene por respuesta: a b c d e El percentil 95. Nada de lo anterior es cierto.Elaborado por: Ing. Media y mediana Media y desviación típica. Media y Percentil 60. Hay menos valores negativos que positivos. Preg. Qué peso no llega a alcanzar el 40% de los individuos de una Preg.12 Decil 88 Nada de lo anterior es correcto. Una distribución presenta asimetría negativa siempre que: Preg. población: a b c d e El 40%. La calificación de selectividad que sólo es superada por el 12% de los estudiantes se denomina: a b c d e Percentil 12. El 60%. No es simétrica. Óscar Flores Pérez Bioestadística a b c d e Percentil 25 y percentil 75. Preg.5 y 97. Ninguna de las anteriores. 176 . El percentil 40. El percentil 5. Los percentiles 20 y 60.

en cuanto a la información que ofrecen sobre una variable numérica. Coeficiente de variación. moda moda. 22. La distribución presenta una cola a la izquierda. 19. mediana. de peor a mejor): a b c d e media. 23. En una población. Por debajo del cuantil 0. Óscar Flores Pérez Bioestadística Preg. Si una muestra posee valores anómalos. preferimos (por orden. Todo lo anterior es falso. No se puede en general recomendar una como mejor que las otras. Entre la media y la mediana. Rango intercuartílico.Elaborado por: Ing.99 entonces: a b c d e La distribución presenta una cola a la derecha. Las medidas de centralización. Desviación típica. Rango intercuartílico. Preg. 21. moda. usaremos: a b c d e Varianza. 177 . La distribución es menos apuntada que la normal. La distribución es prácticamente simétrica. el 70% de las alturas consideradas "más normales" se encuentran: a b c d e Por encima del percentil 70. Preg. Rango.30 Entre el percentil 30 y el 70 Entre el percentil 15 y el 85. Máximo y coeficiente de variación. de las siguientes cuál usarías como medida de dispersión: a b c d e Varianza. Preg. Si queremos saber cómo de disperso está una variable con respecto a la magnitud de los valores de la misma. Si el coeficiente de asimetría en una población presenta el valor 0. 20. Desviación típica. Preg. mediana. La distribución es más apuntada que la normal. Rango. media. mediana media.

Si la media del peso en una población es 60 kg.22 entonces: a b c d e La distribución presenta una cola a la derecha. Óscar Flores Pérez Bioestadística Preg. La distribución presenta una cola a la izquierda. Mediana y Moda. Preg. Estudiaremos la covarianza. y la mediana 65kg. 178 . 26. Mesocúrtica. En una muestra de 1000 mujeres se estudia su número de hijos. Compararemos los coeficientes de variación. Percentil 75. La distribución es más apuntada que la normal. curtosis y desviación típica. Media y desviación típica. Si quiero tener el máximo de información sobre la variable del estudio. Se observa determinada variabilidad en esas cantidades. Una variable continua presenta una fuerte asimetría positiva. Asimétrica. Queremos saber de qué tipo de célula se presenta mayor variabilidad a b c d e Compararemos las desviaciones típicas. Leptocúrtica. entonces afirmamos que la distribución del peso en la población es: a b c d e Platicúrtica. cuartiles. asimetría. Percentil 25. Unimodal. cuál es preferible para resumir la información que hay en la muestra. Si el coeficiente de asimetría en una población presenta el valor -5. Media. El mínimo y el máximo. El diagrama de cajas de Tukey. 25. 27. La distribución es menos apuntada que la normal. Los cuartiles. a b c d e La mediana. preferimos: a b c d e Media. De entre las siguientes posibilidades. Estudiaremos el coeficiente de correlación lineal de Pearson.. Preg. mediana. Preg. La media y la desviación típica. Ese valor de asimetría es imposible. 28.Elaborado por: Ing. Percentil 50. Distribución de frecuencias Preg. 24. Medimos el número de glóbulos rojos y el de blancos en cada individuo de una población. Compararemos los rangos.

Óscar Flores Pérez Bioestadística Preg. Preg. con desviación típica de 3 años. ¿Qué valor divide a los mismos en dos grupos con la misma cantidad de individuos? a b c d e La moda El percentil 25. mediana y moda coinciden. Ninguno de los anteriores. Las dispersiones son similares. Sólo la a) y la b) son correctas 179 . 31. Conocemos: a b c d e El percentil 3 El cuantil 0. El 3% de los individuos tiene una altura superior a 190cm. Respecto a las medidas de centralización: a b c d e La media no debe usarse en distribuciones muy asimétricas. cual muestra directamente las observaciones extremas: a b c d e Diagrama de excesos Barras. El percentil 75 La media. La edad media es 12 años. 29. Preg. 33. 32. El peso presenta una distribución con gran asimetría positiva en un grupo de individuos obesos. 30. Las tres anteriores son correctas. ¿Dónde se presenta mayor dispersión? a b c d e En edades.Elaborado por: Ing. No se puede decir con esos datos qué variable está más dispersa. Pictograma Cajas de Tukey. La moda puede no ser única. En distribuciones simétricas media. De los siguientes representaciones gráficas. El 5% mide menos de 150cm. El diagrama de observaciones atípicas. Preg. Preg.06 El percentil 95 El percentil 97 Nada de lo anterior. Nada de lo anterior. En un grupo de niños se tiene una altura media de 150cm con desviación típica de 10cm. En alturas.

Es una medida de variabilidad relativa. 180 . 36. Las varianzas. Sólo dos de las anteriores son correctas. aunque cuando X decrece. e El modelo lineal de regresión explica el 80% de la varianza de una variable cualquiera en función de la otra. Preg. Y tiene tendencia a crecer.20 ocurre que a La pendiente de la recta de regresión es pequeña. Soluciones: Regresiones. Todo lo anterior es cierto. Óscar Flores Pérez Preg. Los coeficientes de variación. 1. Si al calcular el coeficiente de correlación de dos variables X e Y. Sólo la a) y la b). 35. Si queremos comparar la variabilidad de dos variables diferentes utilizaremos: a b c d e Las desviaciones típicas.Elaborado por: Ing. a b c d e Bioestadística Para medir la variabilidad de una variable utilizamos: El coeficiente de variación La desviación típica El coeficiente de determinación. No es invariante ante cambios de origen. se tiene r=-0. b La pendiente de la recta de regresión es grande. Preg. 34. El coeficiente de variación se caracteriza por ser: a b c d e Adimensional. d El modelo lineal de regresión explica el 20% de la varianza de una variable cualquiera en función de la otra. Ninguna de las anteriores. Todas las anteriores. c X e Y están poco relacionadas. Preg. Las puntuaciones típicas.

Entonces: a Todos los individuos con un valor de colesterol 100. presentan glucemia 45.9 que la relación entre nivel de glucemia (Y) y nivel de colesterol (X) es de Y=20 + X/4. b A mayor número de linfocitos.Elaborado por: Ing. El coeficiente de correlación lineal es próximo a 1. e Las repuestas (a) y (c) son correctas. Es siempre positiva. Preg. ¿Qué se puede deducir directamente de estos datos? a A mayor número de linfocitos. La covarianza de dos variables: a b c d e Es la raíz cuadrada del coeficiente de correlación. 181 . 3. El ajuste es malo. Preg. Preg. con toda seguridad será mayor el tiempo se supervivencia. El coeficiente de correlación lineal tiende a -1. probablemente será mayor el tiempo de supervivencia. Entonces: a b c d e Y se puede calcular exactamente como una función matemática de X. La covarianza de X e Y no es nula. En una población se obtiene con una bondad de ajuste de 0. La media de X coincide con la media de Y. y una varianza residual de 2. 4. Óscar Flores Pérez Bioestadística Preg. Preg. 2. 5. Todas las anteriores afirmaciones son ciertas.000. Si el cociente entre la varianza residual y la explicada por la regresión en un ajuste lineal es grande: a b c d e El ajuste es bueno. Sólo dos de las afirmaciones anteriores son correctas. Es una medida de la variabilidad común. La recta de regresión de Y sobre X se muestra como un buen modelo para explicar la relación entre dos variables numéricas. Se obtiene una varianza explicada por el modelo de 40.000. Es la media de las varianzas. c Hay una buena relación lineal entre ambas variables. No puede usarse dicha información como medida de bondad de un ajuste. d El ajuste lineal es malo porque la varianza residual es muy alta. 6. Se utiliza un modelo lineal de regresión para estimar el tiempo de supervivencia de un enfermo terminal a partir de un conteo de linfocitos. Y es independiente de X.

Entonces: a b c d e La varianza de Y es 100. además se observa que la nube de puntos tiene forma decreciente. Preg. se obtiene una varianza residual de 10 y una varianza explicada por el modelo lineal de regresión de 90. Tenemos dos variables numéricas X e Y medidas sobre la misma población. c La nube de puntos no presenta aspecto creciente.9 r=-0. En el modelo de regresión lineal de Y sobre X. 7. Preg. Mayor es la relación lineal entre las dos variables Sólo dos de las afirmaciones anteriores son correctas. Son correctas (b) y (c). 182 . e Todo lo anterior es cierto. r=0. 10. puedo asegurar que: a b c d e La ordenada en el origen de la recta no es cero La recta pasa por las medias de las variables Existe una correlación lineal perfecta entre las variables. Sólo dos de las afirmaciones anteriores son ciertas.9 La covarianza es de 1/9. Entonces: a r=0 b El modelo lineal de regresión sólo propone un valor como predicción de Y. c Hay mas individuos con colesterol alto que con glucemia baja. Menor es la varianza residual. Dos variables numéricas son incorreladas. d La varianza residual en el modelo de regresión de Y sobre X es igual a la varianza de Y. Todas las anteriores son ciertas. 9. Óscar Flores Pérez Bioestadística b Existe tendencia a que a mayor nivel de glucemia. 8. y disponemos de media y desviación típica de cada una de ellas. Si al realizar un análisis de regresión la covarianza coincide con el producto de las desviaciones típicas de las variables. d Las observaciones se muestran como una nube de puntos creciente.Elaborado por: Ing. mayor nivel de colesterol. e Sólo dos de las afirmaciones anteriores son correctas. Mayor es r. Cuanto mayor es el coeficiente de determinación en una regresión lineal: a b c d e Mayor es la covarianza. Preg. Preg.

Preg. 12. Al estudiarlo con el grupo sanguíneo. Nada de lo anterior. 183 . en cuáles crees que puede ser útil un análisis de regresión lineal: a b c d e La presión sanguínea y el grupo sanguíneo. Al estudiarlo con la presión sanguínea. Hay poca relación lineal entre las variables. donde el peso se estudie conjuntamente con otras variables. La relación entre las variables es directa. Óscar Flores Pérez Bioestadística Preg. 15. Hay un error de cálculo. En un estudio de regresión lineal. Al estudiarlo con el nivel del colesterol. en qué casos lo usarías como variable dependiente: a b c d e Al estudiarlo con la altura. Preg.1 podemos decir: a b c La covarianza es pequeña. e Nada de lo anterior. Poseer ideología racista y el factor RH. Preg. Si el coeficiente de correlación lineal de Pearson entre dos variables es -0. 14. 11. Hay poca relación lineal entre las variables. En una población formada por unidades familiares. Preg. 13. Si el coeficiente de correlación lineal de Pearson entre dos variables es -0. De las siguientes parejas de variables.8 podemos decir: a b c d e La covarianza es negativa. Con estos datos podemos afirmar: a No hay relación entre ambas variables. b Hay relación inversa entre las variables. El grupos sanguíneo y el factor Rh. Hay fuerte relación inversa entre las variables. d Hay relación directa entre las variables. c No debemos intentar predecir la altura del hijo de un padre que mide 140cm. La altura del primer hijo varón es otra variable con distribución similar. El género y la edad.Elaborado por: Ing. El nivel de colesterol y la concentración de bilirrubina. la altura media del padre en la familia se comporta como una distribución normal de media 170cm con desviación típica 5 cm. El 80% de las predicciones son correctas.

Entonces: a b c d e El 36% de las predicciones del modelo son correctas. c A partir de ella se obtiene el coeficiente de correlación lineal de Pearson.60 r= -0. Qué afirmación sobre la covarianza es falsa: a La covarianza es una medida de la variabilidad conjunta de dos variables numéricas.36 Preg. 16. d Posee dimensiones. b Si la covarianza es positiva implica una relación creciente entre las variables. Todas las anteriores son correctas. Óscar Flores Pérez d e Hay un error de cálculo. Un modelo de regresión lineal para calcular la glucemia (sangre) a partir de la de la orina (glucosuria) es "glucemia = 20+ 0. r= +0. 184 . 17. Preg. Se observa que al disminuir el consumo de comida rápida. cual es la mejor estimación que puede hacer para la diferencia en glucemia: a b c d e 5 10 15 20 25 Preg. Si dos personas se diferencian en 10 unidades de glucosuria.5 glucosuria". e Si es 0 podemos afirmar que no existe relación posible entre las variables. 18.Elaborado por: Ing. disminuye el nivel de colesterol en sangre.36 r= -0. Sólo la a) y la b) son correctas. 19. Bioestadística Preg. Es el valor de la variable Y cuando X=0. El 10% de las predicciones son correctas. Tiene el mismo signo que la covarianza. La pendiente de una recta de una función de regresión lineal Y = b0 + b1 X a b c d e Representa el incremento de Y por cada unidad de incremento de X.60 r= +0. Se usa un modelo de regresión entre ambas que ofrece una bondad de ajuste del 36%.

el coeficiente estará más cercano a 1. Se obtuvieron los siguientes datos sobre las visitas de 20 pacientes aleatoriamente seleccionados: Duración en minutos de la visita 21'6 13'4 20'4 16'4 23'5 26'8 24'8 19'3 23'4 9'4 16'8 21'9 24'9 15'6 20'1 16'2 18'7 18'1 19'1 18'9 1. Óscar Flores Pérez Bioestadística Preg. Señala cual de las siguientes afirmaciones sobre el coeficiente de determinación es falsa: a Es el porcentaje de variabilidad de una variable explicado por la variabilidad de la otra. Se cree que en centros donde con un elevado número de estudiantes en prácticas esta cifra es menor. d Cuanto mayor sea la varianza residual en comparación con la varianza total de la variable dependiente. el coeficiente estará más cercano a 0. e Se utiliza para medir la bondad del ajuste. Recientes estudios sobre el ejercicio de la Medicina en centros en los que no actúan estudiantes. Soluciones: Problemas Ejercicio 1.Elaborado por: Ing. ¿Podemos concluir en base a estos datos que la población de la cual fue extraída esta muestra sigue una distribución Normal? 185 . ¿Constituyen estos datos una muestra aleatoria? 2. b Coincide con el valor del coeficiente de correlación r2 c Cuanto mayor sea la varianza residual en comparación con la varianza total de la variable dependiente. indican que la duración media de la visita por paciente es de 22 minutos. 20.

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Ejercicio 2. Se realiza un estudio para determinar los efectos de poner fin a un bloqueo renal en pacientes cuya función renal está deteriorada a causa de una metástasis maligna avanzada de causa no urológica. Se mide la tensión arterial de cada paciente antes y después de la operación. Se obtienen los siguientes resultados: Tensión arterial Antes 150 132 130 116 107 100 101 96 90 78 102 80 82 90 94 84 93 89 8????? Después 90

¿Se puede concluir que la intervención quirúrgica tiende a disminuir la tensión arterial?

Ejercicio 3. Se ensayaron dos tratamientos antirreumáticos administrados al azar, sobre dos grupos de 10 pacientes, con referencia a una escala convencional (a mayor puntuación, mayor eficacia), valorada después del tratamiento. Los resultados fueron: Nivel de eficacia del tratamiento Tratamiento primero 12 15 21 17 38 42 10 23 35 28 Tratamiento segundo 21 18 25 14 52 65 40 43 35 42 Decidir si existe diferencia entre los tratamientos.

186

Elaborado por: Ing. Óscar Flores Pérez

Bioestadística

Ejercicio 4. Puesto que el hígado es el principal lugar para el metabolismo de los fármacos, se espera que los pacientes con enfermedades de hígado tengan dificultades en la eliminación de fármacos. Uno de tales fármacos es la fenilbutazona. Se realiza un estudio de la respuesta del sistema a este fármaco. Se estudian tres grupos: controles normales, pacientes con cirrosis hepática, pacientes con hepatitis activa crónica. A cada individuo se les suministra oralmente 19 mg de fenilbutazona/Kg. de peso. Basándose en los análisis de sangre se determina para cada uno el tiempo de máxima concentración en plasma (en horas). Se obtienen estos datos: Normal Cirrósis Hepatítis 4 30,6 26,8 37,9 13,7 49 22,6 14,4 26,3 13,8 17,4 16,6 12,1 7,2 6,6 12,5 15'1 6,7 20 ¿Se puede concluir que las tres poblaciones difieren respecto del tiempo de máxima concentración en plasma de fenilbutazona? Ejercicio 5. El administrador de un laboratorio está considerando la compra de un aparato para analizar muestras de sangre. En el mercado hay 5 de tales aparatos. Se le pide a cada uno de los 7 técnicos médicos que después de probar los aparatos, les asignen un rango de acuerdo con el orden de preferencia, dándole el rango 1 al preferido. Se obtienen los siguientes datos: Analizador de sangre Técnico I 1 2 3 4 5 6 1 4 4 1 1 5 II 3 5 1 3 2 1 III 4 1 3 2 3 3 IV 2 2 5 5 4 2 V 5 3 2 4 5 4

187

Elaborado por: Ing. Óscar Flores Pérez 7 5 1 4 3 2

Bioestadística

Utilizar el contraste adecuado para determinar si los técnicos perciben diferencias entre los aparatos. Ejercicio 6. Los efectos de tres drogas con respecto al tiempo de reacción a cierto estímulo fueron estudiados en 4 grupos de animales experimentales. El grupo IV sirvió de grupo control, mientras que a los grupos I, II y III les fueron aplicadas las drogas A, B y C respectivamente, con anterioridad a la aplicación del estímulo:

A 17 20 40 31 35 8 7 9 8

B 3 5 2 9

C 2 5 4 3

Control

¿Puede afirmarse que los tres grupos difieren en cuanto al tiempo de reacción? Ejercicio 7. La tabla siguiente muestra los niveles de residuo pesticida (PPB) en muestras de sangre de 4 grupos de personas. Usar el test de Kruskal-Wallis para contrastar a un nivel de confianza de 0'05, la hipótesis nula de que no existe diferencia en los niveles de PPB en los cuatro grupos considerados. Niveles de PPB Grupo I Grupo II 10 37 12 31 11 9 4 10 12 6 08 2 6 5 23 15 3 35 32 19 33 18 8 11 1

Grupo III 15 5 Grupo IV 7

Ejercicio 8. La cantidad de aminoácidos libres fue determinada para 4 especies de ratas sobre 1 muestra de tamaño 6 para cada especie. Comprobar si el contenido de aminoácidos libres es el mismo para las 4 especies. Especies de ratas I II III IV 431'1 477'1 385'5 366'8 440'2 479'0 387'9 369'9

188

Elaborado por: Ing. Óscar Flores Pérez 443'2 481'3 389'6 371'4 445'5 487'8 391'4 373'2 448'6 489'6 399'1 377'2 451'2 403'6 379'4 381'3

Bioestadística

Ejercicio 9. Los siguientes datos nos dan el peso de comida (en Kg.) consumidos por adulto y día en diferentes momentos en un año. Usar un contraste no paramétrico para comprobar si el consumo de comida es el mismo en los 4 meses considerados. Febrero Mayo Agosto Noviembre 4,7 4,9 5,0 4,8 4,7 4,7 4,4 4,3 4,4 4,1 4,8 4,7 4,6 4,4 4,7 4,9 5,2 5,4 5,1 5,6

Ejercicio 10. Se hizo un estudio neurofisiológico sobre la conducción motora tibial posterior en dos grupos de pacientes embarazadas con las siguientes determinaciones: Conducción motora tibial posterior Primer grupo 51 40 41 53 48 50 45 58 45 44 Segundo grupo 58 43 40 45 41 42 44 52 56 48 Comprobar la igualdad o no de ambas muestras. Ejercicio 11. En un experimento diseñado para estimar los efectos de la inhalación prolongada de óxido de cadmio, 15 animales de laboratorio sirvieron de sujetos para el experimento, mientras que 10 animales similares sirvieron de controles. La variable de interés fue el nivel de hemoglobina después del experimento. Se desea saber si puede concluirse que la inhalación prolongada de óxido de cadmio disminuye el nivel de hemoglobina según los siguientes datos que presentamos: Nivel de hemoglobina Expuestos 14'4 14'2 13'8 16'5 14'1 16'6 15'9 15'6 14'1 15'3 15'7 16'7 13'7 15'3 14'0 No expuestos 17'4 16'2 17'1 17'5 15'0 16'0 16'9 15'0 16'3 16'8

189

Opción c: El área encerrada por ella y el eje X vale uno. Opción b: PROB[A]> 0 para todo A. 21 24 29 7 11 13 8 11 190 . La función de densidad de una variable aleatoria continua: Opción a: Siempre es no negativa. Opción e: PROB[A unionB] = PROB[A] .PROB[ A interseccion B] para todos A y B. Opción d: PROB[ no A] = 1-PROB[A] para todo A. Opción b: Es la derivada de la función de distribución.PROB[B] . Pregunta 1. Opción e: Sólo (a) y (c) son correctas. tiene dos formas de determinar su valoración suponiendo inicialmente que ambos métodos miden igualmente la extroversión. Opción c: PROB[E]= 1 cuando E es el suceso seguro. Pregunta 2.Elaborado por: Ing. Óscar Flores Pérez Bioestadística Ejercicio 12. Cuál de los siguientes es uno de los axiomas de probabilidad: Opción a: PROB[A]< 1 para todo A. Un test de personalidad. Opción d: Todo lo anterior es cierto. obteniéndose los datos siguientes: Presión sanguínea sistólica Antes 126 120 124 122 130 129 114 116 119 112 118 Después 119 116 117 122 127 122 110 120 112 110 111 ¿Hay un descenso significativo de la presión sanguínea sistólica tras la ingestión de etanol? Ejercicio 13. Para ello se estudia en 12 personas obteniéndose los siguientes resultados: Medida de la extraversión Forma A 12 18 21 10 15 27 31 6 15 13 8 10 Forma B 10 17 20 5 ¿Hay diferencia entre los dos métodos? Test general. A 11 ratas tratadas crónicamente con alcohol se les midió la presión sanguínea sistólica antes y después de 30 minutos de administrarles a todas ellas una cantidad fija de etanol.

Verdaderos positivos y especificidad. Opción d: Consecutivo. Opción c: Correlativo. será necesario conocer: Opción a: Opción b: Opción c: Opción d: Opción e: Sensibilidad y verdaderos positivos Prevalencia. Opción c: Los sucesos elementales son independientes entre sí en cada experimento. 191 . Opción b: Sistemático. Por conglomerados. Opción d: Se debe verificar todo lo anterior simultáneamente. Opción b: Es muy pequeña la probabilidad de un suceso elemental. se selecciona aleatoriamente uno de ellos.Elaborado por: Ing. Se realiza un estudio con objeto de determinar el tiempo de supervivencia en pacientes con cáncer. y se elige una muestra aleatoria de pacientes. Especificidad y verdaderos negativos Falsos positivos y verdaderos positivos. Pregunta 4. Se realiza una auditoría de historias clínicas tomando una primera historia al azar y después sucesivamente. la que ocupa la vigésima posición detrás de la anterior. Una variable de Poisson se caracteriza por: Bioestadística Opción a: Contabiliza el que se repita cierto número de veces un suceso elemental. Pregunta 6. Pregunta 5. Óscar Flores Pérez Pregunta 3. Por conglomerados y estratificado. Opción e: Equidistante. Opción e: Contabiliza en qué momento ocurre por primera vez un suceso elemental. Este procedimiento de muestreo se denomina: Opción a: Por conglomerados. Para ello de los dos hospitales existentes en una ciudad. Aleatorio. Para conocer los índices predictivos en un test diagnóstico para una enfermedad que tiene un 1% de afectados en la población. cuando un experimento se realiza un número elevado de veces. atendiendo al tipo de cáncer: El muestreo realizado es: Opción a: Opción b: Opción c: Opción d: Opción e: Sistemático. Estratificado.

Existe una probabilidad del 75% de que esté sana. 192 . Son ciertas (c) y (d) Pregunta 9. Existe una probabilidad del 75% de que esté enferma. Entonces: Opción a: Opción b: Opción c: Opción d: Opción e: Esta sana. Pregunta 10. Esta enferma. Opción b: Contabilizando el número de tests negativos en una muestra aleatoria de individuos. Óscar Flores Pérez Bioestadística Pregunta 7.Elaborado por: Ing. Opción e: Ninguna de las anteriores es cierta. Si la probabilidad de tener la enfermedad A es del 5%. Existe una probabilidad del 50% de que esté sana. Su media es 0 y su desviación típica es 1. la de tener la enfermedad B es del 10% y la de tener al menos una de las dos es del 13%. Cierta persona pasa el test con resultado negativo. Qúe propiedad o propiedades caracterizan a una distribución normal tipificada frente a una distribución normal cualquiera: Opción a: Opción b: Opción c: Opción d: Opción e: El área bajo su función de densidad es igual a 1. Cierto tests diagnóstico acierta sobre el 100% de los individuos enfermos y el 50% de los sanos. Opción d: Contabilizando el número de tests negativos en una muestra aleatoria de sanos. Opción c: Contabilizando el número de tests positivos en una muestra aleatoria de enfermos. Su rango de valores oscila entre 0 y 3. ¿cúal es la probabilidad de tener las dos? Opción a: Opción b: Opción c: Opción d: Opción e: Cero 1% 2% 5% 8% Pregunta 8. Su media es 1 y su desviación típica es 0. ¿Cómo se calcula la sensibilidad de un test diagnóstico? Opción a: Contabilizando el número de tests positivos en una muestra aleatoria de individuos.

Pregunta 12. Opción b: Una distribución gaussiana con la media igual a la varianza. De las siguientes situaciones. Cierto test diagnóstico acierta sobre el 100% de los individuos sanos y el 0% de los individuos enfermos. Hay una probabilidad del 0% de que esté enferma. 193 . La edad de los individuos de una población sigue una distribución normal. Opción b: Da la probabilidad de declarar significativo el resultado de un test. Hay una probabilidad del 100% de que esté enferma. Opción c: Al disminuir hace aumentar la probabilidad del error de tipo II. Opción c: Aproximadamente el 95% de los pacientes tienen edades entre 40 y 60 años. Opción e: Todo lo anterior es falso. Se extrae aleatoriamente una muestra de 300 pacientes cuya media es de 50 años. Esto es: Opción a: Opción b: Opción c: Opción d: Opción e: F(3) F(2) 1-F(3) 1-F(2) Ninguna de las anteriores.Elaborado por: Ing. El nivel de significación de un test de hipótesis: Opción a: Suele ser pequeño y lo fija el investigador o un convenio generalmente aceptado. Elegida una persona al azar: Opción a: Opción b: Opción c: Opción d: Opción e: Hay una probabilidad del 50% de que esté enferma. y la desviación típica es 10 años. Pregunta 14. Pregunta 13. Opción e: Una distribución de Bernoulli con media 2. Opción d: Todo lo anterior es cierto. Óscar Flores Pérez Bioestadística Pregunta 11. Opción c: Una distribución normal de varianza nula. Ninguna de las anteriores es cierta. Entonces: Opción a: Aproximadamente el 95% de los pacientes tienen edades entre 30 y 70 años. Opción d: Una distribución Ji-cuadrado simétrica. señale cuál es posible: Opción a: Una distribución de Poisson de media -2. Opción b: Existe una probabilidad del 95% de que la verdadera media de la población esté entre 30 y 70 años. El test será negativo. Pregunta 15. cuando esto es falso. Queremos calcular PROB[X<3] en una variable de Poisson.

Opción b: Fijada antes de realizar el contraste. Opción e: Si el tratamiento no fuese efectivo. En todo contraste de hipótesis: Opción a: Se acepta la hipótesis de mayor probabilidad. Un contraste de hipótesis se considera significativo si: Opción a: Una muestra aleatoria es coherente con la hipótesis nula. Un estudio sobre la efectividad de un fármaco llega a la conclusión de que éste es mejor que el placebo con p<0. Opción e: Conocida al extraer la muestra y calcular el estadístico experimental. Opción e: Existe una probabilidad del 95% de que la verdadera media de la pobllación esté entre 45 y 55 años. Pregunta 17. Opción b: Se rechaza la hipótesis de menor probabilidad. 194 . existe menos del 5% de probabilidad de observar unas muestras tan contrarias a dicha hipótesis como las obtenidas. Opción d: La probabilidad de error al rechazar la hipótesis alternativa. En un contraste de hipótesis la cantidad p es: Opción a: Un número pequeño. Opción d: Todo lo anterior es cierto.05 ¿Cuál es la interpretación correcta de este resultado? Opción a: Con toda seguridad.Elaborado por: Ing. el tratamiento es mejor que el placebo. Opción c: El tratamiento es un 95% más efectivo que el placebo. Pregunta 19. Opción e: Es necesario contrastar la normalidad de los datos. Opción c: La probabilidad de rechazar la hipótesis nula. Opción c: La hipótesis nula se elige según el principio de simplicidad científica. Opción d: Todo lo anterior es cierto. Pregunta 16. Opción c: La hipótesis alternativa es más probable que la nula. Pregunta 18. Opción b: Una muestra aleatoria no es coherente con la hipótesis nula. Opción e: Son ciertas (b) y (c). Opción d: La probabilidad de que el placebo sea mejor que el nuevo fármaco es menor de 5%. Opción b: La probabilidad de que el nuevo tratamiento sea mejor que el placebo es superior al 95%. Óscar Flores Pérez Bioestadística Opción d: Existe una probabilidad del 95% de que la verdadera media de la pobllación esté entre 40 y 60 años.

Entonces: Opción a: Fuman tantos hombres como mujeres. Opción c: Por cada hombre fumador hay dos mujeres fumadoras. En una población. 195 . Para ello se toman muestras aleatorias entre los individuos que asisten regularmente a los mismos. de los cuales 50 son mujeres. La probabilidad de que un paciente escogido al azar sea mujer con desnutrición es: Opción a: 0. Opción c: Un muestreo aleatorio por conglomerados. Opción c: La hipótesis nula es más probable que la alternativa.10 Opción b: 0. Opción b: Por cada mujer fumadora hay dos hombres fumadores. el 20% son varones y fumadores y el 20% de las mujeres fuman. Un contraste de hipótesis se considera no significativo si: Opción a: Una muestra aleatoria es coherente con la hipótesis nula. Esta técnica de muestreo es: Opción a: Un muestreo aleatorio simple. En un grupo de 50 pacientes se ha obtenido un valor de glucemia medio de 90mg/dL.Elaborado por: Ing. Suponiendo la normalidad de los datos. 300 tienen alteración de la nutrición. Opción d: Incorrecta. Opción e: Son ciertas (a) y (c). hay tantos hombres como mujeres. Opción d: Todo lo anterior es cierto. con una desviación típica de 15.15 Opción c: 0. Opción b: 17 Opción c: 20 Opción d: 25 Opción e: 34 Pregunta 23. Opción b: Una muestra aleatoria no es coherente con la hipótesis nula. Pregunta 22. Pregunta 21. Opción e: Ninguna de las anteriores. De una población de 500 pacientes. al 50% hombres y mujeres. Opción b: Un muestreo aleatorio estratificado. Óscar Flores Pérez Bioestadística Pregunta 20.25 Opción e: 0.30 Pregunta 24. Se desea estimar confidencialmente el número medio de veces que asiste a un servicio de salud los individuos de una población.20 Opción d: 0. ¿cuál será la mejor estimación del número de pacientes que tienen un nivel de glucemia entre 90 y 105 Opción a: 15.

Opción b: Siempre que uno de ellos no se verifica. Opción b: Todo suceso elemental pertenece a algún suceso del sistema. Opción c: No pueden ocurrir simultáneamente. Opción e: Nada de lo anterior. Pregunta 28. Cuál de las siguientes posibilidades nos permite realizarlo: Opción a: Aumentar el tamaño muestral y la confianza.Elaborado por: Ing. Dado un sistema exhaustivo y excluyente de sucesos. Opción d: Disminuir la varianza muestral. Opción c: Aumentar la confianza. puede darse el otro. Óscar Flores Pérez Opción d: Hay un 40% de fumadores en la población. Opción d: Las muestras son demasiado pequeñas. Opción d: Dándose uno de ellos. Pregunta 26. Opción e: Nada de lo anterior es cierto. Opción c: Las muestras son demasiado numerosas. Si dos sucesos son incompatibles. No se encontró diferencia estadísticamente significativa. Opción c: Todos los sucesos elementales son independientes entre si. Opción b: Aumentar el tamaño muestral y disminuir la confianza. Se realiza un estudio para saber si dos tratamientos de quimioterapia presentan diferencias en cuanto a la supervivencia de los pacientes. 196 . Opción d: Todos los sucesos elementales tienen la misma probabilidad de ocurrir. entonces: Opción a: Siempre que sucede el uno. Opción b: El nivel de significación es demasiado alto. ¿Cuál de las siguientes razones podrían ser causantes del resultado? Opción a: Los tratamientos ofrecen tiempos de supervivencia muy diferentes. Opción e: Sólo (a) y (b) son ciertas. Opción e: Aumentar la varianza muestral. Pregunta 27. se verifica el otro. señale la afirmación correcta: Opción a: Ningún suceso elemental pertenece a dos sucesos de dicho sistema. sucede el otro. Bioestadística Pregunta 25. En un intervalo de confianza para una media. buscamos disminuir el margen de error. Opción e: Nada de lo anterior es cierto.

Opción d: A posteriori. Opción b: el conjunto de sucesos en el intervalo [0. Opción e: Es una variable real en la que influye el azar.1]. Pregunta 33. 197 . Opción d: A posteriori. Óscar Flores Pérez Pregunta 29. ¿Qué podemos estimar directamente de ellos? Opción a: La sensibilidad y especificidad del test. cuál se corresponde con un error de tipo II: Opción a: Aceptar que un tratamiento ineficaz produce efectos útiles. Para estudiar la efectividad de un test diagnóstico ante una enfermedad se toma un grupo de 200 personas enfermas y 200 que no la padecen. Opción c: Los intervalos de la recta real en el conjunto de los sucesos elementales. Opción e: Todo lo anterior. Opción d: Son correctas (a) y (c).1]. Opción c: El índice predictivo de verdaderos positivos. Opción e: Nada de lo anterior es cierto. El porcentaje de individuos fumadores o con bronquitis se puede interpretar como una probabilidad: Opción a: De un suceso intersección Opción b: Condicionada. Opción d: Rechazar que un tratamiento eficaz produce efectos útiles. Una variable aleatoria es una aplicación de: Bioestadística Opción a: el conjunto de sucesos elementales en el intervalo [0. Opción c: De un suceso unión. Pregunta 30. Opción e: De un suceso complementario. Pregunta 32. Opción d: El conjunto de los sucesos elementales en la recta real. Pregunta 31. El porcentaje de individuos con bronquitis entre los fumadores se puede interpretar como una probabilidad: Opción a: De un suceso intersección Opción b: Condicionada. Opción c: De un suceso unión. Opción b: Rechazar que un tratamiento ineficaz produce efectos útiles. Opción c: Aceptar que un tratamiento eficaz produce efectos útiles. Opción e: De un suceso complementario. y se observan los resultados.Elaborado por: Ing. De las siguientes. Opción b: La incidencia de la enfermedad en la población.

Opción c: De un suceso unión. El 12% de los individuos de una población padece osteoporosis. Pregunta 35. Elija la afirmación correcta relativa a pruebas diagnósticas: Opción a: La sensibilidad se obtiene usando la noción subjetiva de probabilidad. El 8% de las mujeres padece osteoporosis en una población donde hay tantos hombres como mujeres. Opción d: La prevalencia de la enfermedad se obtiene a partir del teorema de Bayes. Opción b: El índice predictivo positivo se obtiene directamente de la noción frecuentista de probabilidad. 198 . Opción e: nada de lo anterior es cierto. Opción d: A posteriori. Opción c: La tasa de verdaderos positivos se obtiene directamente de la noción frecuentista de probabilidad. La osteoporosis afecta 4 veces más a mujeres que a hombres. EL 25% de ellos lo sabe.Elaborado por: Ing. Óscar Flores Pérez Bioestadística Pregunta 34. ¿Qué tasa de individuos tiene osteoporosis y lo desconoce? Opción a: 3% Opción b: 6% Opción c: 9% Opción d: 12% Opción e: 25% Pregunta 36. El porcentaje de individuos con bronquitis que además son fumadores se puede interpretar como una probabilidad: Opción a: De un suceso intersección Opción b: Condicionada. Opción e: De un suceso complementario. ¿Cuál es la prevalencia de la osteoporosis en la población? Opción a: 2% Opción b: 5% Opción c: 8% Opción d: 10% Opción e: 2% Pregunta 37.

Entre 110 y 190. Opción a: Opción b: Opción c: Opción d: Opción e: Entre 140 y 160. y un coeficiente de variación del 10%. El valor esperado de la variable. Entre 120 y 180. 199 . Entre 130 y 170. Deseamos conocer la opinión de los ciudadanos de Málaga sobre el sistema de salud pública. El nivel medio de glucemia en una población tiene un comportamiento gausiano co n media 150mg/dl.Elaborado por: Ing. Se realiza el mismo experimento dicotómico aleatorio 5 veces.3. El valor de la función de distribución. El valor de la varianza. Pregunta 40. Entonces: Opción a: Opción b: Opción c: Opción d: Opción e: La población de estudio es la de los ciudadanos de Siuna. siendo la probabilidad de éxito en cada uno de ellos de 0. Para ello elegimos una muestra aleatoria de entre los abonados a telefónica. Normal. El conjunto de abonados a telefónica son la muestra. Nada de lo anterior es cierto. Nada de lo anterior. La población objetivo es la de los abonados a telefónica. Entre 100 y 200. De los siguientes. Poisson. La variable aleatoria número de éxitos se describe mejor como: Opción a: Opción b: Opción c: Opción d: Opción e: Bernoulli. Pregunta 41. Óscar Flores Pérez Bioestadística Pregunta 38. La población de estudio es la de los abonados a telefónica. Binomial. Entre qué valores se situa el 95% de los individuos de la población. qué me puede servir directamente para saber si una observación de una variable aleatoria es anómala: Opción a: Opción b: Opción c: Opción d: Opción e: El valor de la función de densidad. Cualquiera de las anteriores valdría. Pregunta 39.

Pregunta 43. Opción c: Tiene probabilidad grande. típicamente. No probabilístico. Pregunta 44. Un intervalo. Una aproximación de una proporción. 200 . Queremos asegurarnos tener cierto número de individuos de la zona litoral. Se rechaza la hipótesis nula. Una estimación confidencial para un nivel de confianza fijado. Se quiere hacer un estudio sobre el tabaquismo en el Municipio de Siuna. Haremos un muestreo: Opción a: Opción b: Opción c: Opción d: Opción e: Aleatorio simple. si la hipótesis nula fuese cierta. Por grupos. Óscar Flores Pérez Bioestadística Pregunta 42. Un nivel de significación. la región crítica: Opción a: Tiene probabilidad pequeña. Pregunta 45. Opción d: Tiene probabilidad pequeña. si la hipótesis alternativa fuese cierta.Elaborado por: Ing. En un contraste de hipótesis. la capital y del interior. Opción e: Nada de lo anterior. si la hipótesis nula fuese cierta. da por respuesta: Opción a: Opción b: Opción c: Opción d: Opción e: Una aproximación de la media. si la hipótesis nula fuese cierta. Sistemático. Se acepta la hipótesis alternativa. Se realiza un experimento donde nos basaremos en un contraste de hipótesis para tomar una decisión con un nivel de significación del 1%. Se rechaza la hipótesis alternativa. Opción b: Esta situada en la zona de mayor probabilidad. Una probabilidad. pues creemos que en cada una de esas zonas la incidencia es diferente. El experimento permite obtener conclusiones. De las siguientes cuál no es un resultado posible de un contraste de hipótesis: Opción a: Opción b: Opción c: Opción d: Opción e: El experimento no es concluyente. Estratificado.

Pregunta 49. Nada de lo anterior es correcto. Nos preguntamos cuántos de dichos individuos podrán reaccionar mal en esa muestra tan numerosa. Un modelo normal. Opción b: La significación de un contraste es conocida tras analizar los datos.15. Dos de cada 100 individuos reaccionan mal ante determinado tratamiento. Pregunta 47. Binomial Bernoulli Poisson Ninguna es correcta Pregunta 48. Pueden existir sesgos.Elaborado por: Ing. Óscar Flores Pérez Pregunta 46. Un modelo de Poisson.85.A. Y=tener secuelas en un accidente de moto sin casco es una V. Opción e: Un contraste es declarado significativo si se obtiene una muestra que discrepa mucho de la hipótesis nula. Opción c: El nivel de significación de un contraste debe ser fijado antes de analizar los datos. Si la variable aleatoria X=tener secuelas en un acccidente de moto con casco tiene una probabilidad p=0. Cuando la población objetivo y de estudio en un muestreo difieren mucho. Si decidimos aplicarlo sobre 1000 personas. Todos los anteriores.A. No pueden selec cionarse unidades de muestreo. Opción a: Opción b: Opción c: Opción d: Opción e: Bernoulli con p=0. Podríamos describirlo usando: Opción a: Opción b: Opción c: Opción d: Opción e: Un modelo Binomial. La V. Elija la afirmación falsa: Bioestadística Opción a: El nivel de significación es normalmente un valor pequeño. Ninguno de los anteriores. 201 . Opción d: Un contraste debe ser declarado significativo antes de recoger los datos. entonces: Opción a: Opción b: Opción c: Opción d: Opción e: Debe usarse el método de respuestas aleatorizadas. Se debe usar un muestreo no probabilístico.

La creatinina se distribuye normalmente. el 5% son enfermos diagnosticados de una enfermedad. la probabilidad de que realmente esté enferma es: 202 . Elija la afirmación correcta: Opción a: La media de la muestra valdrá 95cm. Opción a: Opción b: Opción c: Opción d: Opción e: La varianza es 8 La desviación típica es 8. Si se pasa el test a una persona y sale positivo. el 30% no está diagnósticado. de forma que el 95% de los individuos presenta unos niveles comprendidos entre 10 y 18. Pregunta 52. Opción c: La media de la muestra será un valor comprendido entre 95 y 100 cm con confianza del 95%. La incidencia de la enfermedad en la población es del 50%. La desviación típica es 4. Elegimos a una muestra de 100 indivíduos y calculamos la media de la misma. la cual padece el 10% de la población. Pregunta 51.. El perímetro torácico en un grupo de militares presenta distribución gaussiana con 95 cm de media y 5 cm de desviación típica. De un suceso unión.Elaborado por: Ing. Opción a: Opción b: Opción c: Opción d: Opción e: De un suceso intersección Condicionada. Una prueba diagnóstica de cierta enfermedad. Si de ellos. Óscar Flores Pérez Bioestadística Pregunta 50. De un suceso complementario. Pregunta 54. En una población. Pregunta 53. La probabilidad de estar diagnósticado para un individuo enfermo es: Opción a: Opción b: Opción c: Opción d: Opción e: 2% 5% 15% 50% No puede calcularse con esos datos. Opción b: La media de la muestra será un valor comprendido entre 90 y 100 cm con confianza del 68%. esta cantidad puede entenderse como una probabilidad. Todo lo anterior es falso. Opción d: La media de la muestra será un valor comprendido entre 94 y 96 cm con confianza del 95%. El 2% de la población padece diabetes. La varianza es 4. A posteriori. tiene una tasa de aciertos del 90% tanto sobre enfermos como sanos. Opción e: Todo lo anterior es falso..

Siempe ocurre uno o otro. Se desea estimar la media de una población. La concentración de calcio se comporta en los mamíferos como una distribución normal de media 10 y desviación típica 2. Opción c: Cuando se pueda. se prefieren los muestreos no probabilísticos. Todo lo anterior es falso. Siempre ocurre al menos uno de los dos. ¿Con qué frecuencia se encuentran mamíferos con una concentración superior a 14? Opción a: Opción b: Opción c: Opción d: Opción e: 95% 68% 50% 5% 2. el otro no puede ocurrir. Opción d: El muestreo aleatorio simple es normalmente el más económico en la práctica. Óscar Flores Pérez Bioestadística Opción a: Opción b: Opción c: Opción d: Opción e: 45% 50% 75% 90% 100% Pregunta 55. El error típico disminuirá en tres unidades. Pregunta 57. Si pasa uno. pero no ambos a la vez. El error típico se triplicará. Opción e: El mejor tipo de muestreo es el sistemático. El error típico será 81 veces menor. Elija la afirmación correcta sobre teoría de muestreo: Opción a: La población de estudio es aquella de la que finalmente extraeremos una muestra aleatoria. Si dos sucesos son independientes: Opción a: Opción b: Opción c: Opción d: Opción e: No pueden ocurrir a la vez. Si elegimos posteriormente una muestra de tamaño 9 veces mayor: Opción a: Opción b: Opción c: Opción d: Opción e: El error típico se reducirá a la tercera parte.5% Pregunta 56. Para ello se elije una muestra de cierto tamaño.Elaborado por: Ing. 203 . El error típico disminuirá a la novena parte. Opción b: El sesgo de selección es la diferencia existente entre la población de estudio y la muestra. Pregunta 58.

Sólo dos de las anteriores son correctas. Todo lo anterior es cierto. Entre 2480 y 2520. Entonces: Opción a: Opción b: Opción c: Opción d: Opción e: La media es 22. El IMC se distribuye en una población de forma normal. La desviación típica es 1. con media 2500 y desviación típica 100. Óscar Flores Pérez Bioestadística Pregunta 59. Entre 2498 y 2502. La probabilidad de la intersección es cero. Opción b: La probabilidad de que si el sujeto está enfermo el test de positivo. La curtosis es cero. Un test para detectarla posee una tasa de verdaderos positivos del 80%. Entre 2490 y 2510. Se define la sensibilidad de un test como: Opción a: La probabilidad de que si el test da positivo el sujeto esté enfermo. El consumo diario de Calorías se distribuye en una población de forma normal. Sólo dos de las anteriores son ciertas. y de falsos positivos del 20%. Si un individuo resulta ser positivo. Si dos sucesos A y B son incompatibles (excluyentes): Opción a: Opción b: Opción c: Opción d: Opción e: La intersección es el conjunto vacío. Pregunta 63. Pregunta 60. 204 . la probabilidad de que esté enfermo es: Opción a: Opción b: Opción c: Opción d: Opción e: 20% 40% 50% 60% 80% Pregunta 61. Pregunta 62. Entre 2300 y 2700. La probabilidad de la unión es la suma de las probabilidades. Todas las anteriores son correctas. El 95% central de los individuos tiene un IMC comprendido entre 20 y 24. Si elijo una muestra de tamaño 100. Una enfermedad tiene una incidencia del 50% en la población. entre qué valores espero encontrar el resultado (con una probabilidad del 95% de acertar): Opción a: Opción b: Opción c: Opción d: Opción e: Entre 2400 y 2600.Elaborado por: Ing.

Opción b: La hipótesis alternativa puede ser aceptada.235 0.020 No puede calcularse con esos datos. los resultados no son concluyentes. frente al 25% de las mujeres. Opción e: La hipótesis alternativa se opone a la nula.088 0. El tamaño de muestra sea mayor. En una población el 30% son hombres de los cuales son deportistas el 20%. Pregunta 66.802 0. Escogida una persona al azar es deportista. Pregunta 65.60 0. Pregunta 64. Señale la respuesta falsa en lo que concierne a los contrastes de hipótesis: Opción a: La hipótesis nula puede ser rechazada. Escogidos diez sujetos al azar la probabilidad de que lo presenten 4 es: Opción a: Opción b: Opción c: Opción d: Opción e: 0. Opción c: Si no se rechaza la hipótesis nula.Elaborado por: Ing. La probabilidad de que sea mujer es (aproximadamente): Opción a: Opción b: Opción c: Opción d: Opción e: 0. 205 . Pregunta 67.74 0. Todas las anteriores son correctas Sólo dos de las anteriores son ciertas. Un intervalo de confianza será más amplio cuando: Opción a: Opción b: Opción c: Opción d: Opción e: La varianza sea mayor El nivel de confianza sea mayor. Opción d: La hipótesis nula es aquella para la que buscamos evidencia a favor. Opción e: Ninguna de las anteriores. Óscar Flores Pérez Bioestadística Opción c: La probabilidad de que si el test da negativo el sujeto esté sano.2001 0. Opción d: La probabilidad de que si el sujeto está sano el test de negativo.25 No puede calcularse con esos datos. Determinado efecto secundario se presenta en un tratamiento con una probabilidad del 30%.

El error de tipo I consiste en: Opción a: Opción b: Opción c: Opción d: Opción e: Bioestadística rechazar H_0 cuando es falsa. No rechazar H_0 cuando es falsa. De un ejemplo de una población en la que ud. considere que resultaría mas económico o mas eficaz aplicar un muestreo estratificado en lugar de uno aleatorio. ¿La varianza de muestreo seria en este caso igual a cero? Fundamente su respuesta. Respuesta: 12. ¿De que tipo de muestra se trata? 11. Una agencia desea obtener una muestra de 200 adultos de cierta zona residencial de la ciudad de Siuna. ¿Por qué se lograrán o no muestras aleatorias con este procedimiento? Respuesta: 9. Óscar Flores Pérez Pregunta 68. Suponga que se examinaron los 36 huevos de las cajas de la muestra. Respuesta: 206 . Sugiera una forma para tomar una muestra aleatoria de 100 estudiantes de la universidad Uraccan las minas. 8. Se propone cumplir su objetivo extrayendo una muestra aleatoria de 200 casas de familia de los que aparecen en una lista de todas las casas del sector urbano y selecciona luego al azar un adulto de cada casa. Respuesta: variada. El embarque consiste en 100 cajas con 36 docenas de huevos cada una. rechazar H_0 cuando es cierta.Elaborado por: Ing. Se quiere tener una muestra de huevos a efecto de determinar su calidad. sea afirmativa o negativa. No rechazar H_0 cuando es cierta. La muestra se consigue mediante elección al azar de 10 cajas y la ulterior elección aleatoria de 2 huevos de cada caja de muestra. 10. La probabilidad de rechazar H_0 cuando es falsa.

¿? 207 . ¿Cual es la población? Respuesta: ¿Cómo usaría ud números al azar par tomar muestras de maíz. ¿Cuál es la variable aleatoria? d. Niños en una comunidad de menos de 5 años de edad y que hayan tenido sarampión. El número de palabra de un libro se determina seleccionando una muestra de páginas y contando el número de palabras en esas paginas. Respuesta: ¿? 14. para obtener muestras de: Árboles de un bosque. En cada caso indica alguna variable a estudiar.Elaborado por: Ing. Óscar Flores Pérez Bioestadística 13. si este campo es un cuadrado cuyo lado mide 1000 m y si cada muestra se toma eligiendo un punto al azar en el cuadrado y recogiendo el maíz que se encuentre dentro de un circulo de 5 m de diámetro cuyo centro se hala en el punto tomado al azar? Respuesta. en un campo de maíz. Sugiera un plan para muestreo aleatorio. c.

You're Reading a Free Preview

Descarga
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->