Está en la página 1de 9

Bioestadistica_Parcial_1_Andrés

1. La polilla Biston betularia se presenta en dos tipos o morfos de coloración: Salpicada


(moteada en blanco y negro) y melánica (negra). Un investigador quiso medir la
proporción de individuos melánicos en la población de polillas en Inglaterra en la época
de la revolución industrial, para examinar cómo esta proporción cambió de año en año
en el pasado. Para ello, fotografió todos los especímenes de polilla disponibles en
museos y grandes colecciones privadas y los agrupó por el año en que habían sido
recogidos. Basándose en esta muestra, calculó la proporción de individuos melánicos en
cada año. El investigador sabía que las personas que recogieron los especímenes
preferirían coleccionar el tipo más raro de cada año, ya que sería el más valioso.

a. ¿Pueden los especímenes de un año ser considerados como una muestra aleatoria de
la
población de polillas?

R/ No es una muestra aleatoria de polillas, ya que los científicos preferían colectar los
especímenes más raros de cada año.

b. Si no fuera una muestra aleatoria, ¿Qué tipo de muestra sería?

R/ En este caso es un muestreo de conveniencia.

c. ¿Qué tipo de error puede introducirse por el método de muestreo al estimar la


proporción de polillas melánicas?

R/ Subestimación de las tasas de polillas

2. En un estudio, investigadores tomaron medidas electrofisiológicas de los cerebros de


dos macacos rhesus. Cuarenta neuronas fueron probadas en cada mono, dando un total
de 80 medidas.

a. ¿Constituyen las 80 neuronas una muestra aleatoria? ¿Por qué si o por qué no?

R/ En la pregunta no se logra identificar cual es la población de estudio, por tal razón la


muestra de 80 neuronas no se sabe a qué población hace referencia, si a la población de
neuronas o a la población de monos, también falta un poco de información de cómo
fueron obtenidos las medidas electrofisiológicas y en que se basaron para escoger 40
neuronas de cada mono, así como también en que se basaron para escoger solo dos
monos para el estudio. Basado en lo anterior las 80 neuronas no son una muestra
aleatoria ni de la población de monos ni de la población de neuronas.

b. Si las 80 medidas se analizaran como si constituyeran una muestra aleatoria, ¿Qué


consecuencias tendría esto para la estimación de las medidas en la población de monos?

R/ Si tomamos a la población de monos como todos los monos rhesus del mundo, la
muestra no es significativa y no representaría el total de monos Rhesus que hay en el
mundo.

3. La enfermedad de Crohn es un desorden inflamatorio auto-inmune. La siguiente tabla


muestra las medianas y rangos intercuartiles para tres variables de respuesta en 62
pacientes asignados al azar, de los cuales 32 fueron tratados con un fármaco inmuno-
supresor (Azatioprina) y 30 fueron placebo. IQR es el rango intercuartíl.

a. Identifique el principal error en la construcción de la tabla.

R/ Un dato de la mediana presenta un valor negativo.

b. Plantee una propuesta de tabla para estos datos.

R/

Variable respuesta
Tratamientos Medidas
Índice de actividad de la enfermedad de Crohn Tasa de sedimentación de eritrocitos (mm/h) Reacción de la proteína al suero C (%)
Mediana 191.5 15.5 30
Azatioprina
IQR 211 30 53
Mediana 50 -6.5 0
Placebo
IQR 230 26 27

4. Uno de los descubrimientos más importantes en la biología es que los organismos


tienen una clase de genes llamados “genes reguladores”, cuyo único trabajo es regular la
actividad de otros genes. ¿Cuántos genes regula un gen regulador típico? Un estudio de
redes de interacción en levadura (Saccharomyces cerevesiae) produjo los siguientes
datos para 109 genes reguladores (Guelzim et al 2002)

a. ¿Qué tipo de gráfico podría ser utilizado para visualizar de forma adecuada estos
datos?

R/ El gráfico más apropiado para visualizar los datos es un gráfico de barras.

b. ¿Cuál es el número promedio estimado de genes regulados por un gen regulador en el


genoma de la levadura?
R/ El promedio de genes regulados por un gen (1), es 25

c. ¿Cuál es el error estándar de la media?

Número
de genes Cuadrado de la
regulados Frecuencia Desviación desviación
14 1 -11 -121
16 1 -9 -81
25 1 0 0
26 1 1 1
28 1 3 9
29 1 4 16
37 1 12 1369
suma 1193

1193
Desviacion estandar ( s )=
√ 7−1
= 14.10

R/ Para los genes regulados por un gen el error estándar es 14.10

d. Explique que mide este error estándar?

R/ El error estándar mide la dispersión de la distribución.


e. ¿Qué supuesto está haciendo en la parte c?

R/ Estimación de la desviación estándar, cuanto están dispersos el valor de los datos


individuales al valor promedio.

5. A partir del material adjunto a éste parcial, en la carpeta “Material adjunto parcial 1”,
encontrará 2 artículos científicos (Vulinec et al 2006; Felton et al 2008). Explique
(justifique), en máximo 10 renglones por estudio, si se presenta o no pseudoreplicación

R/ En el documento (Vulinec et al 2006) considero que si hubo pseudoreplicación. Para


el caso de la obtención de datos (especies de primates), mediante recorridos por
transectos definidos, se determinaron las especies de primates, identificándolos por
observación y sonidos emitidos, esta técnica empleada no es la técnica de identificación
más adecuada, ya que algunos de estos primates es necesario analizar otro tipo de
caracteres diagnósticos para su identificación que son imperceptibles a simple vista o
por señales acústicas. Es posible que se hubieran encuestado mismas especies en
diferentes partes del transecto e identificado como diferentes especies ya que estas
pueden pasar fácilmente de un sitio al otro. En cuanto a los escarabajos no hay
pseudoreplicación ya que estos si pudrieron ser colectados, lo que conlleva a una mejor
identificación de las especies presentes, a pesar de que no se especifica si fueron
nuevamente liberados en el sitio, si estos fueron liberados nuevamente en el sitio es
posible que algunos de estos sean encuestados nuevamente, en diferentes lugares lo que
podría convertirse en una pseudoreplicación.

En el estudio de (Felton et al 2008) se utilizan las mismas técnicas de identificación


para de las especies de aves, usadas en el anterior estudio de (Vulinec et al 2006) en el
cual emplean la identificación por medio de observación y sonidos, estas técnicas de
identificación podrían ocasionar pseudoreplicación ya que no son las mas adecuadas
para la identificación de especies, lo que podría ocasionar que se encuesten más de una
vez la misma especie o confundir con otras especies. A diferencia en este estudio el
organismo con el cual se lleva a cabo el estudio son aves, las técnicas de identificación
de observación y sonido son más efectivas en estos organismos, por esta razón es más
difícil que se dé una pseudoreplicación en la riqueza de especies.

6. Aplique el protocolo para la exploración de datos indicado en la figura 1 del artículo


de Zuur et al 2010 al artículo de Richardson et al 2012. Tiene total libertad para tomar
decisiones respecto a qué tipo de análisis considera se debe realizar, uso de gráficas,
tablas, etc. Ambos artículos están en la carpeta.

R/

Paso 1: ¿Hay valores atípicos en Y y X?

R/ De acuerdo a la gráfica figura. 2 del artículo, donde muestra los cambios en el nivel
de lectura después de la intervención, no se evidencian valores atípicos.

Paso 2: ¿Tenemos homogeneidad de varianza?

R/ Las varianzas calculadas y visualizadas en la diferentes gráficas, se muestran


similares tanto para el medicamento como para el placebo por tal razón es posible
determinar que si hay homogeneidad de varianza.
Paso 3: ¿Se distribuyen los datos normalmente?

R/ No hay normalidad en los datos a simple vista ya que las diferentes gráficas muestran
en la mayoría de sus casos un aparente crecimiento exponencial con respecto al
promedio, basados en que una distribución normal, debería presentarse la misma
proporción de datos en la cola derecha como la cola izquierda respecto al promedio.

Paso 4: ¿Hay muchos ceros en los datos?

R/ Los datos del documento no presentan ceros

Paso 5: ¿Hay colinealidad entre las covariables?

R/ según los resultados obtenidos en el documento si hay una colinealidad, ya que si hay
una estrecha relación entre las variables.

Paso 6: ¿Cuáles son las relaciones entre las variables Y y X?

R/ De acuerdo a los resultados si hay una relación entre las diferentes variables, por lo
menos para el caso del subgrupo preplanificado de 224 niños cuyo rendimiento de
lectura inicial fue ≤ 20.

Paso 7: ¿Deberíamos considerar las interacciones?

R/ Si se deben detener en cuanta ya que es necesario para visualizar la relación entre las
variables.

Paso 8: ¿Son independientes las observaciones de la variable de respuesta?

R/ Considero que los datos si son independientes, a pesar de que se realizó una detallada
selección de los niños, los tratamiento influyen de manera diferente en cada niño, esto
de acuerdo a las diferencias fisiológicas de cada niño y su relación con el entorno.
7. Examine la siguiente figura, que muestra el porcentaje de adultos mayores de 18 años
con un "índice de masa corporal" superior a 25 en diferentes años (modificado a partir
de The Economist 2005, con permiso). El índice de masa corporal es una medida del
peso en relación con la altura.

a. ¿Cuál es el principal resultado que se muestra en esta figura?

R/ A menor año mayor es el índice de masa corporal.

b. ¿Cuál de los cuatro principios para dibujar buenos gráficos se violan aquí? ¿Cómo se
violan?

R/ No se representan las magnitudes.

c. Vuelva a dibujar la figura usando el método más apropiado visto en clase. ¿Qué tipo
de gráfico ha utilizado?

70

65

60

55

50
IMC

45

40

35

30

25
1994 1996 1998 2000 2002 2004 2006
Año
R/

Gráfico de dispersión

8. Considerando los tres principios de un diseño experimental (replicación,


aleatorización y control del error experimental), estructure una investigación cuyo tema
gire en torno a la enfermedad por coronavirus COVID 19.
R/ Se pretende realizar un estudio para determinar la hipótesis que las personas
fumadoras tienen menor probabilidad de ser contagiadas por el nuevo coronavirus
COVID 19. para esto se seleccionarán 800 personas contagiadas al azar, 400 mujeres y
400 hombres, entre los 30 y 60 años en Colombia, Ecuador y Perú. A cada persona
contagiada se le encuestará sobre si es fumador activo o no. Adicionalmente a las
personas fumadoras se les encuestará sobre cuantos cigarrillos fuma al día, esto para
ver si hay una relación con el número de cigarrillos fumados y la probabilidad de
contagio del coronavirus y si ha tenido enfermedades relacionadas con los pulmones
para descartar que el contagio se halla dado por debilidad en los pulmones. Para el
análisis de los resultados se construirá una tabla de variables categóricas donde se tiene
a cada persona encuestada y si es fumador o no, se realizará una gráfica de barras donde
se visualice en el eje x la categoría de si es o no es fumador y en el eje y el porcentaje de
estos, para cada país, adicional para las personas fumadoras se construirá una tabla
donde se especifique cada persona fumadora contagiada y el número de cigarrillos
fumados al día, esto para ver si hay una relación entre el número de personas
contagiadas fumadoras y el numero de cigarrillos fumados al día,1-5, 6-10, 11-15, 15 en
adelante para esta tabla se realizará un gráfico de dispersión, para visualizar la relación
entre el numero de contagiados fumadores y el número de cigarrillos fumados al día.

9. Teniendo como telón de fondo las consecuencias del conflicto armado, el


desplazamiento forzado de personas y el abandono de tierras en el cambio de la
cobertura forestal en Colombia, diseñe un experimento que le permita explicar desde un
punto de vista estadístico el impacto generado a la clase dirigente que corresponda.
Puede hacer uso de gráficas, tablas 4 (ambas diseñadas por usted) para llegar a una
mayor (y mejor) comprensión por las instancias que han de tomar decisiones. (Caso
inspirado en la historia de Florence Nightingale).

R/ La pérdida de la cobertura vegetal es un grave problema que sufren nuestros


ecosistemas producto de múltiples factores como la expansión agrícola y problemas
sociales como los generados por la violencia. En el siguiente estudio se pretende realizar
un análisis sobre las acciones que conllevan a la pérdida de la cobertura vegetal más
acelerada y con peores consecuencias, con el objetivo de mostrar a la clase dirigente
cuales acciones provocadas por el hombre son mas perjudiciales para los ecosistemas y
hacia las cuales deberían de prestar mayor atención para generar propuestas
encaminadas a la prevención y mitigación de los ecosistemas más vulnerables y más
afectados. Para esto se pretende realizar un análisis espacial y temporal de las regiones
en donde se ha extendido la frontera agrícola y las regiones que han sido mas afectadas
por la violencia, en un periodo de tiempo determinado en cada región con diferente
problemática. Se analizará por medio de mapas que tanta cobertura vegetal en hectáreas
se ha perdido en el tiempo, se sumaran las hectáreas de cobertura vegetal perdida de las
regiones que presentan la misma problemática (violencia o agricultura). Con los datos
obtenidos se construirá una tabla donde se especifique número de regiones con violencia
y numero de regiones con expansión agrícola, número de hectáreas que han perdido la
cobertura vegetal. Con lo datos anteriores se construirá un gráfico para mostrarle a la
clase dirigente que problemática ocasiona mayor pérdida de la cobertura vegetal.

Problemátic Hectáreas
Región a perdidas
1 Agricultura 108
2 Agricultura 425
3 Agricultura 522
4 Agricultura 525
5 Agricultura 652
6 Agricultura 21
7 Agricultura 263
8 Agricultura 452
9 Agricultura 785
10 Agricultura 985
11 Violencia 569
12 Violencia 968
13 Violencia 895
14 Violencia 1150
15 Violencia 256
16 Violencia 896
17 Violencia 489
18 Violencia 956
19 Violencia 758
20 Violencia 691
Total, hectáreas perdidas 12366
10000%
9000%
% de covertura vegetal perdida
8000%
7000%
6168.00%
6000%
5000%
3831.40%
4000%
3000%
2000%
1000%
0%
Agricultura Violencia
Problemática

También podría gustarte