Está en la página 1de 6

Biometría 2024 FCEN - UBA

TRABAJO PRÁCTICO Nº 1
MANEJO DE DATOS Y ESTADÍSTICA DESCRIPTIVA

Objetivos generales del TP 1


Que los alumnos y alumnas puedan:
● Comprender que a partir de una población se pueden extraer diversas muestras diferentes.
● Comprender que a partir de las muestras no se llega a conocer los parámetros poblacionales.
● Reconocer distintos tipos de variables.
● Clasificar un estudio de acuerdo con su tipo (manipulativo u observacional).
● Comprender los conceptos de muestra, unidad experimental u observacional, observación
individual y réplica.
● Comprender qué información proporcionan los distintos estadísticos, cómo se calculan y
determinar cuáles son sus fortalezas y debilidades.
● Determinar cuál es el estadístico adecuado para responder a un determinado objetivo según el
tipo de datos.
● Construir el tipo de gráfico adecuado según la variable que se desea describir.
● Interpretar histogramas, gráficos de barras y boxplots.
● Describir gráficamente cómo covarían dos variables cuantitativas.

Problema 1. Descarguen del campus virtual el archivo “Script_TP1_talas.R” y realicen la actividad


propuesta. A continuación, se presenta el contexto biológico de dicha actividad:
Los talares bonaerenses constituyen el principal bosque nativo de la provincia de Buenos Aires.
Sin embargo, se encuentran en continua reducción, y su superficie actual es mucho menor que la
original. Esta última se extendía desde el norte de la provincia de Buenos Aires en una estrecha
franja costera que llegaba hasta Mar del Plata. La zona mencionada es la más poblada de
Argentina, y con el crecimiento de las ciudades, los talares han desaparecido casi totalmente.
Con el objetivo de tomar medidas adecuadas de manejo para evitar su desaparición total, se hace
necesario contar con una estimación del estado actual de los remanentes de talar que todavía
perduran.
En este problema, simularemos la extracción de muestras aleatorias de tamaño “n” a partir de una
población de 500 talas (Celtis tala) de la reserva "El Destino" en el partido de Magdalena.

Problema 2. Este problema forma parte de las TAREAS OBLIGATORIAS que deben responderse
a través del campus
Definir las variables aleatorias que permitan estudiar las siguientes situaciones e indicar la unidad
experimental, la población y la población estadística.
2.1- Se quiere estudiar la hipótesis de que el tamaño del caparazón de ejemplares de tortuga
Testudo chilensis de La Pampa es isométrico. Para ello, se estudia la relación entre el ancho y el
alto del caparazón.
2.2.- Un entomólogo está interesado en estimar la cantidad de especímenes deteriorados en cajas
entomológicas con cinco ejemplares cada una, ubicadas en el Museo Argentino de Ciencias
Naturales Bernardino Rivadavia.
2.3.- En el Partido de Exaltación de la Cruz, Provincia de Buenos Aires, se desea estimar la
cantidad de gallinas parasitadas por granja.

1
Biometría 2024 FCEN - UBA

2.4.- Para una campaña publicitaria en la Provincia de Buenos Aires, se está interesado en estudiar
la relación entre el hábito de fumar (no fumador, ex fumador o fumador) y el haber tenido infarto de
miocardio en individuos mayores de 50 años.
2.5.- Para un estudio genético realizado en el Laboratorio de Genética de la FCEN, se desea
comparar la fecundidad de dos cepas de Drosophila melanogaster. Se registra la cantidad de
huevos depositados por hembra en un grupo de 50 hembras, de las cuales 25 pertenecen a una
cepa (SS) y 25 a otra (NS) de Drosophila melanogaster.
2.6.- Para un estudio nutricional, se quiere comparar el efecto de tres dietas con distinto
suplemento proteico sobre la ganancia de peso en cerdos de la raza A.

Problema 3. La araucaria o pehuén (Araucaria araucana) es una especie arbórea endémica de los
bosques del extremo noroeste de la Patagonia argentina y chilena, distribuida en zonas muy
restringidas de la cordillera de los Andes. Es una especie de alto valor de conservación en ambos
países y desde 2001 se encuentra incluida en el listado de CITES (Convención Internacional de
Tráfico de Especies Silvestres), principalmente debido a la disminución de su área de distribución.
Se realizaron ensayos prospectivos en laboratorio con el fin de evaluar la capacidad germinativa de
semillas colectadas en la localidad de Caviahue (Neuquén). Para ello, se sembraron las semillas en
bandejas con solo seis lugares (una semilla por lugar) usando un suelo de tipo arcilloso como
sustrato. Al cabo de un tiempo se tomó una muestra aleatoria de 50 bandejas y se contó la
cantidad de semillas germinadas por bandeja con los siguientes resultados:

1 3 2 0 5 1 5 2 5 3
2 4 3 1 2 3 4 0 2 3
6 3 4 3 6 4 3 2 1 4
4 3 3 3 1 5 4 3 2 5
0 6 5 3 6 3 2 4 3 4

3.1.- Indicar la variable aleatoria y clasificarla, la unidad experimental, la observación, la muestra, la


muestra estadística, la población y la población estadística.
3.2.- Construir una base de datos que permita analizar estas observaciones en R. Ayuda: En Excel,
disponer los datos en una columna. Escribir un encabezado (p.ej. semillas). Ir a “Archivo” y
seleccionar la opción “Guardar como…”. En el cuadro desplegable seleccionar la opción: Texto
(delimitado por tabulaciones) (con la que tendrá extensión .txt) o CSV (delimitado por comas), (con
la que tendrá extensión .csv). Ambos formatos pueden ser leídos desde R.
3.3.- Agrupar los datos en una tabla de frecuencias.¿Qué número de semillas germinadas fue el
más frecuente? ¿Qué nombre recibe dicho estadístico?
3.4.- ¿En qué porcentaje de bandejas germinaron a lo sumo 2 semillas? ¿Y en qué porcentaje
germinó alguna semilla?
3.5- Señalar a través de un gráfico la forma de la distribución de esta variable (tipo de simetría).
Luego, en un polígono de frecuencias acumuladas señalar el P75 e interpretar el valor obtenido.
3.6.- ¿Cuál será el número medio de semillas germinadas por bandeja y su desvío estándar?
3.7.- Indicar bajo qué valor de la variable se encuentra el 30% de las observaciones. ¿Qué nombre
recibe ese estadístico?

2
Biometría 2024 FCEN - UBA

Problema 4. (Este problema es complementario de la Tarea del TP 0) Se diseñó un estudio para


correlacionar el cambio estacional de testosterona con el ciclo reproductivo en lagartos del género
Tupinambis que habitan en Santiago del Estero. Sabiendo que el período reproductivo abarca la
primavera y el verano, se realizaron muestreos en los meses de mayo y octubre. A cada lagarto
macho capturado se le extrajo sangre y se le midió el contenido de testosterona en plasma (en
nanogramos por mililitro). Los datos registrados fueron guardados en el archivo
“BD_Tupinambis.csv”
Para ambos conjuntos de datos:
4.1.- A través de tablas y gráficos que consideren adecuados, indicar el tipo de simetría de la
distribución de la concentración de testosterona en sangre para ambos meses.
4.2.- En un polígono de frecuencias acumuladas relativas, indicar en qué intervalo se encuentra el
Q3 e interpretar dicho valor
4.3.- Utilizando gráficos y estadísticos de tendencia central y de dispersión, comparar la
concentración de testosterona en ambos meses. ¿En cuál de ellos son más variables los niveles de
testosterona?

Problema 5. En una investigación publicada en una revista de la Asociación Médica


Norteamericana del año 1932 se incluyó la siguiente tabla que registra la cantidad de casos de
carcinoma de cuello de útero clasificados por edad del paciente:
Edad 22-30 30-35 35-40 40-55 55-60 60-70 70-90
(años)
Nº de 18 45 79 225 63 45 13
casos

5.1.- Definir la variable aleatoria, la unidad experimental y especular cuál podría ser la población.
5.2.- La siguiente figura muestra un histograma común y un histograma de áreas donde la
frecuencia ha sido representada como el número de casos por año de edad para cada intervalo.

Interpretar la información que proporciona la ordenada en cada caso. ¿Cuál de los dos tipos de
histograma representa más adecuadamente la información entregada? Justificar.

Problema 6. A un investigador le piden que calcule la tasa global de fecundidad promedio en la


Ciudad de Buenos Aires y en la Provincia de Buenos Aires. Basándose en la siguiente información,
obtuvo un valor de 1,6 hijos por mujer. ¿Estás de acuerdo con dicho valor? Justificá tu respuesta.

3
Biometría 2024 FCEN - UBA

Total de mujeres mayores Tasa global de fecundidad


Jurisdicción
de 14 años (hijos por mujer)
Ciudad de Buenos Aires 1.311.472 1,3
Buenos Aires 6.189.026 1,9
Fuente. INDEC, Censo nacional de población hogar y vivienda 2010.

Problema 7. Los pozos frecuentemente son la única fuente de agua para la población humana en
extensas zonas del Gran Buenos Aires (GBA). Los microorganismos, incluidos bacterias, virus,
hongos y parásitos, pueden contaminar el agua subterránea que abastece los pozos, siendo su
principal origen la materia fecal de aguas residuales procedente de seres humanos y animales. La
forma más habitual de detectar contaminación por heces es a través de la detección de bacterias
coliformes en el agua del pozo. El Código Alimentario Argentino ha establecido que aguas con a lo
sumo 3 bacterias coliformes en 100 ml serán aptas para el consumo humano. En una localidad del
GBA que carece de agua corriente se determinó la cantidad de bacterias coliformes en muestras de
100 ml de agua extraída de pozos para uso doméstico. Los resultados se encuentran en el archivo
“BD_bacterias.txt”.
7.1.- Definir la variable, clasificarla, determinar cuál es la unidad experimental y si se trata de una
muestra o de una población. Justificar la respuesta. A través de una tabla de frecuencias y un
gráfico, señalar la forma de la distribución de la variable de interés.
7.2.- Detectar qué porcentaje de pozos en esta localidad no estará apto para el consumo humano.
7.3.- Determinar cuál es el promedio de bacterias coliformes en los pozos con agua potable. Indicar
el promedio en los no potables y el promedio general. Ayuda: para realizar los cálculos hay que
dividir la base de datos en dos grupos: ≤3 colonias y >3 colonias. En R se puede usar la función
“subset()”, que permite una selección del objeto (vector, matriz, data.frame) indicado según un
determinado criterio. Por ejemplo, “subset(Data,colonias > 3)” selecciona las observaciones
cuyo número de colonias es mayor a 3. Más información en:
https://www.statmethods.net/management/subset.html
7.4.- Determinar en qué tipo de pozo (potable/no potable) la cantidad de bacterias/100 ml es más
homogénea.
7.5.- Identificar cuál es la cantidad de bacterias/100 ml más frecuente.
7.6.- Determinar el tipo de asimetría de la distribución.

Problema 8. En una empresa hay 600 empleados que cobran $350.000; 400 que cobran $450.000;
100 que perciben $800.000 y los 5 gerentes que perciben $5.000.000 cada uno. Calcular la media,
la mediana y la moda. Discutir qué estadístico estima mejor cuánto cobran en general los
empleados de la empresa.

Problema 9. Dentro del manejo de un relleno sanitario es necesario monitorear múltiples variables,
entre ellas la calidad de los líquidos lixiviados, dado que los mismos constituyen una potencial
fuente de contaminación del suelo y el agua. Conocer sus características físicas y químicas resulta
relevante para determinar el tipo de tratamiento a efectuarles. Se tomaron muestras de líquido
lixiviado de diferentes módulos de un relleno sanitario y entre otras variables se determinó su
conductividad específica (S/cm). Nota: los módulos constituyen unidades operativas independientes
de un relleno sanitario. Los resultados se encuentran en el archivo “BD_conductividad.txt”.
9.1.- Definir y clasificar la variable.
9.2,- ¿A qué población representa la muestra?
Biometría 2024 FCEN - UBA

9.3.- Identificar, a través del gráfico que considere más adecuado, si existen datos atípicos.
9.4.- Señalar a través de un gráfico la forma de la distribución de esta variable y calcular los
estadísticos de tendencia central en el conjunto de datos originales y eliminando el o los datos
atípicos si los hubiera. Interpretar en contexto los valores obtenidos. ¿Cuál representaría mejor las
observaciones en cada caso? Justificar.
9.5.- Del 30% de las observaciones de menor conductividad, ¿cuál es el valor máximo aproximado
de conductividad?

MÁS PROBLEMAS PARA PENSAR


(NO HACE FALTA COMPUTADORA)

Problema 10. Como parte de un estudio para comparar la variabilidad del peso de semillas de
cierta especie vegetal en un hábitat restringido con el de otra especie caracterizada por sobrevivir
en un amplio rango de ambientes, se obtuvieron los siguientes datos:

Hábitat restringido Hábitat variable


Media 60 g 15 g
Varianza 9,06 g2 8,29 g2
Tamaño muestral 536 342
¿Son las dos muestras igualmente variables? Justificar.

Problema 11. Para la determinación de DDT en muestras de zumo de fruta, se realizó un


experimento en colaboración entre laboratorios. Para ello, se envió una muestra estándar
conteniendo 42 ppm a 5 laboratorios (A-E). Cada laboratorio efectúo simultáneamente seis
determinaciones de la concentración de DDT (en ppm). Comentar la exactitud y precisión de cada
una de estas series de resultados.

A 42.5 41.6 42.1 41.9 41.1 42.2


B 39.8 43.6 42.1 40.1 43.9 41.9
C 43.5 42.8 43.8 43.1 42.7 43.3
D 35.0 43.0 37.1 40.5 36.8 42.2
E 42.2 41.6 42.0 41.8 42.6 39.0

Problema 12. En un experimento con Drosophila melanogaster se extraen al azar 50 de estas


moscas de una caja experimental. A cada una de las moscas se le determina el sexo, el genotipo
(AA, Aa, aa) con respecto a un determinado carácter y se le mide la longitud del ala y del cuerpo.
12.1.- Definir la unidad experimental y las variables relevadas. Clasificar las variables y decir qué
tipo de gráfico se debería utilizar para representar a cada una de ellas.
12.2.- Supongamos que se han observado las siguientes frecuencias:

Genotipo AA Aa aa
Machos 6 11 5
Hembras 7 13 8

2
Biometría 2024 FCEN - UBA

12.2.1.- Graficar los diagramas de barras para: i) los tres genotipos de machos; ii) los tres
genotipos de hembras; iii) los tres genotipos sin discriminación de sexo.
12.2.2.- ¿Qué conclusiones pueden sacarse de la observación de los gráficos anteriores?
12.2.3.- ¿Se puede concluir a partir de esta muestra que en la población hay más hembras
que machos para cada uno de los genotipos?
12.2.4.- ¿Se puede concluir a partir de esta muestra que en la población lo más abundante es
hembras con genotipo Aa?

Problema 13. Un docente de Biometría tiene que corregir 20 exámenes. Como el primer ejercicio,
a pesar de ser sencillo, demanda demasiadas cuentas, decide no hacerlo y estima el resultado
verdadero a partir de los resultados de los 20 alumnos. ¿Qué estadístico de tendencia central
debería utilizar?

Problema 14. Analizar y discutir la afirmación "La Estadística enseña que: si Pedro se come dos
pollos y Juan ninguno, esto equivale a que coma un pollo cada uno". (Sugerencia: calcular la
desviación estándar en la situación en la que uno consume dos pollos y el otro ninguno, y
compararla con la situación en la cual ambos consumen un pollo).

Problema 15. Veinte personas adultas sanas de entre 30 y 40 años participaron en un estudio en
un centro asistencial para evaluar el efecto de cierto régimen de salud específico, que incluye dieta
y ejercicio, en los niveles de colesterol sanguíneo. Se seleccionaron 10 de estas personas de
manera aleatoria para el grupo control, mientras que las otras 10 fueron asignadas al grupo
tratamiento, durante un período de 6 meses. Los siguientes datos muestran la reducción en los
niveles de colesterol que experimentaron los 20 individuos en este período (en dg/ml). Los valores
positivos indican una disminución en el colesterol al final del ensayo, mientras que los valores
negativos indican un aumento del mismo.

Control 6 1 4 5 3 2 0 5 5 -1
Tratados 5 1 7 5 6 6 5 4 -37 7
15.1.- Para ambos conjuntos de datos, definir y clasificar la variable aleatoria, identificar la unidad
experimental, muestra(s) y población(es). ¿Se trata de un estudio experimental u observacional?
15.2.- Explicar por qué la diferencia entre las medias de ambos grupos sugiere una conclusión
acerca del efecto del régimen, mientras que la diferencia entre las medianas sugiere otra.

También podría gustarte