Está en la página 1de 13

UNIVERSIDAD

NACIONAL MAYOR
DE SAN MARCOS

Universidad Nacional Mayor de San Marcos


Facultad de Ing. Geológica, Minera, Metalúrgica, Geográfica y Civil

ESCUELA ACADEMICO PROFESIONAL DE METALUGICA

BIOESTADISTICA

Profesor del curso:

 ARIAS ARCE VLADIMIR ALEJANDRO

Alumno:
Maldonado Llacsahuanga Jesus Glenn

2019

Lima, 23 de Junio
INTRODUCCION
La Bioestadística es una rama de la Estadística que se ocupa de problemas planteados dentro
de las Ciencias Biológicas como es la Agronomía. Debido a que las cuestiones a investigar,
cuando se trabaja con personas, animales, plantas u otros organismos vivos, son de naturaleza
muy variada, la Bioestadística es una disciplina en constante desarrollo. Incluye no sólo el
análisis estadístico de datos biológicos sino también el uso de numerosos procedimientos o
algoritmos de cálculo y computación para el análisis de patrones y la construcción de modelos
que permitan describir y analizar procesos de naturaleza aleatoria. Se dice que un fenómeno
es de naturaleza aleatoria cuando los resultados del mismo no se pueden predecir con
exactitud. Es decir, cuando la respuesta observada puede tener una componente de error de
manera tal que respuestas observadas sobre distintos casos individuales, del conjunto de casos
en estudio, pueden ser distintas o pueden variar.
BIOESTADISTICA

Definiciones
La estadística se ocupa de los métodos y procedimientos para recoger, clasificar,
resumir, y analizar los datos, así como de realizar inferencias a partir de ellos, con la
finalidad de ayudar a la toma de decisiones.
Bioestadística: Aplicación de la estadística a los procesos biológicos, incluyendo los de
salud.
Clasificación
ESTADÍSTICA DESCRIPTIVA: Aquellos métodos que incluyen la recolección,
presentación y caracterización de un conjunto de datos obtenidos al azar, con el
fin de describir apropiadamente las diversas características que tienen :
 Univariante: Tabla de frecuencias, índices de tendencia central o de
posición, dispersión y representaciones gráficas.
 Bivariante: índices de comparación y representaciones gráficas.
ESTADÍSTICA INFERENCIAL: A partir de los datos observables (reales) y utilizando las
leyes de probabilidades extrapolamos los resultados obtenidos en la muestra a la
población con una cierta confianza (se utiliza la teoría de la probabilidad).

Conceptos básicos
Individuo: Unidad de análisis (personas, animales, cosas, células, etc.)
Constante: Características comunes a todos los individuos que son objetos de estudio
Variable: Características observables que varían en los diferentes individuos de la
población.
Población: Conjunto de individuos que son objeto de nuestro interés y a lo que va
dirigido el estudio. Es muy importante tener claro cuál es la población a la que
va dirigido nuestro estudio. En algunos casos no podemos, acceder a toda la
población.
Muestra: Subconjunto de individuos que seleccionan que seleccionamos, de la
población definida, para el estudio.
Carácter: Características del individuo que observamos en el estudio.
Muestreo probabilístico:
Todos los individuos tienen las mismas probabilidades de salir.
No probabilísticos: Se escogen los individuos por conveniencia

Variable: Característica de interés sobre cada individuo de una población (nivel de


ansiedad, edad, peso, altura, curso, etc.). En ciencias de la salud, la mayoría de
las variables se nombran y no necesitan explicación. (por ejemplo, las variables de
edad, altura, glucosa, colesterol, etc. Todo el mundo las interpreta de la misma
manera. En ocasiones es necesarios añadir una explicación sobre el término
empleado con la variable así como con las categorías. (por ejemplo la variable
bebedor ha de ir acompañada de una descripción en la que quede claro la cantidad
de alcohol que ha de consumirse para considerar que una persona es bebedora. Así
mismo la categoría sí, no.
Cuando construimos una variable, se han de cumplir los principios de:
Exclusividad: Una observación sólo puede clasificarse en términos de un único
atributo. Exhaustividad: Ninguna observación puede quedar sin clasificarse.
Podemos resumir ambos principios en el lema "categorías para todos y cada caso en
una sola categoría". El cumplimiento de estos principios es lo que hace posible
la medición.
Dato: Valor de la variable asociada a un individuo de una población o muestra (Jordi
Pujol, nivel de ansiedad bajo, 20 años, 80 kg, 175 cm, 2n curso, etc.)
Experimento: Actividad planeada cuyos resultados producen un conjunto de datos
(selección de la muestra, métodos para recoger nivel de ansiedad mediante el
cuestionario, etc.)
Estadístico: Valor numérico que resume todos los datos de una muestra (nivel de
ansiedad promedio de los estudiantes de enfermería en la muestra de estudiantes).
Parámetro: Valor numérico que resume todos los datos de una población completa
(nivel de ansiedad promedio de los estudiantes de enfermería de Cataluña).
Constante: Una constante es un valor fijo, aunque a veces no determinado.
Variables cuantitativas: Pueden tomar cualquier valor de la recta real. Se pueden
medir y realizar operaciones algebraicas.
Discretas: entre dos valores consecutivos no existen valores intermedios (ejemplo
número de caries, número de hijos, número de intervenciones..)
Continuas: Entre dos valores consecutivos existen infinitos valores (ejemplo: altura,
peso...)
Variables cualitativas: Se refieren a características o cualidades que no pueden ser
medidas numéricamente. Se pueden distinguir dos tipos:

 Nominal: Los valores no se pueden medir ni ordenar. Se nombran y se clasifican en


categorías.

 Ordinales: Los valores se pueden ordenar pero no medir (por ejemplo: nivel de
educación (doctorado, máster, postgrado, grado...), resultado de pauta terapéutica
(empeora, sin cambios, mejoran, remisión...)
Toda variable cuantitativa se puede medir de forma categórica pero no al revés
(ejemplo: la edad la podemos categorizar pero no el tipo de enfermedad).

Método estadístico:
Plantear hipótesis--->Diseñar experimentos--->Recoger datos y analizarlos--->Obtener conclusiones

Población y muestra

En la obtención de los datos hay varios aspectos a considerar por lo que el investigador debe
planificar su estudio de manera tal que con los datos que obtenga, y un adecuado análisis,
logre información relevante para sus objetivos.

Relevante se refiere a aquella información que permite elaborar conclusiones, que aportan
conocimiento, que respondan una pregunta de investigación o que resuelvan un problema de
interés. Usualmente las preguntas están referidas a una o más variables de un conjunto de
unidades de estudio que se denomina población. Para que la pregunta quede mejor definida,
la población deberá estar acotada en el tiempo y el espacio.

Técnicas de muestreo

Hay numerosos métodos de muestreo probabilístico y la elección del mismo depende de


características de la población a muestrear. Entre los más usados se encuentran el muestreo
aleatorio simple, el muestreo estratificado, el muestreo sistemático y el muestreo por
conglomerados.

Muestreo aleatorio simple (MAS)

El muestreo aleatorio simple se lleva a cabo de manera tal que todas las unidades que
componen la población tengan igual probabilidad de ser elegidas para conformar una muestra.
Este muestreo puede hacerse con o sin reposición. Sin reposición: Una unidad seleccionada no
es devuelta a la población hasta que no se hayan elegido todos los elementos que
conformarán esa muestra. Por lo tanto no puede ser nuevamente elegida para formar la
muestra. Con reposición: Una unidad seleccionada es devuelta a la población y por lo tanto
puede ser nuevamente elegida para formar una misma muestra.

Muestreo aleatorio estratificado

En este muestreo se reconoce a priori que la población en estudio se divide en diferentes


estratos, o grupos, de unidades de análisis. Los estratos son formados de modo que la
variabilidad dentro de un estrato sea menor a la variabilidad entre estratos, para una
covariable o factor que puede modificar la respuesta de interés. Por ejemplo, si la variable de
interés es la adopción de tecnología, la cual puede ser influenciada por el tipo de productor,
primero los productores se estratificarán según su tipo y luego en cada estrato las unidades de
análisis se eligen usando un MAS. Este muestreo puede ser más conveniente que el basado en
la elección de una muestra aletoria de personas, ya que un estrato podría estar representado
en exceso y otro estrato estar ausente en la muestra.

Muestreo por conglomerados

En este muestreo se reconoce a priori que la población está conformada por un conjunto de
conglomerados o aglomerados. Los conglomerados son grupos de unidades de análisis
heterogéneas de modo que cada conglomerado pueda representar a la población. Es decir la
mayor variabilidad se produce entre unidades de un mismo conglomerado y no entre
conglomerados. Conformados los conglomerados, se selecciona una muestra aleatoria de los
mismos y dentro de cada uno de ellos se observan todas las unidades que lo componen
(censo). Por ejemplo supongamos un estudio socio-demográfico donde se quiere estimar la
conformación de la pirámide poblacional etaria de una comunidad rural y se tiene un listado
de las personas y familias u hogares en las que viven. Conviene seleccionar una muestra
aleatoria de hogares y registrar la edad de sus integrantes, más que seleccionar una muestra
de personas individuales en vez de hogares para así evitar un exceso de niños o adultos
mayores en la muestra.

Muestreo sistemático

En este muestreo se establece una regla para la forma en que se eligen las unidades de
análisis. La regla hace referencia a la cantidad de unidades que no serán elegidas pero que se
presentan entre dos unidades que serán seleccionadas. El muestreo comienza eligiendo al azar
una unidad de análisis y a partir de dicha elección habrá k unidades disponibles que no se
seleccionarán. De este modo, las unidades que conforman la muestra son elegidas cada k
unidades. El procedimiento suele ser usado para el monitoreo de plagas en un cultivo. Si la
unidad de muestreo es un metro lineal de surco el muestreo sistemático de k pasos igual a 80
permitirá identificar las unidades de muestreo sobre las que se harán las mediciones. Se
comienza desde un punto elegido al azar dentro del lote y cada 80 pasos se registran las
observaciones en un metro lineal de surco.

Estadística descriptiva

Generalmente, y sobre todo cuando se cuenta con importante cantidad de datos, es necesario
comenzar el análisis estadístico con un proceso de exploración o minería de datos. En la etapa
exploratoria se utilizan métodos para estudiar la distribución de los valores de cada variable y
las posibles relaciones entre variables, cuando existen dos o más características relevadas. La
idea es poder visualizar el comportamiento de las variables a través del uso de tablas, gráficos
y medidas de resumen. Éstas son las principales herramientas de la Estadística Descriptiva y se
aplican casi indistintamente según se tengan los datos de toda la población o de una muestra.
Aunque, como se dijera anteriormente, lo más usual en Bioestadística es analizar una muestra
ya que la mayoría de las poblaciones de interés son de tamaño prácticamente infinito. La
adecuada obtención y organización de los datos, son el punto de partida de cualquier análisis
estadístico. Por eso es importante contar con registros adecuados, datos de calidad o con poco
error de medición, y bien sistematizados en bases de datos que se puedan procesar
fácilmente.

Frecuencias y distribuciones de frecuencias

Las frecuencias asociadas a valores o rango de valores de una variable indican la cantidad de
veces que el valor fue observado en el conjunto de unidades en análisis. Las frecuencias sirven
para conocer cómo se distribuyen los datos o valores de la variable, permitiendo aproximar la
distribución de frecuencias a alguna función o modelo teórico para posteriores análisis y
cálculos probabilísticos. Analizando las frecuencias es factible identificar datos extremos (es
decir poco frecuentes por ser muy pequeños o muy grandes), y valores, o conjuntos de
valores, que aparecen con mayor frecuencia. Las frecuencias en que se presentan los valores
de una variable se pueden tabular o graficar.

Gráficos de distribuciones de frecuencias

Las frecuencias de variables discretas se grafican utilizando gráficos de barras. En el eje X se


representan los valores de la variable y en el eje Y, la frecuencia. Cada barra se levanta sobre
un punto del eje X que representa un valor de la misma y la altura de la barra señala la
frecuencia para dicho valor.
Modelos probabilísticos

Variables aleatorias continuas

Una forma de seleccionar un modelo probabilístico para una variable aleatoria continua
consiste en obtener un histograma de frecuencias absolutas o relativas y observar cuál de los
modelos teóricos disponibles para variables continuas se presentan 4 diferentes histogramas
de frecuencias relativas a los que se les ha superpuesto un modelo teórico: Chi-Cuadrado,
Normal, Exponencial y Uniforme . Podemos observar que en todos los casos el modelo que se
propone ajusta razonablemente bien la forma del histograma. En esta sección se presentará y
se darán ejemplos de la distribución Normal o Gaussiana. Más adelante se presentarán otras
distribuciones para variables aleatorias continuas, como son la distribución t de Student, Chi
Cuadrado y F de Fisher. Existe una amplia gama de modelos teóricos para ajustar funciones de
densidad. No obstante, uno de los más usados es el modelo Normal.

Distribución Normal

Esta distribución de frecuencias para variables aleatorias continuas es la más usada en las
ciencias biológicas, agronómicas, forestales, etc. ya que se puede ajustar a distribuciones de
frecuencias de muchas variables morfométricas como el peso y la altura de seres humanos o
animales, el largo de sus brazos, el diámetro de su cabeza, y también de procesos productivos
como el rendimiento en grano, o el rendimiento en materia seca de una forrajera, etc

Distribución de estadísticos muéstrales:

A este proceso inductivo se lo denomina Inferencia Estadística.

La Inferencia Estadística hace referencia a un conjunto de procedimientos que, mediante el


uso de estadísticos muestrales, permiten elaborar conclusiones sobre parámetros
poblacionales desconocidos. Conocer o estimar a un parámetro de la distribución de una
variable es posible a través de un estadístico. Dado que un estadístico será obtenido a partir de
una muestra, es claro imaginar que hay más de una muestra posible de ser elegida y que
entonces el valor del estadístico dependerá de la muestra seleccionada. Los valores de los
estadísticos cambian de una muestra a otra. Interesa entonces tener una medida de estos
cambios para cuantificar la medida del error en el que podría incurrirse al hacer una inferencia.
Error estándar

El error estándar es la raíz cuadrada de la varianza del estimador y la expresión para calcularlo
es propia de cada estimador.

Intervalo de confianza

Otra forma de reportar la incertidumbre de una estimación es dando un intervalo de confianza


para el parámetro que se quiere estimar. Estos intervalos tienen una probabilidad diseñada de
contener al verdadero valor del parámetro. Esta probabilidad se fija usualmente en 0,95 o
superior. Intervalos de menor confianza, como por ejemplo 0,90 o 0,80 son admisibles, aunque
en estos casos es conveniente dar alguna explicación que justifique su utilización. La
probabilidad de un intervalo de confianza corresponde a la probabilidad de que el intervalo
contenga al verdadero valor del parámetro. Sin embargo, para una muestra particular, una vez
que los límites se han calculado, asignar una probabilidad al intervalo obtenido no es más
aplicable (ya que no es más un intervalo de límites aleatorios) y por ello se dice que el intervalo
tiene una confianza del p%, donde p es la probabilidad diseñada.

Regresión lineal múltiple

El modelo de regresión múltiple es una generalización del modelo lineal simple. Aparece en
distintos contextos, todos caracterizados por la presencia de más de una regresora.

Regresión polinómica

La regresión polinómica puede basarse en una o más variables regresoras. Abordaremos su


presentación con el caso de una regresora. El modelo de regresión polinómica requiere la
especificación del grado del polinomio que quiere ajustarse. Así si el polinomio es de grado 2, y
la variable regresora la representamos por X

Análisis de regresión

Aunque no pude tomarse como regla, lo usual es no superar el grado 3 ya que de otra forma el
modelo resultante no estará capturando lo esencial de la relación entre variable dependiente y
regresora sino también el error experimental. Luego los modelos sobre ajustado a los datos
carecen de la aplicabilidad a condiciones más generales que el investigador trata de encontrar
mediante un experimento.
Optimización de la disolución de arsénico
Los resultados de la biolixiviación de arsénico, para las ocho corridas experimentales se
muestran el la Figura 29. En esta gráfica se observa una gran variabilidad entre las corridas,
esto indica que existen diferencias significativas en el efecto de algunos de los factores
considerados en este estudio.

Para evaluar estadísticamente los efectos de los factores, se ajustó un modelo de regresión
lineal múltiple a los datos de lixiviación de arsénico. Los siete factores en estudio se
consideraron como variables indicadoras y se les asignó un valor de 0 (cero) al nivel bajo y un
valor de 1 al nivel alto de cada factor. El tiempo en días es la única variable cuantitativa en el
modelo.
En esta tabla puede verse que con excepción de las cepas de At. ferrooxidans utilizadas en el
experimento, todos los demás factores resultaron altamente significativos en lo que respecta a
su influencia en la disolución de arsénico. En la siguiente Figura (30) puede verse el efecto de
los factores considerados:

El modelo resultante es el siguiente: Arsénico = 52.0 - 66.3 Densidad de la pulpa - 32.6 Área
superficial - 21.1 Cloruro férrico - 12.5 Bióxido de carbono + 29.3 Aire + 29.3 Medio 9K + 3.00
Cepa + 3.94 Días. Con un coeficiente de determinación R2 = 0.834 Los valores negativos en los
coeficientes del modelo indican una pendiente negativa en el efecto del factor y por lo tanto,
para maximizar la lixiviación de arsénico, estos factores se deben establecer en su nivel bajo,
en el cual se les 54 asignó un valor de cero. De esta manera, la combinación de los niveles de
los factores que maximizan la biolixiviación de arsénico es la siguiente: Densidad de la pulpa:
10%; Área superficial: Nivel Bajo; Cloruro férrico: No adicionar; Bióxido de carbono: No
adicionar; Aire: Adicionar; Medio 9K: adicionar; Cepa: Cualquiera de las dos
Como puede verse en la Figura 29, la Corrida 1 genera la concentración más alta de arsénico
en el lixiviado (aprox. 200 mg/l). El patrón gráfico de la lixiviación de arsénico para esta corrida
muestra algunas características que son potencialmente adecuadas para la utilización de esta
combinación de factores con el propósito que se persigue: no presenta período de adaptación;
tiene una pendiente muy pronunciada; y alcanza la estabilidad en un período muy corto
(cuatro días), con respecto a las demás corridas. La combinación de los niveles de los factores
establecidos para esta corrida se presenta en la Tabla 5 y coincide con la combinación
requerida para maximizar la lixiviación determinada en el párrafo anterior. Los datos de esta
corrida se ajustaron a un modelo de regresión lineal polinómica de tercer orden y se estableció
un intervalo de confianza del 95% para el modelo obtenido (Figura 31). Con excepción de uno,
el intervalo no incluye puntos de otras corridas, esto es evidencia concreta de que esta corrida
presenta diferencias altamente significativas con respecto a las demás, en lo que se refiere a la
lixiviación de arsénico El modelo para esta corrida es el siguiente:

Arsénico=100.16+11.487 Días – 0.4705 Días 2+0.006 Días 3


Conun coeficiente de determinación R 2=0.6585

A pesar de las características convenientes que presenta la Corrida 1, el porcentaje de arsénico


biolixiviado sigue siendo bajo. El establecimiento de las condiciones adecuadas que
promuevan la disolución de arsénico durante la biolixiviación, es clave para mejorar el
rendimiento en la remoción de este elemento. Se requiere de futuros estudios adicionales que
consideren otros factores, no incluidos en este trabajo, que tengan influencia específica sobre
la lixiviación del arsénico.

Factores a Analizar:

 Efecto de la densidad de la pulpa

 Efecto del área superficial

 Efecto del bióxido de carbono


 Efecto del aire

 Efecto de la adición de medio 9K

 Efecto de la cepa utilizada

HERRAMIENTAS DE SOFTWARE de bioestadística

 SAS® 8.2 y 9.1 para análisis estadisticos

 PROC StatXact® 6.2 procesamiento de datos

 Sigmaplot para creación de macros e informes estadísticos

 software para el cálculo de tamaños muestrales (nQuery Advisor®, PASS®, Data


TreeAge®)

También podría gustarte