Está en la página 1de 142

Estadística e Investigación en

ciencias Médico-Biológicas
1. Conceptos básicos
2. Tipos de estudios y datos
Estadística e 3. Planificación estadística
4. Sistema de hipótesis
Investigación en ciencias
5. Gráficos y visualizacion
Médico-Biológicas
Las estadísticas de salud son todos aquellos datos numéricos debidamente
capturados, validados, elaborados analizados e interpretados que se
requieren para las acciones de salud

La estadística en salud depende de los datos y de su análisis, por lo tanto,


es esencial conocer la metodología para la correcta recolección de los
datos y comprender la estadística para un correcto análisis de éstos
Es cualquier número resumen de los elementos de una población.

Otra definición de Villarroel LA 2018, el parámetro es una función de los


datos calculada en la población
Es cualquier número resumen de una muestra. También se le puede llamar
parámetro estimado, que es el término correcto cuando se habla de un
número resumen que deriva de una muestra.

El estimador debiera cumplir con las propiedades de insesgamiento, que la


esperanza sea casi igual al valor observad
Es medir.

Lo observado es lo medido.

Las observaciones son las mediciones que se realizan en las unidades


muestrales.
Es el objeto con la característica de interés que será observado o que será
medido, pueden ser personas, cortes histológicos, crecimiento de colonias,
entre otros
Es cualquier característica que tome dos o más valores en una población
Son aquellos atributos que han sido medidos en un conjunto de individuos
de la población que conforman una muestra aleatoria y que no se puede
anticipar el resultado
observacional experimental
Descriptivos (sin grupos control):
• Reportes de caso
• Estudios de corte transversal
• Estudios poblacionales
Analíticos (con grupos control):
• estudios de casos controles
• Estudios de cohortes
• Pruebas diagnosticas
• Consiste en la descripción cuidadosa y detallada de casos clínicos

• De tal forma que, cuando el número de casos en estudio es igual o


inferior a 10, se habla de reporte de casos y cuando el número de
casos en estudio es superior a 10, se considera una serie de casos.
• Su característica fundamental es que todas las mediciones se hacen
en una sola ocasión, por lo que no existen períodos de seguimiento.

• De esta manera, no se puede distinguir si la exposición determinó el


desarrollo de la enfermedad o EI, o sólo afecta el nivel individual de la
exposición
• En estos estudios se miden dos o más variables, y se pretende
establecer si estas están o no relacionadas, además de medir el grado
de relación que existe entre ellas.

• Estos, utilizan datos de la población general para comparar


frecuencias de enfermedad o EI entre diferentes grupos durante un
mismo período de tiempo, o en una misma población en diferentes
períodos de tiempo
• Son estudios que se basan en la recopilación de datos ya generados,
por ende, de carácter retrospectivo.
• Permiten el análisis comparativo de un grupo de sujetos que han
desarrollado una enfermedad

Materola, 2018
• Una cohorte es un grupo de sujetos que se siguen en el tiempo
esperando la aparición de una enfermedad

• Son estudios en los que el investigador realiza una comparación entre


grupos de sujetos, buscando factores de riesgo que pudiesen
asociarse al desarrollo de la patología o enfermedad.
• Se realiza a partir de poblaciones de artículos ya publicados

• a RS se recopila la información generada por investigaciones clínicas


de un tema determinado, la cual, en ocasiones, es valorada de forma
matemática con un meta-análisis.
continuos
Cuantitativos
discretos
Datos
Binarios (Dicotomicos)
Cualitativos
Categóricos(Politomicos)
Cuando se escribe un proyecto de investigación, se diseña la metodología
del estudio y dentro de ésta, es indispensable diseñar la planificación
estadística.

Debe estar enfocada en cumplir cada uno de los objetivos específicos y el


objetivo general y con ello responder la pregunta de investigación.
La PE consiste en:
• Definir y diseñar el método de selección de la muestra, esto se llama
diseño muestral.
• Definir el número de elementos que conformará la muestra, esto se
llama cálculo de tamaño muestral.
• Definir las variables: El tipo variables, la escala de medición y la unidad
de medida si es que aplica.
• Plan de tabulación de la base de datos, descripción y análisis de la
información recolectada
La población así también llamada universo de estudio, es el conjunto total
de personas u objetos que tienen una característica en común de interés
para un estudio.

Muestra: Es un subconjunto de individuos o elementos de una población


definida que cumple con ciertas propiedades comunes.
Implica que, para que los resultados del estudio tengan validez interna y
externa, la muestra debe ser representativa de la población blanco.

Todos los subgrupos que componen la población blanco, debieran estar en


la muestra, respetando el peso proporcional o ponderado que cada uno
tiene en la población de estudio.
Es el número de individuos necesarios y seleccionados aleatoriamente,
que debe contener la muestra, para obtener estimaciones que
representen los valores reales del parámetro de la población de estudio.
Se asume que la población es homogénea y que todos los elementos de la
población tienen la misma probabilidad de elegidos en la muestra

Ventajas: desventajas:
• técnica sencilla • la muestra puede quedar
desequilibrad
Este diseño muestral tiene por objetivo evitar que, por azar, algún grupo esté
menos representado que otro.
Estratos. Posteriormente se calcula el peso ponderado de cada estrato, para
determinar el tamaño de la muestra en cada uno

Ventajas: desventajas:
• Previene que la muestra quede • Complica un poco más el diseño
desequilibrada respecto a la muestral
representación de cada subgrupo o • Si existen muchos estratos, puede
estrato. reducir el n muestral para cada
• Disminuye la variabilidad dentro de estrato
los estratos • No se aconseja más de 8 -10 estratos
• Permite resultados más precisos • Necesita más tamaño muestral
Se usa cuando los elementos de la población están ordenados. En este
caso se elige el primer individuo al azar y el resto viene condicionado por
aquel.

Ventajas: desventajas:
• Obtiene buenas propiedades de • Existe la posibilidad de que el orden
representatividad en que se han listado los candidatos a
• puede garantizar una selección la muestra tenga algún tipo de
perfectamente equitativa de la periodicidad oculta que coincida con
población. el intervalo escogido
Se usa cuando el muestreo aleatorio simple es demasiado caro, por la gran
magnitud de población y tampoco se tiene un listado de los individuos que
la componen.

Ventajas: desventajas:
• Útil para estudios epidemiológicos • Exige un conocimiento previo de las
que desea abarcar poblaciones de zonas de estudio
diferentes regiones • Necesita información sobre las áreas
• Útil para grandes “n” muestrales o lugares que se desea muestrear
• Útil para estudios ecológicos • Implica uso de estratificación y
• Útil para estudios en diferentes ponderación de los grupos
locaciones en terreno
Método de muestreo que no se basa en probabilidades, es un muestreo
por conveniencia o de cuotas.

Es población con características muy específicas y se usa porque hay


facilidad de acceso para los investigadores.
Un muestreo no probabilístico consecutivo por conveniencia, con asignación
aleatoria, con intervención y medición enmascarada, con largo periodo de
reclutamiento para que incluya variaciones estacionales u otros cambios
temporales y con más de un centro reclutador, es el escenario ideal.

Ventajas: desventajas:
• Conveniencia para el acceso a las • Falta de representatividad y validez
unidades muestrales externa
• Simple • Imposibilidad de hacer
• Económico generalizaciones y aseveraciones
• Rápido estadísticas sobre los resultados
• el tiempo de muestra conveniente
puede presentar un sesgo sistemático
En investigación clínica se realiza cálculo de tamaño muestral para varios
objetivos y existen diferentes métodos, según el objetivo del estudio.

http://www.winepi.net/f104.php
Hipótesis:
Es una afirmación que depende de la distribución de datos de una
población asociada a un parámetro
Una hipótesis nula es una suposición que se utiliza para negar o afirmar un
suceso en relación a algún o algunos parámetros de una población o
muestra
Hipótesis de dirección o una cola hipótesis sin dirección o de 2 colas
Por convención se fija en 95% corresponde a un valor de error α de un 5%
en que el “parámetro estimado” se equivoque por azar solo en un 5%

** para investigación con bajo nivel de error se opta por un nivel de


confianza del 99%
El error tipo I consiste en rechazar la hipótesis nula, cuando ésta es
cierta. A la probabilidad de cometer este error se le llama nivel de
significancia (α)
El error tipo II consiste no rechazar la hipótesis nula cuando esta
es falsa

La probabilidad de cometer este error se le denomina función


característica
Al fijar el error α, se fija el valor P. Porque el valor p es el valor de la
probabilidad de cometer error α, es decir cometer error aleatorio

El valor p es la probabilidad de “caer” en la zona de rechazo


La significación estadística, no necesariamente implica que sea
clínicamente significativo para el paciente o el estudio
Si el estudio no alcanza el tamaño muestral calculado, la fuerza
estadística pierde potencia y el valor p que derive de las comparaciones,
tendrá que mirarse con cautela
Un valor p, derivado de un estudio que no ha tenido un cálculo de
tamaño muestral para probar una diferencia
La magnitud de la diferencia que se postula encontrar tiene una gran
influencia en el tamaño de la muestra.

Se debe definir la mínima magnitud de diferencia que se desea detectar y


que sea de relevancia clínica para el paciente, por lo tanto, debe fijarse
en términos realistas.
El valor de p:

p>0.05 no hay diferencias p< 0.1 & p>0.05 “tendencia”

p<0.05 * significativo

P<0.01 ** muy significativo

P< 0.001 *** muy significativo


• Distribución

• Correlación

• Ranking

• Fraccionales

• Evolución

• Flujos o interacción
Estadística para
investigación básica
1. Aspectos generales de la
investigación básica
2. Principales estudios en investigación
básica
Estadística para 3. Distribución de probabilidad
investigación básica 4. Test de normalidad
5. Prueba de t
6. ANOVA
• Estudios principalmente observacionales

• Se prefiere utilizar poblaciones controladas, con una n pequeña

• Se realizan diferentes metodologías relacionadas a la misma línea


temática
• Estudios de corte transversal

• estudios de casos controles

• Estudios de cohortes
Una distribución de probabilidad es aquella que permite establecer
toda la gama de resultados probables de ocurrir en un experimento
determinado. Es decir, describe la probabilidad de que un evento se
realice en el futuro.
Las características más importantes a considerar en una distribución de
probabilidad son:

• La probabilidad de un resultado específico está entre cero y uno.


• La suma de las probabilidades de todos los resultados mutuamente
excluyentes es 1.
Variable aleatoria discreta (x)
• Solo puede tomar valores representados por números enteros y un
número finito de ellos
Por ejemplo:
El numero de participantes en el curso
Propiedades de una variable aleatoria discreta (X)
Las probabilidades que se relacionan con cada uno de los valores que
toma x deben ser mayores o iguales a cero y menores o iguales a 1
La sumatoria de las probabilidades asociadas a cada uno de los valores
que toma x debe ser igual a 1:
Variable aleatoria continua
Esta puede tomar tanto valores expresados en números enteros como
fraccionarios y un número infinito de ellos dentro de un mismo
intervalo.
Las probabilidades vinculadas a cada uno de los valores que toma x
deben ser mayores o iguales a cero
El área definida bajo la función de densidad de probabilidad deberá ser
de 1
La distribución normal es una distribución
con forma de campana donde las
desviaciones estándar sucesivas con
respecto a la media establecen valores de
referencia para estimar el porcentaje de
observaciones de los datos.
La distribución de Poisson es una
distribución de probabilidad discreta que
expresa, a partir de una frecuencia de
ocurrencia media, la probabilidad de que
ocurra un determinado número de
eventos durante cierto período de
tiempo.
La distribución de Poisson es una
distribución de probabilidad discreta que
expresa, a partir de una frecuencia de
ocurrencia media, la probabilidad de que
ocurra un determinado número de
eventos durante cierto período de
tiempo.
En cada ensayo, experimento o prueba solo son posibles dos resultados
(éxito o fracaso)
La probabilidad del éxito y fracaso deben ser constantes
El resultado obtenido en cada experimento es independiente del
anterior
Los sucesos son colectivamente exhaustivos
Utilice la distribución exponencial
para modelar el tiempo entre
eventos en un proceso continuo de
Poisson. Se presupone que eventos
independientes ocurren a una tasa
constante.
La distribución de chi-cuadrada es
una distribución continua que se
especifica por los grados de libertad
y el parámetro de no centralidad.
La distribución es positivamente
asimétrica, pero la asimetría
disminuye al aumentar los grados
de libertad
La distribución F es una distribución
continua de muestreo de la relación
de dos variables aleatorias
independientes con distribuciones
de chi-cuadrada, cada una dividida
entre sus grados de libertad.
Lo primero para saber como analizar los datos es saber su tipo de
distribución

Existen diferentes pruebas para identificar si nuestros datos se


comportan de manera normal o no
Esta prueba compara la función de distribución acumulada empírica
(ECDF) de los datos de la muestra con la distribución esperada si los
datos fueran normales
Si el valor p de esta prueba es menor que el nivel de significancia (α)
elegido, se rechaza la hipótesis nula y concluye que se trata de una
población no normal
La prueba de normalidad de Shapiro-Wilk es aplicable cuando se
analizan muestras
Siendo la hipótesis nula que la población está distribuida
normalmente, si el p-valor es menor a alfa entonces la hipótesis nula es
rechazada ( los datos no vienen de una distribución normal)
En muestras relativamente pequeñas
Un gráfico Cuantil-Cuantil permite observar cual cerca está la
distribución de un conjunto de datos a alguna distribución ideal o
comparar la distribución de dos conjuntos de dato.
Una de las opciones cuando se quiere comparar una variable continua entre dos
grupos consiste en comparar los resultados promedio obtenidos para cada uno.
La distribución T-student se asemeja en gran medida a la distribución normal. Tiene
como parámetros la media, la varianza y además incorpora a través de los grados
de libertad una modificación que permite flexibilizar las colas en función del tamaño
que tenga la muestra
Independencia: Las observaciones tienen que ser independientes unas de las
otras. Para ello el muestreo debe ser aleatorio y el tamaño de la muestra
inferior al 10% de la población.
Normalidad: Las poblaciones que se comparan tienen que distribuirse de forma
normal
Igualdad de varianza (homocedasticidad): la varianza de ambas poblaciones
comparadas debe de ser igual.
En caso de no cumplirse esta condición se puede emplear un Welch Two Sample
t-test.
F-test (razón de varianzas)
(homocedasticidad)
El F-test, también conocido como contraste de la razón de varianzas, contrasta
la hipótesis nula de que dos poblaciones normales tienen la misma varianza. Es
muy potente, detecta diferencias muy sutiles, pero es muy sensible a
violaciones de la normalidad de las poblaciones
El intervalo de confianza de la diferencia de medias independientes para un nivel de
confianza de 1−α
El valor t depende del porcentaje de seguridad del intervalo de confianza que se
quiera obtener. Se define como el valor (cuantil) para el cual en una distribución de
student, con unos determinados grados de libertad
Los pasos a seguir para realizar un t-test de medias independientes son:

• Establecer las hipótesis.


• Calcular el estadístico (parámetro estimado) que se va a emplear.
• Determinar el tipo de test, una o dos colas.
• Determinar el nivel de significancia αα.
• Cálculo de p-value y comparación con el nivel de significancia establecido.
• Cálculo del tamaño del efecto (opcional pero recomendado).
• Conclusiones.
Hipótesis nula (H0): por lo general es la hipótesis escéptica, la que considera que
no hay diferencia o cambio

Hipótesis alternativa (HA): considera que el valor real de la media poblacional es


mayor, menor o distinto del valor que establece la Ho.
El estadístico es el valor que se calcula a partir de la muestra y que se quiere
extrapolar a la población de origen. En este caso es la diferencia de las medias
muestrales (X1−X2)
Los test de hipótesis pueden ser de una cola o de dos colas. Si la hipótesis
alternativa emplea “>” o “<” se trata de un test de una cola, en el que solo se
analizan desviaciones en un sentido
El nivel de significancia α determina la probabilidad de error que se quiere
asumir a la hora de rechazar la hipótesis nula.
α= 0.05 tendrá una probabilidad del 5 % de haber rechazado H0 cuando era
cierta.
α= 0.01 tendrá una probabilidad del 1 % de haber rechazado H0 cuando era
cierta
Al cumplirse con todo lo anterior se procede a realizar el calculo del valor de p
p>0.05 no hay diferencias p< 0.1 & p>0.05 “tendencia”
p<0.05 * significativo
P<0.01 ** muy significativo
P< 0.001 *** muy significativo
El tamaño del efecto o también llamado effect size es la diferencia neta
observada entre los grupos de un estudio
D DE COHEN PARA T-TEST INDEPENDIENTES
D<0.2 pequeño
D>0.5 mediano
D=> 0.8 grande
• Técnica desarrollada por Fisher en 1930
• Herramienta básica para el estudio del efecto de uno o mas factores
• Test a utilizar para comparar medias de dos o mas grupos mediante el estudio de
varianzas
• Se estudia el Fratio que sigue una distribución de F de Fisher-Snedecor
• Al cumplir la Hipótesis nula F=1
• Al ser diferente los grupos f>1 y p<1
• Modelo mono factorial o para datos no pareados
• Para medir si existe diferencias entre medias de una variable continua

• H0: No existe diferencias entre las medias de los grupos


• H1: al menos un par de medias son significativamente distintas
• Suma de cuadrados total TSS
• Suma de cuadrados del fator SST
• Suma de cuadrados residuales o de error SSE
• Cuadrados medios totales
• Cuadrados medios del factor
• Cuadrados medios del error
Calculo del estadístico Fratio con la división de las varianzas del factor y las
residuales
• Observaciones totalmente aleatorias
• Tamaño de muestra <10% de la población representada
• Grupos independientes entre ellos
• Distribución normal en los datos y entre los grupos**
• Homocedasticidad: varianza constante entre grupos
• Cuando existen diferencias significativas, se requiere ver cuales
grupos son los que difieren entre ellos
• Estos análisis se les denomina como post-HOC
• Ajuste recomendado para comparaciones mayores a 6 y diseños
equilibrados
• Parecido a t-test corrige el error experimental usando distribución
de experiment wise error rate
• Se obtienen el qcalculado y se compara con el esperado según la
distribución
Estudios in vivo e
in vitro
1. Modelos in vivo
2. Modelos in vitro
3. ANOVA de variables dependientes
4. ANOVA de dos vías
5. Análisis de supervivencia
Estudios in
vivo e in vitro
Uso de modelos animales como:
• Ratones
• Conejos
• Cobayos
• Cerdos
• Monos
• Entre otros
Poblaciones controladas y altamente homogéneas
Pueden ser animales genéticamente idénticos
Existe poca variabilidad intra grupos e inter grupos
Se suelen usar en estudios casos controles
Se suelen usar células en cultivo
Estas células pueden ser:

Cultivo primario

Líneas celulares inmortalizadas


Son poblaciones genéticamente idénticas
Poca o nula variabilidad intrínseca
Alta reproducibilidad
Es fácil tener gran cantidad de observaciones pero puede contener un
sesgo por baja variabilidad biológica
Se utiliza para mediciones diferentes en un mismo sujeto
Para datos pareados
Similar a t-test para datos pareados
• Esfericidad: La esfericidad implica que la varianza de las diferencias
entre todos los pares de variables a comparar sea igual
• La esfericidad se puede analizar mediante el test de Mauchly cuya
hipótesis nula es que sí existe esfericidad.
• Si no hay esfericidad se puede modificar utilizando correcciones de
Greenhouse-Geisser y la de Huynh-Feldt.
• Estudio para análisis de una variable cualitativa con 2 variables
cuantitativas
• Se evalúa la interacción de las variables solas o en interacción con la
variable cuantitativa
• Estudio para análisis de una variable cualitativa con 2 variables
cuantitativas
• Se evalúa la interacción de las variables solas o en interacción con la
variable cuantitativa
Los métodos estadísticos utilizado en el análisis de supervivencia
frecuentemente presentan cierta complejidad en los cálculos, esto
debido a la naturaleza de las observaciones las cuales suelen presentar
censura y/o truncamiento.
Así pues, el análisis de la supervivencia es una técnica muy apropiada
para analizar respuestas binarias en estudios longitudinales o de
seguimiento que se caractericen por:
• Duración variable del seguimiento

• Observaciones incompletas
Es el tiempo transcurrido de forma calendarizada en el seguimiento de
los individuos del estudio
Es el tiempo real del seguimiento por cada individuo en el estudio
Fecha de inicio y fecha de cierre: Determinan la duración del estudio

Fecha de la última observación. La última noticia que se tiene de un


sujeto marca la fecha de la última observación.

Tiempo de seguimiento. Es el tiempo que transcurre entre la fecha de


entrada en el estudio hasta la fecha registrada en la última
observación.
Evento terminal. Los modelos básicos de análisis de supervivencia.

Tiempo de supervivencia. Si el estado del sujeto es "fallecido", el


tiempo de seguimiento se llama "tiempo de supervivencia“.

Tiempos incompletos o censurados. Si el estado del sujeto es "vivo"


porque en la última observación no se había producido el evento
terminal, se trata de un tiempo incompleto o censurado.
Sujetos "retirados vivos". Cuando se termina un estudio, hay sujetos
que se han seguido regularmente y que en el momento del cierre del
estudio no han presentado el evento terminal.

Sujetos "perdidos". Los sujetos perdidos, bien porque han cambiado de


domicilio o porque han fallecido por otras razones no relacionadas con
el estudio.
El método actuarial o método de la tabla de vida consiste en agrupar el
tiempo de participación de cada sujeto en intervalos predeterminados
y al igual que en el método de Kaplan-Meyer
Otro de los aspectos útiles en las curvas de supervivencia es que
pueden compararse entre sí. Existe una prueba no paramétrica, el log-
rank que es la más ampliamente usada para comparar dos o más
curvas de supervivencia
• Censurado no informativo: pérdidas
• Duración del seguimiento
• Seguimiento completo
• Efecto cohorte sobre la supervivencia
• Estudios multicéntricos
Introducción al
análisis genómico
1. Conceptos básicos en genómica
2. Simulación de dogma central en
software
3. Alineamientos simples y
comparación en bases
Introducción al 4. Mapas de calor
análisis 5. Volcano plot
6. Dendogramas
genómico 7. Análisis de datos scRNA-Seq
8. Análisis de eQTL**
9. PCA genomico **
• El Proyecto del Genoma Humano (pgh) fue un esfuerzo internacional
cuyo objetivo fue determinar la secuencia de nucleótidos y los genes
contenidos en el adn humano.

• Los seres humanos nacemos, crecemos y morimos prácticamente con


la misma información genética en nuestras células; además,
heredamos 50% de esta información a nuestra progenie
• Es así que en la última década, se han desarrollado metodologías y
abordajes de investigación basados en el conocimiento genómico
para intentar descubrir los factores genéticos que participan en la
conformación de los rasgos y enfermedades.

• Hoy sabemos que no existe una secuencia “normal” del genoma de la


especie humana. Sin embargo, gracias a esfuerzos como el pgh
contamos con secuencias “referencia” revisadas y anotadas, que
usamos para estudiar la diversidad genética humana
• Un método muy común en el análisis genómico es el alineamiento de
secuencias tanto a nivel local como comparadas con las secuencias de
referencia.

• La herramienta mas común es BLAST, la cual permite hacer


alineamientos con DNA, RNA Y proteína
• El término Next-Generation Sequencing o NGS es un término utilizado
para hacer referencia a técnicas modernas de secuenciación masiva
de DNA o RNA.

• En el proceso de expresión genética, determinadas secuencias de


DNA se transcriben a moléculas de RNA mensajero o mRNA que
posteriormente son traducidas a proteínas
• el RNA-Seq se puede aplicar para revelar la presencia y cantidad de
mRNA en una muestra biológica.

• Se trata de una técnica de análisis de expresión diferencial, es decir,


nos permite analizar cambios en el transcriptoma.
¡GRACIAS!
www.palabrasproject.com
www.palabrasproject.com

También podría gustarte