Documentos de Académico
Documentos de Profesional
Documentos de Cultura
ESTUDIOS
BIVARIANTES
PARTICIPANTES:
ARENAS, MICHELL., C.I 29.901.483
DIAZ MUNELO, ANGELA M., C.I 13.027.732
DORANTES, BARBARA., C.I
LOPEZ, ALBERITH., C.I 30.126.931
SECCION 1
Introducción
Objetivo General……………………………….………………………………………….2
¿Qué es proporciones en epidemiología?……………………………………………..3
Prueba paramétrica para datos independientes en la comparación de dos grupos.
……………………………………………………………………………….……..3
Comparación de medias: pruebas para datos apareados.
…………………………………………………………………………………4
Pruebas paramétricas en la comparación de datos apareados.
…………………………………………………………………………………5
Pruebas no paramétricas en la comparación de datos apareados.
…………………………………………………………………………………6
Pruebas no paramétricas para datos apareados en la comparación de dos grupos.
……………………………………………………………………………………..6
El estadístico ji-cuadrado (o chi cuadrado)…………………………….
…………………………………………………….6
¿Qué es una prueba de ji cuadrado?……………………………………………………
7
Tipos de prueba de ji
cuadrado…………………………………………………………..7
Prueba de Friedman ………………………………………………………………………
8
Tamaño Muestrales……………………………………………………………………….9
Modelos Multivariantes………………………………………………………………….11
Un confundidor…………………………………………………………………………...12
La estratificación epidemiológica…………………………………………………….…
12
La regresión
lineal………………………………………………………………………..13
Utilidad de la regresión lineal simple……………………………………………………
15
Conclusión………………………………………………………………………………..16
Bibliografía………………………………………………………………………………..17
Introducción
1
Objetivo General
2
¿Qué es proporciones en epidemiología?
Las proporciones son medidas que expresan la frecuencia con
la que ocurre un evento en relación con la población total en la cual éste puede
ocurrir. Esta medida se calcula dividiendo el número de eventos ocurridos entre la
población en la que ocurrieron Comparación de medias: pruebas para datos
independientes.
Existen varias pruebas estadísticas que permiten comparar las medias de
una variable continua entre dos o más grupos. Cada una de estas pruebas ha sido
diseñada para poder ser aplicada cuando se cumplen una serie de supuestos
necesarios, bajo diferentes condiciones de aplicación.
Prácticamente todas las hipótesis que podamos plantear (como comparar
las medias de una característica entre dos grupos) se pueden analizar bajo una
base paramétrica o una base no paramétrica. La decisión de cuándo aplicar una
prueba correspondiente a cada uno de estos grupos, depende básicamente de las
características inherentes a la variable que deseamos analizar.
3
test de Levene viene a resolver este problema. Bajo la suposición de que las dos
poblaciones siguen una distribución normal y tienen igual varianza (H0: σ1 = σ2)
se espera que la razón de varianzas siga una distribución F de Snedecor con
parámetros (n-1) y (m-1):
4
al propio sujeto, que hay que considerar al realizar las comparaciones, no
pudiendo asumir la independencia de las observaciones. Estas pruebas
generalmente son aplicables en los estudios “pre-post” tratamiento, en los que es
necesario conocer la evolución clínica de parámetros que pueden verse alterados
por la administración de tratamientos farmacológicos o distintas terapias.
Al igual que en el caso anterior, existen unas condiciones de aplicabilidad,
bajo las cuales es adecuado realizar pruebas paramétricas, debiendo aplicar en
caso contrario, pruebas análogas no paramétricas, que no necesiten cumplir
dichos supuestos.
donde:
1) d: media muestral de la diferencia entre las observaciones “pre” y “post”
2) n: tamaño de la muestra
3) Sd: desviación estándar muestral de las diferencias
4) tn-1: ley de probabilidad de la t de Student con n-1 grados de libertad
5
El cálculo del intervalo de la diferencia de medias al 95% de confianza, responde a
la siguiente fórmula:
6
nula. En este artículo se describe el uso del estadístico ji-cuadrado para probar la
asociación entre dos variables utilizando una situación hipotética y datos
simulados. Luego se describe su uso para evaluar cuán buena puede resultar una
distribución teórica, cuando pretende representar la distribución real de los datos
de una muestra determinada. A esto se le llama evaluar la bondad de un ajuste.
Probar la bondad de un ajuste es ver en qué medida se ajustan los datos
observados a una distribución teórica o esperada. Para esto, se utiliza una
segunda situación hipotética y datos simulados.
7
continuación Defina su hipótesis nula y su hipótesis alternativa antes de recopilar
los datos.
Decida el valor alfa. Esto implica decidir el riesgo que desea correr de llegar
a una conclusión errónea. Por ejemplo, digamos que define α=0,05 en su prueba
de independencia. En este caso decide correr un riesgo del 5 % de concluir que
ambas variables son independientes cuando no lo son.
Las pruebas o técnicas no paramétricas engloban una serie de pruebas
estadísticas que tienen en común la ausencia de asunciones acerca de la ley de
probabilidad que sigue la población de la que ha sido extraída la muestra. Así,
estas técnicas se aplican cuando no sabemos si la población de la cual se extrae
la muestra es normal o aproximadamente normal.
8
prueba de kruskal Wallis en estadística es un método no paramétrico para probar
si un grupo de datos proviene de la misma población. Intuitivamente, es idéntico al
ANOVA con los datos reemplazados por categorías.
Ya que la prueba no paramétrica de kruskal Wallis no asume normalidad en
los datos, en oposición al tradicional ANOVA. Si asume, bajo la hipótesis nula, que
los datos vienen de la misma distribución. Una forma común en que se viola este
supuesto es con los datos.
Prueba de los rangos con signo de wilcoxon estás pruebas determinan si
existe diferencias entre ellas, y se utiliza como alternativa a la prueba de t de
student cuando no se puede suponer la normalidad de dichas muestras. Debe su
nombre a Frank wilcoxon, que el público en 1945. Es una prueba no paramétrica
de comparación de dos muestras relacionadas y por lo tanto no necesita una
distribución específica. usa más bien el nivel ordinal de la variable dependiente. Se
utiliza para comparar dos mediciones relacionadas y determinar si la diferencia
entre ellas se debe al azar o no (en este último caso, que la diferencia sea
estadísticamente significativa).
Se utiliza cuando la variable subyacente es continua pero no es presupone
ningún tipo de distribución particular.
Estás pruebas se usa para comparar las diferencias entre dos muestras de
datos tomando antes y después del tratamiento, cuyo valor central se espera que
sea cero. Las diferencias iguales a cero son eliminadas y el valor absoluto de las
desviaciones con respecto al valor central son ordenadas de menor a mayor. A los
datos idénticos se les asigna el lugar medio en la serie. la suma de los rangos se
hace por separado para los signos positivos y los negativos, representa la menor
de esas dos sumas. Comparamos A con el valor proporcionado por las tablas
estadísticas al efecto para determinar si rechazamos o no la hipótesis nula, según
el nivel de significación elegido.
Tamaño Muestrales.
Todo estudio epidemiológico lleva implícito en la fase de diseño la
determinación del tamaño muestral necesario para la ejecución del mismo. El no
9
realizar dicho proceso, puede llevarnos a dos situaciones diferentes: primera que
realicemos el estudio sin el número adecuado de pacientes, con lo cual no
podremos ser precisos al estimar los parámetros y además no encontraremos
diferencias significativas cuando en la realidad sí existen. La segunda situación es
que podríamos estudiar un número innecesario de pacientes, lo cual lleva implícito
no solo la pérdida de tiempo e incremento de recursos innecesarios, sino que
además la calidad del estudio, dado dicho incremento, puede verse afectada en
sentido negativo.
10
Las pruebas paramétricas son una herramienta estadística que se utiliza para el
análisis de los factores de la población. Esta muestra debe cumplir ciertos
requisitos como el tamaño, ya que mientras más grande sea, más exacto será el
cálculo.
Este método requiere que se especifique la forma de distribución de la
población materna estudiada. Puede tratarse, por ejemplo, de una distribución
normal, como ocurre en general cuando se trata de muestras de gran tamaño. En
general, estas pruebas sólo pueden aplicarse a variables numéricas.
Las pruebas paramétricas están basadas en la ley de distribución de la
variable que se estudia. A pesar de que existen muchos tipos de leyes de
distribución, éstas se basan en las normales, que tiene dos parámetros: la media y
la desviación estándar. Lo suficiente para conocer la probabilidad.
Modelos Multivariantes
Un modelo multivariado permite predecir para una observación determinada
en base a su patrón de covariables, el valor de una variable continua o la
probabilidad de ocurrencia de una variable dicotómica.
La estadística multivariante trata de comprender los diferentes objetivos y
antecedentes de cada una de las diferentes formas de análisis multivariante y
cómo se relacionan entre sí. La aplicación práctica de la estadística multivariante a
un problema particular puede involucrar varios tipos de análisis univariados y
multivariados para comprender las relaciones entre las variables y su relevancia
para el problema que se está estudiando.
Además, las estadísticas multivariadas se refieren a las distribuciones de
probabilidad multivariadas, en términos de:
cómo se pueden utilizar para representar las distribuciones de datos observados;
cómo se pueden utilizar como parte de inferencia estadística, particularmente
cuando varias cantidades diferentes son de interés para el mismo análisis. Ciertos
tipos de problemas que involucran datos multivariados, como, por ejemplo, la
regresión lineal simple y la múltiple, generalmente no se consideran casos
especiales de estadística multivariada porque el análisis se trata considerando la
11
distribución (univariada) condicional de una única variable respuesta dadas las
otras variables.
12
ámbito local, y Permite definir las Intervenciones específicas de Prevención y
control, dirigidas a disminuir o eliminar los Principales factores. Es, por tanto, una
de las propuestas de enfoque y análisis epidemiológico a desarrollar.
Este procedimiento forma parte del proceso integrado de Diagnóstico-intervención
y evaluación, que, como parte del Enfoque epidemiológico de riesgo, sirve de
base, tanto para el diagnóstico situacional como en el apoyo para la toma de
decisiones de las estrategias de intervención.
La regresión lineal es la aproximación de un modelo lineal que se utiliza
para describir la relación entre dos o más variables. En la regresión lineal simple,
hay dos variables: una variable dependiente y una variable independiente. El
punto clave en la regresión lineal es que nuestro valor dependiente debe ser
continuo y no puede ser un valor discreto. Sin embargo, las variables
independientes pueden ser medidas en una escala de medida categórica o
continua.
Existen dos tipos de modelos de regresión lineal: regresión simple y regresión
múltiple. La regresión lineal simple es cuando se utiliza una variable independiente
para estimar una variable dependiente. Cuando se utiliza más de una variable
independiente, el proceso se denomina regresión lineal múltiple.
La mejor manera de entender la regresión lineal es dibujando nuestras
variables. Vamos a usar el tamaño del motor regresión lineal simple como una
variable independiente, y la Emisión como el valor objetivo que queremos predecir.
Un diagrama de dispersión muestra la relación entre estas variables. Además, se
ve que estas variables están relacionadas linealmente. Con la regresión lineal, se
puede ajustar una línea a través de los datos.
La línea de ajuste se muestra tradicionalmente como un polinomio. En un
problema de regresión simple (una sola variable independiente), la forma del
modelo sería y = \theta_0 + \theta_1 \cdot x_1. En esta ecuación, «y» es la
variable dependiente (valor pronosticado), x_1es la variable independiente, \
theta_1es conocida como «pendiente» y el valor\theta_0se conoce como
«ordenada en el origen». \theta_0y\theta_1son los coeficientes de la ecuación
lineal.
13
Cálculo de los coeficientes
Ahora la pregunta es ¿Cómo se determina cuál de las líneas «encaja mejor»?
¿Cómo calcular\theta_0y\theta_1para encontrar la mejor línea para «ajustar» los
datos?
Supongamos que ya hemos encontrado la mejor línea de ajuste para
nuestros datos. Solo nos faltaría comprobar lo bien que se ajustan los datos reales
con esta línea. Esto significa que, si para un elemento de la muestra tenemos un
valor de la variable independiente, la variable dependiente calculada debe
aproximarse muy cerca del valor real. Esto no suele ser así, ya que siempre suele
existir un error, y esto significa que nuestra línea de predicción no es precisa. Este
error se denomina error residual.
Podemos decir que el error es la distancia desde el punto de datos hasta la
línea de regresión ajustada y que la media de todos los errores residuales muestra
lo mal que encaja la línea con todo el conjunto de datos. Matemáticamente, es
calculado por la ecuación del error de cuadrado medio (ECM), o en inglés «mean
squared error» (MSE). El objetivo es encontrar una línea en la que se minimice la
media de todos estos errores.
\[ MSE=\frac{1}{n}\sum_{i=1}^{n}{(y_i-y'_i)^2} \]
Podemos utilizar unas fórmulas matemáticas para calcular\theta_0y\theta_1:
\theta_1 = \frac{\sum_{i=1} ^{s}{(x_i -\overline{x}) \cdot (y_i -\overline{y})}}{\
sum_{i=1}^{s}{(x_i -\overline{x}) ^2}}
\theta_0 = \overline{y} - \theta_1 \cdot \overline{x}
Se requiere que calculemos la media de las columnas independientes y
dependientes de todo el conjunto de datos, por lo que todos los datos deben estar
disponibles. Una vez calculada la media, se estima el valor de\theta_1y luego con
ese valor calcular\theta_0.
Realmente no necesitas recordar la fórmula para el cálculo de estos parámetros,
la mayoría de las librerías usadas para el aprendizaje automático en Python, R, y
Scala pueden encontrar fácilmente estos parámetros. Pero siempre es bueno
entender cómo funciona.
14
Después de que encontramos los parámetros de la ecuación lineal, hacer
predicciones es tan simple como solucionar la ecuación para un conjunto
específico de entradas.
15
Conclusiones
16
Bibliografía
http://www.helixbios.com/analisis-bivariable-y-multivariable
http://www.est.uc3m.es/esp/nueva_docencia/getafe/economia/estadistica_ii/
documentacion_transp_archivos/tema3esp.pdf
http://www.ub.edu/aplica_infor/spss/cap5-2.htm
https://blog.minitab.com/es/como-elegir-entre-una-prueba-no-parametrica-y-una-
prueba-parametrica#:~:text=Las%20pruebas%20param%C3%A9tricas%20t
%C3%ADpicas%20solo,afectadas%20por%20los%20valores%20at
%C3%ADpicos.
https://www.sac.org.ar/cuestion-de-metodo/que-es-un-modelo-multivariado/
http://www.est.uc3m.es/amalonso/esp/bstat-tema8vme.pdf
http://alceingenieria.net/bioestadistica/estratifica.pdf
http://www.labredes.unlu.edu.ar/sites/www.labredes.unlu.edu.ar/files/site/data/
bdm/clase_regresion.pdf
17