Documentos de Académico
Documentos de Profesional
Documentos de Cultura
BIOESTADÍSTICA
TEMA
EXPOSICION E INFOME DE LOS TEMAS ASIGNADOS
AUTORES
ANTHONY FERNANDO ARIAS MALDONADO
FACILITADOR
DR. JOFRE ANDRES VERA CEDEÑO
Introducción.................................................................................................................................3
Regresión logística.......................................................................................................................4
Análisis de Correlación................................................................................................................7
Figura 5......................................................................................................................................10
Análisis de Regresión................................................................................................................10
Análisis de Varianzas................................................................................................................13
Comparación de medias.............................................................................................................15
Clasificación..........................................................................................................................20
Conclusion.................................................................................................................................23
Bibliografía................................................................................................................................24
Introducción
Existen diferentes clasificaciones de los métodos de Análisis Multivariante. Una de las más
usuales distingue dos grandes grupos, según el objetivo del análisis: métodos de dependencia y
métodos de interdependencia. Además, dentro de cada uno de estos grupos, la naturaleza de las
variables juega un papel importante en la definición de los diversos métodos. Asimismo, cada
método exige unas determinadas condiciones de aplicación para asegurar la fiabilidad de los
resultados obtenidos. Los métodos de dependencia suponen que las variables analizadas están
divididas en dos grupos: las variables dependientes y las variables independientes. El objetivo de
tienen como objetivo identificar qué variables pueden estar relacionadas entre sí, cómo lo están y
por qué. A continuación se señala una relación de métodos, clasificados según el criterio
mencionado.
Regresión logística
La regresión logística es una técnica analítica que nos permite relacionar funcionalmente una
datos sociales, antes que su capacidad para establecer relaciones funcionales y predecir sucesos,
Para interpretar los efectos que tienen las categorías sobre la variable dependiente. Uno de los
cuál es la contribución de cada una de ellas, suponiendo que el resto de las variables no cambian.
Por analogía, la regresión logística puede considerarse una extensión de los modelos de regresión
lineal, con la particularidad de que el dominio de salida de la función está acotado al intervalo
Este capítulo tiene como objeto presentar el análisis de regresión logística desde el uso y
aplicaciones de la investigación sociológica. Para ello se centra en un ejemplo sencillo con datos
variables mientras se muestran los principales estadísticos que ofrecen los programas de
ordenador.
Figura 1
La tabla muestra que hay una mayoría que no ha participado en una huelga. En concreto, hay
468 entrevistados que han participado de un total de 2484. En porcentajes, tenemos que el 18,8%
participa frente a un 81,2% que no participa. Aunque estamos acostumbrados a expresar los datos
en proporción o porcentajes, podríamos hacerlo también mediante una razón. Por ejemplo,
podemos señalar que (468/2017=0,23) hay 0,23 participantes por cada uno que no participa, o lo
que es equivalente: 23 participantes por cada 100 que no participan. También podemos expresar
la lectura inversa (2017/468=4,31): hay 4,3 que no participan por cada uno que participa, o bien
431 que no participan por cada 100 que participan. (Rioja, 2014)
Una razón o ratio es el cociente entre dos cantidades y señala cuantas veces una cantidad es
mayor o menor respecto a la otra. La lectura “clásica” que hacemos de la tabla anterior (tabla 1)
se realiza mediante el uso de porcentajes. La variable dependiente es la participación y la variable
independiente el sexo. Los porcentajes en dirección de la variable independiente (en este caso en
columnas):
Figura 2
Los datos nos indican que los hombres participan más en huelgas que las mujeres. ¿Cuánto
participan un 5,1% más en huelgas que las mujeres. Pero también podemos observar la tabla
anterior en términos de razón. Por ejemplo, el 21,4% de los hombres declaran haber hecho huelga
mientras que el 78,6% restante declara no haber participado. La relación entre hombres
0,272 hombres que hacen huelga por cada uno que no la hace, de manera aproximada podemos
decir que la relación2 en los hombres entre hacer y no hacer huelga es de 3 a 11. De forma
Es muy usual, por ejemplo, en el mundo de las apuestas. Procediendo de la misma forma
podemos concluir que hay 0,195 mujeres que hacen huelga por cada una que no la hace (de forma
huelga es la quinta parte respecto a la de encontrar una mujer que no hace huelga. (Rioja, 2014)
Análisis de Correlación
El concepto de relación o correlación se refiere al grado de variación conjunta existente entre dos
o más variables. En este apartado nos vamos a centrar en el estudio de un tipo particular de
relación llamada lineal y nos vamos a limitar a considerar únicamente dos variables. En el
próximo capítulo sobre Regresión Lineal estudiaremos el caso de más de dos variables. Una
relación lineal positiva ente dos variables X, e Y indican que los valores de las dos variables de
forma parecida: los sujetos que puntúan alto en X, tienden a puntuar alto en Y, y los que puntúan
bajo en X, tienden a puntuar bajo en Y. Una relación lineal negativa significa que los valores de
las dos variables varían justamente al revés: los sujetos que puntúan alto en X tienden a puntuar
bajo en Y, y los que puntúan bajo en X, tienden a puntuar alto en Y. (Garcia, 2005)
La forma más directa e intuitiva de formarnos una primera impresión sobre el tipo de relación
es un gráfico en el que una de las variables (X) se coloca en el eje de abscisas, la otra (Y) En las
ordenadas y los pares (X, Y) se representan como una nube de puntos. La forma de la nube de
puntos nos informa sobre el tipo de relación existente entre las variables.
Ejemplo:
La figura 1. Recoge cuatro diagramas de Dispersión que reflejan cuatro tipos de relación
diferentes.
Figura 3
La figura muestra una situación en la que cuanto mayores son las puntuaciones e n una de las
variables, mayores son también las puntuaciones en la otra: cuando ocurre esto, los puntos se
sitúan en una línea recta ascendente y hablamos de relación lineal positiva. La figura representa
una situación en la que cuanto mayores son las puntuaciones en una de las variables, menores son
las puntuaciones en la otra; en este caso, los puntos se sitúan en una línea recta descendente y
hablamos de relación lineal negativa. En la situación representada en la figura también existe una
pauta de variación clara, pero no es lineal: los puntos no dibujan una línea recta Y en la figura no
parece existir ninguna pauta de variación clara, lo cual queda reflejado en una nube de puntos
dispersa, muy lejos de lo que podría ser una línea recta. (Ferrero, 2012)
Vemos, que un diagrama de dispersión nos permite formarnos una idea bastante aproximada
sobre el tipo de relación existente entre dos variables. Pero además observando los diagramas de
la figura podemos ver un diagrama de dispersión también puede utilizarse como una forma de
cuantificar el grado de relación lineal existente entre dos variables: basta con observar el grado en
Dos variables están asociadas cuando una variable nos da información acerca de la otra.
Por el contrario, cuando no existe asociación, el aumento o disminución de una variable no nos
Figura 4
El signo nos indica la dirección de la relación, como hemos visto en el diagrama de dispersión:
no exista relación o que la relación sea más compleja que una tendencia, por ejemplo, una
relación en forma de U.
Figura 5
Análisis de Regresión
Es una técnica que permite cuantificar la relación que puede ser observada cuando se grafica
rectilínea (Figura la); relación que cabe compendiar mediante una ecuación “del mejor ajuste” de
la forma: y = a + bx En esta ecuación, “y” representa los valores de la coordenada a lo largo del
eje vertical en el gráfico (ordenada); en tanto que “x” indica la magnitud de la coordenada sobre
el eje horizontal (absisa). El valor de “a” (que puede ser negativo, positivo o igual a cero) es
llamado el intercepto; en tanto que el valor de “b” (el cual puede ser negativo o positivo) se
general interesa:
Investigar si existe una asociación entre las dos variables testeando la hipótesis de
independencia estadística.
coeficiente de correlación.
relación y a partir de ella será posible predecir el valor de una variable a partir de la
otra.
Para ello proponemos un Modelo Que relaciona una variable dependiente (Y) con una variable
independiente (X).
La decisión sobre qué análisis usar en una situación particular, depende de la naturaleza del
Outcome y del tipo de función que se propone para relacionar el outcome y la variable
independiente.
Variables en regresión
El tema básico en la regresión simple es ajustar los puntos del diagrama de dispersión de X e
Y. Para conseguir la mejor línea que una esos puntos necesitamos un criterio (mínimos
cuadrados). En general surge de consideramos todas las distancias (Y-Y´), se elevan al cuadrado
y suman los cuadrados resultantes; a partir de estos datos, obtenemos la recta de regresión que
hace mínimo ese error (método de ajuste por mínimos cuadrados) (Esthefany, 2015)
La regresión puede utilizadas de diversas formas, Se emplean en situaciones en la que las dos
variables miden aproximadamente lo mismo, pero en las que una variable es relativamente
costosa, o, por el contrario, es poco interesante trabajar con ella, mientras que con la otra variable
no ocurre lo mismo. La finalidad de una ecuación de regresión seria estimar los valores de una
variable con base en los valores conocidos de la otra de esa forma de emplear la ecuación de
regresión explicaría los valores de una variable en término de otra. Es decir se puede intuir una
una. Ni con regresión ni con la correlación se pude establecer si una variable tiene “causa “ciertos
Figura 6
La regresión múltiple comprende tres o más variables. Existe solo una variable dependiente,
pero hay dos o más tipo independiente. Esta operación al desarrollo de una ecuación que se puede
simple. Las técnicas de los mínimos cuadrados se utilizan para obtener ecuaciones de regresión
correlación estudia el grado de asociación de dos o más variables es por tal motivo es que están
estrechamente relacionadas. Prueba Global. - esta prueba investiga básicamente si es posible que
Análisis de Varianzas
significativas entre medias cuando tenemos más de dos muestras o grupos en el mismo
planteamiento. El análisis de varianza sirve para comparar si los valores de un conjunto son
significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para
comparar estos valores está basado en la varianza global observada en los grupos de datos
El análisis de varianza es una técnica que permite probar la significancia de las diferencias
entre más de dos medias muéstrales. Usando el análisis de varianza, se pueden hacer inferencias
acerca de si nuestras muestras se tomaron de poblaciones que tienen la misma media. El análisis
de nuestra población total. En dado caso, se puede calcular una de esas estimaciones examinando
determinada por la variación dentro de las muestras mismas. Entonces comparamos estas dos
un valor aproximadamente igual, esta última afirmación se establece como una hipótesis nula,
siendo la hipótesis alternativa el resultado opuesto a esta afirmación. Entonces, los tres pasos del
hipótesis nula.
El análisis de la varianza (o Anova: Analysis of variance) es un método para comparar dos o más
medias. Es necesario porque cuando se quiere comparar más de dos medias es incorrecto utilizar
para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a
los valores de otro o más conjuntos de datos. El método para comparar estos valores está basado
análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un
Cuando se desea comprobar si los valores de una característica que es posible cuantificar
(como podría ser la edad o la cifra de tensión arterial, entre otras) difieren al agruparlas en dos o
más grupos (por ejemplo, según género, o por diagnóstico de hipertensión arterial) hablaremos de
comparación de los valores de una variable continua según los valores de una variable (o factor)
que se puede resumir en dos o más categorías (como el ejemplo expuesto previamente) y que
englobaríamos dentro de las pruebas para datos independientes, así como la comparación de los
valores de una variable continua evaluada en dos o más momentos en el tiempo (por ejemplo
comparar si hay diferencias entre la medición de la presión arterial realizada por la mañana o por
Existen varias pruebas estadísticas que permiten comparar las medias de una variable continua
entre dos o más grupos. Cada una de estas pruebas ha sido diseñada para poder ser aplicada
cuando se cumplen una serie de supuestos necesarios, bajo diferentes condiciones de aplicación.
Prácticamente todas las hipótesis que podamos plantear (como comparar las medias de una
característica entre dos grupos) se pueden analizar bajo una base paramétrica o una base no
paramétrica. La decisión de cuándo aplicar una prueba correspondiente a cada uno de estos
analizar. En general, como se ha indicado en capítulos anteriores, las pruebas paramétricas son
más potentes que las pruebas no paramétricas, pero exigen que se cumplan una serie de supuestos
conjunto de supuestos o alguno de ellos, dependiendo de la prueba a utilizar, sin los cuales, estas
pruebas pierden todo su potencial y resulta imprescindible recurrir a sus homólogas no
paramétricas. Exceptuando algunas pruebas que exigen más sofisticación y complejidad de las
que las pruebas no paramétricas pueden ofrecer, casi todas las pruebas disponibles bajo una base
paramétrica, disponen de una homóloga o equivalente bajo una base no paramétrica. (Pelaez,
2012)
Si los datos que deseamos analizar cumplen los supuestos necesarios establecidos para poder
varianza (ANOVA) son las más indicadas para comparar las medias de una característica entre
dos o más grupos. La prueba t de Student para datos independientes se utiliza cuando deseamos
comparar única y exclusivamente las medias entre dos grupos (por ejemplo deseamos saber si la
altura varía según el género), mientras que el ANOVA resulta conveniente cuando deseamos
comparar las medias entre más de dos grupos (por ejemplo deseamos saber si las cifras de tensión
arterial sistólica difieren según la edad, considerando a los sujetos en 3 grupos de edad: menores
Se desea comprobar si la función renal en pacientes hipertensos realmente está más afectada
en hombres que en mujeres. Por ello, se ha realizado un estudio en el que se han seleccionado
hombres y mujeres mediante la prueba t de Student, dado que se cumplen los requisitos mínimos
aleatorios, el modelo que describe tales experimentos se llama modelo mixto. Si un efecto
principal es un efecto aleatorio, entonces cualquier interacción que involucre tal efecto principal
es también un efecto aleatorio. Es decir, las únicas interacciones que son efectos fijos son
aquellas cuyos efectos principales son todos fijos. Por ejemplo, un modelo de tres criterios de
Los modelos de regresión logística son los que tradicionalmente se utilizan para el estudio de
respuestas binarias. El término binario se refiere a los dos posibles resultados de la variable
respuesta, ya sea por su naturaleza categórica o bien por haber sido dicotomizada una variable
continua de interés. La regresión logísica permite expresar linealmente la relación entre las
jerárquica. Para el caso más simple de dos niveles, implicaría manejar dos tipos de covariables:
las “entre grupo”, cuyo valor puede variar de grupo a grupo pero es el mismo para todas las
unidades de un mismo grupo, y las “intragrupo”, cuyos valores pueden variar entre las unidades
del mismo grupo. El enfoque de análisis más simple e “ingenuo” de este tipo de información es
ignorar dicha estructura jerárquica, es decir ignorar la correlación existente entre las respuestas de
convencional. El costo de esta simplicidad es que una correlación positiva entre las observaciones
distintos niveles. De esta manera se obtiene una estructura de asociación entre las respuestas de
los individuos que refleja la tendencia a respuestas más similares entre los pertenecientes a un
mismo agrupamiento. Se trata de un modelo que tiene en cuenta los datos correlacionados a
niveles con el fin de realizar inferencias sobre esa población. Los modelos con efectos aleatorios
han sido bien estudiados para el caso de respuestas normales. En contraste, sólo recientemente,
han sido aplicados para respuestas categóricas. En particular para datos binarios el modelo
básico, denominado “modelo logísticonormal”, tiene un enlace logit con un predictor lineal que
logística mixtos o también denominados de tipo grupo- específico (GE) se explicitan en su forma
general.
El modelo es por lo tanto, un modelo logístico mixto con efectos fijos para las covariables,
tanto las de nivel grupal como individual, más un efecto aleatorio asociado a grupo. La inclusión
del término i en la ecuación (2) provoca el aumento de la correlación entre respuestas dentro de
un grupo en relación a la correlación entre grupos. La idea básica es que las probabilidades
logísticas para observaciones de la respuesta en un grupo tengan un valor común i . Por lo tanto,
si los i son muy diferentes, las respuestas de un mismo grupo están más altamente
correlacionadas que el conjunto total de respuestas. Es decir, cuanto mayor es la diferencia entre
los i , mayor es la correlación intra que entre grupos. La heterogeneidad en los i es simplemente
una función de su variancia, por lo que la correlación intra-grupo aumenta cuando aumenta 2 .
Para la interpretación de los coeficientes de las covariables es necesario tener en cuenta que el
modelo es condicional sobre el efecto aleatorio para grupo, y dentro de ese grupo, el coeficiente
de una covariable representa la magnitud del cambio en el logaritmo del odds de respuesta
positiva que uno debería esperar ante un valor particular de la covariable versus otro valor de la
misma. Debido a que el modelo especifica que ese coeficiente es el mismo para todos los grupos,
se estima combinando la información de diferentes grupos, es decir promediando sobre todos los
independientes, las que pueden ser variables de clasificación que dividen las observaciones en
diferentes grupos o variables continuas. El objetivo de estos modelos puede ser la comparación
dependiente) a partir de las variables dependientes (1). Las premisas del ANOVA basado en un
modelo lineal tradicional son asumidas, en ocasiones sin tener un estricto cumplimiento, con el
fundamento de que, si el número de observaciones es elevado, los datos pueden llegar a ajustarse
a la normalidad.
considerar la correlación entre sujetos con la utilización de efectos fijos o modelos mixtos con
estructuras de covarianzas muy simples, podría originar que aumente la tasa de error tipo I para la
prueba de efectos fijos del modelo. Sin embargo, un modelo muy complicado afectaría la
Clasificación
Los tipos de modelos disponibles en la actualidad pueden ser agrupados por el tipo de la
variable respuesta o variable dependiente, la cual puede distribuirse según una distribución
factores con pocos niveles, que pueden ser controlados por los investigadores (fijos); así como, a
factores con niveles que están fuera del control del investigador (aleatorios).
Los modelos lineales mixtos son una generalización de modelos lineales generales y se
emplean cuando:
Los efectos son aleatorios: donde el conjunto de valores de una variable de predictor
categórico se ven no como el conjunto completo, sino como una muestra aleatoria de todos los
valores
Ensayos multiambientes
Ofrecen nuevas posibilidades en estos casos, pues hacen posible extender los modelos lineales
clásicos de efectos fijos, al incluir efectos aleatorios y predictores BLUPs, para el análisis de
modelo, adicionales a los del error residual. Los procedimientos de estimación usados posibilitan
reducir los sesgos cuando los datos están incompletos, desbalanceados o ajustar datos dispersos y
longitudinales.
Los modelos mixtos han sido ampliamente utilizados en los estudios de genética en plantas, y
los modelos mixtos generalizados han permitido ampliar el espectro de trabajo con aquellas
variables que por su naturaleza, no se ajustan a una distribución normal y sus datos se encuentran
complejidad, pero presentan grandes ventajas con respecto a los métodos clásicos, ya que sus
procedimientos de estimación reducen los sesgos cuando los datos están incompletos,
Figura. 7
Conclusion
Los diferentes tipos de análisis de Datos siempre tendrán un sesgo pero con la utilización de
programas informáticos ayudan evitar mayores errores a la hora de realizar comparaciones con
diferentes grupos, los tipos de modelos mixtos nos ayudaran a implementar los resultados o
https://es.scribd.com/document/315524921/Analisis-de-Regresion-y-Correlacion
https://www.maximaformacion.es/blog-dat/analisis-de-correlacion-en-r/
http://cmap.upb.edu.co/rid=1236271044945_1568712640_516/leccion2.8regresion-
correlacion.pdf
https://www2.uned.es/socioestadistica/Multivariante/Odd_Ratio_LogitV2.pdf
Pearson Educacion .
Gómez S, Torres V, García Y, Fraga LM, Sarduy L, Savón LL. Comparación de modelos de